CONF.DR. A UREL S ST A N
S T A T I S T I C
I
CUPRINS I. INTRODUCERE II. STATISTIC DESCRIPTIV RIPTIV II III. I. GRUPAREA #I SISTEMATIZAREA TIZAREA DATELOR IV. IINDICA NDICATORII STATISTICI V. MODELELE TEORETICE TEORETICE DE RAPORTARE BIBLIOGRAFIE
SCOPUL UNITĂŢII DE CURS Familiarizarea cursan ţilor cu problemele principale ale statisticii inferen ţiale aplicate în psihologie; Informarea cursan ţilor asupra principalelor tipuri de aplica ţii ale statisticii inferen ţiale în domeniul psihologic de cercetare; Informarea cursan ţilor asupra specificului variabilelor psihologice supuse procesului de prelucrare statistică; Informarea cursan ţilor asupra limitelor interpret ării statistice în cercetarea psihologic ă ·
·
·
·
OBIECTIVE OPERAŢIONALE În urma studierii acestei unit ăţi de curs, studen ţii trebuie s ă-şi formeze urm ătoarele deprinderi intelectuale: Să opereze cu principalele concepte statistice aplicate în domeniul psihologiei; Să precizeze principalele scale de m ăsur ă utilizate în domeniul cercet ării psihologice şi s ă distingă specificul acestora în cazul unor cercet ări concrete; Să precizeze situa ţiile de aplicare în psihologie a conceptelor statistice referitoare diferen ţierea şi asocierea seriilor de valori ale unei variabile; Să precizeze specificul principalilor indicatori statistici şi să cunoască etapele calcul ării lor. Să precizeze sensul şi non-sensul indicatorilor statistici; Să precizeze sensul diferitelor abateri de la distribu ţia normală; Să poată utiliza corect datele con ţinute în tabelul anex ă. ·
·
·
·
·
·
·
EVALUARE Se va realiza în cadrul unui examen scris la sfâr şitul semestrului. Pentru examen se vor stabili dou ă tipuri de subiecte: un tip referitor la teoria statistic ă şi un tip referitor la aplicarea în practic ă a cunoştinţelor dobândite. În cadrul activit ăţilor tutoriale se vor exersa subiectele cu caracter practic şi se va verifica realizarea exerci ţiilor de la sfâr şitul capitolelor. Tipurile de subiecte pentru examen vor fi egal ponderate pentru nota final ă obţinută la examen
SCOPUL UNITĂŢII DE CURS Familiarizarea cursan ţilor cu problemele principale ale statisticii inferen ţiale aplicate în psihologie; Informarea cursan ţilor asupra principalelor tipuri de aplica ţii ale statisticii inferen ţiale în domeniul psihologic de cercetare; Informarea cursan ţilor asupra specificului variabilelor psihologice supuse procesului de prelucrare statistică; Informarea cursan ţilor asupra limitelor interpret ării statistice în cercetarea psihologic ă ·
·
·
·
OBIECTIVE OPERAŢIONALE În urma studierii acestei unit ăţi de curs, studen ţii trebuie s ă-şi formeze urm ătoarele deprinderi intelectuale: Să opereze cu principalele concepte statistice aplicate în domeniul psihologiei; Să precizeze principalele scale de m ăsur ă utilizate în domeniul cercet ării psihologice şi s ă distingă specificul acestora în cazul unor cercet ări concrete; Să precizeze situa ţiile de aplicare în psihologie a conceptelor statistice referitoare diferen ţierea şi asocierea seriilor de valori ale unei variabile; Să precizeze specificul principalilor indicatori statistici şi să cunoască etapele calcul ării lor. Să precizeze sensul şi non-sensul indicatorilor statistici; Să precizeze sensul diferitelor abateri de la distribu ţia normală; Să poată utiliza corect datele con ţinute în tabelul anex ă. ·
·
·
·
·
·
·
EVALUARE Se va realiza în cadrul unui examen scris la sfâr şitul semestrului. Pentru examen se vor stabili dou ă tipuri de subiecte: un tip referitor la teoria statistic ă şi un tip referitor la aplicarea în practic ă a cunoştinţelor dobândite. În cadrul activit ăţilor tutoriale se vor exersa subiectele cu caracter practic şi se va verifica realizarea exerci ţiilor de la sfâr şitul capitolelor. Tipurile de subiecte pentru examen vor fi egal ponderate pentru nota final ă obţinută la examen
STATISTICĂ I
INTRODUCERE Într-o definiţie succint ă, statistica este un ansamblu de metode care au drept obiect colectarea, organizarea, tratamentul şi interpretarea datelor de observa ţie care se refer ă la grupuri de persoane sau de obiecte. Exist ă discuţii, care nu vor fi comentate în manualul nostru, asupra autonomiei statisticii statisticii ca ştiinţă, din cauza faptului c ă o bună parte din metodele statisticii apar ţine domeniului matematic, în consecin ţă se susţine că statistica nu ar fi decât matematic ă aplicată, afirmaţie care nu poate fi contestată. Însă, dezvoltarea statisticii a prilejuit dezvoltarea unor modalit ăţi de abordare a studiului datelor şi a unor exigen ţe metodologice de cercetare specifice care-i o confer ă un statut aparte, inconfundabil în ansamblul ştiinţelor moderne. Disciplina statisticii are o vast ă arie aplicativ ă, în domenii dintre cele mai diverse. Este foarte greu de indicat un domeniu al activit ăţilor teoretice şi practice în care s ă nu-şi găsească utilitatea. Statistica aplicat ă în psihologie va expune câteva considera ţii teoretice strict necesare, f ăr ă să se preocupe de fundamentarea matematic ă a procedeelor folosite, chestiune care preocup ă speciali ştii în statistică teoretică, şi va insista asupra specificului aplicativ al unor proceduri statistice în cercetarea psihologic ă sau în practica profesional ă ce presupune prelucrarea şi interpretarea datelor. Interven ţiile statistice din domeniul psihologic se refer ă mai ales la acele date care provin de la grupuri de persoane, dar acest aspect nu poate fi generalizat. Originile preocup ărilor statistice pot fi defalcate în func ţie de considerarea acestora drept practici istoriceşte atestate sau drept contribu ţii ştiinţifice sistematizate. În primul caz se poate vorbi de o existenţă milenar ă (5-milenii) a acestora, în al doilea caz de una secular ă (4 secole anterioare). Nevoia de a colecta date cantitative asupra popula ţiei şi condiţiilor ssale ale materiale materiale de existen existen ţă se face sim ţită din momentul în care apar comunit ăţii umane organizate (semnul apari ţiei acestora este dat na şterea ăşur ării vieţii în comunitate, apari ţia statelor constituind forma evoluat ă a instituţiilor de reglare a desf ăş unor astfel de institu ţii). În China, Egipt, Grecia şi Roma antic ă apar recens ăminte cerute de func ţionarii administrativi, practici continuate în evul mediu (releveurile realizate la ordinele lui Charlemagne, Domesday Book a lui Wilhelm Cuceritorul, spre 1090) şi în începuturile perioadele moderne ale istoriei, prin numeroase inventare sau releveuri realizate ca urmare a unor ordonan ţe regale sub impulsul lui Sully, a lui Colbert şi a lui Vauban. În secolul al XVII-lea se profileaz ă concepte relative la bazele şi la mijloacele studiilor statistice, deci putem vorbi începuturile statisticii teoretice. În aceast ă perioadă î şi conturează apariţia a două şcoli de gândire în acest domeniu. Şcoala germană, numită şi şcoala descriptiv ă, de la care pare c ă derivă cuvântul statistic ă (cuvântul german die Statistik ),), este fondat ă de c ătre Herman Conring (1606-1681), profesor la Universitatea din Helmstadt, ale c ărui contribuţii vor fi continuate prin Gottfried Achenwall (1719-1772). Cea de-a doua şcoală, denumită aritmetica politic ă are ca ca fondatori fondatori pe John Graunt 93
AUREL STAN
(1620-1764), Gregory King (1648-1712), Edmond Halley 1656-1742) şi pe sir William Petty (16231687), şi pune în eviden ţă, dincolo de descriere, anumite permanenţ e statistice, de exemplu raportul numărului de naşteri masculine şi acela al celor feminine. Edmond Hailley prezint ă un tabel de mortalitate care este baza lucr ărilor actuariale contemporane, apoi un reprezentant al şcolii germane, Johann Peter Süssmilch (1707-1767), public ă importante lucr ări asupra procentului de masculinitate la naştere şi asupra evolu ţiei acestuia pân ă la vârsta de 20 de ani. De o deosebit ă importanţă în fundamentarea teoretic ă a statisticii este apari ţia, în 1812, a lucr ării lui Pierre Simon de Laplace (1749-1827), intitulat ă “Teoria analitic ă a probabilit ăţ ilor ”, care pune în evidenţă avantajele care pot fi trase din aceast ă teorie în studiul fenomenelor naturale. În care cauzele sunt prea complexe pentru a le putea cunoa şte exhaustiv şi a le analiza individual. Ca expresie a dezvolt ării statisticii, apar o serie de statistici autonome consacrate anumitor domenii de specialitate precum statistica aplicat ă în mecanic ă, agronomie şi economie, a c ăror dezvoltare nu are rost în lucrarea noastr ă simplificat ă. Cele mai multe din aplica ţiile statisticii se afl ă, f ăr ă îndoială, în domeniul economic şi administrativ. Nu încercăm să facem o istorie am ănunţită a statisticii, lucrare care ar trebui s ă fie deosebit de laborioasă, ci să punctăm momente importante ale evolu ţiei acesteia, legate de aplicarea acestei discipline în domeniul ştiinţelor sociale. Începutul în aceast ă privinţă este f ăcut de savantul belgian Adolphe Quetelet, care a avut preocup ări ştiinţifice de o larg ă diversitate în domeniul aplica ţiilor statisticii1. Adolphe Quételet (1796-1874) extinde câmpul de aplicare a metodei statistice în domeniile antropometric, psihologic şi social. La ini ţiativa sa se reune şte la Bruxelles, în 1853, primul congres internaţional de statistic ă, precursor al Institutului interna ţ ional de statistic ă, fondat la Londra în anul 1885, instituţie ştiinţifică care a r ămas deosebit de prestigioas ă până în zilele noastre. Adolphe Quételet a introdus no ţiunea de om mediu, controversat ă de-a lungul timpului, concept preluat de o serie statisticieni şi sociologi. Ca urmare a lucr ărilor ştiinţifice apar ţinând lui Quételet, acelora ale lui Francis Galton (1822-1911) şi Karl Pearson (1857-1936), se fondeaz ă biostatistica sau biometria. În domeniul ştiinţelor umane, studiile lui Charles Spearman asupra comportamentului indivizilor, dezvoltate în psihologia aplicat ă, umană şi animală, au condus la metode de analiz ă factorială, o prelungire logic ă a studiului corela ţiilor. Francis Galton, Charles Spearman şi Karl Pearson pot fi considera ţi întemeietorii prestigioasei şcoli psihometrice engleze, care a influen ţat semnificativ modul de prelucrare a datelor în cercet ările psihologice.
1 Pentru
cei care doresc să cunoască mai amănunţit aspecte ale istoriei statisticii româneşti şi internaţionale le recomandăm lucrarea lui Mihai Ţarcă “Tratat de statistic ă aplicat ă”, Editura Didactică şi Pedagogică R.A., Bucureşti, 1998 şi pe cea coordonată de Vladimir Trebici “Mic ă enciclopedie de statistic ă”, Editura Ştiinţifică şi enciclopedică, Bucureşti, 1985.
94
STATISTICĂ I Psihologia devine ştiinţă de sine st ăt ătoare abia în a doua jum ătate a secolului al XIX-lea, odat ă cu accentuarea laturii experimentale în cercetare, în ale c ărei începuturi au fost marcate acumul ări de date care erau deficitare sub aspectul interpret ării lor. Procedeele statistice utilizate de psiholog vin, totodat ă, în întâmpinarea nevoii de diversificare a metodelor de cercetare, fapt ce conduce la interpretarea mai adecvat ă a rezultatelor investigaţ iilor ştiinţ ifice.
Printre lucr ările de importan ţă din ultimele decenii, enumer ăm pe cele ale lui Fisher, d’Egon, Sharpe, Pearson Jerzy Neyman asupra teoriei testelor şi acelea referitoare la estima ţii, născute din cercet ările empirice asupra aplic ării metodei sondajelor . Apari ţia unor puternice mijloace de calcul a permis, pe de alt ă parte, de a pune în aplicare noi metode de statistic ă descriptivă (care nu recurg la modele, nici la ipoteze), aplicabile la marile tabele de date multidimensionale. Aflate în germene la Charles Spearman şi E. Pearson, aceste metode se regrupeaz ă sub numele de analiz ă a datelor, fiind dezvoltate prin H. Hotelling în anii 1930 şi în Franţa prin J.P. Benzecri în anii 1960. Actualmente, preocupările de analiz ă statistic ă a datelor din domeniul ştiinţelor sociale, în general vorbind, sunt deosebit de intense, realizându-se progrese teoretice şi practice. Sub acest ultim aspect sunt de remarcat apari ţia unor programe computerizate destinate u şur ării muncii de calcul (cel mai cunoscut şi cel mai utilizat fiind SPSS-ul). Folosirea unor astfel de programe presupune, pentru exploatarea corect ă a rezultatelor, cunoa şterea fundamentelor teoretice ale statisticii.
95
AUREL STAN
I. STATISTICĂ DESCRIPTIVĂ O diviziune fundamental ă o disciplinei statisticii este în statistic ă descriptiv ă şi statistic ă inferenţ ial ă, diviziune care ţine cont de ordinea istoric ă a apariţiei celor dou ă ramuri. Statistica descriptiv ă s-a constituit în secolele XVII-XIX şi se ocup ă cu descrierea fenomenelor statistice investigate prin culegerea şi clasificarea datelor ob ţinute dintr-o cercetare empiric ă, realizarea de rezumate şi sinteze cu ajutorul unui limbaj numeric. Este un ansamblu de tehnici permi ţând descrierea grupurilor de date şi luarea deciziilor în absen ţa unei informa ţii complete. Scopul unui astfel de demers este de a aduce datele într-o form ă clar ă şi utilizabilă. Informaţiile de baz ă produse prin statisticile descriptive sunt media valorile maximale şi minimale, diferite m ăsur ări ale varia ţiei şi datele cuprinzând forma sau configura ţia distribuţiei variabilelor. M ăsur ările reprezint ă comportamente, competen ţe, obişnuinţe, aptitudini, capacit ăţii sau alte tipuri de conduite care caracterizeaz ă performanţele şi definesc variabilele dependente. În statistic ă sunt utilizate mai multe metode sunt utilizate pentru (re)prezentarea organizat ă a datelor: histogramele, curbele, poligoanele de frecven ţă, diagramele circulare. Examenul vizual al datelor prin intermediul graficelor constituie o manier ă economic ă, simplă şi eficace de a observa distribu ţia eşantionului prin raport la distribu ţia normală. Calculele realizate în statistica descriptiv ă duc la constituirea de valori relative, valori medii, dispersii, abateri. Statistica descriptiv ă trebuie considerat ă ca o etapă a demersului statistic ce permite o exprimare cantitativ ă clar ă şi coerentă a mulţimilor de date. I.1.NOŢIUNI FUNDAMENTALE Înţelegerea aser ţiunilor statistice este posibil ă din momentul în care ne însu şim o serie de no ţiuni fundamentale. Începem prin a preciza care sunt no ţiunile fundamentale în statistic ă şi cu eventuale preciz ări referitoare la unele sensuri specifice care opereaz ă în domeniul statisticii în leg ătur ă cu aceste noţiuni. Una din aceste no ţiuni este cea de variabil ă. Este o noţiune de care nu ne putem dispensa în explica ţia ştiinţifică, totalitatea studiilor experimentale apelând frecvent la ea pentru a expune ra ţiunea acestui demers ştiinţific, modul de derulare şi concluziile trase. Este frecvent folosit ă împreună cu noţiunile de varia ţie şi variabilitate. În Grand dictionnaire de la psychologie variabila este definit ă ca o „entitate abstract ă care serve şte ca suport pentru o multitudine de valori” 2. Proprietatea variabilei de a lua anumite valori se nume şte variabilitate, iar oscila ţiile valorice ale variabilei poart ă numele de variaţ ie. Variaţiile pot fi previzibile şi imprevizibile . Variaţiile sunt considerate previzibile în situa ţia în care orice 2
Grand dictionnaire de la psychologie, Larousse, 1992, p. 816
96
STATISTICĂ I valoare succesiv ă dintr-o serie poate fi determinat ă cu precizie sau m ăcar aproximată. Variaţiile sunt imprevizibile când valorile succesive ale unei serii nu pot fi prev ăzute. Arthur Reber, autorul unui reputat dic ţionar de psihologie atrage aten ţia asupra faptului c ă, deşi variabila este o entitate care sufer ă schimbări, ea este de fapt o abstrac ţie, o formă, o cantitate 3. Astfel, dacă realizăm cercetări în domeniul senza ţiilor auditive şi suntem interesa ţi de intensitatea tonului, variabila operativ ă este intensitatea; într-un studiu în care avem ca variabil ă dificultatea unui test, dificultatea este variabila real ă. Tonul şi testele utilizate sunt doar moduri care permit intensit ăţ ii şi dificult ăţ ii să se manifeste. Preciz ări necesare sunt f ăcute în matematic ă şi logică unde no ţiunea de variabil ă este surprins ă mai explicit prin tratarea variabilei ca simbol care reprezint ă clase de lucruri sau domenii de valori care satisfac anumite condi ţii şi nu orice lucru sau valoare particular ă. O valoare particular ă a variabilei este denumit ă modalitate sau variant ă de variaţie. A desemna o variabil ă înseamnă a-i atribui un nume şi a-i indica modalit ăţile pe care le poate lua în cadrul unui sistem bine precizat. O analiz ă ştiinţifică se poate realiza doar cu condi ţia ca obiectul pe care ea se exercit ă să aibă o structur ă relativ stabil ă. Dacă modalităţile variabilei pot fi ierarhizate dup ă un anumit criteriu, acestea poartă numele de nivele Variabila este opus ă constantei, care nu are decât o singur ă valoare, fix ă şi nesupus ă oscilaţiei. Definiţia unei variabile şi a modalit ăţilor sale nu este independent ă de descrierea dispozitivului experimental în care a intervine. În func ţie de ipoteza sa, cercet ătorul selec ţionează stările pertinente ale variabilei pe care el o studiaz ă. O variabilă are cel pu ţin două modalităţi. Există două condiţii pe care trebuie s ă le îndeplineasc ă o variabil ă: 1. să fie alcătuită dintr-un ansamblu de valori exclusive, în consecinţă fiecare din elementele unei variabile nu poate lua decât o singur ă valoare. 2. ansamblul de valori sau de modalit ăţi ale unei variabile trebuie s ă fie exhaustiv – toate elementele trebuie s ă poată fi caracterizate de ansamblul de valori. Există un sistem de clasificare a variabilelor care func ţionează prin considerarea unei serii de criterii. Vom enumera doar denumirile rezultând din apelarea la cele mai frecvente criterii. Astfel, dacă luăm în considera ţie gradul de dependen ţă se distinge între variabile independente şi variabile dependente . Distincţia între variabile dependente şi independente este cel mai frecvent folosită. Variabilele independente (notate curent cu VI) sunt variabile manipulate sau fixate de către experimentator. Mai clar, „variabila independent ă este o caracteristic ă - a subiectului, a ambian ţei sale fizice sau sociale, a sarcinii, a stimulului sau stimulilor prezenta ţi - care este manipulat ă de către cercet ător în scopul de a controla sau de a analiza efectul sau efectele sale asupra comportamentului studiat”4. Variabilă independent ă este orice variabil ă ale cărei valori sunt, în principiu, independente de schimb ările care au loc cu alte variabile. Într-un experiment, variabila independent ă poate fi orice variabil ă care este manipulat ă specific, astfel încât s ă se observe efecte asupra variabilei dependente. Variabila independent ă mai este numit ă şi variabil ă experimental ă sau controlat ă. Variabilele dependente (notate curent cu VD) sunt variabile observate de experimentator şi care fac obiectul unei măsur ări. Variabila dependent ă este orice variabil ă ale cărei valori sunt, în principiu, rezultatul 3 Reber, Arthur S., "Dictionary of Psychology ", Penguin Books, London, 1985, pag.811
4 J.-P. Rossi & Al., La méthode expérimentale en psychologie, Dunod, Paris, 1997, pag.22
97
AUREL STAN
schimb ărilor care au loc într-una sau mai multe variabile independente. În matematic ă, noţiunea de „dependenţă” este exprimat ă printr-o formul ă de tipul y = f ( x) . Prin aceast ă formă de prezentare a dependen ţei se exprimă faptul c ă valorile lui y sunt dependente (sau în func ţ ie de) valorile lui x . În cercetarea psihologic ă situaţia devine: comportamentul subiectului luat în considerare ( y ) este dependent de manipularea unui factor ( x ). În cercetarea psihologic ă, variabila dependent ă este, în general, un r ăspuns furnizat de c ătre subiect sau o caracteristică a acestui r ăspuns. O altă accepţiune este aceea c ă variabila dependent ă este o variabil ă care este estimat ă dintr-o altă variabilă ale cărei valori sunt date. Efectul variabilelor independente este observat pe variabilele dependente. Exemplu: dac ă ne propunem s ă cercetăm efectul diferitelor forme de psihoterapie asupra sensibilit ăţii, variabila independent ă este forma de psihoterapie (terapie psihanalitic ă, terapie comportamental ă, terapie experien ţială, terapie adlerian ă, terapie sistemic ă) şi variabila dependent ă este efectul asupra sensibilit ăţii pe un anumit plan. Rela ţia dintre variabila numit ă independent ă şi variabila numit ă dependentă este una presupus cauzal ă. Relaţia cauzală trebuie să fie demonstrat ă, nu doar afirmată. Pentru demonstrare se cer urmate regulile unei metodologii competent elaborate. În caz contrar, putem fi robii aparen ţelor constituite în a şa-numitele artefacte. Calităţile unei bune variabile dependente sunt pertinenţ a (variabila dependent ă trebuie să fie un indicator pertinent al comportamentului) şi sensibilitatea (variabila dependent ă trebuie să exprime variaţii comportamentale foarte fine). Ce este o variabilă intermediar ă? O no ţiune care se întâlne şte în lucr ările de psihologie experimental ă este cea de variabil ă intermediar ă. Introducerea şi utilizarea sistematic ă a acestei no ţiuni este atribuit ă lui Edward Chase. Tolman, cunoscutul psiholog american specializat în înv ăţarea la animal. El nu p ăr ăseşte total domeniul behaviorismului, dar modific ă viziunea acestui curent prin folosirea no ţiunii de intenţ ionalitate. În concep ţia sa, comportamentul este un fenomen molar care permite unei fiin ţe de a atinge un obiect scop prin alegerea unor mijloace. Acest fapt implic ă o referinţă necesare la variabile intermediare de tip motiva ţional şi cognitiv definite obiectiv. No ţiunea de variabil ă intermediar ă cunoaşte o frecventă utilizare în domeniul înv ăţării, mai ales în studiile cunoscutului teoretician bahaviorist Clark Leonard Hull. În anul 1928, E.C. Tolman enumer ă două tipuri de variabile intermediare care se intercaleaz ă între variabilele dependente şi cele independente pentru a determina comportamentele. Variabilele intermediare cuprinse în primul tip, considerate mai elementare, sunt ereditatea vârsta şi educaţia şi sunt direct legate de variabilele independente. Cele din al doilea tip sunt nevoile, dorin ţele, atitudinile şi ipotezele, fiind considerate mai complexe, în calitate de combina ţii între anumite variabile independente şi variabile intermediare elementare. Actualmente, variabilele intermediare din prima categorie sunt tratate ca variabile independente. Introducerea acestor variabile î şi are raţiunea în dificult ăţile teoretice ale curentului behaviorist strict, în care domina schema S-R (stimul-reac ţie). În aceast ă schemă, ereditatea, vârsta şi educaţia nu 98
STATISTICĂ I descriu nici stimulul, nici r ăspunsul. A doua categorie de variabile intermediare este constituit ă din nevoi, dorinţe, atitudini, ipoteze care nu pot fi controlate de c ătre experimentator. J.P. Rossi consider ă că există o a treia categorie de variabile intermediare care trimite la mecanismele intermediare 5. Astfel, activitatea de organizare care permite de a re ţine mai bine o list ă de cuvinte a fost adesea clasat ă în rubrica variabilelor intermediare, deoarece activitatea de structurare este un tratament care se situeaz ă între S şi R. Paul Fraisse a insistat în studiile sale asupra faptului c ă r ăspunsul este func ţie a interacţiunii între situa ţie şi personalitatea subiectului. Jean-François Le Ny consider ă în Grand dictionnaire de la psychologie că no ţiunea de variabil ă intermediar ă poate fi definit ă ca o variabil ă ipotetică presupusă a fi funcţie a unei variabile de ambian ţă şi ca determinând direct o variabil ă de comportament 6 . Astfel, noţiunea lui C.L. Hull şi a teoreticienilor behaviori şti, în general, de for ţă a motivaţ iei (Drive) era considerat ă, pe de o parte, ca fiind o func ţie directă a duratei de privare (de hran ă, b ăutur ă etc.) şi, pe de alt ă parte, ca determinând în mod direct vigoarea comportamentului. Totuşi, noţiunea de variabil ă intermediar ă este puţin utilizat ă astăzi – lucru datorat modului în care sunt privite aspectele care ţin de persoan ă. Aceste aspecte sunt, de fapt, mecanisme interne. De exemplu, s-a ar ătat că organizarea informa ţiei permite o mai bun ă reţinere a unei liste de cuvinte. Activitatea de organizare este o variabil ă intermediar ă. Ea presupune o tratare a informa ţiei şi constituie un intermediar între S şi R. Din momentul introducerii modelelor de tratare a informa ţiei, noţiunea de variabil ă intermediar ă şi-a pierdut ra ţiunea de a exista. Astfel, putem vorbi de variabile independente, variabile dependente, st ări ale subiectului şi procese se tratare a informa ţiei. Acestea din urm ă sunt mai mult ipotetice decât intermediare. Dacă luăm în considera ţie natura şi fineţea variaţiei, atunci vorbim de variabile discrete şi variabile continue. Cele discrete sau discontinue sunt variabilele ale c ărei valori posibile sunt în num ăr limitat şi sunt exprimate prin valori izolate, nediferen ţiate. De obicei, pentru a le exprima se folosesc numere întregi. De exemplu, variabila numărul de persoane care locuiesc într-un apartament este o variabil ă discretă. Această variabilă poate lua valorile 1, 2, 3, 4 ş.a.m.d., dar nu valoarea 2,5 sau 3,7. O variabil ă este continuă în cazul când are teoretic un num ăr nelimitat de variante. Ca atare, între dou ă variante de varia ţie succesive se poate interpune o a treia. Dac ă măsurarea se realizeaz ă în centimetri, între valoarea 2 cm şi 3 cm se poate interpune valoarea 2,5 cm.
5 idem pag.45 6
Grand dictionnaire de la psychologie, Larousse, 1992, p. 816
99
AUREL STAN
Continuitate versus discontinuitate Arthur S. Reber precizează că ideea de continuitate se refer ă la absenţa unor întreruperi, pauze sau etape (în cazul existen ţei unor etape acestea sunt foarte mici şi astfel, nedetectabile) 7. Discontinuitatea este opusul continuit ăţii. Autorul englez spune c ă discontinuitatea este prezent ă atunci când „nu sunt reprezentate toate valorile posibile” 8. El explic ă prezenţa ghilimelelor prin faptul c ă situaţia este mai delicat ă în legătur ă cu reprezentarea valorilor. Astfel, este posibil ca varia ţia s ă se manifeste ca o serie de valori discrete (discontinue) care, de fapt, prezint ă o variaţie subiacent ă continuă. Reber ia ca exemplu în ălţimea – varia ţia valorilor luate de înălţime este discontinu ă fiind m ăsurată în unităţi discrete (de obicei cm), dar subiacent, este prezentă o variaţie continu ă întrucât putem avea toate în ălţimile posibile. Diferen ţa se observ ă mai bine atunci când opunem varia ţia aparent discontinu ă cu una într-adev ăr discontinuă cum este num ărul de erori de învăţare în cadrul unui experiment. Este adev ărat că în măsur ătorile pe care le efectu ăm, depindem foarte mult de precizia instrumentului de m ăsur ă utilizat. Astfel, timpul de reac ţie este o variabil ă continuă, dar poate părea discretă dacă folosim un cronometru clasic care m ăsoar ă doar secundele. Instrumentele moderne pot eviden ţia un număr foarte mare de posibilit ăţii între 25 de secunde şi 26 de secunde, dac ă pot eviden ţia zecimile, sutimile, miimilor,… milionimile de secund ă. Dacă nu avem instrumente perfec ţionate de m ăsur ă, distincţia dintre variabilele continue şi cele discrete poate deveni arbitrar ă. Cele mai multe din variabilele utilizate în psihologie (în special scorurile testelor şi chestionarelor psihologice) sunt discrete. O distincţie frecvent utilizat ă se face între variabilele dihotome sau dihotomice şi variabilele polihotome sau polihotomice . Variabilele dihotomice sunt variabile care au dou ă 2 modalit ăţi: adev ărat fals; corect-incorect; da – nu, prezen ţă-absenţă, acord – dezacord; masculin-feminin etc., şi care primesc, de obicei , valorile numerice 1 - 0. Real şi artificial în dihotomie Dany Laveault şi Jacques Grégoire 9 fac diferen ţa între variabile real dihotomice şi artificial dihotomice. O variabil ă real dihotomic ă presupune împ ăr ţirea naturală în 2 categorii (de exemplu, variabila sex are natural două modalităţi: masculin (care se poate nota cu 1) şi feminin (care se poate nota cu 0), iar variabilele artificial dihotomice corespund transform ării conven ţionale a valorilor variabilelor polihotomice (continue sau discontinue). De exemplu, în urma aplicării unui test subiec ţii dintr-un grup, ace ştia pot obţine iniţial note între 1 şi 40, dar, ulterior, ace ştia pot fi împ ăr ţiţi în 2 subgrupe: cei care au scoruri mai mici decât mediana sunt încadra ţi în subgrupul A 7 Reber, Arthur S., "Dictionary of Psychology ", Penguin Books, London, 1985, pag.811 8 idem
9 Dany
Laveault & Jacques Grégoire, Introduction aux theories des testes en sciences humaines, De Boeck Universite, 1997, pp. 234–235
100
STATISTICĂ I cu rezultate slabe (scoruri uniformizate prin notarea cu 0), iar cei cu scoruri peste median ă intr ă în subgrupul B cu rezultate bune (uniformizate prin notarea cu 1). Aceast ă împăr ţire poate fi f ăcută şi în funcţie de existen ţa unei valori criteriu, care împarte grupul ini ţial în reuşi ţ i (notaţi cu 1) şi nereuşi ţ i (notaţi cu 0). Criteriul de dihotomizare poate avea şi un caracter conven ţional. O distincţie cu care se opereaz ă frecvent este cea între variabile cantitative şi variabile cantitative. În primul caz exprimarea variantelor sau modalit ăţilor variabilelor se face prin intermediul numerelor (timp, greutate, lungime), în al doilea caz prin intermediul atributelor (apartenen ţă etnică, religioasă, sex). Variabila cantitativ ă timp de reac ţ ie va putea avea ca variante sau modalit ăţi 23; 25; 19; 30 sutimi de secund ă, pe când variabila calitativ ă apartenenţă religioas ă va avea ca modalit ăţi: ortodox, catolic, protestant, mahomedan , budist etc. Variabile calitative Sex (masculin, feminin) Culoarea ochilor (alba ştri, căprui, verzi,etc.
Variabile cantitative Performanţă fizică sau psihic ă măsurată (Q.I.= 101,sau Q.I.= 83) Vârsta ( 17,19 23 etc.) Tabelul I. Exemplific ări pentru variabile calitative şi variabile cantitative O clasificare prezent ă în studiile experimentale este în func ţie de posibilitatea cercet ătorului de a manipula apari ţia modalit ăţilor variabilei pe care el o studiaz ă. Vorbim în acest caz de variabile provocate şi de variabile invocatei. Modalit ăţile primei variabile ale acestui criteriu de clasificare pot fi create de c ătre experimentator, în sensul c ă stă în puterea acestuia de a le manevra. De exemplu, variabila intensitate sonor ă poate avea în cadrul unui experiment trei modalit ăţi sau st ări: slabă, medie, puternică. În funcţie de interesul ştiinţific, experimentatorul poate varia cele trei st ări, poate să provoace aceste stări. Dar dacă interesul ştiinţific se manifest ă în privinţa coeficientului intelectual, nu mai st ă în puterea experimentatorului de a manevra for ţa intelectuală a cuiva. În acest caz, variabila coeficient intelectual este invocat ă, cercetătorul putând doar c ăuta şi mobiliza pentru un studiu persoane care au diferiţi coeficien ţi intelectuali (ex. 75, 90, 100,105). O noţiune indispensabil ă pentru exprimarea statistică este cea de unitate statistic ă, având sensul de element al unei mul ţimi statistice. Un termen similari este cel de individ statistic . Unităţile statistice pot fi indivizi umani sau obiecte care sunt purt ători ai unei anumite caracteristici ce prezint ă interes pentru o anumit ă cercetare. Mul ţimea statistic ă poate fi o populaţ ie statistic ă, adică totalitatea indivizilor care satisfac exigen ţele unei anumite defini ţii riguros formulate, sau un eşantion , un subansamblu de indivizi ai popula ţiei care are caracteristica de a fi reprezentativ, adic ă din analiza acestuia este permis de a se trage aproximativ acelea şi concluzii ca şi din analiza întregii popula ţii. Eşantionul este un univers redus al popula ţ iei. Raportul dintre popula ţie şi eşantion statistic este mai bine exprimat prin raportul dintre mul ţime şi submulţime. Selecţionarea indivizilor dintr-o popula ţie pentru constituirea unui eşantion poate fi aleatorie sau conform ă unui algoritm de selec ţ ie. În procedura aleatorie de selec ţie, orice individ trebuie s ă aibă şanse egale de a fi ales. Într-o oper ă apărută postum, intitulat ă „ Ars 101
AUREL STAN
conjectandi ”, matematicianul elve ţian Jacques Bernoulli, unul din clasicii teoriei probabilit ăţilor, a ar ătat că o tragere la sor ţi corect f ăcută permite de a ob ţine un e şantion care să aibă caracteristici similare acelora ale popula ţiei. Deci, nu orice grup de indivizi formeaz ă un eşantion, ci doar acel grup constituit prin respectarea unor reguli riguroase. Când într-un studiu întâlnim termenul de lot sau de grup, trebuie existe suspiciunea c ă acesta a fost compus prin apelarea la o procedur ă de extragere care nu respect ă strict metodologia de constituire a e şantioanelor. Biais-ul, termen ce s-a impus în ultima perioad ă în limbajul ştiinţific cu semnifica ţia de eroare sistematic ă, măreşte riscul de a proceda la generaliz ări eronate. Populaţiile pot fi finite, când m ărimea sa este riguros delimitat ă cantitativ, şi infinite când mărimea lor nu poate fi determinat ă cu precizie sau este în continu ă creştere cu o rat ă imprevizibil ă. Popula ţia poate fi definit ă extensiv , atunci când elementele sale pot fi listate (de exemplu, lista nominal ă a pensionarilor dintr-un cartier din Ia şi). Definirea intensiv ă a popula ţiei presupune indicarea principiului care stă la baza constituirii sale (exemplu, to ţi elevii liceului „Mihai Eminescu” din Ia şi din primul semestru al anului 2003).
Variabilele nu descriu indivizii statistici în ansamblul lor, ci prin intermediul unor caracteristici. O caracteristic ă este o proprietate a unei unit ăţi statistice care prezint ă interes pentru o anumit ă cercetare. Individul statistic este purt ător al unei caracteristici. Aceast ă caracteristic ă este descriptibil ă printr-un ansamblu de relief ări ale caracteristicii . Aceste relief ări sunt variantele de varia ţie sau modalit ăţile. Caracteristica pe care noi ne propunem s ă o descriem statistic poate fi manifest ă, în cazul în care poate fi descris ă sau măsurată în mod direct (greutatea corporal ă, culoarea ochilor, sexul, nivelul veniturilor) sau latent ă (voalată), în cazul în care poate fi m ăsurată doar indirect. De exemplu, dac ă ne propunem să examinăm introversiunea, aceasta nu se poate face în mod direct, ci prin intermediul unei întregi serii de semne ale introversiunii detectabile prin întreb ările unui chestionar sau prin analiz ă clinică. O caracteristică este opera ţional definit ă atunci când se poate decide care sunt relief ările caracteristicii respective. Practic, din punct de vedere psihologic, opera ţionalizarea este traducerea unui concept teoretic în comportamente observabile. Calitatea ştiinţifică a unor cercet ări depinde foarte mult de calitatea opera ţionaliz ării conceptuale care se realizeaz ă în cursul realiz ării lor. Este necesar s ă facem şi câteva preciz ări asupra variabilit ăţii, în scopul de a eviden ţia aspecte care sunt frecvent întâlnite în studii ştiinţifice. Variabilitatea este intraindividual ă atunci când se raportează la diferenţele existente între momentele sau situa ţiile diferite în care se afl ă acelaşi individ. De exemplu, atunci când se cerceteaz ă timpul de reac ţie la aceeaşi persoană în momente temporale diferite, se pot ob ţine valori diferite. Diferen ţa dintre cea mai mic ă şi cea mai mare variant ă de variaţie poartă numele de amplitudine de varia ţ ie sau de plaj ă de varia ţ ie. Variabilitatea interindividual ă face referire la diferen ţele existente între indivizi (desigur, referindu-se la aceea şi caracteristic ă). Variabilitatea intragrup caracterizeaz ă oscilaţiile valorice în cadrul unui grup bine precizat şi variabilitatea intergrup caracterizează aceste oscila ţii la nivelul indicatorilor apar ţinând la grupuri diferite. Indicatorii statistici nu sunt doar simple valori ale variabilei, ci valori reprezentative care caracterizeaz ă ansamblul valorilor unui grup.
102
STATISTICĂ I Variabile şi factori. Termenii ştiinţifici de variabil ă şi factor sunt des folosi ţi ca sinonimi ceea ce poate crea o serie de confuzii. În esen ţă, orice factor poate fi o variabil ă, dar nu orice variabil ă poate fi un factor. Nu exist ă o coresponden ţă perfectă între variabilă şi factor. În unele lucr ări ştiinţifice, termenul factor este folosit abuziv. În general, prin factor se în ţelege orice are o influen ţă cauzală, un anumit efect asupra unui fenomen. În acest sens factorul este considerat o condi ţie antecedent ă sau o cauz ă. Prin extensie, factorul poate fi considerat o variabil ă independent ă. Acest sens e propriu procedurilor statistice bazate pe analiza de varian ţă. Distincţia între factori sistematici şi aleatori este fundamental ă. Factorul este sistematic, în cazul în care alegerea modalit ăţilor poate fi sistematic ă, şi aleatoriu, în cazul în care modalit ăţile sale sunt stabilite prin tragere la sor ţi. O convenţie frecvent respectat ă este aceea de a denumi factorul printr-o liter ă majuscul ă şi o cifr ă care indică numărul modalit ăţilor. De exemplu, în cadrul nota ţiei S3 desemnăm prin S factorul „studii” şi prin 3 num ărul de modalit ăţi. Desemnarea nivelelor se face prin utilizarea literelor minuscule: s1= studii superioare, s2=studii medii şi s3=studii generale. Prin conven ţie factorii aleatorii sunt sublinia ţi. Factorii c ărora experimentatorul vrea s ă le studieze efectele sunt numi ţi principali, iar cei pe care experimentatorul trebuie s ă-i controleze pentru c ă el ştie că aceştia au un efect asupra fenomenului studiat sunt numi ţi secundari. Factorul poate fi unul din rezultatele unei analize factoriale, termen care nu reprezint ă un concept unitar, ci mai curând este utilizat ca termen umbrel ă pentru un num ăr de proceduri statistico-matematice care-şi propun să localizeze un num ăr mai mic de dimensiuni clusteri sau factori într-un set mai mare de variabile independente sau itemi. Primul element distinctiv al unei analize factoriale este reducerea datelor. Analiza factorial ă este o reacţie contra beţ iei de cuvinte în cercetarea psihologic ă care tinde s ă considere că oamenii şi acţiunile umane au atâtea calit ăţi cam câte adjective şi atribute exist ă într-o limbă. A exprima mult prin puţ in, principiul parcimonieii, este esenţial în analiza factorial ă, indiferent de formele pe care le îmbrac ă această analiză. Ca atare, factorul este o variabil ă subiacent ă care stă la baza varia ţiei altor variabile, este o esenţă ireductibilă şi irepetabilă care serveşte de suport lumii fenomenologice cu o mare varietate de manifest ări.
103
AUREL STAN
II. GRUPAREA ŞI SISTEMATIZAREA DATELOR II.1.MĂSURAREA ÎN PSIHOLOGIE O primă întrebare care se pune atunci când abord ăm problema prelucr ării datelor ob ţinute într-o cercetare psihologic ă este: haina numeric ă se potrive şte la fel de bine exprim ării rezultatelor ca în domeniul fizicii, chimiei, biologiei, sau are un anumit specific care trebuie l ămurit? În esen ţă, trebuie să stabilim dac ă faptul psihic este la fel de bine fundamentat cantitativ ca în domeniile amintite. Dezbaterile pe aceast ă temă durează de secole, opunând la începuturile lor concep ţia lui Immanuel Kant şi celei apar ţinând lui Johann Herbart. Prima concep ţie susţine că psihologia nu va ajunge niciodat ă ştiinţă experimental ă, deoarece faptul psihic nu posed ă decât o singur ă variabilă, timpul. A doua concep ţie susţine că psihologia va putea deveni experimental ă şi cantitativist ă, întrucât posed ă pe lângă variabila timp şi variabilele intensitate şi calitate. Dezbaterile pe aceast ă temă nu au încetat, fiind sintetizate foarte bine într-o lucrare de erudi ţie a lui Vasile Pavelcu: „Ambele atitudini sunt fire şti căci, dacă am aplica metrismul matematic la p ărerile înseşi, ivite în rândul oamenilor de ştiinţă, cu privire la psihologia matematică, am constata abateri statistice naturale, atât în sens pozitiv, cât şi în cel negativ, fa ţă de medie. Extremele sunt egal de primejdioase pentru dezvoltarea unei ştiinţe. O încredere exagerat ă, nejustificat ă suficient într-o metod ă, duce fatal spre dezam ăgirea şi păr ăsirea total ă a acesteia. Un scepticism anticipat, şi la fel de nejustificat, bareaz ă drumul încerc ărilor şi verificărilor, f ăr ă de care nu putem face dovada ştiinţifică”10. Răspunsul la întrebarea anterioar ă presupune o scurt ă incursiune în domeniul teoriei m ăsur ării. Nevoia de măsurare a venit odat ă cu apariţia şi dezvoltarea cercet ării experimentale în psihologie. Pentru a fi considerat ă ştiinţifică, cercetarea psihologic ă trebuie să se supun ă rigorilor care domina ştiinţele cu un statut bine precizat, cum sunt fizica, fiziologia şi chimia, în care experimentul era frecvent practicat. Promotorii experimentului psihologic considerau c ă prin intermediul acestuia psihologia se dep ărtează de viziunea speculativ ă şi adera la exigen ţele spiritului pozitiv, atotputernic la sfâr şitul secolului XIX şi începutul secolului XX, perioad ă în care avântul cercet ării experimental-psihologice a fost foarte pronun ţat. Personalit ăţile dominante în aceast ă perioadă au fost E.H. Weber, G.T. Fechner, W. Wundt, H. Ebbinghaus, H. Helmholtz, S. Hull, J.McK. Cattell. Domeniul în care ace şti savanţi au lucrat a fost unul relativ îngust, cel al structurilor psihice elementare (senza ţii, percepţii). Încercările de a extinde tehnicile experimental-statistice la fenomene psihice complexe a dus la apari ţia unor eşecuri şi nereuşite în cercetare. Perfec ţionarea tehnicilor de investiga ţie s-a f ăcut paralel cu progresul concep ţiilor psihologice şi a aparatului statistico-matematic. Necesar cercet ărilor complexe în care interrela ţionarea era complex ă. Cercetători precum Ch. 10 Vezi Pavelcu, Vasile
Terek, Iaşi, pag.3.
104
Problema măsurii în psihologie, Extras din Cercet ări pedagogice, vol. I, 1943. Tipografia Alexandru A.
STATISTICĂ I Spearman, H.P. Kelley, H. Hotteling, L.L. Thurstone, C. Burt, L. Guttman, S.S. Stevens au perfec ţionat şi rafinat concep ţia de cercetare în psihologie şi au elaborat tehnici cantitative complexe, a şa cum este analiza factorial ă. Într-o lucrare clasic ă de psihometrie, care se men ţine în actualitate, Nicolae Mărgineanu redă complexitatea situa ţiei cercetării din domeniul psihologic: „Una dintre caracteristicile de bază ale ştiinţei contimporane, în opozi ţie cu ştiinţa antebelică şi mai ales cu aceea a secolului trecut, e de a nu te mul ţumi numai cu studiul rela ţiilor dintre diferite, ci de încerca şi studiul structurii şi configuraţiei acestor rela ţii. Relaţia nu e torul; ea e întotdeauna o parte şi un aspect dintr-un sistem. Ori acest sistem nu pare a fi indiferent pentru rela ţie; pentru ca sensul rela ţiei să fie prins în întregime, relaţia trebuie raportat ă şi la el. Sistemul pare chiar s ă aibă ultimul cuvânt, propriet ăţile de bază ale relaţiilor nefiind decât func ţiuni ale sale”. 11 A măsura înseamnă a aloca numere lucrurilor şi fenomenelor conform unor reguli. F ăr ă o concep ţie clar ă asupra realit ăţii măsurabile nu se poate vorbi de precizie şi de apreciere cantitativ ă a fenomenelor. Pentru dep ăşirea unei concep ţii rigide s-a ajuns la o concep ţie nouă privind puterea măsur ării, elaborându-se gradiente ale for ţei de măsurare. A luat astfel na ştere concepţia scalelor de măsur ă. Elaborarea teorie scalelor de m ăsur ă nu reprezint ă doar un compromis, o convenien ţă, ci o adaptare la realit ăţii măsurabile specifice şi complexe. Problema scalelor de m ăsur ă. În sens general, o scal ă este o procedur ă sau un plan ce permite aranjarea obiectelor sau evenimentelor în serii progresive. În sens concret, o scal ă este un instrument sau un dispozitiv ce permite ordonarea numeric ă a obiectelor sau fenomenelor prin determinarea unei valori proprii. În examinarea psihologic ă, scala desemneaz ă un instrument de examinare sau testare psihologic ă care posed ă itemi şi sarcini structura ţi în legătur ă cu o anumit ă dimensiune. În acest ultim sens, avem scala metric ă a inteligenţei Binet-Simon, scala de performan ţă Grace-Arthur. Scala de dezvoltare A.L. Gessel. Exist ă scale de atitudini, de preferin ţe, de inteligen ţă. Valorile pe care le ob ţin variabilele în cursul unor procese de m ăsurare nu au aceea şi putere informaţională, adică nu comunic ă la fel de profund în privin ţa anumitor caracteristici pe care le studiază. Neglijarea acestui aspect poate duce la apari ţia unor confuzii în interpretarea rezultatelor unor cercet ări. Este foarte important de a preciza pe ce scal ă de măsur ă pot fi apreciate valorile unei variabile şi dacă operaţiile sau tratamentele statistice sunt pertinente, adic ă dacă sunt adaptate, ajustate propriet ăţilor specifice ale unei anumite scale. Practic, scala de m ăsur ă este un instrument de m ăsur ă care prezint ă anumite grada ţii după care se ghidează cel care doreşte să facă aprecieri în procesul de m ăsurare dintr-un anumit domeniu. În sens strict scala de m ăsur ă presupune c ă modalităţile sau valorile sunt cel pu ţin ordonate, deci exclude observaţiile care sunt doar calitativ diferite. În sens larg, scala de măsur ă se raporteaz ă şi la observa ţii care pot fi doar calitativ diferite. Crearea şi fundamentarea teoretic ă a scalelor de m ăsur ă sunt legate de numele cercet ătorului englez S.S. Stevens care, în anul 1946, a stabilit 4 niveluri sau tipuri de scale de m ăsur ă, inegale în privin ţa puterii: măsuri nominale, ordinale, de interval, şi de raport. Alţi autori care s-au ocupat de aceast ă problemă au ar ătat că se pot concepe nenum ărate tipuri de scale, dar cea mai mare parte 11 vezi Nicolae Mărgineanu, Elemente de Psihometrie, Ed. Institutului de
Psihologie al Universităţii din Cluj, 1938
105
AUREL STAN
dintre ele nu au o real ă semnifica ţie practică prin diversele grupe de transform ări numerice pe care le-ar presupune12. Scala nominal ă (denumiri similare scala categorial ă sau scala formal ă) reprezintă tipul de scal ă care indic ă cel mai slab grad al m ăsurii. Modalit ăţile scalei nominale sunt definite în a şa fel încât fiecare observaţie nu poate fi plasat ă doar într-o singur ă modalitate. Ea asigur ă doar simpla diferen ţiere calitativă a observaţiilor f ăcute de un cercet ător. Chiar atunci când utilizeaz ă numere în exprimare realit ăţii supus măsurii, aceast ă scală nu indic ă alte propriet ăţi decât acelea de a fi simple etichete pentru distingerea diferitelor modalit ăţi ale unei variabile. Ea poate asigura identitatea a dou ă elemente. La nivelul scalei nominale modalit ăţile X,Y şi Z pot fi reprezentate prin 1,2 şi 3, sau la fel de bine prin 14, 23, 8. Important este ca aceste simboluri s ă fie diferite. În acest caz 1 nu este mai mic decât 2 şi nici acesta, la rândul lui, nu este mai mic decât 3. Ele sunt doar simboluri diferite. Observa ţiile pot fi exprimate şi prin simboluri alfanumerice: a1, a2 şi a3 sau chiar prin simboluri pictografice. Astfel de scale sunt frecvent utilizate în psihologie şi, în general, în ştiinţele sociale, atunci când se uzeaz ă de clasific ări: tipologiile psihologice, nomenclatoarele profesiilor, nosologiile psihiatrice (sisteme de clasificare a bolilor). De exemplu, variabila categorie socio-profesional ă poate avea modalit ăţile: elev, student, funcţionar, cadru mediu, cadru superior, patron, manager, şomer, pensionar. Prin codificare, atribuim un simbol distinct fiec ărei modalit ăţi a variabilei. Red ăm într-un tabel diferite variante de codificare: varianta 1-alfabetic ă, varianta 2-numeric ă, varianta 3-alfanumeric ă. Modalitatea variabilei Elevi Studenţi Funcţionari Cadre medii Cadre superioare Manageri Patroni Şomeri Pensionari
Varianta 1 A B C D E F G H I
Varianta 2 1 2 3 4 5 6 7 8 9
Varianta 3 a1 a2 a3 a4 a5 a6 a7 a8 a9
Tabelul nr.2 Codific ări posibile pentru modalit ăţ ile variabilei categorie socio-profesional ă în cadrul unei scale nominale
Recodificarea modalit ăţilor în funcţie de variante este corect ă dacă asigur ă fiecărei modalit ăţi o notare distinct ă de a celorlalte, a şa cum rezult ă din tabelul urm ător. Modalitatea variabilei Varianta 1 Varianta 2 Varianta 3 Elevi C 9 a7 Studenţi I 8 a3 Funcţionari A 5 a5 Cadre medii D 3 a9 Cadre superioare F 7 a8 Manageri B 1 a2 Patroni E 4 a6 Şomeri G 6 a4 Pensionari H 2 a1 Tabelul nr. 3 Cuprinde recodificarea corect ă a modalit ăţ ilor variabilei Categorie socio-profesional ă din tabelul 1 12 vezi
Dick, P., Tournobis, Jocelyne, Flieler, A., Kop, Jeana-Luc, “La Psychométrie”, Presses Universitaires de France, Paris, 1994
106
STATISTICĂ I Scala ordinal ă introduce ordinea între elementele unei serii de observa ţii. Transformările efectuate trebuie, de aceast ă dată, să lase ordinea invariant ă, neschimbat ă. Într-o astfel de situa ţie a
AUREL STAN
în cadrul unei scale sunt condi ţionate de puterea informa ţională a scalei respective. Cu cât înaint ăm spre vârful ierarhiei scalare, cu atât num ărul de operaţii permise este mai mare şi transformările sunt mai complexe. Pe parcursul lucr ării noastre vom face specifica ţii necesare în aceast ă privinţă, de câte ori este cazul 13. II.2 CONSIDERAŢII ASUPRA GRUPĂRII DATELOR Operaţiile de grupare sunt strict necesare în activitatea de cercetare ştiinţifică efectuată cu ajutorul unor metode de investiga ţie specifice psihologiei. Primul lucru asupra c ăruia ne îndrept ăm atenţia atunci când suntem în fa ţa unor date neordonate rezultate dintr-o cercetare este s ă ne întrebăm asupra puterii informa ţionale a unor astfel de date. Apar ţin scalei nominale, ordinale, de interval sau de raport? Fiecare din aceste scale pun probleme specifice de prelucrare, sistematizare şi de reprezentare grafică. În ceea mai mare parte a cazurilor, psihologul se g ăseşte în faţa unor valori care sunt de nivelul scalei de interval, este adev ărat, cu respectarea anumitor conven ţii care confer ă datelor acest statut. În funcţie de modul de sistematizare a datelor ele ne “vorbesc” mai mult sau mai pu ţin consistent. Gruparea. În cazul în care modalit ăţile de care dispunem au valoare scalar ă nominală sau ordinală grupare presupune stabilirea frecven ţelor specifice fiec ărei modalit ăţi. Frecvenţele absolute rezult ă din însumarea tipurilor distincte ale modalit ăţilor sau nivelelor. Frecven ţele relative traduc cuantumul procentual al fiec ărei frecvenţe absolută, adică valoarea procentului din total reprezentat de o anumită modalitate a variabilei. De exemplu, dac ă într-o cercetare ne propunem s ă grupăm variabila nominal ă tip de studii superioare , cu modalit ăţile studii umaniste , studii economice , studii tehnice , putem avea următoarea situaţie (situaţie imaginată): Nr. crt. Tip de studii Frecvenţa (f) Frecvenţa relativă(f%) 1 Studii umaniste 75 56,8% 2 Studii economice 43 32,6% 3 Studii tehnice 14 10,6% Total N = 132 100% Tabelul nr.4 Cuprinde modul de înregistrare a frecvenţ ei a modalit ăţ ilor sau categoriilor unor scale nominale
Frecvenţa relativă se obţine prin înmul ţirea cu o sut ă a raportului dintre frecven ţa relativă şi 43 efectivul total. Astfel frecven ţa relativă 32,5% se obţine astfel: 32,5% = * 100 . Frecvenţele relative 132 dau o informa ţie mai precis ă, mai ales în cazul în care nu se cunoa şte efectivul total (N =132). Astfel, frecvenţa absolută egală cu 43 specific ă modalităţii studii medii nu ne comunic ă prea mult dac ă nu ştim cunoaştem valoarea 132, pe când valoarea 32,6 ne comunic ă faptul că modalitatea s tudii medii cuprinde aproximativ o treime din num ărul total al subiec ţilor.
132
pentru informaţii suplimentare vezi: Valentin Clocotici, Aurel Stan, Statistic ă aplicat ă în psihologie, Editura Polirom, Iaşi, 2000.
108
STATISTICĂ I Pentru variabilele ale c ăror modalităţi se prezint ă sub form ă numerică, drumul ordon ării este ceva mai lung. În acest caz, o mas ă de cifre neordonat ă ne transmite foarte pu ţin sens. Exemplific ările pe care le vom face pe parcursul lucr ării noastre sunt, în cea mai mare parte, specifice cercet ării psihologice. S ă presupunem c ă avem în faţă următoarele valori rezultate din corectarea unui test psihologic, mai clar spus avem în fa ţă notele brute ob ţinute de 91 de subiec ţi la testul AD-P (aten ţie distributivă Praga), având studii medii, vârsta între 35-40 ani, provenind din mediul urban: 22 82 43 46 53 43 64 66 42 55
37 50 59 35 43 49 50 73 61
56 54 70 43 39 56 26 50 67
76 53 55 58 35 38 69 63 63
33 47 53 52 48 32 78 62 46
48 54 48 50 55 49 55 46 42
40 55 36 57 33 55 53 28 68
47 62 66 72 38 60 38 64 59
58 69 72 29 43 67 47 63 55
78 29 53 35 47 56 55 40 57
Menţionăm că ansamblul valorilor unei variabile poart ă numele de distribuţ ie. Există distribuţ ii teoretice, denumire care indic ă faptul că valorile sunt repartizate conform rigorilor unui anumit model matematic de distribu ţie, şi distribuţ ii empirice, rezultate din cercet ări concrete. În cazul nostru de exemplificare, vom opera pe o distribuie empiric ă. În momentul în care ordon ăm datele cresc ător, ansamblul valorilor începe s ă capete un sens pentru cei care î şi propunem s ă le cerceteze. Prezent ăm, în continuare, ordonarea acestor date. Putem observa cu u şurinţă care este cea mai mic ă şi care este cea mai mare valoare a variabile pe care o not ăm cu X (care reprezint ă performanţa unor subiec ţi la testul AD-P), deci extremele performan ţelor. 22 35 42 47 50 55 56 62 68 82
26 36 43 47 50 55 57 63 69
28 37 43 48 52 55 57 63 69
29 38 43 48 53 55 58 63 70
29 38 43 48 53 55 58 64 72
32 38 46 48 53 55 59 64 72
33 39 46 49 53 55 59 66 73
33 40 46 49 53 55 60 66 76
35 40 47 50 54 56 61 67 78
35 42 47 50 54 56 62 67 78
Avem în total 91 de rezultate ale subiec ţilor. În acest caz, valoarea 1 este numit ă volumul distribuţ ie. Se notează cu N . După această ultimă ordonare putem s ă efectuăm o grupare a datelor, operaţiune care se poate avea dou ă opţiuni: 1. Gruparea pe variante de varia ţie; 2. Gruparea pe intervale de varia ţie. Este un tip de ordonare care poate are cea mai larg ă r ăspândire, indiferent de domeniu. Unele domenii î şi impun o serie de modele proprii de prezentare a datelor, func ţie de particularit ăţile tipului de cercetare (date rezultate în urma unei observa ţii, date rezultate dintr-un experiment, date rezultate dintro anchetă).
109
AUREL STAN
II.2.1. Gruparea pe variante de varia ţ ie.
În cazul în care opt ăm pentru primul fel de grupare, stabilim cât de frecvente sunt valorile diferite pe care le-au ob ţinut subiecţii, adoptând o ordonare ascendent ă sau descendent ă a valorilor distincte. Rezultatele unei variabile care nu au suferit înc ă tratamente de transformare valoric ă poartă numele de valori brute sau note brute . Dacă această operaţiune este efectuat ă empiric, se ordoneaz ă crescător sau descresc ător aceste valori, apoi se parcurge întreaga serie de valori neordonate şi se trage câte o linie ori de câte ori întâlnim o valoare identic ă. În exemplul nostru ordonarea este ascendent ă. Pentru o bună citire a rezultatelor grup ării empirice se realizeaz ă grupări de câte 5 valori identice, prin a 5-a linie se barează 4 liniuţe anterioare. Tipul de marcare IIII cuprinde 5 valori identice ale variabilei. Nota brută 22 26 28 29 32 33 35 36 37 38 39 40 42 43 46
Marcare
Fr
I I I II I II III I I III I II II IIII III
1 1 1 2 1 2 3 1 1 3 1 2 2 4 3
Nota brută 47 48 49 50 52 53 54 55 56 57 58 59 60 61 62
Marcare
Fr.
Nota brută
Marcare
Fr.
IIII 4 63 III 3 IIII 4 64 II 2 II 2 66 II 2 IIII 3 67 II 2 I 1 68 I 1 IIII 5 69 II 2 II 2 70 I 1 IIII III 8 72 II 2 III 3 73 I 1 II 2 76 I 1 II 2 78 II 2 II 2 82 I 1 I 1 I 1 II 2 Tabelul nr.5 Conţ ine ordonarea pe variante de variaţ ie şi marc ările corespunz ătoare ale frecvenţ ei valorilor
Asemenea contoriz ări ale datelor se realizeaz ă în momentul în care tindem s ă realizăm o analiz ă foarte amănunţită, deci când într-o cercetare opereaz ă un spirit analitic pronun ţat. În momentul în care urmărim observarea tendin ţei centrale a datelor, atunci efectu ăm o grupare pe intervale de varia ţie. Problema care se pune în acest caz este aceea a num ărului optim de intervale în care pot fi grupate datele avute la dispozi ţie. II.2.2. Gruparea pe intervale de varia ţ ie Aceasta poate lua forma intervalelor egale sau inegale. În majoritatea cazurilor în cercet ările psihologice gruparea se face pe intervale egale. Gruparea pe intervale de varia ţie presupune urm ătoarele etape: alegerea sau determinarea m ărimii intervalului de varia ţie. Mărimea intervalului de varia ţie depinde de amplitudinea şi de numărul de grupe sau de clase dorit. Amplitudinea unei distribu ţii este distanţa dintre cea mai mare şi cea mai mic ă valoare. Vom nota cu A amplitudinea distribu ţiei, notaţie acceptat ă în mare parte de autorii de specialitate. Formula de calcul este urm ătoarea: A = X max -X min+1, în care: X max reprezintă cea mai mare valoare şi X min cea mai mic ă valoare. În cazul nostru concret X max = 82, X min = 22. Procedând la calculare vom avea A = 82 – 22 + 1 = 61. Cifra 61 ne spune c ă între cea mai mare şi cea mai mic ă valoare se g ăsesc teoretic 61 de valori ale variabilei distincte una de alta. Distribu ţiile empirice (rezultate în urma unor cercet ări concrete) nu au, de obicei, toate variantele posibile. În exemplu nostru lipsesc valorile variabilei egale cu 23, 24, 27 etc. Practic, avem un num ăr de 43 variante distincte ale variabilei. Not ăm cu i mărimea unui 110
STATISTICĂ I interval, mărime care se calculeaz ă după următoarea formulă: i =
A k
, în care A este amplitudinea
distribu ţiei, iar k este numărul de intervale în care dorim s ă împ ăr ţim distribu ţia. De exemplu, dac ă dorim să facem o împ ăr ţire a distribuţiei valorilor în 9 intervale vom avea urm ătorul rezultat: 61 i = = 6.77. Dac ă valorile concrete ale variabilei nu con ţin zecimale vom proceda la întregirea 9 valorii i , care se face totdeauna prin ad ăugire. Deci, în urma întregirii, i = 7. Dac ă întregirea s-ar face prin sc ădere, ar r ămâne valori în afara intervalelor, valori nealocate unor intervale. Dar, dac ă vom considera m ărimea unui interval egal ă cu 7, vom m ări artificial m ărimea amplitudinii cu 2, deoarece 9 × 7 = 63. Pentru a împ ăr ţi ponderat diferen ţa la cele două capete ale distribu ţiei vom începe primul interval de la 21 şi ultimul interval va avea valoarea superioar ă egală cu 83, deci va fi mai mare cu 1. Crearea tabelului cu intervale. Intervalele care rezult ă sunt următoarele: 1 Nr.crt. 1. 2. 3. 4 5. 6. 7. 8. 9.
2 Interval 21 – 27 28 – 34 35 - 41 42 - 48 49 - 55 56 - 62 63 - 69 70 - 76 77 - 83
3 Centru interval 24 31 38 45 52 59 66 73 79
4 Marcare
5 Frecvenţa 2 6 11 17 22 13 12 5 3
II IIII I IIII IIII I IIII IIII IIII II IIII IIII IIII IIII II IIII IIII III IIII IIII II IIII III Total N = 91 Tabelul 6. Conţ ine gruparea pe variante de variaţ ie şi marcarea frecvenţ elor valorile pentru fiecare interval
Pe lângă rubricile cuprinzând num ărul curent şi mărimea intervalului au fost trecute, pentru o mai bună înţelegere a tabelului, rubrici cuprinzând marcarea variabilelor componente ale unui interval şi frecvenţa acestora pe un interval. La o prim ă privire, intervalele creeaz ă impresia c ă au valoarea 6, şi nu 7, cum am anun ţat anterior. Dar aceste intervale includ limita inferioar ă şi limita superioar ă. Intervalul 21–27 conţine următoarele valori teoretice: 21,22,23,24,25,26,27. Deci, are 7 componente numerice distincte. În unele cazuri se face precizarea dac ă limitele intervalelor sunt sau nu incluse în interval sau se face precizarea care sunt limitele reale ale intervalelor, în cazul existen ţei unor valori zecimale. Astfel, intervalul 21 – 27 poate avea limita inferioar ă 20,5 şi limita superioar ă 27,5 dac ă am fi avut zecimale.. Ca atare, dac ă am fi întâlnit valorile 20,7 sau 27,3 le-am fi marcat la intervalul anun ţat anterior. Centrul intervalului se ob ţine prin împ ăr ţirea la 2 a adi ţiei valorii limitei inferioare a intervalului şi a celei superioare. Astfel la intervalul nr.1, centrul intervalului, egal cu 24, s-a ob ţinut în felul urm ător: 24 21 + 27 48 = = . Stabilirea centrului intervalului poate fi util ă pentru uşurarea unor calcule, situa ţie în 2 2 care centrul intervalului este considerat o valoare reprezentativ ă a intervalului. O problemă care se pune la gruparea pe intervale de varia ţie este aceea a num ărului optim de intervale în care se divizeaz ă distribuţia. Există în aceast ă privinţă o serie de formule de calcul şi de tabele fixând num ărul de intervale. În primul rând amintim formula lui H.D. Sturges; care fixeaz ă
111
AUREL STAN X max − X min
mărimea intervalului i =
1 + 3 . 22 lg N
în care X max este cea mai mare valoare a distribu ţie,
Xmin - cea mai mica valoare şi N - numărul total de r ăspunsuri ale subiec ţilor. După ce am stabilit mărimea intervalului se poate determina foarte u şor numărul de intervale Pentru valori nu prea mari ale lui N (sub 100) se folose şte formula Hahn-Shapiro: k=Int(N/5), în care k exprimă num ărul de intervale, INT exprimă partea întreag ă a expresiei numerice din parantez ă (întregire prin sc ădere, de exemplu, INT (3,7)=3). Ilie Puiu Vasilescu exemplific ă, în una din lucr ările sale consacrate statisticii aplicate, o serie de tabele care indic ă numărul de intervale în func ţie de numărul de subiec ţi14. Redăm, în continuare, unul din aceste tabele, şi anume tabelul lui Bendat şi Piersol: N 200 400 600 800 1000 1500 2000 K 16 20 24 27 30 35 39 Tabelul 6. Tabelul Bendat – Piersol referitor la numărul optim de intervale în care se pot diviza distribuţ iile
În acest tabel prin n s-a notat num ărul r de r ăspunsuri ale subiec ţilor la o anumit ă solicitare şi prin k num ărul de intervale necesare. Astfel, la 200 de subiec ţi sunt necesare 16 intervale, între 201 şi 400 sunt necesare 20 de intervale, între 401 şi 600 avem nevoie de 24 de intervale, ş.a.m.d. În practic ă grupării datelor pe un num ăr relativ mic de r ăspunsuri (în jur de 100) se realizeaz ă 7; 9; 11; 13 intervale. Numărul de intervale este impar, fapt ce pune mai bine în eviden ţă tendinţa centrală. În următoarea etapă se realizeaz ă un tabel cu frecven ţele şi alte rubrici necesare efectu ării calculelor statistice. Tabele se elaboreaz ă conform unor reguli. Aceste reguli 15 sunt: 1. să faciliteze percep ţia rapidă şi exactă a informaţiilor prezentate; 2. să cuprindă numai informa ţii strict necesare caracteriz ării fenomenului studiat; 3. să aibă un titlu scurt, clar, care s ă sintetizeze con ţinutul informativ al datelor; 4. să fie numerotate pentru a putea fi identificate u şor în textul de analiz ă, 5. să fie înso ţite de note explicative care s ă explice no ţiunile cu mai multe sensuri; 6. notele explicative trebuie s ă explice sursa datelor; 7. liniile şi coloanele tabelului trebuiesc numerotate pentru a putea fi identificate u şor in text; 8. în tabele nu se admit rubrici incomplete. Exemplific ăm rubricile cu frecven ţe pe datele anun ţate de noi anterior: Nr.crt. 1 2 3 4 5 6 7 8 9 Total
Interval 21 – 27 28 – 34 35 – 41 42 – 48 49 – 55 56 – 62 63 – 69 70 – 76 77 – 83
f% fc↓ fc↓ 0,02 (2%) 2 0,02 (2%) 0,07 (7%) 8 0,09 (9%) 0,12 (12%) 19 0,21 (21%) 0,19 (19%) 36 0,40 (40%) 0,24 (24%) 58 0,64 64%) 0,14 (14%) 71 0,78 (78%) 0,13 (13%) 83 0,91 (91%) 0,05 (5%) 88 0,97 (97%) 0,03 (3%) 91 1,00 (100%) 1,00 (100%) Tabelulul nr.7 Cuprinde intervalele de variaţ ie şi tipurile de frecvenţ e
14 Vezi Vasilescu, Ilie Puiu,
f 2 6 11 17 22 13 12 5 3 N=91
fc↑% 1,00 (100%) 0,98 (98%) 0,90 ( 90%) 0,78 ( 78%) 0,59 ( 59%) 0,36 ( 36%) 0,22 ( 22%) 0,09 ( 9%) 0,03 ( 3%)
Statistic ă informatizat ă pentru ştiinţ ele despre om, Editura militar ă, Bucureşti, 1991, pag. 27 şi presă “Şansa” SRL, Bucureşti, 1993, pag. 39
15 Vezi Porojan, Dumitru „Statistica şi teoria sondajului ” Casa de editur ă
112
fc↑ 91 89 83 72 55 33 20 8 3
STATISTICĂ I Legendă: f = frecven ţă simplă sau frecven ţă absolut ă; f% = frecven ţă simplă relativă; fc↓ = frecven ţă cumulat ă ascendent; fc↓% = frecven ţă relativă cumulată ascendent; fc↑ = frecven ţă absolut ă cumulat ă descendent; fc↑% = frecven ţă relativă cumulat ă descendent;
Frecvenţ a simpl ă notată cu f , indică numărul de rezultate ale subiec ţilor care se g ăsesc în intervalul respectiv. De exemplu, în intervalul 3, cu limitele 35 – 41 (limita inferioar ă 35, limita superioar ă 41) se găsesc 11 rezultate ale subiec ţilor. Deci, 11 subiec ţi au obţinut la proba AD-P rezultate (sau scoruri) cuprinse între 35 şi 41. Dacă adiţionăm toate cele 9 frecven ţe simple va rezulta valoarea 91, reprezentând ansamblul rezultatelor subiec ţilor care au participat la examinare (notat cu N mare. N reprezintă volumul distribu ţiei). Frecvenţ a simpl ă relativ ă, notată cu f%, indic ă cota parte de subiec ţi (este exprimat ă sub formă de propor ţie) din totalul de 91, existent ă în intervalul respectiv. În dreptul intervalului 3 (35 – 41) se vor afla 0,12 din totalul rezultatelor subiec ţilor, sau, exprimat sub form ă procentual ă, 12% din acest total(valoare trecut ă în parantez ă). Frecvenţ a cumulat ă ascendent indică numărul rezultatelor subiec ţilor care se găsesc până în dreptul intervalului respectiv (inclusiv acest interval). De exemplu, în dreptul intervalului 3 de la rubrica fc ↓ se găseşte valoarea 19, semnificând faptul că până în dreptul intervalului 3, inclusiv acesta, se g ăsesc 19 rezultate ale subiec ţilor, sau mai clar, primele 19 rezultate ale subiec ţilor ordonate cresc ător. Valoarea 19 se ob ţine prin adi ţia primelor 3 frecvenţe simple (19 = 2+6+11). Valoarea corespunz ătoare a intervalului 4, din rubrica fc ↓ este 36. Ea se obţine din adi ţia valorilor primelor 4 frecven ţe simple (36 = 2+6+11+17). Primele valori din rubricile f şi fc ↓ coincid (ambele au valoarea 2). Frecvenţ a relativ ă cumulat ă ascendent reprezintă cota parte din totalul rezultatelor subiec ţilor existentă până la un anumit interval. Ea ne informeaz ă despre propor ţia r ăspunsurilor subiec ţilor ( în parantez ă este trecut ă forma de exprimare procentual ă) până la un anumit interval. De exemplu, în dreptul intervalului 4 la rubrica fc ↓% se găseşte valoarea 0,40, care provine din adiţia frecvenţelor simple relative de la intervalele 1- 4 (0,02 + 0,07 + 0,12 + 0,19). Aceast ă valoare ne spune că până la intervalul 4, inclusiv acesta, se g ăsesc 0,40 din totalul r ăspunsurilor subiec ţilor, sau, exprimat sub form ă procentual ă, 40% din totalul acestora. Frecvenţ a cumulat ă descendent exprim ă numărul r ăspunsurilor subiec ţilor care se g ăseşte dincolo de un anumit interval Astfel, valoarea 72 a intervalului 4 din rubrica fc ↑ exprimă faptul că dincolo de intervalul 4 (inclusiv acesta) se g ăsesc 72 de r ăspunsuri ale subiec ţilor. Valoarea 72 se ob ţine scăzând din numărul total al subiec ţilor (N = 91) adi ţia frecvenţelor simple a primelor 3 intervale. Astfel 72=91–(2+6+11). Dac ă ar trebui s ă calculăm frecvenţa cumulat ă descendent a intervalului 5 vom sc ădea din totalul r ăspunsurilor adi ţia primele 4 valori, iar pentru intervalul 6 adi ţia primelor 5 valori (55 = 91–(2+6+11+17) şi 33=91–(2+6+11+17+22)). Frecvenţ a relativ ă cumulat ă descendent , notată cu fc↑% exprimă o situaţie identic ă, exprimată sub formă de propor ţie, în parantez ă sub formă procentual ă). Tabelul cuprinzând frecven ţele unei distribu ţii pe intervale de varia ţie are o utilitate deosebit ă pentru calculul diferi ţilor indicatori statistici.
113
AUREL STAN
II.3. REPREZENTĂRILE GRAFICE ALE REZULTATELOR. Formele de reprezentare grafic ă ale distribu ţiilor valorilor unei variabile (distribu ţii univariate, în care există o singur ă variabilă care ia diferite diferite valori) sunt foarte diversificat diversificate, e, Ele au menirea menirea de a vizualiza tendin ţele existente în interiorul unei distribu ţii. Prin aceast ă formă grafică unele tendinţe existente într-o distribu ţie sunt scoase foarte u şor în eviden ţă. Noi vom prezenta cele mai frecvent utilizate forme de exprimare grafic ă. Folosim pentru exemplificare distribu ţia de valori prezentat ă în tabelul anterior. II.3.1. Reprezentarea grafic ă prin coloane Prezintă în cadrul unui sistem de axe rectangulare intervalele de distribu ţie pe abscis ă şi frecvenţa acestora pe ordonat ă. Intervalele de distribu ţie sunt prezentate prin marcaje echidistante pe axa absciselor, din care înal ţă coloane propor ţionale cu frecven ţa acestor intervale.
25 r o l e l a v r e t n i a t n e v c e r F
22
20
17
15
13
11
12
10 6 5
5
2
3
0 "21-27"
"28-34"
"35-41"
"42-48"
"49-55"
"56-62"
"63-69"
"70-76"
"77-83"
Intervale de variatie
Figura 1. Reprezentarea grafic ă prin coloane sau prin bare
O formă a reprezent ării grafice prin coloane este histograma, în care coloanele sunt lipite unele de altele.
114
STATISTICĂ I 25 20 r o l e l a v r e t n i
15 22
10
a t n e v c e r F
17
0
13
11
5
12
6
2 "21-27"
5
"28-34"
"35-41"
"42-48"
"49-55"
"56-62"
"63-69"
3
"70-76"
"77-83"
Intervale de variatie
Figura 2. Reprezentarea grafic ă sub forma histogramei elor . O altă formă frecvent utilizat ă de reprezentare grafic ă a rezultatelor este poligonul frecven ţ elor Acesta se obţine prin unirea printr-un segment de dreapt ă a mijlocului liniilor superioare care marcheaz ă coloanele histogramelor. Se pot ob ţine şi prin unirea prin segmente de dreapt ă a punctelor care ar reprezenta frecven ţa fiecărui interval, pornind din centrul acestuia Figura 3. Reprezentarea grafic ă prin poligonul frecvenţ elor elor .
25 r o l e l a v r e t n i a t n e v c e r F
22
20 17
15 11
10
12
6
5 0
13
5
2 "21-27"
"28-34"
"35-41
"42-48"
"49-55"
"56-62"
"63-69"
70-76"
3 "77-83"
Intervale de variatie
Dacă marcăm pe abscis ă fiecare interval prin liniu ţe echidistante şi unim printr-o linie continu ă punctele reprezentând frecven ţa intervalelor ob ţinem curba distribu ţiei.
115
AUREL STAN
25 22 20 r o e l a v r e t n i
17 15 13
a t n 10 e v c e r F
12
11
6
5
5 3
2 0 " 21 21-27" "28-34"
"35-41
" 42 42-48" " 49 49-55" "56-62" "63-69"
70-76" " 77 77-83"
Intervalele de variatie
Figura 4. Reprezentare grafic ă sub forma curbei frecvenţ elor elor
Reprezentările grafice ale variabilelor calitative cunosc o serie de particularit ăţi, determinate de specificul scalei de m ăsurare. Astfel, pentru a nu crea iluzia unei forme de distribu ţ iei iei (deoarece modalit ăţile unei variabile nominale î şi pot schimba locul f ăr ă a denatura reprezentarea fenomenului studiat) se adopt ă ca forme de reprezentare grafic ă diagrama în tronsoane şi diagrama circular ă. Pentru exemplificare, exemplificare, folosim datele tabelului anterior referitor la tipul de studii. Diagrama prin tronsoane
14 43
c b a
75
a-studii umaniste;b-studii economice;c-studii tehnice
a studii tehnice 11%
Diagrama circular ă
studii economice 33%
studii umaniste 56%
Figura 5. Cuprinde modalit ăţ ăţ i de reprezentare grafic ă specifice scalelor nominale(în primul tip de reprezentare grafic ă sunt trecute frecvenţ ele ele absolute, în al doilea tip frecvenţ ele ele relative). relative).
116
STATISTICĂ I II.4. PROTOCOALE DE PREZENTARE A DATELOR. Noţiunea de protocol de prezentare a datelor este foarte frecvent utilizat ă în domeniul cercet ărilor calitative şi cantitative din cadrul disciplinelor socio-umane. Este un tablou al rezultatelor de baz ă care înregistrează rezultatul fiec ărui subiect în fiecare din condi ţiile experimentale. Pentru a nu folosi termeni ştiinţifici înc ă necunoscu ţi studenţilor anului I, men ţionăm că experimentul este o metod ă de investiga ţie care presupune varierea elementelor constitutive ale unei situaţii în scopul de a provoca un fenomen şi de a măsura evoluţia sa. Elaborarea unui experiment este f ăcută în scopul de a analiza modific ările r ăspunsului în func ţie de caracteristicile stimulului, ale situa ţiei, ale sarcinilor sau ale subiec ţilor. Am amintit anterior c ă variabilele independente în cadrul unui experiment poart ă numele de factori. Anumi ţi autori (H. Rouanet) disting variabila independent ă de factor, în sensul c ă factorul este o anumit ă operaţionalizare a variabilei. Operaţionalizarea conceptual ă a fost explicat ă anterior.. Un plan factorial este un plan de cercetare în care fiecare modalitate a factorului este combinat ă cu fiecare modalitate a altor factori. Num ărul condiţiilor experimentale într-un anumit plan factorial este egal cu produsul num ărului de modalit ăţi a fiecărui factor. Dacă dorim să studiem particularit ăţile atitudinale în func ţie de mediul de provenien ţă şi sex , vom avea un plan experimental 2x2 : variabila mediu de provenien ţă (notat cu P2) are modalit ăţile rural (notat p1) şi urban(notat p2) şi variabila sex(notat S2) are modalit ăţile masculin(notat s1) şi feminin (notat s2). 4 condiţii experimentale ofer ă surse de date care vor fi supuse analizei: condi ţia 1(p1s1), condiţia 2(p1s2), condi ţia 3(p2s1), condi ţia 4(p2s2). Protocol de tip S n – protocol de structur ă „subiect-rezultat total”. În cadrul acestui tip de protocol, fiecărui subiect s i dintr-un ansamblu format din n subiec ţi îi corespunde o valoare a variabilei X i.16 Exemplu:
Si S1 S2 S3 S4 Sn
Xi X1 X2 X3 X4 Xn
Si 1 2 3 4 87
Xi 17 19 27 33 27
Tabelul 8. Protocol de tip Sn În partea din dreapta se d ă un exemplu concret
Protocol de structur ă S . Protocol de structur ă „subiect-grup de apartenen ţă. Astfel de protocoale se construiesc în cazul în care rezultatele numerice apar ţin la subiec ţi care fac parte din grupuri diferite sau care au fost plasa ţi în situa ţii diferite şi constituie grupuri independente de măsur ători. Exemplific ăm:
16 Explicaţii
pag.94-103
suplimentare în lucrarea Valentin Clocotici, Aurel Stan, Statistic ă aplicat ă în psihologie, Polirom, Iaşi, 2000,
117
AUREL STAN
S S1 S2 S3 Si Sn
G G1 G1 G2 Gi Gq
Xi X1 X2 X3 Xi Xn
S 1 2 3 35 143
G Grup 1 Grup 1 Grup 2 Grup 3 Grup 7
Xi 12 19 23 35 29
Tabelul 9. Protocol de baz ă de tipul „subiect – grup de apartenenţă”
Protocol de tipul S*T – protocol de structur ă „subiect-condi ţii de investiga ţie. Se realizeaz ă în situaţia în care subiec ţii(S) sunt supu şi la mai multe condi ţii de solicitare psihic ă. Vom exemplifica pentru două condiţii: sunt prezentate rezultatele aceluia şi subiect în condi ţia T1 şi condiţia T2
S S1 S2 S3 ……. Sg
T
T1
T2
X11 X21 X31 ………. Xp1
X12 X22 X32 ……… Xp2
S 1 2 3 …… 123
T
T1
T2
23 34 28 …….. 21
29 31 39 …… 26
Tabelul 10. Protocol de baz ă de tipul „subiect – condi ţ ii de investigaţ ie”. În ultimele trei coloane din dreapta se exemplific ă cu o examinare concret ă.
Suportul protocolului este cadrul în care rezultatele individuale nu au fost reportate. Subprotocolul este o parte a protocolului de baz ă; rezultatele ob ţinute printr-o parte din subiec ţi şi/sau într-o parte a condiţiilor experimentale Mai putem vorbi de protocoale derivate. Acest tip de protocol este ob ţinut după ce s-a realizat anumite opera ţiuni (transformări ale variabilelor dependente, diferite calcule, condens ări şi rafinări ale modalit ăţilor) asupra protocolului de baz ă. De exemplu, calculul mediei rezultatelor ob ţinute de subiec ţi într-o condiţie experimental ă. Calculele pot s ă rezide în transformarea variabilei dependente (prin transformare logaritmic ă, de exemplu), în rezumarea rezultatele prin intermediul diferitelor tipuri de indicatori (tendin ţă centrală, dispersie), în însumarea datele individuale şi în calcularea frecven ţelor sau a procentajelor. În general, cercet ătorul va prezenta datele într-un tablou al rezultatelor care constituie un protocol derivat. Exemplificare . Protocoale derivate 17
Doi cercetători francezi, J.P. Rossi şi C. Loridan, au efectuat în anul 1987 un studiu asupra modelelor fonologice de identificare a stimulilor scri şi. În timpul efectu ării studiului au calculat durata pauzelor oculare asupra stimulului: (cuvinte sau ne-cuvinte) care aveau 2-3 silabe sau 4-5 silabe în
17 după J.P. Rossi & Al., La méthode expérimentale en psychologie, Dunod, Paris, 1997, pag.61
118
STATISTICĂ I situaţii de detec ţie a literelor(subiectul trebuie s ă spună dacă o anumită liter ă era prezent ă printre stimuli) şi de decizie lexical ă (subiectul trebuia s ă spună dacă stimulul era un cuvânt). În urma prelucr ării rezultatelor, autorii au întocmit urm ătorul tabel: Număr silabe n1 n2
m s m s
Detecţie litere (t1) Cuvinte(m1) Necuvinte(m2) 457 473 133 126 460 482 126 105
Decizie lexicală (t2) Cuvinte(m1) Necuvinte(m2) 414 497 111 137 468 579 145 176
În acest tabel sunt înregistrate duratele pauzelor oculare. Explicarea acestei cercet ări operează cu următorii termenii: factor principal sistematic, notat T2, cu modalit ăţile t1 (detec ţia literelor) şi t2 (decizia lexical ă). • Prin această se permite o prim ă diviziune în dou ă coloane a rezultatelor; tipul de stimul, notat cu M2, cu modalit ăţile m1 (cuvinte) şi m2 (necuvinte). Cu M2 se permite • subdivizarea coloanelor t1 şi t2 (sarcinile); numărul de silabe, notat N2, cu modalit ăţile n1 (2 sau 3 silabe) şi n2 (4 sau 6 silabe). N2 este • indicat pe linii. Variabila dependent ă este durata pauzelor oculare. • În tabel sunt înregistrate mediile interindividuale ( m), ca indicator de tendin ţă centrală, şi abaterile standard (s), ca indicator de împr ăştiere. Lectura tabelului presupune punerea în coresponden ţă a liniilor şi coloanelor. Valoarea 457 semnific ă durata medie a pauzelor oculare în sarcina de detec ţie a literelor când stimulii sunt cuvinte de 2-3 silabe. Valoarea 497 semnific ă durata medie a pauzelor oculare când stimulii sunt necuvinte de 2-3 silabe. Protocolul prezint ă un indicator de tendin ţă centrală şi un indicator de împr ăştiere care fac bilan ţul datelor experimentale. Un protocol de baz ă cuprinde durata pauzelor oculare ob ţinute de fiecare subiect pentru fiecare din stimulii prezenta ţi, deoarece în fiecare condi ţie experimental ă sunt utiliza ţi mai mulţi stimuli diferi ţi.
II.5. TRANSFORMAREA VALORILOR BRUTE ÎN CUANTILE Care este ra ţiunea acestei transform ări? În marea majoritate a examin ărilor psihologice se cere o raportare valoric ă a rezultatelor ob ţinute. Rezultatul brut al unui test sau chestionar psihologic nu ne poate da decât o indica ţie vagă în privinţa aprecierii unui rezultat. Pentru a veni în întâmpinarea dezideratului de raportare valoric ă a rezultatelor s-au creat dou ă sisteme de norme. Unele dintre acestea sunt cuantilele, iar celelalte sunt variabilele normate care vor fi tratate în sec ţiunea din lucrare afectată indicatorilor de împr ăştiere. Cuantilul este un element al unei serii ordonate de valori ale unei variabile care separa dou ă cuantumuri procentuale din volumul total al valorilor variabilei. Practic, este o “born ă” numerică separând dou ă cuantumuri procentuale ale ansamblului valorilor Valorile variabilei separate prin intermediul unui cuantil sunt ordonate cresc ător sau descresc ător, operaţie anterioar ă stabilirii cuantilului. Separa ţia unui ansamblu de valori ale variabilelor în cuantile constituie una din formele de etalonare a testelor, adic ă de creare a unor scale de apreciere a valorii performan ţelor obţinute la diferite sisteme de solicitare psihic ă. Etaloanele permit de a situa un subiect care a ob ţinut un scor 119
AUREL STAN
determinat într-o anumit ă clasă valorică a subiecţilor pentru care testul a fost etalonat. Se va vorbi de intercuantile (de interdecile, de exemplu) pentru a desemna n+1 zone de distribu ţie delimitate prin cuantile (prin n desemnând num ărul cuantilelor). Uneori se utilizeaz ă termenul de interquantil în loc de quantil. Distinc ţia clar ă se face prin precizarea faptului că interqantilul este un interval numeric , pe când quantilul este reprezentat de o singur ă valoarea numerică. Lucr ările se specialitate ale lui Maurice Reuchlin consacrate statisticii aplicate în psihologie fac clar ă această separaţie de sensuri pentru cele două noţiuni18. Cuantilele şi intercuantilele numerotate cu 1 corespund, în general în Franţa, celor mai bune rezultate, iar în SUA rezultatelor celor mai slabe. Este o chestiune de convenţie a notării. Dacă într-o distribuţie se vor reprezenta intercuantilele prin clase determinând intervale pe axa absciselor, se va asigura la aceast ă distribuţie grafică o formă rectangular ă, efectivele teoretice ale tuturor interquantilelor fiind egale prin definiţie. La începutul procedurii de cuantilaj (formă particular ă a etalonajului) se alege o metrică, adică un număr de niveluri pe care scala permite de a le discrimina. Dacă o scală cuprinde n niveluri şi dacă efectivul total al unui
N . Scala în cuantile va corespunde, deci, unui model n rectangular. Cele mai utilizate tipuri în cuantile sunt prezentate în tabelul care urmează: eşantion este N , efectivul fiecărui nivel va fi teoretic
Nr.crt.. 1 2 3 4 5 6 7 8 9
Nr interquantile 3 4 5 6 7 8 9 10 100
Nr quantile 2 3 4 5 6 7 8 9 99
Denumire tehnică Trecilă Quartilă Quintilă Sextilă Septilî Octiilă Nonilă Decilă Centilă.
Tabelul nr. 11 Conţ ine denumirile formelor de etalonare prin intermediul cuantilelor, gradiente de la 3 la 10
Pentru a construi un decilaj (sistem de clasificare cuprinzând 9 cuantile şi 10 intercuantile) se procedeaz ă în aşa fel încât clasele scalei rezultate s ă conţină fiecare un acela şi număr de scoruri din e şantionul de referin ţă. Este vorba de o conven ţie care va face distribu ţia rectangular ă (în care fiecare diviziune are un num ăr egal de subiec ţi). Dacă scala este constituit ă din 10 clase egale în efectiv, acest efectiv va trebui s ă aibă 10% din num ărul total al subiec ţilor. Limitele valorice ale interquantilului I vor con ţine primele 10 % din notele brute, celor mai slabe din distribu ţie, ale interquantilului II con ţin 10% din rezultatele care urmeaz ă, şi a şa mai departe, pân ă la interquantilul X. Quantilul I va separa primii 10% din subiec ţi de următorii 90%, quantilul II primii 20% din subiec ţi de următorii 80 %, şi aşa mai departe, pân ă la quantilul IX care va separa primii 90% de urm ătorii 10% . Oferim un exemplu imaginat: un psiholog examineaz ă un număr de 360 de subiec ţi cu un anumit test în vederea etalon ării acestuia. Procedura de etalonare se pune în practic ă în faza construirii unor instrumente de investiga ţie psihologic ă sau în cazul reevalu ării acestora. Notele testului variaz ă, in exemplu nostru, între 0 şi 35. Exemplu dat este unul imaginat şi nu va conţine primele 5 valori (1,2,3,4,5) şi ultimele 3 (33,34 şi 35). De obicei, în examinare se ob ţin foarte rar scorurile cele mai mici şi scorurile cele mai mari ale testului sau chestionarului. Dac ă datele ar fi fost reale, ar fi trebuit s ă se facă o serie de preciz ări cu privire la constituirea e şantionului de etalonaj, adic ă la provenien ţa subiec ţilor examinaţi, la vârst ă, nivel de studii, sex etc. De asemenea, ar fi trebuit s ă se facă precizări cu
18 Vezi Maurice Reuchlin,
120
Précis de statistique, PUF, Paris, 1976, pag. 67-78
STATISTICĂ I privire la tehnicile folosite pentru selectarea subiec ţilor în eşantion. Înaintea opera ţiunii de etalonare, datele se organizeaz ă crescător în variante de varia ţie. Tabelul întocmit în vederea stabilirii scalei de etaloane în 10 interquantile (sau în 10 clase) va ar ăta în felul urm ător. X 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
n 3 7 4 6 8 11 14 17 16 19 24 22 26 21 24 18 19 17 14 16 14 11 9 7 6 5 2
nc 3 10 14 20 28 39 53 70 86 105 129 151 177 198 222 240 259 276 290 306 320 331 340 347 353 358 360
nct
Interdecil
Decil
36
0 – 11
11
72
12 – 13
108
Numerotare
% interdecil
Separaţie decil
I
10,88%
10,88%/89,12%
13
II
8,61%
19,49%/80,51%
14 – 15
15
III
9,72%
29,21%/70,79%
144 180
16 – 17 18
17 18
IV V
12,77% 7,22%
41,98%/58,02% 49,20%/50,80%
216
19 – 20
20
VI
12,50%
61,70%/38,30%
252
21 – 22
22
VII
10,27%
71,97%/28,03%
288
23 – 24
24
VIII
8,61%
79,58%/20,42%
324 331 340 347 353 358 360
25 – 26
26
IX
8,33%
87,91%/12,09%
27-32 X 12,09% Tabel nr. 12. Coloanele tabelului conţ in etape ale procedurii de etalonare prin metoda quantilelor a rezultatelor obţ inute la un test psihologic de subiec ţ i unui eşantion
Notaţiile folosite în tabel : X: nota brută n: frecvenţa absolută a unei variante de varia ţie nc:frecvenţa cumulată absolută nct: frecvenţa cumulată absolută necesar ă teoretic pentru calcularea interquantilelor şi quantilelor. Jocul frecven ţelor cumulate absolute face s ă nu putem “t ăia” distribuţia exact acolo unde trebuie. În acest caz ne limit ăm în calcul la cele mai apropiate valori de cele teoretice. Astfel, la primul decil ar fi trebuit să ne oprim la valoarea 36. Valoarea 39 folosit ă de noi ca valoare delimitativ ă pentru primul decil este cea mai apropiat ă valoare de 36. Procedând în acest fel am realizat un compromis metodologic . În cazul când dorim s ă stabilim o scal ă în centile sau percentile, avem la îndemân ă o procedur ă puţin diferită. Pentru a pune în aplicare aceast ă procedur ă trebuie să avem distribu ţii ale căror amplitudini sunt de ordinul sutelor. Ra ţiunea construirii scalelor care fac apel la centile este de a asigura 121
AUREL STAN
o discriminare foarte fin ă a subiecţilor, dar în cazul în care amplitudinea distribu ţiei este sub 100 asigur ăm o fals ă fineţe a diferenţierii. Redăm, în continuare, un tabel ale c ărui coloane indic ă paşii de urmat în procedura de calcul: Luăm exemplu a 127 de subiec ţi care au fost examinaţi cu un anumit test (exemplul este fictiv). Nr.crt. X f f% C fc% Percentila 1. 11 2 1,57 2 1,57 0,79 2. 12 5 3,94 7 5,51 3,54 3. 13 7 5,51 14 11,02 8,27 4. 14 11 8,68 25 19,69 15,36 5. 15 19 14,96 44 34,65 27,17 6. 16 26 20,47 70 55,12 44,89 7. 17 18 14,17 88 69,29 62,21 8. 18 15 11,81 103 81,10 74,50 9. 19 11 8,66 114 89,76 85,43 10. 20 7 5,51 121 95,28 92,52 11. 21 4 3,15 125 98,43 96,85 12. 22 2 1,57 127 100,00 99,22 Tabel nr. 13. Coloanele tabelului indic ă etapele necesare calcul ării valorilor percentile
Avem în faţă un exemplu simplu, deoarece în practic ă este foarte pu ţin probabil s ă se găsească un test la care s ă se poată obţine doar 12 valori distincte. Procedura exemplificat ă de noi este folosit ă de autori reputa ţi în domeniul psihometric ca David Magnusson 19, J.J. Bernier şi B. Pietrulewicz 20. Prin această procedur ă se încearc ă a se ameliora impreciziile metodei prezentate la calculul decilelor. Coloana notat ă cu X con ţine diferitele variante ale variabilei ob ţinute în urma unei examin ări cu un anumit test. A doua coloan ă, notată cu f , conţine frecvenţele diferitelor valori ale variabilei. În total au fost cuprin şi în analiz ă 127 de rezultate ale subiec ţilor. Cu f% a fost notat ă frecvenţa simplă relativă, care se ob ţine prin înmul ţirea cu 100 a rezultatului împ ăr ţirii fiecărei frecvenţe simplă la 127 (num ărul total de subiec ţi examina ţi). Cu fc a fost notat ă frecvenţa absolută cumulată ascendent, iar cu fc% frecvenţa relativă cumulată ascendent. Valorile din aceast ă coloană se obţin prin înmul ţirea cu 100 a rezultatului împ ăr ţirii fiecărei valori din coloana fc la 127. Ultima coloan ă conţine transformarea în valori percentile a valorilor ini ţiale ale testului. Cum se ob ţin aceste valori? Valoarea 13, de exemplu, este considerat ă mijlocul unui interval de clas ă care se întinde de la 12,5 pân ă la 13,5. Ca atare, valoarea percentilă este constituit ă din frecven ţa cumulată relativă anterioar ă valorii 13 şi din adăugarea ½ din frecvenţa relativă din dreptul valorii 13. 5,51 8,27 = 5,51 + 2 8,68 15,36 = 11,02 + 2 Ce ne spune o valoare percentil ă? Ea ne spune, de exemplu, c ă sub valoarea 16 se g ăsesc aproximativ 45% din totalul subiec ţilor, iar peste aceast ă valoare se g ăsesc aproximativ 55 % din totalul subiec ţilor. 19 vezi David Magnusson,
Testtheorie, Verlag Fraanz Deutlicke Wien, 1973, pag 252
20 vezi J.J. Bernier, B. Pietrulewicz, La psychometrie, Gaetan Morin Editeur, Montreal, Casablanca, 1997,
122
pag. 371-372
STATISTICĂ I În cazul ordon ării valorilor variabilei pe intervale de varia ţie procedura este pu ţin diferită. Folosim exemplul de la începutul sec ţiunii referitoare la gruparea datelor. Rubricile tabelului sunt cunoscute din comentariile noastre anterioare. În cazul în care dorim s ă construim o scal ă în quartile (trei quartile împart distribu ţia în 4 clase) vom stabili în primul rând quota, adică un cuantum procentual de subiec ţi separat de valorile quartilelor. Deci, quartilele se refer ă la valorile distribu ţiei, iar quota la un cuantum procentual al efectivului total. Quota pentru primul quartil va fi de 25% din efectivul total (22,75 în valoare absolut ă), quota pentru cel de-al doilea quartil va fi de 50% (45,5 în valoare absolut ă) şi quota pentru cel de-al treilea quartil va fi de 75% (68,25 în valoare absolut ă). Nr.crt Interval f Fc↓ fc↓% 1 21 – 27 2 2 0,02 (2%) 2 28 – 34 6 8 0,09 (9%) 3 35 – 41 11 19 0,21 (21%) 4 42 – 48 17 36 0,40 (40%) 5 49 – 55 22 58 0,64 64%) 6 56 – 62 13 71 0,78 (78%) 7 63 – 69 12 83 0,91 (91%) 8 70 – 76 5 88 0,97 (97%) 9 77 – 83 3 91 1,00 (100%) Total N=91 Tabelul 14. Coloanele tabelului conţ in etape de calcul pentru obţ inerea quantilelor şi interquantilelor în condi ţ iile grupării de variante de variaţ ie
Valoarea primei quote va cuprinde 25% din rezultatele subiec ţilor examina ţi.. Dacă privim la rubrica fc↓% a tabelului observ ăm că primii 25% din subiec ţi sunt delimita ţi de intervalul num ărul 4 care cuprinde pân ă la el 40% din subiec ţi (inclusiv intervalul 4). Intervalul anterior nu putea s ă facă o astfel de separaţie, deoarece pân ă la el se g ăsesc doar 21% din rezultatele subiec ţilor (19 rezultate în valoare absolut ă). Formula de calcul pe care o aplic ăm pentru calculul quantilelor pentru date organizate pe variante de varia ţie este următoarea. i * d Q = X sup + ; f în care: Q = denumire generică pentru quantil; Xsup= valoarea superioar ă a intervalului anterior celui în care se afl ă quota; i = mărimea intervalului de varia ţie; d = diferenţa dintre valoarea absolut ă a quotei şi frecven ţa cumulat ă absolut ă anterioar ă intervalului în care se afl ă quota; f = frecvenţa simpl ă absolută a intervalului în care se afl ă quota Pentru cazul nostru particular de calcul a quartilelor, form ă particular ă a quantilelor, vom nota quartilul 1 cu Q1, quartilul 2 cu Q2, quartilul 3 cu Q3. Pentru Q1 am amintit c ă valoarea procentual ă a quotei este de 25%, iar valoarea absolut ă este de 22,75 (25% din 91; 91×0,25=22,75). Valoarea absolut ă a quotei primului quartil se afl ă în intervalul 4. Xsup sau valoarea superioar ă a intervalului anterior celui în care se afl ă quota este egală cu 41. Intervalul anterior este intervalul 3 (35-41). Valoarea superioar ă sau limita superioar ă a acestuia este 41. Mărimea unui interval (i) este egal ă cu 7. 123
AUREL STAN
Diferenţa dintre valoarea absolut ă a quotei (22,75) şi frecvenţa absolută cumulată ascendent a intervalului anterior celui în care se afl ă quota (19) este egal ă cu 3,75 (deci, d=22,75–19=3,75). Frecvenţa intervalului în care se afl ă quota este egal ă cu 17. Intervalul 4 are frecven ţa egală cu 17. Avem la dispozi ţie toate datele necesare calcul ării primului quartil. 7 * 3,75 26,25 Q1 = 41+ = 41+ = 41 + 1,54 = 42,54 17 17 În continuare, trecem la calcularea celui de-al doilea quartil. Al doilea quartil separ ă primele 50% din rezultatele subiec ţilor de următoarele 50%. De aceast ă dat ă quota va fi egală cu 50% din efectivul 91 total, deci, va avea valoarea 45,5 ( = 45,5 ). De această dată quota se va situa în intervalul 6, adic ă 2 intervalul 49 –55. Limita superioar ă a intervalului anterior celui în care se afl ă quota (Xsup) va fi egal ă cu 48, diferenţa între quot ă şi frecvenţa cumulată ascendent anterioar ă va fi egal ă cu 9,5 (d = 45,5 – 36 = 9,5) şi frecvenţa pe intervalul în care se afl ă quota va fi egal ă cu 22. Din efectuarea calculelor rezult ă: 7 * 9,5 66,5 Q2 = 48+ = 48 + = 48 + 3,02 = 51,02 22 22 Pentru calcularea celui de-al treilea quartil, care separ ă primele 75% dintre rezultatele subiec ţilor de ultimele 25% din acestea, quota va fi egal ă cu 75%, adic ă are valoarea 68,25. Aceast ă valoarea se va g ăsi în rubrica fc ↑ în dreptul intervalului 6 (56 –62). Valoarea superioar ă a intervalului anterior celui în care se afl ă quota va fi egală cu 55 (Xsup.). Diferenţa dintre quot ă şi frecvenţa cumulată ascendent a intervalului anterior celui în care se afl ă quota este egal ă cu 10,25 (d = 68,25 – 58,00). Frecven ţa intervalului în care se afl ă quota specific ă quartilului 3 este egal ă cu 13. După ce am aflat respectivele valori, putem trece la calcularea quartilului 3. Q3 = 55 +
7 * 10,25 13
= 55 +
71,75 13
= 55 + 5,51 = 60,51
Deoarece valorile quartilelor prezint ă zecimale (ele rezult ă din interpolare) putem s ă procedăm la întregire. Prezent ăm situaţia rezultat ă în tabelul urm ător. Nr.crt. Notare Valoare Întregire Notare interquartile Limite quartille 1 Q1 42,54 43 I → 43 2 Q2 51.02 51 II 44 – 51 3 Q3 60,51 61 III 52 – 61 4 IV 62 → Tabelul 15. Conţ ine exemplific ări pentru valorile şi not ările quartilelor
Procedura este identic ă pentru celelalte variante ale cuantilelor. Datele pentru efectuarea calculelor variaz ă în funcţie de mărimea valorilor variabilei şi de dimensiunea quotei. Se observ ă foarte uşor că interquartilele nu sunt egale în privin ţa dimensiunii intervalelor, ci în privin ţa numărului de rezultate conţinute. De exemplu: pân ă la valoarea 43 se g ăsesc primele 25% dintre rezultate, între valorile 44 şi 51 ale variabilei se g ăsesc următoarele 25% dintre rezultate, ş.a.m.d.
124
STATISTICĂ I E X E R C I Ţ I U Următoarele rezultate apar ţin unor subiec ţi care au efectuat un test psihologic. 111,116,118,56,58,90,75,65,76,55,47,69,83,100,87,70,,81,73,69,94,85,76,79,81,85,61,58,73, 97,101,89,98,66,85,93,67,84,75,57,80,78,94,107,69,75,97,83,89,72,84,103,107,80,73,79,85, 110,59,63,85,78,63,101,97,93,83,87,69,101,93,83,77,98,64,68,78,96,103,98,81,75,85,89,93, 98,58,109,113,58,69,75,87,89,93,87,85,88,89,73,90,78,108,59,70,82,75,72,80 Pentru gruparea şi sistematizarea rezultatelor efectua ţi următoarele sarcini de prelucrare statistic ă: stabiliţi amplitudinea distribu ţiei; realizaţi o grupare pe variante de varia ţie; realizaţi o grupare pe intervale de varia ţie în 7 şi 9 clase; realizaţi histograma distribu ţiei grupate pe intervale de varia ţie; calculaţi valorile quartilelor şi decilelor, a interquartilelor şi a interdecilelor.
125
AUREL STAN
III. INDICATORII STATISTICI În activitatea de cercetare a unei serii de date avem nevoie de expresii numerice precise care s ă descrie condensat caracteristicile acesteia. Aceste m ărimi poartă numele de indicatori statistici.. Indicatorul statistic este o m ărime cu ajutorul c ăreia se caracterizeaz ă un fenomen sub raportul structurii, interdependen ţelor, şi modific ărilor în timp şi spaţiu. Expresia numeric ă este legat ă de calitatea fenomenului studiat şi, în consecin ţă, indicatorul statistic este expresia numeric ă a unei categorii riguros definite. Din punct de vedere numeric indicatorul statistic poate fi o m ărime absolut ă (volum, efectiv, total) sau o m ărime derivata (medie, indice, coeficient). Indicatorul statistic este rezultatul unei observ ări şi prelucr ări statistice. În activitatea de prelucrare a datelor din domeniul psihopedagogic, şi nu numai din acesta, se fac raportări la 4 feluri de indicatori: 1. indicatori de nivel sau de tendin ţă centrală (medie, median ă, modul); 2. indicatori de împr ăştiere (amplitudine, abatere quartil ă, abatere medie, varian ţă, abatere standard); 3. indicatori de asimetrie 4. indicatori de exces sau de boltire Media exprimă nivelul atins de o variabila numeric ă atunci când aceast ă variabilă este uniform repartizată pe unit ăţile care compun o popula ţie determinat ă. Cuvântul medie, f ăr ă nici o alt ă specifica ţie, se folose şte în accepţia de medie aritmetic ă, medie fundamentat ă în teorie şi comod de utilizat în practic ă. Alte medii uzuale sunt: media armonic ă, media geometrica şi media pătratică. Notaţia uzuală pentru media aritmetic ă este , dar se pot întâlni şi alte notaţii. În sens general, media trebuie s ă satisfacă anumite condi ţii. Acestea sunt: · Medie trebuie s ă fie definit ă în mod precis. Aceast ă cerinţă nu poate fi l ăsată doar pe seama simplei aprecieri subiective a celui care efectueaz ă acţiunea de observare; medie trebuie sa fie expresia tuturor observa ţiilor f ăcute. În caz contrar, ea nu poate fi în mod real o · valoare tipică a întregii reparti ţii; Este de dorit ca media s ă posede propriet ăţi simple şi evidente, f ăcând posibil ă înţelegerea sensului · său general. O medie nu trebuie s ă aibă un caracter matematic prea abstract; · Este de dorit ca o medie s ă poată fi calculat ă cu uşurinţă şi rapiditate. Dintre dou ă medii cu proprietăţi asemănătoare va fi preferata aceea care se poate calcula mai u şor. Însă, nu trebuie să acordăm o prea mare aten ţie uşurinţei în calcul în detrimentul altor exigen ţe; Este de dorit ca media sa fie afectat ă cât mai pu ţin de fluctua ţiile de selec ţie. În e şantioanele · extrase (eşantionul are sensul de subansamblu al unei popula ţii) din aceea şi populaţie mediile vor fi rareori identice, iar o form ă anumită de medie poate conduce la diferen ţe mai mari decât alta. Dintre doua forme de medii va fi mai bun ă aceea care prezint ă mai multă stabilitate. · Medie trebuie s ă poată fi rapid studiat ă cu ajutorul calculului algebric.
126
STATISTICĂ I În marea majoritate a cazurilor de cercet ările psihopedagogice referin ţele se fac la media aritmetică., motiv pentru care nu prezent ăm celelalte feluri de medii: media geometric ă, media pătratică, media armonic ă (avem, desigur, în vedere şi caracterul simplificat al acestui curs). Referindu-ne în mod special la media aritmetic ă, adică media obţinută ca raport între suma valorilor observate ale unei variabile şi numărul lor, men ţionăm care sunt propriet ăţile acesteia: Dacă luăm în considera ţie diferenţele dintre fiecare observa ţie în parte şi media aritmetic ă, · observăm că suma algebric ă a acestor diferen ţe va fi egal ă cu 0; · Suma pătratelor abaterilor respective este un minim pentru ansamblu de valori. Suma p ătratelor abaterilor de la fiecare valoare individual ă a variabilei şi media aritmetic ă este mai mic ă decât suma abaterilor ridicate la p ătrat în jurul oric ărei alte valori în afar ă de media aritmetic ă; Nr.crt. 1 2 3 4 5 6 7 8 9 10 11 Total
X 11 15 15 19 22 21 17 12 17 19 18 187
x=X-X -6 -2 -2 2 5 4 0 -5 0 2 1 0
x2 36 4 4 4 25 16 0 25 0 4 1 119
X-15 -4 0 0 4 7 6 2 -3 2 4 3 21
(X-15)2 16 0 0 16 49 36 4 9 4 16 9 159
X-19 -8 -4 -4 0 3 2 -2 -7 -2 0 1 -7
(X-19)2 64 16 16 0 9 4 4 49 4 0 1 159
Tabelul 16. Cuprinde compararea sumei deviaţ iei valorilor de la medie în comparaţ ie cu suma deviaţ iilor de la alte valori
Volumul sau efectivul acestei distribu ţii este 11. Media o afl ăm prin divizarea sumei tuturor valorilor individuale (187) la 11, rezultatul fiind 17. Prin x se notează deviaţiile fiecărei valori de la medie, motiv pentru care valoarea ob ţinută se numeşte valoare de devia ţ ie. În tabel se observa clar c ă suma pătratelor diferenţei de la alt ă valoare decât media aritmetic ă este o valoare mai mare decât suma p ătratelor abaterilor de la media aritmetic ă. Astfel, din consultarea tabelului rezult ă: 2 2 ∑ x < ∑ ( X − 15) ; ∑ x 2 < ∑ ( X − 15) : ∑ x 2 < ∑ ( X − 19) Folosirea mediei în prelucrarea statistic ă a datelor din domeniul psihopedagogiei este frecvent ă în trei tipuri de situaţii, din care unele pot fi rezolvate prin folosirea medianei şi a modulului: · Situaţia în care se pune problema de a aprecia o observa ţie într-o distribu ţie. Exemplu: O notă poate fi apreciat ă ca superioar ă sau inferioar ă mediei. În general, se precizeaz ă această constatare. Situaţia în care se compar ă un grup de observa ţii cu un altul. Exemplu: Într-un proces de înv ăţare · care comport ă o serie de încerc ări succesive pot s ă fie lăsate intervale de timp (înv ăţare distribuit ă) sau nu (înv ăţare masată). Se constat ă, în general c ă rezultatul unui grup de subiec ţi în înv ăţarea distribuit ă este superior rezultatului în înv ăţarea masată. Dacă cineva consider ă că această
127
AUREL STAN
·
diferenţă este prea mare pentru a putea s ă se explice doar prin varia ţii fortuite, aceasta va conduce la o explicaţie psihologic ă; Situaţia în care seriile de date provin de la o surs ă de variaţie sistematic ă sau de la mai multe. Se poate calcula valoarea medie asociat ă la fiecare din st ările acestei surse Aceast ă medie permite de a descompune varia ţiile observate în mai multe abateri (care se numesc "efecte") şi de a analiza astfel importan ţa relativă a diferitelor surse sistematice sau fortuite. Posibilitatea unei astfel de analize este esen ţială pentru explicarea fenomenelor observate. III.1. CALCULUL MEDIEI ARITMETICE
Avem trei situa ţii diferite în procedura de calcul a mediei aritmetice:: 1. situaţia în care variabilele sunt negrupate; 2. situaţia în care variabilele sunt grupate pe variante de varia ţie; 3. situaţia în care variabilele sunt grupate pe intervale de varia ţie. În cazul în care variabilele sunt negrupate se adi ţionează toate valorile variabilei şi rezultatul final se împarte la efectivul total al observa ţiilor. Să presupunem c ă în urma efectu ării unui experiment privind timpul de reac ţie intraindividual am ob ţinut următoarele rezultate: ale variabilei (notat ă de noi cu X) “timp de reac ţie intraindividual”: 21, 24, 28, 31, 17, 20, 22, 16, 18, 27, 22, 19, 26, 29, 30. În total avem 15 observa ţii succesive efectuate pe aceea şi persoană. În acest caz media se calculeaz ă prin X următoarea formul ă: = ∑ în care este notarea mediei aritmetice, ∑ X este suma valorilor N individuale ale variabilei X şi N exprimă numărul total de observa ţii sau efectivul distribu ţiei. În cazul −
X 350 nostru concret: X = ∑ = = 23,3 . Litera greceasc ă Σ are sensul de sum ă. Formula pentru date N 15 negrupate se practic ă în situaţia în care avem pu ţine date la dispozi ţie. În cazul în care num ărul valorilor unei variabile devine mare, este necesar ă operaţiunea de grupare a datelor. S ă presupunem c ă pentru aceeaşi situaţie experimental ă am cules date de ordinul sutelor şi am procedat la o grupare a lor conform tabelului nr. 17. fX În acest caz, formula pentru calculul mediei este urm ătoarea X = ∑ în care X este variabila N ordonată pe variante de varia ţie, f frecvenţa variantelor de varia ţie şi N este volumul observa ţiilor sau efectivul total al acestora. N = ∑ fX = 302 Litera grecească Σ (sigma) are sensul “sum ă de”. Pentru
7023 . 302 În cazul în care avem la dispozi ţie un număr mare de date şi de variante de varia ţie (şi seriile de valori au o amplitudine de varia ţie mare) folosim gruparea datelor prin intermediul intervalelor de varia ţie şi o formulă specifică pentru medie. exemplul nostru concret ob ţinem: 23,25 =
128
STATISTICĂ I Nr.crt. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
X 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
F 5 11 17 24 30 35 38 32 28 20 18 16 13 9 6 N = 302
fX 90 187 306 456 600 735 836 736 672 500 668 432 364 261 180 ∑ fX = 7023
Tabelul 17. Cuprinde exemplificare pentru modul de calcul al mediei aritmetice în cazul grupării datelor pe variante de variaţ ie
EXEMPLU: Să presupunea că în urma efectuării unui examen psihologic în care am folosit şi o probă de atenţie (foarte rar un examen psihologic se reduce la o singura probă, de cele mai multe ori se folose şte în cursul unui astfel de examen un ansamblu de procedee de investiga ţie) rezultatele au fost grupate, aşa cum se prezint ă în tabelul care urmeaz ă. Precizăm că în acest tabel am trecut date care sunt necesare pentru aplicarea a două formule diferite de calcul. În una din formule folosim frecven ţele înmulţite cu centrul intervalului notelor brute, iar în alta folosim variabila codificat ă u, variabilă a cărei interven ţie este justificată de comoditatea în opera ţiile de calcul. Nr.crt Intervalul Xi f fXI u Fu 1 27 - 31 29 7 203 -3 -21 2 32 - 36 34 13 442 -2 -26 3 37 - 41 39 20 780 -1 -20 4 42 - 46 44 27 1188 0 0 5 47 - 51 49 25 1225 1 25 6 52 - 57 54 17 918 2 34 7 56 - 62 59 9 531 3 27 Σf = N = 118 ΣfXi = 5287 Σfu = 19
Tabelul 18. Cuprinde exemplificare pentru modul de calcul al mediei aritmetice în cazul grupării datelor pe intervale de variaţ ie
În cazul folosirii primei variante de calcul anun ţate a mediei aritmetice aplic ăm următoarea fX formulă: X = ∑ i . În cazul de fa ţă f reprezintă frecvenţa pe interval, X i desemnează centrul N intervalului ( i variază de la 1 la 7, num ărul total al intervalelor) şi N numărul total al rezultatelor subiec ţilor (N=118). Prin aplicarea formulei rezult ă: 5287 X = = 44,8 , în care 5287 reprezint ă suma produselor dintre centrele intervalelor şi frecvenţelor 118 acestora, iar 118 num ărul total al rezultatelor subiec ţilor sau efectivul total. Atragem aten ţia asupra faptului că o asemenea formul ă aproximeaz ă valoarea mediei aritmetice. Aceast ă aproximare poate fi acceptat ă în cazul în care variabilele sunt repartizate armonios pe lungimea intervalului. Dac ă în intervalul 1 (27 – 31) vom avea valorile 27, 28, 29,29,29, 30, 31 atunci centrul intervalului este reprezentativ pentru acesta, dar dac ă vom avea în acest interval 7 valori de 27 sau 7 valori de 31 centrul intervalului de varia ţie nu mai îndepline şte această condiţie. Ca atare, acest mod de calcul nu se recomand ă în situa ţia în care distribuţiile valorilor prezint ă asimetrii puternice. 129
AUREL STAN
Realizarea rubricii variabilei codificate u, utilizat ă în cel de-al doilea procedeu de calcul pentru variabile ordonate pe intervale de varia ţie, presupune fixarea în dreptul unui interval a valorii 0 a variabilei codificate. Aceast ă fixare este arbitrar ă, însă, de regulă, se realizeaz ă în dreptul intervalului modal, adic ă în dreptul acelui interval care are frecven ţa cea mai mare. În cazul exemplificat de noi acest interval poart ă num ărul curent 4 (42 – 46) Valoarea central ă a acestui interval va fi o valoare de referinţă şi o vom nota cu A. În cazul nostru A = 44. Valorile coloanei u se stabilesc prin împ ăr ţirea diferenţei dintre valoarea variabil ă X i şi constanta A la mărimea intervalului ( i ). Urmând procedura de 39 − 44 34 − 44 29 − 44 ş.a.m.d. Pentru valorile mai mici ale calcul vom ob ţine: -1= , -2 = , -3 = 5 5 5 variabilei X I decât constanta A se obţin valori negative ale variabilei codificate u, şi pentru valori mai mari ale variabilei X i decât constanta A se obţin valori pozitive ale variabilei codificate u. În cazul folosirii în calcul al variabilei codificate u, formula de calcul va fi urm ătoarea: i * fu = A + ∑ , N în care A este o constant ă egală cu mărimea centrului intervalului pentru care variabila u = 0, i este mărimea unui interval, fu este produsul din frecven ţa intervalului şi variabila codificat ă u, f este frecvenţa simplă unui interval şi u variabila codificat ă. 5 * 19 Prin aplicarea formulei ob ţinem = 44 + = 44,8. Facem înc ă o dată precizarea c ă aceste 118 proceduri de calcul fac posibil ă apariţia unei anumite erori, eroare datorat ă faptului că se lucreaz ă cu mărimi de reprezentare. Astfel, centrul intervalului este considerat reprezentativ pentru întregul interval, situaţie care antreneaz ă erori mari în cazul în care distribu ţia valorilor are asimetrii accentuate, de stânga sau de dreapta. În acest caz se impune o opera ţiune de mic şorare a m ărimii intervalului pân ă la limite care asigura o marja de eroare acceptabil ă. Cea mai corect ă modalitate de calcul a mediei este cea rezultat ă din adi ţia variabilelor brute si divizarea sumei acestor variabile brute la num ărul de observaţii. Prezenţa unor instala ţii de calcul electronic, chiar mai pu ţin performante, fac din calculul mediilor, si nu numai a lor, o opera ţiune banală, executată într-un timp extrem de scurt. Problema calcului mediilor se pune şi in cazul analizei de itemi. Itemul este o component ă informaţională elementar ă a unui test sau chestionar psihologic, care se prezint ă dihotomic din punct de vedere cantitativ în cea mai mare parte din cazuri. Analiza de itemi este o opera ţiune strict necesar ă în cazul în care dorim s ă ne asigur ăm de faptul c ă testul îndepline şte o serie de exigen ţe funcţionale. Să luăm două exemple (fictive) de modalit ăţi de prezentare a itemilor unor probe psihologice. Nr.crt. 1 2 3 4 5 6 7 8 130
Itemii testului A 1 2 3 0 1 0 1 1 1 1 1 0 0 0 1 1 0 0 1 0 0 0 1 0 1 0 1
4 0 0 1 1 0 0 1 1
Nr.crt. 1 2 3 4 5 6 7 8
1 2 3 1 1 2 3 1 2
Itemii testului B 2 3 5 4 1 4 1 2 3 2 5 4 2 4 3 1 2 3
4 4 2 1 4 1 4 2 3
STATISTICĂ I 9 10 11 f i pi qi
1 1 0 7 0,63 0,37
1 0 1 6 0,54 0,46
0 1 0 4 0,36 0,64
0 1 0 5 0,45 0,55
9 10 11 f I pi qi
3 3 2 23 0,41 0,59
4 2 1 29 0,52 0,48
5 4 4 37 0,67 0,33
4 4 3 36 0,65 0,33
Tabelul 19. Cuprinde exemplificare pentru modul de calcul al mediei itemilor
În cazul primului exemplu (testul A) avem situa ţia de examen a 11 subiec ţi la un test cu 4 itemi (exemplul este teoretic, deoarece un test trebuie sa aib ă cel puţin 20 itemi pentru a putea fi numit test). Acest mod de organizare a rezultatelor ob ţinute de un grup de subiec ţi la un test psihologic (subiec ţiitemi) se nume şte matricea lui Stern , de la numele psihologului german W. Stern. La fiecare item din cadrul testului A se pot ob ţine valorile 1 (caz în care exprim ă soluţia corectă la o situa ţie problematic ă sau r ăspuns la un chestionar de personalitate care pune în eviden ţă tr ăsătura psihică ce trebuie diagnosticat ă) sau 0 (caz în care exprim ă soluţia incorect ă sau r ăspuns care nu pune în eviden ţă tr ăsătura psihic ă cercetată). La testul B r ăspunsurile la itemi au o distribu ţie cantitativ ă polichotomic ă, notele variind între 1 şi 5 (situaţie întâlnit ă mai ales la chestionarele de atitudini) În cazul testului A, nota ţia f i indică punctajul total ob ţinut de toţi subiecţii la itemul 1 nota ţia pi propor ţia de r ăspunsuri corecte şi totodată media r ăspunsurilor corecte la itemi ( i -ul variază între 1 şi 4, deci, vom avea f 1,f 2,f 3,f 4, respectiv p1,p2,p3,p4,). În acest nota ţia pi exprimă indicele de dificultate şi, f totodată, media rezultatelor ansamblului subiec ţilor la itemi. Deci pi = i (în care nota ţia N exprimă N numărul total al subiec ţilor). În cazul testului B pi exprimă indicele de dificultate a itemului, dar nu şi media rezultatelor ansamblului subiec ţilor la itemi. La testul B, valoarea pi se obţine prin împ ăr ţirea valorii totale a punctajului ob ţinut la un anumit item de c ătre cei 11 subiec ţi la valoarea maximal ă pe f care ar fi putut-o ob ţine cei 11 subiec ţii la un anumit item. În acest caz, p i = i . În cazul dat de noi f i max ca exemplu, la testul B, valoarea f I max = 55, obţinută prin înmul ţirea valorii 5 (valoare maxim ă pe care ar fi putut să o ob ţină un subiect pentru un r ăspuns) cu 11 (num ărul total al subiec ţilor). De exemplu, la 23 testul B, p1= = 0,40 . Pentru media itemilor din testul B se va folosi alt ă notaţie, conform unei uzan ţe 55 de notare.
III.2. CALCULUL MEDIANEI Mediana, numită şi valoare mijlocie , este o valoare caracteristic ă reală (concretă) a unei distribuţii, sau rezultând în urma unei opera ţii de interpolare, care împarte valorile ordonate cresc ător sau descresc ător în două p ăr ţi egale, în a şa fel încât num ărul valorilor mai mari s ă fie egal cu num ărul valorilor mai mici decât mediana. Mediana poate fi stabilit ă intr-o serie de date ordonate cresc ător sau descresc ător. În cadrul unui şir impar de valori, mediana este valoarea unei variante concrete a distribuţiei, şi anume valoarea cu rangul n+1/2. Pentru median ă folosim nota ţia Me.
131
AUREL STAN
EXEMPLU: În distribu ţia 1,2,3,5,7,9,10,12,13,14,18 avem un total de 11 valori ale variabilei X.. Dac ă valorile ar fi fost trecute în ordinea 7,1,13,18,2,10,5,3,9,12,14 ar fi trebuit s ă le ordon ăm crescător. Deci, prima operaţiune necesar ă pentru calculul medianei este ordonarea valorilor. Mediana va avea valoarea cu 11 + 1 N + 1 = 6 , deci a 6-a valoare din şirul rangul . În exemplul nostru, mediana va avea rangul 2 2 ordonat cresc ător, valoare egal ă cu 9. În stânga valorii 9 se g ăsesc 5 valori mai mici (1,2,3,5,7) şi în dreapta 5 valori mai mari (10,12,13,14,18). În cazul în care seria are un num ăr par valori, medianei se ob ţine prin interpolare, situându-se între valoarea cu rangul
N
2
şi valoarea cu rangul
N + 2
2
. Exemplu: în distribu ţia
8 17,18,22,24,28,30.35.37 (N=8) valoarea medianei se va situa între valorile rangurilor 4 ⎡⎢ ⎤⎥ şi 5 ⎣2⎦ ⎡8 + 2⎤ ⎢⎣ 2 ⎥⎦ . În cazuri de acest gen valoarea medianei va fi media aritmetic ă a valorilor variabilei care au 24 + 28 rangurile 4 şi 5, deci, Me = = 26 . 2 În cazul unei distribuţii de frecvenţe pe variante de varia ţie mediana poate avea o semnifica ţie mai puţin clar ă, situaţie cauzată de modul de determinare. Tabelul 20. Cuprinde modul de organizare a F fc↑ fc↑% datelor pentru determinarea medianei 10 10 0,07 (7%) 15 25 0,17 (17%) În tabelul alăturat am realizat ordonarea 20 45 0,30 (30%) 30 75 0,51 (51%) pe variante de varia ţie a unei variabile care 20 95 0,64 (64%) cuprinde 148 de rezultate la o anumit ă probă 15 110 0,74 (83%) psihologic ă. Tabelul cuprinde rubricile: 13 123 0,83 (83%) variantele variabilei (X), frecven ţele variantelor 11 134 0,91 (91%) de variaţie (f), frecven ţele cumulate ascendent 9 143 0,97 (97%) (fc↓) şi frecvenţele relative cumulate ascendent 5 148 1,00 (100%) N=148 (fc↓%). Valoarea medianei trebuie s ă separe primii 50% din subiec ţi de următorii 50%. Valoarea mediana este considerata cea corespunz ătoare procentului frecven ţei relative cumulate ascendent mai apropiat ă de valoarea 50%, de în cazul nostru valoarea 8 (în dreptul frecven ţei cumulate ascendent egal ă cu 75. Observ ăm pe rubrica frecven ţei relative cumulate ascendent c ă această valoare se afl ă la varianta de varia ţie cu numărul curent 4. Valoarea 8 este considerat ă mediana acestei distribu ţii, dar aceast ă stabilire se face prin acceptarea unui compromis, deoarece avem 30 de valori 8 ale variabilei X . Practic, avem 35 de valori mai mici decât 8 (10+15+20) şi 73 de valori mai mari (20+15+13+11+9+5). Compromisul const ă în faptul de a accepta şi valoarea 8 în calcularea primelor 50% din valori şi următoarelor 50% din acestea. În sens strict o astfel de determinare poate s ă nu corespunda defini ţiei medianei dup ă care numărul valorile mai mici si mai mari decât ea s ă fie egale între ele.
Nr.crt. 1 2 3 4 5 6 7 8 9 10
132
X 5 6 7 8 9 10 11 12 13 14
STATISTICĂ I III.3. DETERMINAREA MODULULUI Modulul este valoarea variabilei cu frecven ţa cea mai mare în cadrul unei distribu ţii. Vom nota acest indicator statistic prin Mo. Să luăm, de exemplu, urm ătoarea distribu ţie de valori: 11,17,13,12 17,9,8,17,14,19,20,17,15,16,14,18. Dup ă ce ordonăm această distribuţie (8,9,11,12,13,14,14,15,16,17,17,17,17,18,19,20) observ ăm că valoarea 17 este cea mai frecvent ă în cadrul acestei distribu ţii, ea repetându-se de 4 ori. În acest caz, valoarea variabilei egal ă cu 17 va constitui valoarea mod a distribu ţiei sau modul acesteia. Exist ă cazuri când într-o distribu ţie, două sau mai multe valori au frecven ţa cea mai mare. Distribu ţiile vor numite, în aceast ă situaţie, multimodale (bimodale, când dou ă valori au frecven ţele cele mai mari, trimodale când trei valori au frecven ţele cele mai mari, ş.a.m.d.). De exemplu, distribu ţia formată din valorile ordonate 4,5,6,7,7,7,8,9,9,9,10,11 este bimodal ă, deoarece avem dou ă valori ale variabilei cu frecven ţe maxime, valorile 7 şi 9. Multimodalitatea indic ă, de obicei, o eterogenitate valoric ă a subiec ţilor supuşi unui examen, dar, mai pot exista şi alte explica ţii.
III.4. INDICATORI DE MĂSURĂ A ÎMPRAŞTIERII Indicatorii de m ăsur ă a împr ăştierii frecvent utiliza ţi în analiza statistic ă a datelor din domeniu psihopedagogic ( şi nu numai din acest domeniu) sunt: • amplitudinea; • varian ţa; • abaterea standard; • abaterea medie; • abaterea quartila sau amplitudinea semiinterquartil ă. Indicatorii de m ăsur ă a împr ăştierii trebuie s ă satisfacă condiţii similare cu cele enun ţate pentru indicatorii de m ăsur ă a localizării sau indicatorii de nivel: • să se bazeze pe toate observa ţiile; • să fie uşor de calculat; • să fie afectate cât mai pu ţin posibil de fluctua ţiile de selec ţie şi adecvate unui studiu algebric. Cea mai simpl ă măsur ă a împr ăştierii este amplitudinea, care se ob ţine prin efectuarea diferen ţei dintre cea mai mare şi cea mai mic ă valoare observat ă la care se adaug ă valoarea 1. Obiec ţii cu privire la folosirea amplitudinii exist ă în situaţii în care viteza de calcul şi simplitatea în interpretare nu sunt cerinţe importante. Amplitudinea este afectat ă de fluctua ţiile de selec ţie mari de la e şantion la eşantion. Notăm amplitudinea cu A. S ă luăm exemplul timpului de rezolvare a unei sarcini: 55,5 6, 65, 54, 66, 58, 62, 61, 12, 56, 68, 67, 59, 57, 60, 145 (exprimat în zecimi de secund ă). În acest caz, avem doua valori extreme, foarte puternic distan ţate de restul valorilor, şi anume valorile 12 si 145, care apar ţin, probabil, în primul caz unui supradotat, iar în al doilea unui hipofren (denumire folosit ă pentru a desemna o persoană cu randament intelectual de limit ă). Dacă valorile de acest gen sunt intr-un num ăr foarte mic, se pot elimina practic din opera ţiunile de grupare. Dac ă la datele amintite am efectua calculul amplitudinii, vom g ăsi o valoare de câteva ori mai mare decât în cazul în care le elimin ăm din calculele noastre. În primul caz, amplitudinea se calculeaz ă în modul urm ător: Xmax – Xmin +1=145 – 12 + 1= 134. 133
AUREL STAN
În cazul eliminării valorilor puternic distan ţate, avem: A = X max – Xmin + 1 = 68 –54 + 1 = 15. Ultima determinare a amplitudinii este evident mai realist ă, deoarece este amplitudinea care caracterizeaz ă majoritatea datelor. Amplitudinea nu ţine cont de forma reparti ţiei, deoarece între limitele de varia ţie se poate obţine aceeaşi valoare pentru amplitudinea unei curbe de frecvente simetrice sau unei curbe de frecvenţe în formă de J, I sau U. Abaterea medie este media aritmetic ă a abaterilor valorilor individuale ale variabilei X fa ţă de media aritmetic ă a valorilor distribu ţiei luate în valoarea absolut ă. Vom nota acest indicator de împr ăştiere cu AM. Pentru distribu ţii negrupate vom utiliza urm ătoarea formul ă pentru calculul abaterii medii: AM. =
∑ X − X , în care cu X se notează variabila, cu X media distribu ţiei şi cu N numărul
N total al valorilor variabilei. Dac ă vom nota cu x diferenţa X - X , vom avea urm ătoarea formul ă pentru
calculul abaterii medii pentru date negrupate: AM =
∑ x . Variabila x se N
numeşte variabil ă de
deviaţ ie. În cazul în care avem variabilele grupate pe variante de varia ţie, vom utiliza urm ătoarele
formule: AM =
∑ f X − X sau AM = ∑ f x , în care cu f se notează frecvenţa variantei de varia ţie
N N Prezentăm, în continuare, tabelele care se întocmesc pentru eviden ţierea etapelor calcul ării abaterii medii pentru variabile negrupate ( şi neordonate) şi pentru variabile grupate de variante de varia ţie. Exemplele cuprind valori diferite: Variabile negrupate ( şi neordonate) Variabile grupate pe variante de varia ţie Nr.crt. X Nr.crt. X f FX x fx f x x x (X- X ) 1 12 -4 4 1 14 3 42 - 8 - 24 24 2 13 -3 3 2 16 6 96 - 6 - 36 36 3 19 3 3 3 19 9 171 - 3 - 27 27 4 20 4 4 4 21 13 273 - 1 - 13 13 5 14 -2 2 5 23 17 391 1 17 17 6 16 0 0 6 24 12 288 2 24 24 7 15 -1 1 7 25 9 225 3 27 27 8 17 1 1 8 26 5 130 4 20 20 9 18 2 2 9 28 2 56 6 12 12 0 20 76 1672 0 200 ∑ 144
Tabelul 21. Cuprinde etapele decalcul pentru determinarea abaterii medii În tabelul din stânga s-au f ăcut următoarele notaţii în coloane: • • •
X – valorile variabilei; x – valorile variabilei de devia ţie; x - valorile variabilei de devia ţie în valoarea absolut ă.
Valoarea medie pentru valorile tabelului cu variabile negrupate se ob ţine prin aplicarea formulei X 144 = 16 . Rubrica x se obţine scăzând din valoarea mediei distribu ţiei anunţate anterior: X = ∑ = N 9 134
STATISTICĂ I valoarea variabilei. Astfel, prima valoarea din rubrica x , egală cu – 4, se ob ţine efectuând sc ăderea 12-16, a doua valoarea, egal ă cu –3, se ob ţine efectuând sc ăderea 13 - 16, ş.a.m.d. Se observ ă u şor faptul că suma abaterilor variabilelor de la medie este egal ă cu 0. Abaterea medie se poate calcula doar prin adi ţia valorilor absolute care sunt trecute în rubrica notat ă cu x . Suma valorilor absolute a deviaţiilor de la medie este egal ă cu 20. Dup ă ce aflăm această valoare putem trece la aplicarea x 20 formulei pentru calculul abaterii medii. AM= ∑ = = 2,22 . 9 N În tabelul din dreapta s-au f ăcut următoarele notaţii în coloane: X - valorile variantelor de varia ţie; • f - Frecvenţele variantelor de varia ţie; • fX - valorile produsului dintre variantele de varia ţie şi frecvenţele acestora; • x - valoarea variabilei de devia ţie; • • fx - valorile produsului dintre variabila de devia ţie şi frecvenţa variantelor de varia ţie; f x - valorile produsului dintre variabila de devia ţie în valoare absolut ă şi frecvenţele variantelor • de variaţie. În acest tabel
∑ f = N = 76 , deci avem în total 76 de valori ale variabilei X (care sunt grupate în
9 variante de varia ţie). Pentru a trece la calculul abaterii medii trebuie s ă calculăm, în primul rând, media aritmetic ă.
(fX ) 1672 X = ∑ = = 22 . În tabelul din dreapta suma de la rubrica Σfx este egală cu 0 şi nu N 76 cea de la rubrica Σx, din cauza existen ţei frecvenţelor pentru variantele de varia ţie. Pentru calculul abaterii medii folosim suma de la rubrica f x care este egal ă.cu 200. După calcularea acestor valori putem trece la calculul abaterii medii. AM =
∑ (f x ) = 200 = 2,63 N
76
Varianţ a şi abaterea standard se găsesc într-o strâns ă legătura una cu alta. Valoarea abaterii standard se ob ţine prin extragerea r ădăcinii pătrate din valoarea varian ţei. Aceşti doi indicatori de împr ăştiere sunt foarte frecvent utiliza ţi în demersurile analizei statistice în toate domeniile de activitate. Varianţ a sau dispersia este un indicator sintetic care prezint ă o importan ţă accentuat ă, deoarece cu ajutorul ei se studiaz ă influenţa factorilor care ac ţionează în cadrul mul ţimilor de date. Varian ţa se calculeaz ă ca medie aritmetic ă a p ătratelor abaterilor valorilor individuale ale unei variabile de la media lor aritmetică. Reamintim faptul c ă suma acestor abateri este egal ă cu 0, motiv pentru care fiecare valoare individual ă a abaterii se ridic ă la pătrat înaintea opera ţiei de adiţie. Vom nota varian ţa unei distribu ţii prin s 2 şi abaterea standard prin s. Formula pentru calcularea 2 x ∑ varian ţei sau dispersiei pentru valori negrupate ale unei variabile este: s 2 = . Corespunzător N explica ţiilor anterioare, formula abaterii standard pentru acela şi fel de valori ale variabilei este
135
AUREL STAN
următoarea: s =
∑ x 2
. N Ridicarea la p ătrat nu trebuie considerat ă un procedeu artificial, deoarece simpla suma a abaterilor de la medie ar da in mod automat zero. Ridicarea la p ătrat este cel mai simplu procedeu pentru a asigura datelor acela şi semn. Ca şi alte calcule ale indicatorilor statistici avem cazul datelor negrupate şi cazul datelor grupate Rubricile necesare calculului le prezent ăm în tabelul care urmeaz ă: Nr. crt. 1 2 3 4 5 6 7 8 9 10
X 11 14 16 18 20 22 17 18 15 19 170
x -6 -3 -1 1 3 5 0 1 -2 2 0
x2 36 9 1 1 9 25 0 1 4 4 90
Tabelul 22. Cuprinde etape de clacul pentru determinarea varianţ ei şi abaterii standard (date negrupate)
În primul rând se calculează media cu formula X 170 specific ă datelor negrupate: X = ∑ = = 10,00 . 10 N După ce am calculat valoarea mediei trecem la completarea rubricii x, care se ob ţine din efectuarea diferenţei dintre fiecare valoare individual ă a variabilei X şi valoarea mediei aritmetice ( X = 10,00 ). Apoi trecem la ∑ realizarea rubricii x 2 prin ridicarea la p ătrat a fiecărei valori din rubrica x .. După ce am însumat valorile din rubrica x 2 (Σx2 = 90), putem trece la calcularea varian ţei x 2 90 ∑ = = = 9,00 şi
∑ x 2
90 = 9 = 3. 10 10 N N În cazul în care avem date grupate pe variante de varia ţie, se întocme şte tabelul (date fictive): Date grupate pe variante de varia ţie Nr.crt X f fX x x2 fx2 1 17 2 34 - 5,23 27,35 57,71 2 19 5 95 - 3,23 10,43 52,16 3 20 9 180 - 2,23 4,97 44,76 4 21 13 273 - 1,23 1,51 19,67 5 22 18 396 - 0,23 0,05 0,95 6 23 12 276 0,77 0,59 7,11 Tabelul 23. Cuprinde etape de clacul 7 24 10 240 1,77 3,13 31,33 pentru determinarea varianţ ei şi 8 26 6 156 3,77 14,21 85,28 abaterii standard (date grupate pe 9 28 3 84 5,77 33,29 99,88 variante de variaţ ie) 78 1734 395,85 Σ
şi a abaterii standard. s
2
s=
=
Explica ţia rubricilor a fost dat ă la tabelele constituite anterior. Avem un total de 78 de valori. (fX ) 1734 Aplicăm formula pentru calcularea mediei: X = ∑ = = 22,23 Rubrica x se constituie prin N N scăderea valorii 22,23 din valorile variantelor de varia ţie. Din aplicarea formulei pentru calcularea 2 fx 395,85 ∑ varian ţei rezult ă: s 2 = = = 5,075. Abaterea standard se ob ţine prin extragerea r ădăcinii 78 N pătrate din valoarea varian ţei. 136
STATISTICĂ I s = s 2 = 5,075 = 2,25 Pentru calcularea varian ţei şi abaterii standard în condi ţiile existen ţei unei distribu ţii de valori pe intervale de varia ţie avem la dispozi ţie formule care utilizeaz ă variabila codificat ă u. Utilizarea unor astfel de variabile asigur ă în calcul valori numerice relativ mici. Formula pentru calcularea varian ţei este: ⎡ (fu 2 ) ⎛ (fu ) ⎞ 2 ⎤ ∑ ⎟ ⎥ . Pentru calcularea abaterii standard putem în aplicare urm ătoarea s2 = i2* ⎢ ∑ − ⎜⎜ ⎟ ⎢ N ⎝ N ⎠ ⎥⎦ ⎣ ⎡ formulă: s = i* ⎢ ⎢ ⎢⎣
2⎤ 2 ⎛ ⎞ ( ) ( ) fu fu ∑ − ⎜ ∑ ⎟ ⎥ . Se observă clar că valoarea abaterii standard care se va
N
⎜ N ⎟ ⎥ ⎝ ⎠ ⎥⎦
obţine este r ădăcină pătrată din valoarea varian ţei. Oferim pentru exemplificare urm ătoarea grupare pe intervale de varia ţie: Nr.crt 1 2 3 4 5 6 7 Σ
Valori grupate pe intervale de varia ţie Interval (i = 5) f u fu 19 – 23 9 - 3 - 27 24 – 28 13 - 2 - 26 29 – 33 19 - 1 - 19 34 – 38 24 0 0 39 – 43 20 1 20 44 – 48 14 2 28 49 - 53 10 3 30 109 6
u2 9 4 1 0 1 4 9
Fu2 81 52 19 0 20 56 90 318
Tabelul 24. Cuprinde etape de clacul pentru determinarea varianţ ei şi abaterii standard (date grupate pe intervale de variaţ ie)
Am explicat anterior modul cum se stabilesc valorile variabilei u. În acest exemplu am fixat arbitrar valoarea u = 0 în dreptul intervalului modal, adic ă intervalul care are cea mai mare frecven ţă (intervalul 34 –38, care are frecven ţa 24). Prin i am nota mărimea intervalului (i = 5) Aplicând formula varian ţei vom obţine: ⎡ 318 ⎛ 6 ⎞ 2 ⎤ s2 = 25 ⎢ −⎜ ⎟ ⎥ = 25[2,91 − 0,003] = 72,5. Abaterea standard o ob ţinem prin extragerea 108 108 ⎝ ⎠ ⎣⎢ ⎦⎥
r ădăcinii pătrate din aceast ă valoare. s = 72,5 = 8,51 ( prin aproximare 8,5). Menţionăm o proprietate matematic ă importantă a abaterii standard care are aplica ţii frecvente în domeniul nostru de interes. Amplitudinea unei curbe normale Gauss-Laplace poate fi aproximat ă satisf ăcător de următoarea formul ă: A = 6 s. În sectorul distribu ţiei cuprins între valoarea mediei şi ± o mărime a abaterii standard se g ăsesc aproximativ 68% din valorile unei distribu ţii. Între valoarea mediei şi ± două mărimi ale abaterii standard se afl ă aproximativ 95% din valorile unei distribu ţii normale Gauss-Laplace, iar între valoarea mediei aritmetice şi ± trei mărimi ale m ărimi ale abaterii standard se găsesc 99,958% din valorile distribu ţiei. Să luăm exemplul unei distribu ţii de 118 de rezultate, având media aritmetic ă egală cu 64 şi abaterea standard egal ă cu 8. Între valoarea 56 (64 – 8) şi valoarea 72, (64 + 8) se vor g ăsi aproximativ 137
AUREL STAN
68% dintre valorile distribu ţiei. Între valoarea 48 (64 – (2×8)) şi valoarea 78 (64 + (2×8)) se vor g ăsi aproximativ 95% dintre valori. Între valoarea 40 (64 – (3×8)) şi valoarea 88 (64 + (3×8)) se vor g ăsi aproximativ 99,958% dintre valorile distribu ţiei, deci marea majoritate a acestor valori. Aceast ă proprietate a abaterii standard într-o distribu ţie teoretică Gauss-Laplace are aplica ţii în construirea etaloanelor testelor. Rezultatul cantitativ global ob ţinut de un subiect la un anumit test psihologic poart ă denumirea de scor. Scorul este o însumare rezultatelor ob ţinute la componentele elementare ale testului, componente care poart ă denumirea de itemi. Cunoa şterea scorului unui anumit subiect la un anumit test nu ne poate oferi aprecierea valoric ă a subiectului, deoarece aceasta se face prin raportare la valorile ob ţinute la respectivul test de un grup, numit şi grup de referin ţă (care trebuie să îndeplineasc ă o serie de exigen ţe privind omogenitatea). Aceast ă situaţie de incertitudine valoric ă a scorului în privin ţa unui subiect se datoreaz ă şi amplitudinii foarte diferite a distribu ţiilor valorilor oferite de teste. Astfel, la testul Bourdon-Amfimov (destinat diagnostic ării atenţiei concentrate) se pot ob ţine scoruri între 1 şi 776. La testul M.P. Raven (folosit în diagnosticul inteligen ţei) se pot ob ţine scoruri între 1 şi 60 şi la testul AD-P (aten ţie distributiv ă Praga) se pot ob ţine scoruri între 1 şi 100. În acest caz, nu putem compara randamentul exprimat prin scorul 245, ob ţinut de un subiect la testul Bourdon-Amfimov, cu randamentul exprimat prin scorul 172, ob ţinut de acela şi subiect la testul Kraepelin, sau cu randamentul exprimat prin scorul 33, ob ţinut la testul M.P Raven. Chiar dac ă testele amintite ar avea aceeaşi amplitudine a scorurilor, randamentele ob ţinute de un grup de subiec ţi la respectivele teste ar putea fi foarte diferite. Iat ă de ce, scorurile testelor (pentru a putea fi pune în eviden ţă valoarea unui randament individual) trebuiesc raportate la scale valorice cu acela şi număr de trepte, care sunt stabilite dup ă ce testul a fost efectuat de un grup de referin ţă (diferenţiat în funcţie de scor, vârst ă, mediu de provenien ţă, nivel de studii etc.). Aceste scale standardizate se construiesc respectând o serie de exigen ţe şi viziuni teoretice. Num ărul treptelor scalelor pe care dorim s ă facem aprecierea rezultatelor subiec ţilor se stabile şte în funcţie de oportunit ăţile situaţiei de evaluare în care ne afl ăm. Vom efectua o gradare pe curb ă a unei scale cu 7 trepte (A, B, C, D, E, F, G), deci un num ăr impar de trepte. Utiliz ăm exemplul dat anterior (distribu ţie de 118 scoruri, având media egal ă cu 64 şi abaterea standard egal ă cu 8). În primul rând, trebuie stabilit ă baza de gradare, notat ă de noi cu BG. A Formula bazei de gradare este: BG = , în care A este amplitudinea distribu ţiei şi k numărul de clase k în care dorim să facem gradarea pe curb ă. Amplitudinea distribu ţiei poate fi foarte bine aproximat ă într-o distribuţie teoretică Gauss-Laplace prin înmul ţirea abaterii standard cu 6, a şa cum am explicat anterior. Deci, A=6×8 = 48. Dup ă ce am aflat valoarea amplitudinii putem trece la calcularea bazei de 48 gradare BG = = 6,86. În cazul unui num ăr impar de clase, vom împ ăr ţi baza de gradare la 2 7 BG = 3,43 ). Pentru delimitarea limitei inferioare a clasei centrale, clasa D, vom sc ădea din valoare ( 2 mediei jumătate din baza de gradare şi pentru delimitarea limitei superioare a acesteia vom aduna la valoarea mediei jum ătate din valoarea bazei de gradare. Limita inferioar ă a clasei centrale va fi 61,57 (64 – 3,43 = 60,57) şi limita superioar ă 67,43 (64 + 3,43). Delimitarea claselor inferioare şi superioare ale clasei D se va face prin sc ăderi succesive, respectiv adun ări succesive, la limitele clasei centrale a întregii valori a bazei de gradare. Astfel pentru delimitarea limitei inferioare a clasei C vom sc ădea: 60,57 – 6,86 = 53,71. Pentru stabilirea limitei inferioare a clasei B vom sc ădea, din nou, 6,86 din 138
STATISTICĂ I valoarea rezultat ă anterior (54,71 – 6,86 = 46,85). Orice valoarea mai mic ă de 46,85 va face parte din clasa A. Pentru calcularea limitelor claselor din dreapta clasei centale D proced ăm prin adunarea succesiv ă a bazei de gradare. Astfel, pentru delimitarea limitei superioare a clasei E vom aduna la limita superioar ă a clasei D valoarea întreag ă a bazei de gradare (67,43+6,86=74,29). Pentru calcularea limitei superioare a clasei F vom ad ăuga la valoarea rezultat ă din ultima adunare valoarea întreag ă a unei baze de gradare (74,29 + 6,86 = 81,15). Orice valoare mai mare decât 81,15 va face parte din clasa G. Redăm într-un tabel clasele rezultatele: Nr.crt. 1 2 3 4 5 6 7
Clasa A B C D E F G
Limite clasei → 46,84 46,85 – 53,70 53,71 – 60,56 60,57 – 67,43 67,44 – 74,29 74,30 – 81,15 81,16 →
Întregire → 47 49 – 54 56 – 61 63 – 67 68 – 74 75 - 81 82 →
Tabelul 25. Cuprinde determinarea claselor standard prin procedeul grad ării pe curbă
Facem precizarea c ă, în cazul în care valorile rezultatelor nu se prezint ă cu zecimale, putem proceda la întregirea limitelor claselor. Astfel, valoarea 47,84 din clasa A va deveni 48, Pentru a nu crea confuzii în privin ţa apartenenţei unui rezultat la o anumit ă clasă, limita inferioar ă a clasei urm ătoare va fi mărită cu o unitate şi vom întregi limita superioar ă a clasei urm ătoare. Dacă valoarea aflat ă după virgulă depăşeşte 0,5 întregirea se va face prin ad ăugire, iar dac ă această valoarea este mai mic ă de 0,5, întregirea se va face prin scădere. Astfel 54,70 va deveni 55 iar 64,43 va deveni 64. Micile deplas ări ale limitelor claselor în urma opera ţiei de întregire nu afecteaz ă semnificativ valoarea acestora. În cazul în care num ărul de clase în care dorim s ă facem gradarea pe curb ă este par (6,8,10), se procedează direct la adi ţia,respectiv sc ăderea, bazei de gradare din medie, f ăr ă a o mai împ ăr ţi pe aceasta în dou ă (în cazul unui num ăr par de clase nu mai avem o clas ă centrală) Prin intermediul abaterii standard şi a mediei putem efectua şi conversiuni ale valorii distribu ţiilor, obţinându-se aşa-numitele variabile normate . Cele mai cunoscute dintre aceste variabile sunt variabilele X − X , z. Formula pentru transformarea scorurilor brute în variabile normate z este urm ătoarea: z = s în care X este variabila original ă, este media aritmetică a distribu ţiei originale şi s abaterea standard. Dacă transformăm toate variabilele originale ale unei distribu ţii în variabile normate z ob ţinem o nouă distribuţie, care are media 0 şi abaterea standard 1. Noile variabile vor avea majoritatea valorilor între – 3 şi 3, indiferent care vor fi valorile variabilelor originale. Forma unei distribu ţii nu se schimb ă prin aceast ă transformare. Ce ne spune, de fapt, o anumit ă valoare z ? Ea ne dă informaţii asupra distan ţei, exprimat ă în abateri standard, dintre o valoare a distribu ţiei şi medie. O valoare z = -1,22 ne informeaz ă asupra faptului c ă respectiva valoare se g ăseşte plasată în stânga mediei (unde se g ăsesc plasate valorile mai mici decât media), şi anume la o dep ărtare de -1,22 abateri standard de medie. O valoare z = 2,34 ne indic ă faptul că respectiva valoare se g ăseşte la dreapta medie (acolo unde se g ăsesc valorile mai mari decât media) la dep ărtare de 2,34 abateri standard. Valoarea z ne permite s ă facem aprecieri pozi ţiei relative a unui r ăspuns în ansamblul r ăspunsurilor. Aceste fapt este posibil datorit ă 139
AUREL STAN
proprietăţilor matematice ale distribu ţiei Gauss-Laplace, denumit ă şi distribuţia normală. Într-o astfel de distribuţie teoretic ă (construită prin intermediul unei func ţii matematice) valorile mediei, medianei şi modulului se confund ă. La acest gen de distribu ţie există a perfect ă simetrie a valorilor în jurul mediei. Tabele matematice special realizate pentru acest scop ne indica ce cuantum procentual din efectivul total se afl ă între medie şi a anumit ă valoare a distribu ţie. Prin deduc ţie se poate stabili acest cuantum între două valori oarecare ale distribu ţiei. Pentru a putea efectua o astfel de determinare trebuie s ă consult ăm tabelul de valori cuprins în anexele lucr ării, intitulat Tabelul legii normale reduse . În prima coloană (z ) a tabelului sunt trecute valori progresive z cu rata de 0,1 (0,0; 0,1; 0,2; 0,3 ş.a.m.d. ). Ele formeaz ă capete de linii Aceste valori merg pân ă la z = 4,00. Am precizat anterior c ă valorile z pot oscila pân ă la 3. Acest lucru este valabil în marea majoritate a cazurilor. Într-un foarte mic număr de cazuri (100% - 99,958%) variabilele normate z pot primi valori mai mare decât 3. În prima linie (z ) sunt trecute valori z progresive cu rata de 0,01 (0,00; 0,01;. 0,02; 0,03 ş.a.m.d.). Aceste valori formează capete de coloane. Aceste frac ţiuni de valori z merg până la 0,09. Din intersec ţia şirurilor de valori care porneasc ă din capetele de linii şi a celor care pornesc din capetele de coloan ă putem indica propor ţiile rezultate (sau procente, dac ă înmulţim cu 100 propor ţia) care se g ăsesc în afara unui interval valoric format din variabile z . Dacă cunoaştem propor ţia de rezultate din efectivul total care se afl ă în afara unui interval valoric z , putem foarte simplu s ă aflăm cât se afl ă în interiorul acestui interval. S ă luăm exemplul unei valori z = 1,42. Pentru a afla informaţia dorită vom citi din tabel propor ţia aflată la intersecţia liniei 1,4 şi coloanei 0,02 (1,4 + 0,02 = 1,42). z 0,00 0.01 0,02 0,03 0,04 0,05 0,06 0,07 0,0 0,1 0,02 …….. …. 1,4 0,15561 Tabelul 26. Cuprinde exemplificare pentru modul de lucru cu tabela legii normale reduse
0,08
0,09
La această intersecţie vom afla propor ţia 0,15561, aproximativ 0,16. Ce semnific ă această propor ţie? Ea semnific ă faptul că în afara intervalului exprimat în valori z) - 1,42 şi 1,42 se g ăseşte aproximativ 0,16 din efectivul total al distribu ţiei sau 16% din efectivul acestei distribu ţii. În interiorul intervalului se va afla 0,84 din efectivul acestei distribu ţii (1,00 – 0,84) sau, exprimat procentual, 84 % din acest efectiv. Propor ţia aflată în afara intervalului amintit (0,16) se afl ă plasată la cele dou ă capete opuse ale distribu ţiei. Jumătate din aceast ă propor ţie (0,08) se afla în stânga variabilei z = -1,42 (valori mai mici decât aceasta) şi cealaltă jumătate (0,08) se va afla la dreapta valorii variabilei z = 1,42 (valori mai mari decât aceasta. Dac ă transformăm scorul brut al unui subiect în variabile z şi obţinem valoarea -1,42 aceasta semnific ă faptul că subiectul respectiv a ob ţinut un rezultat mai bun decât 0,08, sau, exprimat procentual, 8% din totalul rezultatelor subiec ţilor şi mai slab decât 0,92 sau, exprimat procentual, 92% din totalul subiec ţilor (100%-0,08). Dac ă după transformarea scorurilor brute un subiect obţine o valoarea z = 1,42, aceasta semnific ă faptul că 0,92 sau, exprimat procentual, 92% din totalul rezultatelor sunt mai slabe decât rezultatul ob ţinut respectivul subiect. Doar 0,08 (sau 8%) din totalul rezultatelor vor fi mai bune decât rezultatul ob ţinut de respectivul subiect. O aplicaţie frecvent ă a tabelului legii normale reduse este calcularea cotei procentuale de subiec ţi existenţi în claselor determinate prin gradarea pe curb ă. Lu ăm exemplul dat anterior, în care distribu ţia 140
STATISTICĂ I rezultatelor a 118 subiec ţi avea o medie de 64 şi o abatere standard de 8. Pentru aceasta transform ăm limitele superioare a claselor stabilite în variabile z . Pentru aceasta lu ăm în considera ţie primele 3 limite superioare ale claselor stabilite şi întocmim urm ătorul tabel: Nr.crt. 1 2 3
Variabile originale 46,84 53,70 60,56
Variabile z - 2,145 - 1,287 - 0,375
Propor ţie tabelar ă 0,0323 0,1970 0,667
Înjumătăţire 0,016 ( sau 1,6%) 0,0985 (9,85%) 0,333 (33,3%)
Tabela 27. Cuprinde exemplificare pentru determinarea propor ţ iilor suprafeţ ei curbei normale Gauss prin intermediul valorilor z
Deci, clasa A va avea con ţine 0,016 rezultate ale subiec ţilor sau 1,6% dintre acestea. Deoarece modul de construire a claselor se bazeaz ă pe simetria acestora, clasa G care este simetric ă clasei A va conţine , de asemenea, 1,6% dintre rezultatele subiec ţilor. Deosebirea const ă în aceea c ă 1,6% din rezultatele con ţinute de clasa A sunt cele mai slabe, pe când 1,6% din rezultatele con ţinute de clasa G sunt cele mai bune. Pentru a afla propor ţia de subiec ţi existenţi în clasa B vom sc ădea din propor ţia 0,0985 propor ţia 0.016 şi se va ob ţine rezultatul 0,0825. Sc ăderea este justificat ă de faptul că 0,0985 conţine propor ţia rezultatelor claselor A şi B. Clasa simetric ă clasei B este clasa F, care va con ţine, de asemenea, 0,0825 din ansamblul rezultatelor subiec ţilor sau, exprimat sub form ă procentuală, 8,25% din efectivul total al rezultatelor. Pentru a afla propor ţia clasei C se va sc ădea din 0,333 propor ţia 0,0985 (conţinută de clasele A şi B la un loc).Va rezulta propor ţia 0,234 sau, exprimat sub form ă procentual ă 23,4% din total. Clasa simetric ă clasei C este clasa E, care va avea aceea şi propor ţie de rezultate. Procentul clasei centrale D se va afla sc ăzând din valoarea 1,00 sumele propor ţiilor celorlalte clase. Vom avea: 1,00-(2×0,016)-(2×0,0825)-(2×0,234)=1,00-0,665=0,335. În exprimare procentuală clasa central ă D va conţine 33,5 % din totalul rezultatelor. În tabelul care urmează transformăm propor ţiile şi procentele în valori absolute: Nr.crt Clasa 1 A 2 B 3 C 4 D 5 E 6 F 7 G TOTAL
Limite clasei → 46,84 46,85 – 53,70 53,71 – 60,56 61,57 – 67,43 67,44 – 74,29 74,30 – 81,15 81,16→
Întregire → 47 48 – 54 55 - 61 62 - 67 68 - 74 75 - 81 82 →
% din total 1,6,5% 8,25,0% 23,4% 33,5% 23,4% 8,25,0% 2,5% 100%
Valori absolute 0,016*118 = 1,88 0,0825*118 = 9,73 0,234*118 = 27,61 0,335*118 = 39,53 0,234*118 = 27,61 0,0825*118 = 9,73 0,016*118 = 1,88
Întregire 2 10 28 40 28 10 2 120
Tabelul 28. Cuprinde exemplificare pentru determinarea propor ţ iile claselor normalizate
Operaţiunea de întregire este necesar ă, deoarece nu are sens s ă se spună că într-o clasă se află rezultatele a 1,88 de subiec ţi. În urma analizei acestui tabel se poate spune c ă 2 dintre subiec ţi au obţinut rezultate care-i situeaz ă în clasa A (cele mai bune rezultate), 10 subiec ţii au obţinut rezultate care-i situeaz ă în clasa B, a doua clas ă valorică, ş.a.m.d. Jocul întregirilor face ca suma total ă să fie puţin mai mare (120, în loc de 118). Observ ăm c ă aceste clase construite pe baza mediei şi a abaterii 141
AUREL STAN
standard sunt egale ca valoare (jocul aproxim ărilor face s ă existe mici diferen ţe), dar nu şi în privin ţa numărului de rezultate ale subiec ţilor conţinute în ele. Acest gen de împ ăr ţire în clase este realist, deoarece rezultate de excep ţie şi rezultate foarte slabe ob ţin un număr foarte mic de subiec ţi. Variabilele normate z sunt foarte utile în indicarea pozi ţiei relative a rezultatului unui subiect în ansamblul rezultatelor ansamblului subiec ţilor În cadrul variabilelor z sunt foarte evidente, trei deficien ţe: valoarea foarte mic ă a amplitudinii (de la –3 la 3), ob ţinerea de valori negative şi exprimarea sub form ă zecimală, f ăr ă posibilitatea întregirii (deoarece, în unele cazuri, s-ar deforma semnificativ valoarea unui rezultate. Pentru a se remedia aceste deficien ţe s-au creat alte tipuri de variabile normate, care se ob ţin tot printr-o transformare liniar ă pornind de la medie şi abatere standard. Teoretic se pot calcula o infinitate de tipuri de variabile normate bazate pe transform ări liniare, dar, în practic ă se utilizeaz ă un număr restrâns, dintre care amintim variabilele T , create de McCall, şi variabile Hull, create de un cercet ător american cu acela şi nume. Formula pentru transformarea variabilelor originale a unor distribu ţii în variabile normate T este 10 următoarea: T = 50 + [ X − X ]. Dacă transformăm toate valorile originale ale unei distribu ţii după s formula amintit ă anterior obţinem o nouă distribuţie care va avea valoare mediei aritmetice egal ă cu 50 X − X şi valoarea abaterii standard egal ă cu 10. Dacă avem în vedere faptul c ă z= , formula se poate s scrie şi în modul urm ător: T= 50 + 10 z. Noile valori ob ţinute după transformare vor oscila aproximativ între 18 şi 82. Pentru a avea la dispozi ţie variabile normate care s ă oscilează între 1 şi 100 (cu aproxima ţie), foarte comode de utilizat în practic ă, s-au creat variabilele Hull, având urm ătoarea formul ă 14 [ X − X ]. Formulă alternativă de constituire este: H = 50 + 14z. Dac ă de constituire: H = 50 + s transformăm toate valorile originale ale unei variabile dup ă formula lui H vom obţine o nouă distribuţie cu media 50 şi abaterea standard egal ă cu 14. Atenţionăm asupra faptului c ă variabilele normate î şi pierd valoarea practic ă de utilizare dac ă distribuţia empiric ă (distribuţie ale cărei valori sunt ob ţinute dintr-o cercetare concret ă) se deosebe şte semnificativ de o distribu ţie normală Gauss-Laplace. Distribu ţiile empirice şi cele teoretice sunt diferite în marea majoritate a cazurilor. Este important de a şti dacă această diferenţă este semnificativ ă sau nu. Pentru a stabili aceast ă diferenţiere există anumite proceduri statistice. Exemplu de transformare în variabile normate z , T şi H . Să presupunem c ă avem o distribu ţie empirică cu media egal ă cu 73 şi abaterea standard de egal ă cu 15. Ne propunem s ă transformăm valorile variabilei X egale cu 37, 63, 78, 85, 92 , conform formulelor stabilite pentru variabile normate z , T şi H . În mod uzual, în domeniul aplic ării testelor psihologice pentru denumirea unei opera ţiuni de acest gen se folose şte expresia “transformare a scorurilor brute în note z , T şi H ”. Nu procedăm la întregirea notelor z , deoarece deformarea rezultatului ar fi semnificativ ă atunci când este vorba de o cifr ă mică. La notele T şi H deformarea rezultatelor prin întregire este nesemnificativ ă. Formulele de transformare sunt cele pe care le-am expus anterior. Faptul transform ării presupune c ă anterior ne-am asigurat de existen ţa condiţiilor care o permite. În cazul existen ţei unor asimetrii puternice, opera ţiunea de transformare nu ne este de folos practic.
142
STATISTICĂ I Nr.crt. 1 2 3 4 5
Variabila originală X 37 63 78 85 92
Note z - 2,40 - 0,67 0,33 0,80 1,27
Note T 26 43,33 53,33 58 62,67
Întregire 26 43 53 58 63
Note H 16,40 40,67 54,67 61,20 67.33
Întregire 16 41 55 61 67
Tabelul 29. Cuprinde exemplificare pentru transformarea valorilor brute în note standard
III.5. STABILIREA ABATERII QUARTILE Abaterea quartill ă, notată cu Q, este un indicator de apreciere a împr ăştierii, care se calculeaz ă prin împăr ţirea la 2 a diferen ţei dintre valoarea quartilului 3 ( Q3) şi cea a quartilului 1 ( Q1). Intervalul ( X ± 1Q ) cuprinde 50% din rezultatele unei distribu ţii. Amplitudinea unei distribu ţii are aproximativ 7,5 abateri quartile. Rela ţia se verific ă mai ales în situa ţia în care distribuţia empirică se conformeaz ă exigenţelor teoretice unei distribu ţii normale Gauss-Laplace. Se poate efectua o gradare pe curb ă prin folosirea medianei şi abaterii quartile, a şa cum s-a f ăcut cu media şi abaterea standard. Oferim un exemplu concret pentru calcularea abaterii quartile. S ă presupunem c ă media unei distribu ţii este egal ă 74, quartilul 3 ( Q3) este egal cu 85 şi quartilul 1 ( Q1) este egal cu 62. Num ărul de rezultate ale subiec ţilor este egal cu 186 (N = 186) Modul de stabilire a acestor forme particulare a quantilelor l-am tratat anterior. Dup ă aflarea celor dou ă valori, putem trece la calculul abaterii quartile. Q 3 − Q1 85 − 62 Q= = = 11,5 . Între valorile 62,5 (74 – 11,5) şi 85,5 ( 74 + 11,5) se g ăsesc aproximativ 2 2 50% dintre rezultate (93 de rezultate). III.6. STABILIREA INDICATORILOR DE ASIMETRIE Indicatorii de nivel şi de împr ăştiere au un mare rol în descrierea unora din caracteristicile unei distribuţii, dar sunt insuficien ţi pentru formarea unei imagini complete asupra tendin ţelor care exist ă în aceasta. Distribu ţiile pot s ă aibă medii şi varianţe egale, dar s ă nu fie la fel de simetrice. Stabilirea indicatorilor de asimetrie prezint ă importanţă în aprecierea existen ţei unor influen ţe în şirul de date (datorate compozi ţiei eşantionului sau erorilor de construc ţie a unui test psihologic, de exemplu) Apreciere asimetriei unei distribu ţii se poate face în cel mai simplu mod prin compararea valorilor mediei şi medianei. Când media este inferioar ă medianei avem o asimetrie negativ ă. Dacă mediana este inferioar ă mediei avem o asimetrie pozitiv ă a distribuţiei de valori. Asimetria negativ ă presupune “îngr ămădirea” de valori în dreapta mediei, adic ă existenţa mai multor valori superioare mediei decât cele inferioare acesteia. Când valorile mai mici decât media sunt în num ăr superior celor mai mari decât aceasta suntem în situa ţia unei asimetrii pozitive. Distribuţia rezultatelor la un test prezentând o puternic ă asimetrie de dreapt ă indică deosebita calitate intelectual ă a celor ce efectueaz ă testul (daca acest test este de inteligen ţă) sau a modului de construcţie a probei psihologice (cu prea multe situa ţii problematice u şoare). În cazul în care avem drept scop să selectăm o categorie de personal puternic performanta, se urm ăreşte deliberat asigurarea asimetriei de stânga în timpul construc ţiei probei. Amintim c ă astfel de procedee de construc ţia sunt de excepţie. În majoritatea cazurilor, constatarea unei asimetrii semnificative a rezultatelor constituie un semnal pentru remedierea construc ţiei probelor. Procedeul simplei compara ţii a mediei şi medianei are o valoare aproximativ ă. Egalitatea 143
AUREL STAN
medianei mediei nu ne asigur ă în privin ţa simetriei unei distribu ţii. În cazul în care dorim sa fim mai precişi trebuie sa calculam o serie de indicatori. Unul dintre ace ştia se bazeaz ă pe diferen ţa dintre 3 X − Md ) medie şi mediană. Îl vom nota cu S. Formula este urm ătoarea: S = în care cu am notat s x 3 ∑ media, cu Md mediana şi cu S indicatorul de asimetrie. În alt caz vom folosi formula: S = , în care Ns 3 S este indicatorul de asimetrie (Skwenes), x este variabila de devia ţie (X- ), N este efectivul total şi s abaterea standard a distribu ţiei. În cazul variabilelor grupate se folose şte la număr ător ∑ fx 3 . Vom folosi tabelul cu date grupate pe variante de varia ţie creat pentru exemplificarea etapelor de calcul în vederea determin ării mediei aritmetice. Date grupate pe variante de variaţie Nr.crt X f fX x x2 fx2 x3 fx3 1 17 2 34 - 5,23 27,35 54,71 - 143,06 - 286,11 2 19 5 95 - 3,23 10,43 52,16 - 33,70 - 168,49 3 20 9 180 - 2,23 4,97 44,76 - 11,09 - 99,81 4 21 13 273 - 1,23 1,51 19,67 - 1,86 - 24,19 5 22 18 396 - 0,23 0,05 0,95 0,01 0,22 6 23 12 276 0,77 0,59 7,11 0,46 5,48 7 24 10 240 1,77 3,13 31,33 5,55 55,45 8 26 6 156 3,77 14,21 85,28 53,58 321,50 9 28 3 84 5,77 33,29 99,88 192.10 576,30 Σ 78 1734 395,85 380,35 Tabelul 30. Cuprinde exemplificare pentru etapele de calcul necesare stabilirii indicatorului de asimetrie
Pentru a avea la dispozi ţie toate datele aplic ării formulei coeficientului de asimetrie S va trebui să calcul ăm abaterea standard a distribu ţiei. Aplicăm formula pentru calcularea abaterii standard pentru variabile grupate pe variante de varia ţie:
∑ (fx 2 ) =
380,35 = 4,87 = 2,2 . Aplicăm, în continuare formula pentru calculul coeficientului N 78 (fx 3 ) 380,35 ∑ = = 0,45. de asimetrie: S = 78 * 10,64 Ns 3 Când valoarea coeficientului este 0, atunci distribu ţia este perfect simetric ă. Valoarea negativ ă indică o asimetrie negativ ă, valoarea pozitiv ă o asimetrie pozitiv ă. Valoarea ob ţinută la distribu ţia exemplificat ă indică o asimetrie pozitiv ă. s=
III.7. INDICATORI DE BOLTIRE SAU INDICATORI DE EXCES Pentru a caracteriza în întregime o distribu ţie de valori trebuie s ă adăugăm la indicatorii de nivel, împr ăştiere şi asimetrie indicatorii de exces sau de kurtosis. Kurtoza este gradul de aplatizare a unei distribuţii. Se disting în aceasta privin ţă 3 tipuri de distribu ţii: distribuţ iile leptokurtice (ascuţite), în care se găseşte un mare num ăr de valori cuprins la centrul distribu ţiei, distribuţ iile platicurtice care sunt evazate şi se caracterizeaz ă printr-o mare întindere a scorurilor şi distribuţ iile mezocurtice, reprezentate printr-o distribu ţie apropiată celei normale. Exista o formul ă adecvată de calcul a excesului pentru 144
STATISTICĂ I (C 75 − C 25) ) . Prin K am notat coeficientul de exces, prin C 75 centilul 75, prin C 25 C 90 − C 10 centilul 25, prin C 90 centilul 90 şi prin C10 centilul 10. Conform acestei formule, o distribu ţie poate fi considerat ă mezokurtic ă atunci când valoarea lui K se situeaz ă în jurul valorii 0,2632. Distribu ţia va fi considerata drept leptokurtic ă atunci când K este mai mic decât 0,2632 şi drept platicurtic ă când K este mai mare decât 0,2632. Coeficientul de exces pentru distribu ţii care satisfac exigen ţele scalelor de x 4 ∑ interval se noteaz ă, de asemenea, cu K . Formula de calcul este urm ătoarea: K = . În această N * s 4 formulă K este coeficientul de exces a unei distribu ţii, x 4 este puterea a patra a variabilei de devia ţie (X- X ), s4 este puterea a patra a abaterii standard a distribu ţiei. În cazul variabilelor grupate pe variante de variaţie la număr ător apare Σ(f*x4). Pentru exemplificare am adaptat tabelul prezentat anterior. Abaterea standard are aceea şi valoare (s = 2,2; s 4 = 23,42). Date grupate pe variante de varia ţie Nr.crt X f fX x x4 f*x4 1 17 2 34 - 5,23 748,18 1496,36 2 19 5 95 - 3,23 108,85 544,23 3 20 9 180 - 2,23 24,73 222,57 4 21 13 273 - 1,23 2,29 29,76 5 22 18 396 - 0,23 0,00 0,05 6 23 12 276 0,77 0,35 4.22 7 24 10 240 1,77 9,82 98,15 8 26 6 156 3,77 202.01 1212,04 9 28 3 84 5,77 1108,42 3325,25 Σ 78 1734 6932,62 scalele ordinale K=
Tabelul 31. Cuprinde exemplificare pentru etapele de calcul necesare stabilirii indicatorului de exces
În
continuare, aplic ăm formula pentru calculul coeficientului de exces: fx 4 6932,32 6932,62 ∑ K = = = = 3,79 N * s 4 78 * 23,42 1826,26 După ultima formul ă folosită o distribu ţie este considerat ă mezokurtic ă când K = 3. În cazul în care K>3 distribu ţia este leptokurtic ă, iar în cazul în care K<3 ea este platikurtic ă. Rezultatul obţinut de noi indică o distribuţie leptokurtic ă. E X E R C I Ţ I I 1. Se dau urm ătoarele valori negrupate ale unei variabile: 15,31, 21,17, 19, 22, 27, 23, 26, 30, 20, 25,28, 27, 18, 17. Să se determine cele 4 tipuri de indicatori statistici aminti ţi în curs.
145
AUREL STAN
2.Se dau următoarele valori ale unei variabile, organizate pe variante de varia ţie: Nr. crt. Valorile variabilei (X) Frecven ţa (f) 1 21 4 2 22 5 3 23 7 4 24 11 5 25 13 6 26 20 7 27 25 8 28 30 9 29 22 10 30 19 11 31 17 12 32 13 13 33 5 14 34 3 Să se determine tipurile de indicatori aminti ţi în curs.
146
STATISTICĂ I
IV. MODELELE TEORETICE DE RAPORTARE Am insistat anterior asupra faptului c ă o mulţime de cifre rezultată din colectarea notelor brute ale unui mare num ăr de persoane care au efectuat un test psihologic nu ne ofer ă nici o informa ţie relevant ă dacă nu realizăm o serie de opera ţii preliminare. Ordonarea şi sistematizarea acestor date încep să confere sens acestei mul ţimi de date. Realizarea histogramei, a poligonului frecven ţelor, a curbei frecventelor sau a altor forme de reprezentare spa ţială a distribu ţiilor empirice ofer ă imaginea tendinţei generale care exist ă în cadrul mul ţimii de date. Interpretarea unor reprezent ări grafice a distribuţiilor empirice este posibil ă doar prin raportare la ni şte modele, care au o fundamentare matematică riguroasă. Cele mai frecvente raport ări ale distribu ţiilor şi reprezentărilor lor grafice se fac la modelul distribu ţiei şi curbei normale a lui Gauss-Laplace. Modelul amintit nu este nici mai bun, nici mai r ău decât alte modele de distribu ţii (modelul Poisson, modelul binomial, modelul uniform discret, modelul Snedecor-Fisher, modelul hipergeometric) 21, ci cel mai frecvent utilizat şi mai adaptat datelor oferite de cercet ările psihopedagogice. Raportarea la distribu ţia normală este una din cele mai frecvente proceduri în analiza datelor rezultate din cercet ările cantitative ale domeniului psihologic. În unele cazuri, aceast ă modalitate de raportare devine un gest reflex, automatic, lipsit de discern ământ din partea cercet ătorului puţin abilitat în privinţa exploatării metodelor cantitative. Asem ănarea unei distribu ţii empirice cu o distribu ţie normală pare să indice că cercetarea merge pe drumul cel bun, c ă o anumită caracteristic ă psihică se manifest ă armonios pe ansamblul unui grup. Este binecunoscut faptul c ă orice măsurare capătă sens prin raportarea la un model teoretic. Curba normală Gauss-Laplace este unul din modelele cu care se opereaz ă în cercetarea cantitativ ă, dar nu singurul. Exist ă alte modele frecvent utilizate, dar nu la fel de populare. De unde vine popularitatea „curbei în clopot”? Aceast ă distribuţia pare multor cercet ători „naturală” şi „firească”, manifestându-se parc ă în firea lucrurilor, şi probabil cred, c ă dacă nu ar fi „inventat-o” celebrul matematician german, ar fi f ăcut-o ei cu siguran ţă. Acumularea de fapte de via ţă înregistrate în registrele oficiale ale statelor din Occident cu sistem administrativ evoluat din secolul XVII şi XVII parcă „anunţa” curba lui Gauss. Astfel, în secolul XVIII s-a remarcat o mare stabilitate a recens ământului efectuat asupra marilor colectivit ăţi (naşterile, căsătoriile, decesele). Acest fapt era interpretat ca o manifestare a providen ţei, a unei ordini divine, impunând o a şezare cantitativ ă armonioasă pentru societate în ansamblul s ău, dincolo de indivizii volatili şi imprevizibili. În 1832, matematicianul german Carl-Friedrich Gauss (1777-1855), profesor la Universitatea din Göttingen, supra-numit „prin ţul matematicienilor” stabile şte o „curbă de erori”, care va purta ulterior numele său, oferind o reprezentare în clopot a erorilor de observa ţie pentru măsur ători mai ales astronomice. Curba normal ă a reparti ţ iei , numită şi curba normal ă Gauss-Laplace este simetric ă, are 21 O
descriere a acestor modelele găsiţi în lucrarea lui Ilie Puiu Vasilescu, Statistic ă informatizat ă pentru ştiinţ ele despre om, Editura militar ă, Bucureşti, 1991, pag. 53-96, de asemenea în lucrarea Statistica aplicat ă în psihologie de Valentin Clocotici şi Aurel Stan, lucrare în curs de apariţie la Editura Polirom.
147
AUREL STAN
vârf unic, cu ordonat ă maximă centrată pe medie şi divizeaz ă repartiţia valorilor în dou ă păr ţi egale (media, mediana şi modul coincid). Cu cât abaterea standard este mai slab ă cu atât curba se strânge mai mult, se apropie asimptotic de axa x. Exist ă o relaţie fixă între abaterea standard a unui e şantion şi procentajul por ţiunilor de suprafa ţă situate sub curb ă între dou ă limite Statisticianul, matematicianul şi astronomul belgian Lambert Adolphe Jacques Quetelet (17961874), autor al lucr ării Sur l’homme et le développment de ses facultés ou essai de physique sociale , 1835, a pus în eviden ţă faptul că distribuţiile obţinute pe caracteristici foarte variate au aceea şi alur ă (ceea ce se va numi mai târziu „curba în clopot”) şi propune o interpretare. El demonstreaz ă matematic că această formă rezultă din compunerea unui mare num ăr de erori mici şi independente unele de altele. Abaterile, prin raportare la tendin ţa centrală (valoare care corespunde vârfului curbei) vor fi ni şte imperfecţiuni în realizarea efectiv ă a unui obiect „perfect”. No ţiunea pusă în circula ţie de Quetelet este aceea de om mediu. La baza filosof ărilor savantului belgian se afla considerentul c ă media descrie un subiect ideal, desc ărcat de erorile cu care natura l-a creat. Apreciaz ă că media este mai adev ărat ă decât o valoare m ăsurată. Omul mediu este prosl ăvit ca expresie a adev ărului. Cu toată str ăduinţa lui Quetelet de a impune „omul mediu”, aceast ă no ţiune a fost o prezen ţă foarte controversat ă în câmpul preocupărilor ştiinţifice socio-umane. Distribuţie normală se contureaz ă atunci când o caracteristic ă (de exemplu, în cazul nostru, inteligenţa) se naşte din acţiunea conjugat ă a mai multor surse de varia ţie care, firesc, o influen ţează. Avantajele acestui tip de distribu ţie rezidă în posibilitatea unui mai bun tratament statistic a seriilor de rezultate repartizate într-un mod normal (în unit ăţi de abateri standard). Comentând într-o lucrare presupoziţiile curbei lui Gauss. Jean Jacques Bonniol şi Michel Vial se exprim ă poetic vorbind despre „ şarmul discret al simetriei” 22. Modelul gaussian a fost adoptat cu uşurinţă din cauza faptului c ă el prezint ă toate aparen ţele de eviden ţă: simetria armonioas ă, calcule simple, coeren ţă cu (sau legitimare a) ideile existente asupra distribu ţiei aptitudinilor, coeren ţă, cu imperativele selec ţiei sociale şi a alegerii „celor mai buni”, cu obi şnuinţele mentale şi socio-culturale. Distribuţia normală se verifică experimental asupra variabilelor aleatoare şi pare s ă dea seama de un fel de „lege a naturii”. Forma ca atare a curbei Gauss Laplace are o mare putere de sugestie pentru cei înclina ţi spre filosofare a faptelor, obiectelor, evenimentelor lume şti. Tot ce fiin ţează în această lume are un început, o evoluţie, un vârf de glorie sau de vitalitate, dup ă care urmeaz ă căderea, declinul şi aneantizarea. Fiinţele de orice gen, crea ţiile umane, alc ătuirile sociale, imperiile şi m ăririle lumeşti sunt „tiranizate” în existenţa lor de legea lui Gauss-Laplace . Dar, distribuţia normală nu este „divin ă şi universal ă”, cum a crezut la început Einstein. Exist ă distribuţii în U , în J , în I , asimetrice de dreapta, asimetrice de stânga şi altele. În scopul de a conserva avantajele distribu ţiei normale se modific ă valorile aceste distribu ţii prin transformarea mai ales în valori z sau T , adică se pun în func ţiune procedeele de normalizare. Generalizarea acestui model probabilist ajunge la legea normal ă redusă, la care se rezum ă câteva caracteristici. Într-o distribu ţie normală media, mediana şi modul coincid, sigma sau abaterea standard delimiteaz ă zonele în care procentajele sunt cunoscute şi stabile. Exemplific ăm noţiunea de model de distribu ţ ie şi deviaţiile de la un model prin raportare la 22 Jean
Jacques Bonniol, Michel Vial, Les modèles de l’évaluation. Textes fondateurs avec commentaires, De Boeck & Larcier s.a.1997, Paris, Bruxelles, pag.71
148
STATISTICĂ I modelul binomial, model foarte apropiat modelului normal de distribu ţie. Frecvenţele variantelor sau intervalelor de distribu ţie sunt propor ţionale cu valorile urm ătoarelor serii: 2 intervale: 3 intervale: 4 intervale: 5 intervale: 6 intervale: 7 intervale: 8 intervale: 9 intervale:
1 1 1 1 1 1 1 1
1 2 3 4 5 6 7 8
1 3 6 10 15 21 28
1 4 10 20 35 56
1 5 1 15 6 1 35 21 7 1 70 56 28 1
Cum citim aceste serii de valori care formeaz ă aşa-numitul «Triunghi al lui Pascal»? Facem referire la algoritmul de reparti ţie pentru 4 intervale. Şirul «1 3 3 1» semnific ă faptul că în modelul binomial pentru 4 intervale, al doilea interval va avea un efectiv de trei ori mai mare decât primul, al treilea interval va avea un efectiv de trei ori mai mare decât primul şi al patrulea interval va avea un efectiv egal cu primul. Deci, un prim efectiv de baz ă se multiplic ă conform unui algoritm. Dacă vom avea 2940 de valori ale unei distribu ţii empirice şi dorim să le distribuim dup ă modelul binomial în 9 clase pentru a putea determina ulterior cât de mult se distan ţează de acest model teoretic o anumită distribuţie empiric ă, procedăm în felul următor: 1) se adi ţionează toate cifrele din dreptul specifica ţiei 9 (1+8+28+56+70+56+28+8+1=326) ; 2) împ ăr ţim efectivul total al distribu ţiei la 326 (2940:326 = 9,01, aproximativ 9); 3) valoarea rezultat ă o înmulţim cu fiecare cifr ă a şirului de date din dreptul specifica ţiei „9 intervale”. Specificaţie „9” Nr. interval Efectiv rezultat
1 1 9
8 2 72
28 3 252
56 4 504
70 5 630
56 6 504
28 7 252
8 8 72
1 9 9
Exprimat ă grafic sub form ă de histogram ă, situaţia rezultată se prezintă astfel: 700 600 500 400 300
540
630
540
200 252
100 0
9 1
252
72 2
72 3
4
5
6
7
8
9 9
Figura 6. Organizarea cantitativ ă a modelului binomial în 9 clase pentru 2940 de rezultate (exprimat ă printr-o histogramă ) 149
AUREL STAN
Exprimat ă sub formă de curbă, vom avea urm ătoarea reprezentare grafic ă 700 630
600 540
500
540
400 300
252
200 100
252
72
72
9
0 1
9 2
3
4
5
6
7
8
9
Figura 7. Organizarea cantitativ ă a modelului binomial în 9 clase pentru 2940 de rezultate (exprimat ă printr-o curbă a frecvenţ elor)
Distribuţia empirică (aşa cum rezult ă dintr-o cercetare concret ă) deviază foarte frecvent de la o distribuţie teoretică. În exprimare statistic ă se folose şte sintagma pentru aceast ă deviaţie de distanţă faţă de modelul teoretic . În cercetarea practic ă nu are importan ţă dacă o distribu ţie empirică se distan ţează de una teoretic ă, ci dacă această deviaţie este semnificativ ă sau nu. Dacă distanţa dintre cele două distribuţii este una semnificativ ă, putem spune c ă ieşim din model , situaţie care modific ă o serie de proceduri de raportare. Astfel, pentru valorile unei distribu ţii empirice nu mai au sens exprim ările prin intermediul valorilor normalizate. Exemplific ăm, prin intermediul unei reprezent ări grafice realizate prin programul SPSS-10, distan ţa între o distribu ţia teoretică şi una empirică. 14
12
10
8
6
4
Std. Dev = 6,95
2
Mean = 24,4 N = 63,00
0 12,5 15,0 17,5 20,0 22,5 25,0 27,5 30,0 32,5 35,0 37,5
X
Figura 8. Exemplificare distanţării dintre o distribuţ ie empiric ă (histogramă pentru 63 de rezultate) şi o distribuţ ie teoretic ă (curba lui Gauss) 150
STATISTICĂ I Se cunosc mai multe forme de deviere sau distan ţare de la un model teoretic gaussian. Exemplific ările sunt f ăcute din domeniul psihologic 1. Curba cu asimetrie de dreapta sau asimetrie negativ ă semnifică faptul ca o proba psihologic ă este prea u şoara pentru subiec ţii la care a fost aplicata sau ca grupul de subiec ţi este selec ţionat din superdotaţi. În aceast ă formă de asimetrie se pot detecta cu u şurinţă subiecţii foarte slabi, situa ţi în stânga distribu ţiei. I se spune pozitiv ă, deoarece diferen ţa dintre valoarea mediei şi valoarea medianei dă o valoare negativ ă 120 100 80 60 40 20 0 1
2
3
4
5
6
7
8
9
10
Figura 9. Curba cu asimetrie de dreapta sau asimetrie negativ ă
2. Curba cu asimetrie de stânga sau asimetrie pozitiv ă .Semnifică faptul c ă rezultatele unei probe sunt foarte grele, sau faptul subiec ţii sunt selec ţionaţi dintre cei foarte slab dota ţi aptitudinal. I se spune pozitiv ă deoarece diferen ţa dintre valoarea mediei şi valoarea medianei d ă o valoare pozitiv ă. Cu o astfel de reprezentare grafic ă ies foarte bine în evidenţă subiecţii buni şi foarte buni. 120 100 80 60 40 20 0 1
2
3
4
5
6
7
8
9
10
Figura 10. Curbă cu asimetrie de stânga sau asimetrie pozitiv ă
3. Curba platikurtic ă semnific ă ridicarea exagerata a coeficientului de varia ţie. Amplitudinea distribuţiei sau plaja de varia ţie este foarte extins ă. Nu se poate observa nici o tendin ţă de reliefare în distribuţia datelor
151
AUREL STAN
150 100 50 0 1
2
3
4
5
6
7
8
9
10
11
Figura 11. Curbă aplatizat ă sau platikurtic ă
4. Curba mezokurtica este apropiat ă ca formă curbei normale Gauss-Laplace. Semnific ă un echilibru in privin ţa repartiţiei rezultatului subiec ţilor. 60 50 40 30 20 10 0 1
2
3
4
5
6
7
8
9
Figura 12. Curba mezokurtic ă
5. Curba leptokurtica semnific ă faptul că majoritatea datelor sunt masate în pu ţine intervale în jurul mediei şi îngustimea coeficientului de varia ţie 250 200 150 100 50 0 -50 1
2
3
4
5
6
7
8
9
Figura 13. Curba leptokurtic ă
6. Curba bimodală (cu dublu modul) semnific ă faptul existen ţei în grupul de subiec ţi examinaţi a doua subgrupuri eterogene cu dot ări aptitudinale diferite. Men ţionăm, totodată, că acest fel de curb ă rezulta şi in cazul adopt ării unei tehnici de construc ţie a testului psihologic care-si propune s ă dea rezultate sub forma dihotomic ă (apt-inapt, admis-respins);
152
STATISTICĂ I 30 25 20 15 10 5 0 1
2
3
4
5
6
7
8
9
10
11
12
Figura 14. Curba bimodal ă
7. Curma multimodal ă semnifica existen ţa în grupul examinat a mai multor subgrupe eterogene valoric. 40 30 20 10 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Figura 15. Curba multimodal ă
8. Curba în U semnific ă plasarea majorit ăţii rezultatelor la extremit ăţile plajei de varia ţie. În mediile de populaţie puternic divizate pe criterii etnice, rasiale sau religioase se ob ţin astfel de rezultate în cazuri în care se efectueaz ă chestionare de opinii în privin ţa calităţilor unei anumite grup ări cu eşantioane compuse din numere egale de opozan ţi; 200 150 100 50 0 1
2
3
4
5
6
7
8
9
Curba 16. Curba în U
9. Curba în I se întâlne şte în cazul în care majoritatea covâr şitoare a subiec ţilor se situeaz ă la limita inferioar ă a plajei de varia ţie. Se întâlnesc astfel de situa ţii când transpunem grafic situa ţia erorilor la proba t ăbliţelor de corectura Bourdon-Amfimov;
153
AUREL STAN 200 150 100 50 0 1
2
3
4
5
6
7
8
9
10
11
Figura 17. Curba în I
10. Curba în j. Situa ţia se întâlneşte când transpunem grafic valoarea indicilor de calitate la probele creion hârtie de aten ţie concentrata. 250 200 150 100 50 0 1
2
3
4
5
6
7
8
9
10 11
Figura 18. Curba în J
În interpretarea unor astfel de forme de distribu ţie care deviaz ă de la o distribu ţie teoretic ă Gauss-Laplace este necesar ă o anumită elasticitate în interpretare, deoarece anumite condi ţii particulare de desf ăşurare a unui examen sau experiment favorizeaz ă apariţia unui anumit tip de distan ţare. Explicaţiile pe care le-am dat noi constituie doar una din interpret ări. De exemplu, la apari ţia unei distribuţii asimetrice pozitive se poate întâmpla ca subiec ţii să nu fi înţeles explica ţiile de realizare a unei anumite sarcini.
154
STATISTICĂ I
BIBLIOGRAFIE ▪
▪
▪
▪
▪
▪
▪
▪
▪
▪
▪
▪
▪
▪
▪
Andrei, T., Stancu, S., Statistic ă - Teorie şi aplicaţ ii , Editura All, Bucureşti, 1995 Dickes, P., Tournois, J., Flieler, A., Kop, J.L., La psychometrie, Presses Universitaire de Frances, Paris, 1993 Gueguen, N., Manuel de statistique pour psychologues , Dunod, Paris, 1997 Horst, P., Messung und Vorhersage , Verlag Juliusz Beltz, Weinheim, Berlin, Basel, 1971 Lienert, G.A., Testaufbau und Testanalyse ,Verlag Juliusz Beltz,Weinheim/ Berlin, 1967 Milton-Smith, G., Ghid simplificat de statistic ă pentru psihologie şi pedagogie , Editura didactic ă şi pedagogic ă, Bucureşti, 1971 Nowak, A., Metode cantitative în psihologie şi sociologie,Oscar Print, Bucure şti, 1998 Porojan, D., Statistica şi teoria sondajului , Casa de editur ă “Şansa” SRL, Bucureşti, 1993 Radu, I., Miclea, M., Moldovan, O., Neme ş, S., Szamoskozy, S., Metodologia psihologic ă şi analiza datelor , Editura Sincron, Cluj, 1993 Reuchlin, M., Les Methodes quantitatives en psychologie , Presses Universitaires de France, Paris, 1962 Reuchlin, M., Precis de statistique , Presses Universitaires de France, Paris, 1975 Rotariu,T., Metode statistice aplicate în ştiinţ ele sociale, Polirom, Iaşi, 1999 Trebici, V. (coord), Mic ă enciclopedie de statistic ă, Editura ştiinţifică şi enciclopedic ă, Bucureşti, 1985 Ţarcă, M., Tratat de statistic ă aplicat ă, Editura didactic ă şi pedagogic ă, R.A. Bucureşti, 1998 Vasilescu, I.P., Statistic ă informatizat ă pentru ştiinţ e despre om , Editura Militar ă, Bucureşti, 1991
155