Prof.univ.dr. Alin Gilbert Sumedrea – Statistic ă psihologică (curs universitar)
6. DISTRIBUŢII NORMALE ŞI SCORURI STANDARD
Prelucrarea şi interpretarea datelor statistice este eficient ă în studiul sistemelor multidimensionale unde non-tipicalitatea este cvasi-prezent ă şi controlul experimental posibil. Pentru surprinderea cât mai fidel ă a caracteristicilor oric ărui fenomen sau proces analizat este nevoie de o cantitate cât mai mare de informa ţie statistică. Cât de mare sau cât de ampl ă poate fi informaţia statistică? Teoretic, volumul de date statistice poate fi infinit. Nevoia de cunoa ştere în detalii fine a realit ăţii care ne înconjoară şi la care avem acces, asociat ă cu imposibilitatea de a opera pe serii infinite de date statistice a canalizat efortul statisticienilor în î n direc ţia elaborării unor proceduri de evaluare a propriet ăţilor unei popula ţii pe baza unui volum limitat de informa ţie. Nu de pu ţine ori, seriile statistice supuse prelucr ării sunt extrem de lungi. Pentru a surprinde ceea ce este esen ţial într-un volum mare de informa ţie statistică, aparent f ără semnificaţie, este necesar ă comprimarea seriilor statistice simple în serii cu distribuţii de frecven ţe. Distribuţiile de frecven ţe sunt extrem de variate. O form ă particulară este distribuţia normală. De şi în realitate distribu ţia normală este întâlnit ă în foarte pu ţine cazuri, exist ă un număr extrem de mare de variabile care au tendin ţe să urmeze caracteristicile sale. D ăm câteva exemple: - abilitatea mental ă a copiilor; - greutatea indivizilor; - înălţimea indivizilor; - etc. În ultima perioad ă a secolului XIX, Sir Francis Galton a început s ă se preocupe de studiul diferenţelor individuale care constituie o important ă zonă de studiu în psihologie şi educaţie. În investigaţiile sale asupra modului în care oamenii difer ă în zona activităţilor mentale şi trăsăturilor fizice, Galton a sesizat c ă distribuţia normală constituie un bun şi rezonabil descriptor. Există însă o serie de variabile care nu urmeaz ă în dinamica lor distribu ţia normală, cum ar fi: impozitul anual, m ărimea familiei, aptitudinile educa ţionale etc. Mai mult, variabilele care sunt distribuite normal într-un anumit context pot prezenta o distribuţie ne-normal ă dacă situaţia sau contextul se schimb ă. De exemplu, distribuţia greutăţii este modal ă pentru femei şi bărbaţi luaţi separat. Îns ă când cele două grupuri sunt combinate, distribu ţia este bimodal ă. În ciuda acestor excep ţii este de reţinut faptul că distribuţia normală oferă o descriere rezonabil ă şi convenabil ă a unui num ăr mare de variabile. Totodat ă, curba normală poate descrie distribu ţia multor statistici ale e şantioanelor. De exemplu, dac ă se dispune de 100 de e şantioane aleatoare de la o popula ţie de adolescen ţi – unde se urmăreşte greutatea acestora – şi se calculeaz ă greutatea medie în fiecare e şantion, se constată că distribuţia celor 100 de medii aproximeaz ă curba normală. În asemenea situaţii este recomandabil ă folosirea curbei normale în elaborarea “judec ăţilor statistice”. Proprietatea numeroaselor caracteristici de a urma “normalitatea statistic ă” este de importan ţă majoră în statistica inferen ţială. 6.1 PROPRIET ĂŢILE CURBEI NORMALE
Distribuţia normală reprezintă un model matematic, un concept concept idealizat al al formei distribuţiei. Nici o distribu ţie empirică nu satisface perfect propriet ăţile curbei normale. Cu toate acestea, distribu ţiile empirice oferă adesea o aproximare rezonabil ă 1
Prof.univ.dr. Alin Gilbert Sumedrea – Statistic ă psihologică (curs universitar) a curbei normale şi din acest motiv, pare acceptabil s ă spunem că datele sunt distribuite normal. Trebuie îns ă surprinsă o nuanţă importantă. Dacă ecuaţia unui cerc descrie o familie de cercuri, unele mai mari, altele mai mici, ecua ţia curbei normale descrie o familie de distribu ţii. Curbele normale pot diferi între ele. Responsabile de aceste diferen ţieri sunt mediile şi abaterile standard ale distribu ţiilor. Care sunt propriet ăţile curbei normale? În primul rând, acestea sunt simetrice, în sensul că jumătatea stângă a distribuţiei este oglinda imaginii jum ătăţii drepte. În al doilea rând, aceste curbe sunt unimodale, prezentând o mod ă în centru. Media, mediana şi modulul au aceea şi valoare. În al treilea rând, aceste curbe au forma de clopot. În al patrulea rând, curbele normale nu intersecteaz ă niciodată abscisa. Această proprietate ilustreaz ă de ce o distribu ţie empirică nu poate fi niciodat ă perfect normală. În graficele de mai jos sunt prezentate elementele de diferen ţiere ale distribuţiilor normale. Fig. 6.1 Medii egale, abateri standard inegale.
Fig. 6.2 Abateri standard inegale, medii inegale.
Fig. 6.3 Abateri standard egale, mediile inegale.
6.2 DEVIAŢIA STANDARD ŞI DISTRIBUŢIA NORMALĂ
Prezentăm în continuare un rezultat important şi frecvent utilizat în statistic ă. Propor ţ ia zonei delimitate de abaterile standard de o parte şi de alta a mediei (în ansamblul zonei delimitate de curba normală) este egală cu propor ţ ia cazurilor care înregistrează scoruri cuprinse în acea zonă. De exemplu, într-o distribu ţie normală, 34,13% din cazuri înregistreaz ă scoruri cuprinse între medie şi o abatere standard fa ţă de medie. În graficul de mai jos sunt eviden ţiate frecvenţele relative ale cazurilor cuprinse în interiorul intervalelor devia ţiilor standard.
2
Prof.univ.dr. Alin Gilbert Sumedrea – Statistic ă psihologică (curs universitar)
Fig. 6.4
Graficul frecven ţelor relative a cazurilor cuprinse între intervalele
deviaţiilor standard pentru o medie x = 100 şi o abatere standard s
=
15 .
6.3 SCORURILE Z
Relaţia dintre zonele curbei normale şi unităţile de deviaţie standard poate fi utilizat ă pentru a r ăspunde anumitor întrebări care sunt fundamentale în statistică. De exemplu: fiind dată o distribuţie normală cu media 100 şi deviaţia standard 15, care este procentul cazurilor care înregistrează scoruri IQ mai mari de 115? Ştim că un scor de 115 provenit de la o distribuţie a scorurilor având media de 100 şi abaterea standard de 15, reprezintă o deviaţie standard faţă de medie ( 115 − 100 = 15 = 1s ). Mai mult, ştim din figura 1.4 că 34,13% din cazuri prezintă un scor IQ cuprins între 100 şi 115 iar în 50% din cazuri, scorurile sunt mai mici de 100. Deci, în aproximativ 16% din cazuri vom întâlni scoruri IQ mai mari de 115. Figura de mai sus, nu mai poate fi utilizat ă dac ă se urmăreşte evaluarea procentuală a cazurilor care înregistrează scoruri IQ superioare scorului de 117. Tabelele statistice sunt astfel construite încât să elimine acest impediment. Însă problema care se ridică constă în identificarea unei modalităţi de exprimare a locaţiei scorurilor în termeni care să fie echivalenţi pentru toate distribuţiile normale. Spre exemplu, un scor IQ de 115 care are o devia ţie standard deasupra mediei de 15 va avea o cu totul altă localizare într-o distribuţie cu x = 116 şi s = 5 . Soluţia oferită de statistică este aceea de a transforma scorurile originale în scoruri standard (scoruri z). Un scor standard exprimă poziţia unui scor în raport de media distribu ţiei, utilizând deviaţia standard ca unitate de măsură. Scorul z stabileşte numărul de deviaţii standard prin care scorul original se plaseaz ă deasupra sau sub media distribuţiei. Într-o distribuţie unde x = 100 şi s = 15 , scorul de 115 corespunde unui scor z de 1.00, indicând faptul că scorul este situat la o deviaţie standard deasupra mediei. Scorurile z se calculează după relaţia: z
=
x − x s
3
Prof.univ.dr. Alin Gilbert Sumedrea – Statistic ă psihologică (curs universitar) Să ne oprim asupra scorului IQ de 115 înregistrat în dou ă distribuţii diferite, una în care x = 100 şi s = 15 iar cealaltă în care x = 135 şi s = 10 . Valorile lui z sunt: - pentru distribuţia cu x = 100 şi s = 15 z
-
=
115 − 100 15
=
15 = +1 15
+
pentru distribuţia cu x = 135 şi s = 10 z
=
115 − 135 = −2 10
Chiar dacă scorurile originale sunt identice, ele au pozi ţii diferite în distribuţiile menţionate. Acest lucru se poate constata u şor din analiza graficelor următoare:
Fig. 6.5 Scorul original şi scorul z pentru două distribuţii normale având medii şi abateri standard diferite.
O situaţie interesantă apare atunci când pentru distribuţia normală x = 50 şi s = 10 . Aici un scor de 60 reprezint ă o deviaţia standard deasupra mediei şi cade în aceeaşi poziţie relativă ca şi scorul de 115 din distribuţia originală ( x = 100 şi s = 15 ).
4
Prof.univ.dr. Alin Gilbert Sumedrea – Statistic ă psihologică (curs universitar)
Fig. 6.6 Scorul original de 60 şi scorul z asociat într-o distribuţie cu x = 50 şi s = 10 . Să calculăm acum scorurile standard corespunz ătoare scorurilor IQ egale cu
120 şi 95. Dacă x = 100 şi s = 15 , atunci scorurile z corespunzătoare sunt: z
=
z
120 − 100 + 20 = = +1,33 15 15
=
95 − 100 − 5 = = −0,33 15 15
Scorul IQ de 120 reprezint ă 1,33 devia ţii standard deasupra mediei, în timp ce scorul IQ de 95 reprezint ă 0,33 deviaţii standard sub medie. Propor ţiile corespunz ătoare acestor cote sunt precis specificate în tabelele statistice. Distribuţiile normale diferă prin valorile variabilelor, medie şi abatere standard. Ceea ce este comun acestor distribu ţii este repartiţia proporţiilor pe un orizont de varia ţii. Distribuţiile normale pot fi reduse la o distribu ţie standardizat ă de medie 0 şi abatere standard 1 prin transformarea scorurilor originale în scoruri standard ( z). Motivaţia unei asemenea transform ări constă în faptul că, dată fiind distribuţia standardizat ă, se pot determina cu u şurinţă proporţiile valorilor care se găsesc de o parte şi de alta a unei valori z date. TIPURI DE PROBLEME
1. Pentru o distribuţie normală având x = 100 şi s = 20 , care este procentul cazurilor ce înregistreaz ă scoruri mai mici de 80? Calculăm: 80 − 100 = −1,00 s 20 Valoarea corespunz ătoare cotei z din anexa A este de 15,87%. Prin urmare în 15.87% din cazuri scorurile vor fi mai mici de 80. z
=
x − x
=
2. Pentru o distribuţie normală cu x = 100 şi s = 20 , care este procentul cazurilor ce înregistreaz ă scoruri mai mari de 120?
5
Prof.univ.dr. Alin Gilbert Sumedrea – Statistic ă psihologică (curs universitar) 120 − 100 = +1,00 20 În anexa A se g ăseşte ca şi în exemplul de mai sus valoarea de 15,87%. z
=
Fig. 6.7 Distribu ţia normală a scorurilor pentru x = 100 şi s = 20 .
3. Pentru o distribuţie cu x = 100 şi s = 20 , se cere procentul cazurilor care înregistreaz ă scoruri mai mari de 80. Cota z corespunzătoare este: 80 − 100 = −1,00 20 Figura de mai jos sugerează necesitatea corespunzătoare celor două zone marcate. z
=
determinării
procentelor
Fig. 6.8 Zonele corespunz ătoare cotelor standard pentru determinarea proporţiei cazurilor care înregistrează scoruri mai mari de 80.
Prima coloană a anexei A oferă răspunsul pentru prima zonă cuprinsă între scorurile 80 şi 100. Este vorba de un procent de 34,13%. Întrucât curba normală este simetrică, zona cuprinsă dincolo de medie reprezintă ½ din totalul zonei aflată sub grafic, adică 50%. În consecinţă, zona marcată reprezintă 34,13% + 50% = 84,13% din totalul zonei plasate sub grafic. Prin urmare, în aproximativ 84% din cazuri se înregistreaz ă scoruri IQ mai mari de 80.
6
Prof.univ.dr. Alin Gilbert Sumedrea – Statistic ă psihologică (curs universitar) 4. Pentru o distribuţie normală cu x = 100 şi s = 20 , care este procentul subiecţilor care înregistrează scoruri IQ cuprinse între 90 şi 120? Calculăm cotele z corespunzătoare scorurilor de 90 şi 120: z
=
90 − 100 120 − 100 = −0,50 şi z = = 1,00 20 20
Analizând figura de mai jos, reiese necesitatea determin ării procentelor corespunz ătoare celor dou ă zone marcate: una cuprins ă între scorurile de 90 şi 100 şi cealaltă cuprinsă între 100 şi 120.
Fig. 6.9 Determinarea proporţiei cazurilor care înregistrează scoruri cuprinse între 90 şi 120.
În anexa A, procentele corespunz ătoare celor două zone sunt de 19,15% respectiv de 34,13%. Deci procentul subiec ţilor care înregistreaz ă scoruri cuprinse între 90 şi 120 (pentru distribuţia N( x = 100 şi s = 20 )) este de 53,28%. 5. Pentru o distribuţie normală cu x = 100 şi s = 20 , care este propor ţia cazurilor care înregistreaz ă scoruri cuprinse între 110 şi 120? Această problemă este similară problemei 4, mai pu ţin faptul că ambele scoruri sunt pozi ţionate dincolo de medie. O solu ţie ar fi să determinăm proporţia cazurilor care înregistreaz ă scoruri mai mari de 110 şi apoi proporţia cazurilor care înregistreaz ă scoruri mai mari de 120. Având aceste informa ţii, pentru determinarea propor ţiei cazurilor care înregistreaz ă scoruri cuprinse între 110 şi 120 este suficient s ă facem diferen ţa dintre procentele rezultate. Pentru datele de care dispunem, scorurile z sunt: z
=
110 − 100 120 − 100 = +0,50 şi z = = +1,00 20 20 7
Prof.univ.dr. Alin Gilbert Sumedrea – Statistic ă psihologică (curs universitar) Procentele corespunz ătoare scorurilor mai mari de 110 şi 120 sunt de 30,85% respectiv de 15,87%. Rezult ă c ă în 30,85%-15,87%=14,98% din cazuri se vor înregistra scoruri cuprinse între 110 şi 120. SITUAŢIA INVERSĂ
Problema pe care o propunem în continuare este de a g ăsi scorul care separă două zone aflate sub graficul curbei normale. Exist ă în principiu trei tipuri de probleme. 1.Pentru o distribuţie normală cu x = 100 şi s = 20 , să se g ăsească scorul care separă zona scorurilor mai mari prezente într-un procent de 20% de celelalte scoruri prezente într-un procent de 80%. În anexa A coloana 3, se caută valoarea cea mai apropiată de 20% care este 20,05%, iar cota z corespunzătoare este de 0,84. În continuare se converteşte scorul z în scor original x. În cazul de faţă, scorul original se află la 0,84 abateri standard deasupra mediei şi este egal cu 100 + 0,84 ⋅ 20 = 116,8 . Acesta este scorul care separ ă cele două zone. Graficul corespunz ător este cel prezentat mai jos.
Fig. 6.10 Scorul care separ ă zona scorurilor mai mari aflate într-un procent de 20% de restul scorurilor.
2. Pentru o distribu ţie normală cu x = 100 şi s = 20 să se g ăsească scorul care separ ă zona scorurilor mai mici prezente într-un procent de 20% de celelalte scoruri (prezente într-un procent de 80%). Grafic, situa ţia este cea prezentat ă mai jos.
Fig. 6.11 Scorul care separă zona scorurilor mai mici aflate într-un procent de 20% de restul scorurilor.
8
Prof.univ.dr. Alin Gilbert Sumedrea – Statistic ă psihologică (curs universitar)
Ca şi în exemplul de mai sus, în anexa A coloana a treia se urm ăreşte valoarea cea mai apropiată de 20%. Întrucât trebuie delimitat ă o zonă care cuprinde scorurile mai mici aflate într-un procent 20% de cealalt ă zonă care cuprinde restul de 80% din scoruri, scorul se va plasa în stânga mediei şi deci va corespunde unei zone z negative ( z = −0,84 ). Acum exist ă condiţiile de a converti scorul z în scor original. Astfel, x = 100 − 0,84 ⋅ 20 = 83,2 . 3. Pentru o distribu ţie normală cu x = 100 şi s = 20 , care sunt limitele (exprimate în scoruri) în interiorul cărora se înregistrează 95% din scoruri? Situaţia este prezentată în graficul mai jos:
Fig. 6.12 Limitele în interiorul cărora se întâlnesc 95% din scoruri pentru o distribuţie N( x = 100, s = 20 ).
Având în vedere simetria curbei normale, rezultă că zonele care se exclud trebuie s ă reprezinte fiecare un procent de 2,5% din zona aflată sub grafic. În coloana a treia a anexei A se găseşte cota z de 1,96 corespunzătoare procentului de 2,5%, respectiv de –1,96 pentru cota z negativă. Scorurile originale sunt:
100 + (− 1,96) ⋅ 20 = 60,8 şi 100 + 1,96 ⋅ 20 = 139,2 Între scorurile de 60,8 respectiv de 139,2 se cuprind, în condi ţiile distribuţiei menţionate, 95% din scoruri. 6.4 COMPARAREA SCORURILOR DIFERITELOR DISTRIBU ŢII
Convertirea scorurilor originale în scoruri z conduce la distribuţia normală centrată şi redusă, de medie 0 şi abatere standard egală cu 1. Deci, indiferent de media şi abaterea standard a distribuţiei originale, convertirea în scoruri z conduce la o unică distribuţie statistică. Acest lucru este foarte important întrucât permite compararea scorurilor diferitelor distribuţii. Pentru o mai bună înţelegere prezentăm următorul exemplu. Să presupunem că se înregistrează un scor de 60 la un examen pentru care media este de 40 şi abaterea standard este de 10 şi un scor de 80 la acela şi examen în anul următor pentru care media este de 65 şi abaterea standard de 15. Se pune întrebarea care rezultat este mai „bun”?
9
Prof.univ.dr. Alin Gilbert Sumedrea – Statistic ă psihologică (curs universitar) Scorul mai mare de 80 este relativ în şelător, date fiind mediile şi abaterile standard diferite la cele dou ă examene. Transformând cele dou ă scoruri în cote z, obţinem: z1
=
60 − 40 = 2,00 ; z 2 10
=
80 − 65 = 1,00 15
Grafic, situaţia este prezentat ă mai jos.
Fig. 6.13 Compararea scorurilor a dou ă distribuţii având medii standard diferite.
şi abateri
Întrucât la primul examen doar 2% din note au fost mai mari fa ţă de media de 60 comparativ cu al doilea examen unde 16% din note au fost superioare mediei de 80, rezultă că la primul examen performan ţa obţinută a fost mai bun ă. 6.5 ALTE SCORURI STANDARD
Utilizarea scorurilor z poate constitui un inconvenient din cel pu ţin două puncte de vedere: - în primul rând se lucrează cu ambele valori, pozitive şi negative; - în al doilea rând, scorurile z nu sunt foarte familiare, mai ales când se încearc ă comunicarea rezultatelor unui public ne-familiarizat cu propriet ăţile acestor scoruri. Având în vedere aceste inconveniente, scorurile t constituie o alternativ ă mai bună, fiind accesibile înţelegerii. Ca şi scorurile z, scorurile t sunt standardizate la o medie şi abatere standard fixate. Când convertim toate scorurile în scoruri t , media lor este 50 iar abaterea standard este 10. Scorurile t se calculeaz ă după relaţia: t = 50 + 10 z
De exemplu, pentru un scor z = −1.7 , scorul t corespunzător este: t = 50 + 10 ( −1,7 ) = 33
10
Prof.univ.dr. Alin Gilbert Sumedrea – Statistic ă psihologică (curs universitar)
sau, dacă pentru un scor z abaterea standard este de +1.00, atunci scorul t este 60. În figura de mai jos sunt prezentate comparativ diverse scale ale scorurilor standard.
Fig. 6.14 Scale de scoruri într-o distribu ţie normală.
Ceea ce trebuie re ţinut este că standardizarea unei scale nu duce la modificarea formei distribuţiei; se schimbă doar valorile corespunz ătoare lui x , x şi s .
11