CIPRIAN R ĂULEA
STATISTIC Ă PSIHOLOGIC Ă Ş I PRELUCRAREA INFORMATIZATĂ INFORMATIZAT Ă A DATELOR CURS INTRODUCTIV PENTRU STUDENŢ STUDEN Ţ II SPECIALIZĂ SPECIALIZ Ă RIILOR PSIHOLOGIE Ş I Ş TIINŢ TIIN Ţ ELE EDUCAŢ EDUCA Ţ I E I
2010
TEME PENTRU STUDIU Cuvânt înainte Capitolul 1. Evoluţ Evoluţia statisticii şi obiectul ei de studiu 1.1. Evoluţia istoric ă a statisticii 1.2. Obiectul de studiu şi rolul statisticii 1.3. Programe-software utilizate în statistica social ă şi psihologic ă 1.4. Noţiuni introductive privind utilizarea programului SPSS Capitolul 2. Noţ Noţiuni fundamentale folosite în statistică statistică 2.1. Colectivitatea şi unitatea statistic ă. 2.2. Variabile statistice. 2.3. Cuantificarea şi măsurarea fenomenelor psihosociale. 2.4. Scale de măsur ă. 2.5. Definirea variabilelor statistice cu ajutorul SPSS. Capitolul 3. Ordonarea, gruparea şi prezentarea datelor statistice 3.1. Serii (distribu ţii) statistice 3.2. Gruparea (sistematizarea) datelor 3.3. Prezentarea datelor sub formă de tabele 3.4. Reprezentarea grafică a datelor statistice 3.5. Utilizarea SPSS pentru ordonarea şi gruparea datelor statistice 3.6. Utilizarea SPSS pentru prezentarea datelor statistice sub form ă de tabele 3.7. Utilizarea SPSS pentru reprezentarea grafic ă a datelor statistice Capitolul 4. Indicatori ai tendinţ tendin ţei centrale 4.1. Mediile 4.2. Quantilele: mediana, quartilele, decilele şi centilele 4.3. Modul 4.4. Relaţia dintre medie, median ă şi modul 4.5. Reprezentări de tip Boxplots 4.6. Utilizarea SPSS pentru calcularea şi reprezentarea indicatorilor de poziţie Capitolul 5. Indicatori ai variaţ varia ţiei şi indicatori ai formei 5.1. Indicatori simpli (elementari) ai varia ţiei 5.2. Indicatori sintetici ai varia ţiei 5.3. Indicatori ai formei distribu ţiei 5.4. Utilizarea SPSS pentru calcularea indicatorilor varia ţiei şi ai formei
Capitolul 6. Distribuţ Distribuţiile statistice 6.1. Distribu ţia normală 6.2. Distribu ţii simetrice şi asimetrice 6.3. Distribu ţii unimodale şi bimodale 6.4. Valori normate (scoruri z) 6.5. Distribu ţia normală standardizată Capitolul 7. Inferenţ Inferenţa statistică statistică 7.1. Delimitări conceptuale 7.2. Probleme de estimare 7.2.1. Semnificaţia unei medii. 7.2.2. Semnificaţia frecvenţei 7.3. Testarea ipotezelor 7.4. Testele parametrice t şi z 7.4.1. Testele t şi z pentru un e şantion. 7.4.2. Testele t şi z pentru dou ă eşantioane independente 7.4.3. Testele t şi z pentru dou ă eşantioane dependente 7.5. Utilizarea SPSS pentru aplicarea testului t Capitolul 8. Corelaţ Corelaţie şi regresie 8.1. Noţiunea de covarian ţă 8.2. Coeficienţii de corelaţie 8.2.1. Clasificarea coeficienţilor de corela ţie. 8.2.2. Formula coeficientului de corela ţie liniar ă simplă (Bravais-Pearson) 8.2.3. Reprezentarea grafic ă a corelaţiei. Liniaritatea rela ţiei. 8.2.4. Interpretarea coeficientului de corela ţie. Mărimea efectului. 8.3. Coeficienţi de corelaţie parametrici 8.3.1. Coeficientul de corela ţie Pearson r. 8.3.2. Coeficientul r bis bis 8.4. Coeficienţi de corelaţie neparametrici: coeficientul de corela ţie a rangurilor Spearman ρ 8.5. Regresia simpl ă liniar ă 8.6. Utilizarea SPSS pentru determinarea coeficien ţilor de corelaţie Bibliografie
4
1. EVOLU ŢIA STATISTICII ŞI OBIECTUL EI DE STUDIU 1.1. 1.2. 1.3. 1.4.
Evoluţia istoric ă a statisticii Rolul şi scopul statisticii Programe-software utilizate în statistica social ă şi psihologic ă Noţiuni introductive privind utilizarea programului SPSS
VOLUŢIA ISTORICĂ ISTORICĂ A STATISTICII 1.1. EVOLUŢ
Pe măsur ă ce omenirea a evoluat, statistica s-a îndep ărtat radical de statutul de „ramur ă a matematicii aplicate”, în zilele noastre, fiind considerat ă atât o ştiinţă, o metodă de cunoaştere a realităţii socio-economice, cât şi o disciplin ă de învăţământ. Evoluţia ei a cunoscut numeroase modific ări, precizări, transformări în ceea ce priveşte obiectul ei de studiu dar şi din perspectiva instrumentelor, metodelor sale de cercetare. Ca şi alte ştiinţe (matematica, de exemplu) şi această disciplină a parcurs drumul lung şi sinuos de la necesit ăţile practicii la elabor ările teoretice. Lucr ări cu caracter statistic, impuse de nevoile conducerii treburilor publice, apar încă din antichitate. În Egipt, Grecia şi Roma antică erau realizate recensăminte destinate eviden ţierii resurselor umane şi materiale ale statelor respective. Aceste preocupări însă, au fost considerate naive şi preştiin ţifice, adevăratul înţeles al statisticii, acela de ştiin ţă, datând doar de la jumătatea secolului al XVII-lea. Prima analiză statistică, în spirit ştiinţific, a unor date culese în prealabil, este datorată lui John Graunt (1662) care, pe baza datelor extrase din înştiinţările să ptămânale cu privire la num ărul John Graunt (1620 - 1674) deceselor înregistrate la Londra, a izbutit s ă comerciant preocupat în timpul liber de tragă concluzii valabile asupra unor „fenomeneleenglez, demografice” din Londra, public ă în fenomene sociale, precum: natalitatea şi 1662 articolul Natural and Political Observations mortalitatea, echilibrul numeric ş.a. Prin on the Bills of Mortality. Ideile sale au fost preluate Sir William Petty şi de astronomul Edmond aceste preocupări el este considerat de Halley şi apoi recunoscute de c ătre Societatea „părintele” demografiei. Regală Engleză În Anglia, al ături de Graunt, titlul de
„inventator” al statisticii i se atribuie şi lui William Petty (1623-1687), care introduce conceptul de „ aritmetică politică” definit ca studiul fenomenelor social şi greut ăţ ăţ ilor ilor ”. economice „ prin intermediul cifrelor, al m ă surilor ş ”. Paralel cu aceste prime preocupări s-a creat, în Germania, un curent de gândire care îşi propunea s ă descrie situa ţia diferitelor state constituite la acea vreme din punct de vedere al popula ţiei, bogăţiilor, industriei, comer ţului şi finanţelor. Această preocupare se apropie mai mult de sensul etimologic al cuvântului statistică: în limba latină „ status”, are sensul de „ stare” sau „ stat ”. ”. Astfel unii autori atribuie germanului Gottfried Achenwall (1719-1772) meritul de a fi întrebuin ţat pentru prima dată termenul de statistic ă, dând întâietate şcolii descriptive germane. Spre deosebire de şcoala engleză a aritmeticii politice, care punea accentul pe colectarea cifrelor şi analiza lor, şcoala descriptiv ă germană era orientată spre alcătuirea de monografii şi spre compararea calitativ ă a resurselor statelor. Recunoscând meritul ambelor curente de gândire, T. Rotariu (1999, p.15) ă ea ast ă ă zi, datoreaz ă aproape totul consider ă că „ ştiin ţ a statistici, a şa cum arat ă şcolii engleze, însă contribu ţ ia ia universitar ă ă germană nu poate fi neglijat ă ă chiar şi ăm numele acestei ştiin ţ e”. numai pentru motivul că respectivei şcoli îi dator ă
În spiritul acestei şcoli descriptive, au fost elaborate şi în ţările române în secolele XVIII şi XIX o serie de lucr ări ce au contribuit la dezvoltarea statisticii. Prima şi cea mai reprezentativ ă lucrare de acest gen este „ Descriptio Moldaviae” (1716) a lui Dimitrie Cantemir (1673-1723), o monografie cu caracter geografic, politic, economic, social şi cultural, care îl impune pe autorul ei printre frunta şii statisticii descriptive europene (D. Porojan, 1993). Şi alţi cronicari precum Grigore Ureche sau Ion Neculce au avut preocupări asemănătoare, iar în 1859, sub domnia lui Alexandru Ioan Cuza, se înfiinţeze primul Birou de Statistic ă al Ţării Româneşti, condus de Dionisie Pop Mar ţian (Popescu, 2000) Revenind la începuturile statistici, reamintim faptul c ă şcoala descriptiv ă germană era orientată spre descrierea verbală a caracteristicilor statelor, în timp ce aritmetica politic ă a fost orientată spre analiza fenomenelor sociale şi căutarea legităţilor respective pe baza datelor şi calculelor numerice. Ambele curente au fost dep ăşite de Karl Friedrich Gauss (1777 - 1855) progresele realizate în domeniul astronom, matematician şi fizician german. A f ăcut matematicii, în general şi al calculului descoperiri importante în materie de mecanică celestă, electromagnetism, optică. A dezvoltat teoria numerelor. probabilităţilor, în special. De altfel, A pus premisele geometriei hiperbolice noneuclidiene dezvoltarea teoriei probabilit ăţilor a constituit un pas-înainte nu numai pentru statistic ă, ci şi pentru întreaga crea ţie intelectuală a omenirii.
6
Încă din secolul al XVII-lea s-a observat c ă măsur ătorile repetate ale unui obiect oarecare pot fi reprezentate grafic sub forma unei curbe în form ă de clopot. Ecua ţia curbei normale a fost publicat ă în 1733 de c ătre Abraham de Moivre iar lucr ările acestuia au fost dezvoltate ulterior de Pierre Simon de Laplace şi Karl Friedrich Gauss. În zilele noastre curba normal ă poartă numele savantului german: clopotul/curba lui Gauss.
Exemplu: Calificativele ob ţinute în urma examenului de statistic ă de 110 studen ţi, aleşi aleator.
Odată cu progresele f ăcute în culegerea datelor şi cu creşterea interesului fa ţă de observaţia şi m ăsur ătorile ştiin ţifice, statistica a devenit un instrument indispensabil pentru toate ştiin ţele sociale. Un nume de referin ţă este cel al francezului Frédéric Le Play (1806-1870). Acesta este recunoscut prin „introducerea în analiza sociologică a mijloacelor cantitative” (Rotariu et.al., 1999, p.15). Îns ă, cea mai mare contribuţie în aceast ă direcţie o are belgianul Adolphe Quételet (1796-1874), care, la începutul secolului al XIX-lea, aplic ă teoria probabilit ăţilor la studiul fenomenelor ă”. ”. Sub iniţiativa sa s-a organizat sociale, introducând conceptul de „ statistică moral ă în 1853 primul Congres Interna ţional de Statistic ă, la care s-a constituit Institutul Internaţional de Statistic ă. Adevăratul început al statisticii moderne poate fi fixat la începutul secolului al XX-lea odată cu apariţia lucr ărilor lui Karl Pearson (creatorul statisticii inferen ţiale sau inductive) şi Ronald Aylmer Fisher (a elaborat teoria riguroas ă a tragerilor concluziilor din datele observate). Alte nume de referin ţă în fundamentarea statisticii sociale sunt: C.E. Spearman, G.U. Yule, M.G. Kendall, A.A. Markov
7
1.2. OBIECTUL DE STUDIU ŞI ROLUL STATISTICII
În dezvoltarea sa statistica s-a preocupat de acele fenomene şi procese care se produc într-un număr mare de cazuri, denumite fenomene colective (de masă masă) sau, masă. Aceste dacă ne referim strict la ştiin ţele sociale, fenomene sociale de masă 1 fenomene de masă se află sub incidenţa legii numerelor mari potrivit c ăreia variaţiile întâmplătoare de la tendin ţa generală se compensează reciproc într-un număr mare de cazuri individuale. Aplicarea metodelor statisticii în vederea interpret ării datelor oferite de observarea fenomenelor de masă permite formularea unor legi statistice. Acestea exprimă media stărilor unei mase de evenimente, tendin ţa dominantă care-şi face loc printr-un mare număr de abateri întâmpl ătoare de la această medie. Legea statistic ă poate fi evidenţiată numai dacă este supusă observării unui num ăr suficient de mare de elemente ale ansamblului de studiat ( legea numerelor mari). În concluzie, statistica studiază aspectele cantitative ale fenomenelor de mas ă, fenomene care sunt supuse ac ţiunii legilor statistice şi care se manifestă în condiţii concrete, variabile în timp şi spaţiu. Încercând o defini ţie sintetic ă, putem afirma că statistica reprezintă un ansamblu de metode şi tehnici utilizate pentru a colecta, a descrie şi a analiza date obţ obţinute în urma unor investigaţ investigaţii ştiinţ tiinţifice. Statistica a pătruns în toate domeniile ştiin ţelor naturii şi ale ştiinţelor sociale, formând discipline de grani ţă precum statistica matematic ă, statistica economic ă, statistica social ă, statistica psihologic ă, statistica medical ă, biostatistica etc. Dintre acestea, aşa-zisa statistic ă socială şi/sau psihologic ă se suprapune mult timp şi în mare măsur ă peste statistica teoretic ă generală, propunându- şi să culeagă, prelucreze şi să interpreteze informa ţiile numerice referitoare la fenomenele psihosociale 2. Chiar dacă vom folosi de multe ori termenul de statistic ă socială (sau psihologic ă), nu consider ăm justificată pretenţia unora de a considera statistica social ă ca o ştiinţă de sine st ătătoare ci, mai degrabă ca o disciplin ă preocupată de a ilustra modul specific în care statistica general ă se aplică în domeniul ştiinţelor sociale şi comportamentale (vezi caseta 1.1.). Astfel, statistica reprezentând un corp de metode ştiinţifice are rolul de a ne învăţa cum să organizăm observarea fenomenelor de mas ă şi să obţinem datele necesare, cum să prelucr ăm aceste date şi cum să formulăm ipoteze cu privire la relaţiile evidenţiate de aceste date. De asemenea, statistica ofer ă metode pentru testarea ipotezelor şi pentru confruntarea realit ăţii cu predicţiile formulate pe baza ipotezelor.
1
Legea numerelor mari a fost formulat ă de J. Bernoulli în 1713, precizând c ă într-un număr suficient de mare de cazuri individuale, influen ţele factorilor se pot compensa în a şa fel încât să se ajungă la o anumită valoare tipic ă pentru întreaga colectivitate. 2 pentru mai mute informa ţii vezi Rotariu et. al., 1999, pp. 15-18.
8
În urma dezvolt ării istorice prezentate mai sus statistica modern ă s-a separat în două păr ţi distincte dar complementare: a) statistica descriptiv ă, se refer ă la regulile observ ării statistice directe şi la obţinerea informaţiilor ce rezultă din prelucrarea datelor empirice. Aici sunt incluse mijloacele clasice ale statisticii: gruparea datelor, distribu ţiile de frecvenţe, corelaţia şi regresia, analiza relaţiilor dinamice. b) statistica inductivă (inferen ţ a statistică ), se refer ă la organizarea observării statistice indirecte, prin metode şi tehnici de estimare a însu şirilor unei popula ţii statistice din observaţii efectuate asupra unei submul ţimi de unităţi statistice, numit ă eşantion. Include aplica ţii statistice ale teoriei probabilit ăţii. SOCIALĂ ŞI 1.3. PROGRAME-SOFTWARE UTILIZATE ÎN STATISTICA SOCIALĂ PSIHOLOGICĂ PSIHOLOGICĂ Cele mai cunoscute programe utilizate de cercet ătorii din psihologie, sociologie, asistenţă socială, economie, pedagogie etc. atunci când realizeaz ă analize ştiin ţifice şi prelucr ări statistice complexe sunt: SPSS, SYSTAT, STATISTICA, MINITAB, SuperLab ş.a. Vom descrie pe scurt dou ă din aceste software-uri şi vom prezenta noţiunile de baz ă necesare utiliz ării unuia dintre ele (SPSS).
1.4. NOŢIUNI INTRODUCTIVE PRIVIND UTILIZAREA PROGRAMULUI SPSS
În capitolele aplicative ne vom referi la programul SPSS versiunea 11.0 sub sistemul de operare Windows. 3 Aceste capitole se vor a constitui un ghid de laborator care să-l orienteze şi îndrume pe utilizator în dorin ţa acestuia de a- şi însuşi procedurile şi tehnicile oferite de programul SPSS pentru prelucrarea statistic ă a datelor.
Deschiderea programului Pentru pornirea unei sesiuni de lucru în SPSS exist ă următoarele posibilit ăţi: Daca pe desktop se afl ă shortcut-ul (icon-ul) SPSS se pozi ţionează cursorul pe respectivul icon şi se tastează dublu-clik pe butonul stânga al mouse-ului.
3
Unele dintre informaţiile prezentate nu sunt integrate în versiunile mai vechi (de exemplu, versiunea 7.0) şi sunt diferite sub alte sisteme de operare sau pentru sistemele Macintosh.
9
Dublu-clik pe butonul stânga al mouse-ului
După ce sistemul de operare Windows a fost înc ărcat, se apasă o singur ă dată pe butonul stânga al mouse-ului pe urm ătorul traseu: Start – Programs – SPSS for Windows – SPSS 11.0 for Windows
După deschiderea programului SPSS, pe ecran va ap ărea o fereastr ă de întâmpinare. Este de fapt o fereastr ă de date (Data View) din cadrul editorului de date (SPSS Data Editor), f ăr ă titlu - denumit ă totuşi „ Untitled ” - şi, atenţie!, f ăr ă să fie salvată în memoria calculatorului.
O a treia posibilitate de deschidere a SPSS-ului o reprezint ă accesarea (prin dublu-clik) a oric ărui fişier acceptat de program. Exemple: bazele de date în SPSS sunt fişiere cu extensia *.sav; fişierele de tip „syntax” au extensia *.sps; fişierele de tip „output” au extensia *.spo etc.
Ferestrele în SPSS SPSS foloseşte mai multe tipuri de ferestre, fiec ăreia dintre ele fiindu-i asociat un anumit tip de fi şier. Iată cele mai importante dintre ele: Fereastra de editare a datelor (Date Editor) se deschide implicit la lansarea unui fişier de tip bază de date, fişier care în SPSS are extensia *.sav. În această fereastr ă sunt introduse şi afişate datele de lucru sub forma unui tabel în care liniile reprezint ă cazurile (subiec ţii) iar coloanele variabilele cercetării. Fereastra de editare este, la rândul ei, compus ă din două foi (ferestre): - fereastra de date (Data View), folosită pentru introducerea şi vizualizarea seriilor statistice simple (a datelor brute) – vezi figura 1.1. - fereastra de gestionare a variabilelor ( Variable View), folosită pentru definirea şi modificarea variabilelor – vezi figura 1.2. Accesarea uneia dintre aceste dou ă ferestre se realizează prin acţionarea icon-ului corespunz ător din partea stâng ă-jos a ferestrei de întâmpinare.
10
Bar ă de titlu
Fereastr ă pentru introducerea datelor (Editor de celule)
Bar ă de meniuri Bara de instrumente Variabile (variables)
cazuri (cases) Bara de derulare (defilare)
celule (cells)
Figura 1.1. Fereastra de întâmpinare a programului SPSS
Fereastra de gestionare a rezultatelor sau Fereastra de ieş ieşire (Output – SPSS Viewer), folosită pentru afişarea şi editarea rezultatelor prelucr ărilor statistice (tabele, grafice, indicatori statistici) – vezi figura 1.3. Fereastra Output Viewer este structurat ă în două cadrane sau zone: • cadranul din stânga – cuprinsul – prezintă sub forma unei schi ţe obiectele conţinute în fereastr ă şi • cadranul/zona din dreapta – con ţ inutul inutul – în care sunt afi şate rezultatele obţinute prin respectiva analiz ă. Pentru apariţia acestei ferestre întâlnim urm ătoarele situa ţii: - SPPS deschide automat aceast ă fereastr ă atunci când este solicitat s ă facă prelucr ări şi analize statistice (Aten ţie: fişierul astfel format va avea denumirea OUTPUTx şi nu este salvat în memoria calculatorului; pentru aceasta trebuie parcurs traseul File - Save sau File - SaveAs); - este deschisă de către utilizator prin accesarea unuia dintre fi şierele cu extensia *.spo salvate anterior în memoria calculatorului.
11
Figura 1.2. Fereastra de gestionare a variabilelor
Figura 1.3. Fereastra de gestionare a rezultatelor Fereastra de editare a comenzilor (Syntax Editor) permite scrierea comenzilor de către utilizator şi salvarea acestora într-un fi şier de tip sintax ă cu extensia *.sps. Variantele recente ale SPSS conţin meniuri pull-down şi casete de dialog care permit lansarea comenzilor f ăr ă a scrie sintaxa acestora.
12
2. NOŢIUNI FUNDAMENTALE FOLOSITE ÎN STATISTICĂ 2.1. 2.2. 2.3. 2.4. 2.5.
Colectivitatea şi unitatea statistic ă. Variabile statistice. Cunatificarea şi măsurarea fenomenelor psihosociale. Scale de măsur ă. Definirea variabilelor statistice cu ajutorul SPSS.
Statistica aplicat ă în ştiinţele sociale are la bază principiile, tehnicile şi metodele avansate de statistica teoretic ă generală. Aceasta din urm ă, foloseşte un număr mare de noţiuni şi concepte, cu caracter general, care formează vocabularul de baz ă al statisticii. În statistica social ă, s-au încetăţenit de-a lungul timpului, urm ătoarele concepte fundamentale: • COLECTIVITATEA (POPULAŢ POPULAŢIA) STATISTICĂ STATISTICĂ – reprezintă totalitatea elementelor simple sau complexe supuse studiului statistic. ( exemple: elevii unei şcoli, populaţia unui oraş) • UNITATEA STATISTICĂ STATISTICĂ (INDIVIDUL STATISTIC) – reprezint ă elementele componente (constitutive) ale colectivit ăţilor statistice. Ele pot fi: - simple (exemple: elevul, studentul, muncitorul); - complexe, acestea sunt rezultatul organiz ării sociale şi economice a colectivităţii (exemple: familia, echipa, clasa de elevi, grupa de studen ţi). • CARACTERISTICA (VARIABILA) STATISTICĂ STATISTICĂ – reprezintă însuşirile sau tr ăsăturile ce definesc şi delimitează unităţile statistice ( exemple: vârsta, notele şcolare) • VALOAREA (VARIANTA), notată cu x, y … – reprezintă forma concretă de manifestare a caracteristicilor la nivelul fiec ărei unităţi statistice ( exemple: 18 ani, nota 7). • FRECVENŢ RECVENŢA ABSOLUTĂ ABSOLUTĂ, notată cu ƒx, ƒy … – reprezint ă numărul de unit ăţi la care se înregistreaz ă aceeaşi variantă (exemple: 12 elevii au 18 ani, 3 studenţi au obţinut nota 7). • FRECVENŢ RECVENŢA RELATIVĂ RELATIVĂ (PONDEREA), notată cu ƒrx, ƒry … – se obţine prin ponderarea frecvenţei absolute, altfel spus, reprezint ă procentul unei frecvenţe absolute din totalul frecven ţelor. (exemplu: din 48 de elevii ai unei clase 12 au vârsta de 18 ani, deci ponderea acestora este de 25%) • INDICATORII STATISTICI – reprezintă expresia numeric ă a unor determin ări obiective ce rezult ă dintr-o cercetare statistic ă (exemple: media, mediana, abaterea standard).
POPULAŢIA) ŞI UNITATEA STATISTICĂ STATISTICĂ 2.1. COLECTIVITATEA (POPULAŢ
După cum am specificat în primul capitol (vezi subcapitolul 1.2.) statistica este preocupată de studierea fenomenelor de masă, a acelor ansambluri finite de elemente care sunt, în mod esen ţial, de aceeaşi natur ă calitativă, apar ţin aceluiaşi teritoriu şi aceluiaşi timp, altfel spus, sunt statistic omogene. (Jaba & Grama, 2004) Aceste ăţ i, popula ţ ii ii, mul ţ imi imi. ansambluri sunt cunoscute sub denumirea de colectivit ăţ STATISTICĂ (POPULAŢ POPULAŢIA STATISTICĂ STATISTICĂ) – reprezintă COLECTIVITATEA STATISTICĂ totalitatea elementelor simple sau complexe supuse studiului statistic. În funcţie de natura elementelor componente, colectivit ăţile statistice pot fi formate din ansambluri de fiin ţe, de obiecte sau de evenimente Exemple: - elevii unei şcoli, popula ţia unui ora ş, - numerele unui anumit ziar ap ărute într-o lun ă de zile, - accidentele rutiere comise pe raza unui jude ţ, - opiniile electorale înregistrate într-un sondaj. După numărul elementelor componente, colectivit ăţile statistice pot fi totale sau par ţiale. Primele cuprind totalitatea elementelor componente, în timp ce colectivit ăţile par ţiale, cunoscute sub denumirea de EŞANTIOANE, cuprind un num ăr reprezentativ de unităţi extrase dintr-o colectivitatea total ă. Din acest punct de vedere întâlnim cercetă cercetări exhaustive - în cazul popula ţiilor statistice totale - şi cercetă cercetări selective – ce folosesc proceduri de selec ţie a indivizilor ce vor incluşi în eşantion. STATISTICĂ (INDIVIDUL STATISTIC) – reprezint ă elementele UNITATEA STATISTICĂ componente (constitutive) ale colectivit ăţilor statistice. Ele pot fi fiin ţe, lucruri, precum şi fapte, evenimente referitoare la acestea. După gradul de complexitate se clasific ă în: - simple, formate dintr-un singur individ ( exemple: elevul, angajatul); - complexe, acestea sunt rezultatul organiz ării sociale şi economice a colectivităţii (exemple: familia, clasa de elevi, grupa de studen ţi). Deşi, atât termenul de individ cât şi cel de populaţie statistic ă ne duc cu gândul la natura umană a lucrurilor, exemplele de mai sus pot fi completate cu unit ăţi statistice referitoare la lucruri (piesele unui lot supus controlului de calitate) sau la acţiunea omului asupra lucrurilor (m ăsurarea repetată a unui acela şi obiect, aruncarea zarului).
2.2. VARIABILE STATISTICE VARIABILELE STATISTICE (CARACTERISTICILE STATISTICE) – reprezintă însu şirile ce definesc şi delimitează unit ăţile statistice. Ele exprim ă tr ăsăturile esenţiale purtate de unit ăţile statistice ale unei colectivit ăţi, adică dimensiunile prin care se observă, se cuantific ă, se măsoar ă şi înregistreaz ă fiecare unitate din colectivitate. Popula ţiile umane, cele mai des întâlnite în studiile psihosociale, pot fi caracterizate, de exemplu, prin urm ătoarele variabile: sex, vârst ă, nivel de şcolarizare, coeficient de inteligen ţă, tip temperamental ş.a.
14
Valorile unei variabile statistice se mai numesc variante sau atribute ale variabilei şi se obţin prin acţiuni concrete de cuantificare şi măsurare a unităţilor unei colectivit ăţi statistice. De exemplu, variabila „ mediul de provenien ţă ” are ca variante: urban şi rural ; iar variabila „ notele la examenul de statistică ” are ca valori numerele întregi de la 1 la 10. Caracteristicile statistice au proprietatea de a- şi modifica însu şirile în timp şi spaţiu, de la o unitate la alta, în func ţie de influen ţele exercitate de o multitudine de factori esenţiali şi întâmplători care acţionează la nivelul fiec ărei unităţi din colectivitate. Aceast ă proprietate dă variabilelor statistice caracterul de variabil ă aleatorie. În practica de cercetare sunt luate în considerare numai acele variabile care prezintă cel puţin două valori. Dacă, după o anumită caracteristică toate unităţile ar fi identice, aceasta nu ar mai necesita nici un fel de analiz ă, nemaifiind nevoie s ă se investigheze cum se manifest ă indivizii statistici şi care sunt cauzele acestei varia ţii. Să presupunem c ă toţi studenţii ar obţine nota 10 la disciplina „statistic ă socială”; nu ar avea nici o relevanţă să verificăm dacă există o legătur ă între aceste note şi mediile aceloraşi studenţi la examenul de bacalaureat! Aşadar, cu cât o variabil ă îmbracă forme mai diverse, cu atât ea cap ătă o valoare de cunoaştere mai mare. Numai diversitatea formelor de manifestare a unei însu şiri îi confer ă acesteia un interes din partea cercet ătorului. (Rotariu et.al., 1999) • După modul de exprimare, variabilele statistice se clasific ă în: variabile cantitative (sau numerice), exprimate prin numere stabilite o prin numărare/măsurare directă sau calcule ulterioare. Num ărul stabilit este un numă r cardinal ce redă intensitatea cu care se manifest ă însu şirea respectiv ă în cazul individului respectiv. La rândul lor, variabilele cantitative se clasific ă după natura variaţiei în: - variabile discrete, cu variaţie discontinu ă, care pot lua numai valori întregi, de regul ă, pozitive. Exemple: numărul de membrii din gospodărie, numărul cuvintelor memorate la o prob ă de memorie. - variabile continue, cu variaţie continu ă, care pot lua orice valoare într-un interval dat. Exemple: mediile şcolare anuale, venitul lunar. variabile calitative (numite şi variabile atributive, categoriale, o nominale), sunt caracteristici ale c ăror variante de manifestare sunt exprimate atributiv, prin cuvinte. Exemple: sexul, mediul de provenienţă, tipul temperamental. Atragem atenţia că într-un studiu statistic sunt re ţinute numai acele caracteristici care prezintă interes pentru cercetarea întreprins ă. Pot fi zeci, chiar sute de variabile ce pot caracteriza indivizii unei popula ţii statistice. De mult ori ne limit ăm la a analiza doar câteva dintre ele. De asemenea, tot cercet ătorul este cel care stabile şte, uneori, modul de exprimare şi/sau natura varia ţiei unei variabile. O variabil ă cantitativă poate fi exprimat ă calitativ, dup ă cum şi o variabil ă cantitativă continuă poate fi transformată, prin rotunjire, într-o variabil ă discretă. Exemplul clasic în sus ţinerea observaţiilor de mai
15
sus este cel al variabilei „vârst ă”: exprimată în ani-luni-zile reprezint ă o variabil ă cantitativă continuă, exprimată în ani împlini ţi este o variabil ă cantitativă discretă, iar atunci când folosim categoriile tân ăr-adult-vârstnic, avem o variabil ă calitativă. În fine, nu trebuie uitat faptul c ă de foarte multe ori variantele sau atributele variabilelor calitative sunt codificate cu ajutorul numerelor. Aceste coduri reprezint ă nişte identificatori, acordarea lor fiind pur conven ţională, deci ele nu se supun operaţiilor matematice sau prelucr ărilor statistice bazate pe opera ţii matematice (Jaba & Grama, 2004). De exemplu, întrebarea „Vă place cursul de statistic ă socială?” poate fi codificat ă prin 0–NU şi 1–DA sau „Starea civil ă” poate fi codificată prin 1-necăsătorit, 2-căsătorit, 3-divor ţat, 4-văduv, 5-alte variante; în ambele exemple ar fi inutil ă calcularea mediei, a abaterii standard sau a oric ărui alt indicator rezultat în urma unor calcule matematice. MĂSURAREA FENOMENELOR PSIHOSOCIALE 2.3. CUANTIFICAREA ŞI MĂ
De foarte multe ori în sfer ă ştiinţelor sociale şi comportamentale rezultatele obţinute în urma unor demersuri empirice sunt exprimate calitativ. Partidul cu care a votat un aleg ător, tipul temperamental al unui manager sau calificativul ob ţinut de un elev de clasa I sunt exemple de exprim ări calitative ale unor caracteristici. În toate aceste situa ţii vom putea utiliza aparatul statistic doar dac ă vom face apel la operaţiile de cuantificare şi măsurare. Conform Dicţionarului de Sociologie «Zamfir & Vl ăsceanu (coord.), 1998, ia teoretică de descriere cantitativă a p.145», cuantificarea reprezintă „opera ţ ia fenomenelor ş şi proceselor sociale în vederea mă sur ă ă rii rii şi/sau evaluă rii rii acestora…” În acelaşi sens, Mărginean (1982) face distinc ţie între cuantificare, desf ăş ăşurată cu preponderenţă la nivel teoretico-metodologic şi măsurare, operaţie preponderent empirică, prin care se determin ă modalitatea de manifestare a fenomenului respectiv şi prin care se atribuie valori numerice unor caracteristici şi dimensiuni ale fenomenelor studiate. Sintetizând o serie de considera ţii referitoare la cele dou ă concepte, Ludu şan şi Voiculescu (1997) consider ă cunantificarea ca o opera ţie complexă, ce implică trecerea de la conceptele abstracte la dimensiuni şi indicatori cantitativi, care, ulterior, prin ac ţiuni concrete s ă fie înregistra ţi şi, eventual, măsuraţi. Cunatificarea, susţin aceiaşi autori, este o opera ţie prin care – pornindu-se de la analiza conceptelor ştiinţifice, pe de o parte şi de la analiza naturii fenomenelor studiate, pe de alt ă parte – „ sunt dezvă luite luite şi definite componentele, dimensiunile şi expresiile cantitative ale ă colectarea, înregistrarea şi domeniului cercetat, astfel încât s ă devină posibil ă exprimarea cantitativă a datelor şi folosirea aparatului statistico-matematic de analiz ă ă a acestora” (p.22). Mult mai contestat în ştiinţele sociale, termenul de m ăsurare se refer ă la operaţia de atribuire de valori (sub form ă de cifre sau simboluri) unit ăţilor statistice ale unei colectivităţi observate, pe baza unui set de reguli de atribuire a valorilor. Utilizarea măsură sură: acestor reguli este posibil ă numai prin intermediul instrumentelor de mă termometru sau rigla, în cazul m ăsur ării temperaturii sau lungimii; testul sau chestionarul, în cazul m ăsur ării unor variabile psihologice sau sociologice. Odat ă
16
instrumentele construite, procesul de m ăsurare constă în citirea pe scalele acestor instrumente a unor valori reprezentând num ărul de unit ăţi fundamentale de m ăsur ă. (Clocotici & Stan, 2001) Scalele (nivelurile) de m ăsur ă nu sunt altceva decât regulile prin care sunt ăţ ilor ilor nivelurilor de atribuite valori unit ăţilor statistice. „ Cunoa şterea propriet ăţ ă , susţine Mărginean (1982, p.70), prezint ă ă importan ţă deoarece s-a dovedit mă sur ă că o serie determinat ă ă de date permite, în mod legitim, să se adopte un anumit nivel de mă sur ă ă sau tip de scal ă ă şşi nu altul .” .” Practica statistic ă, ţinând cont de natura variabilelor şi, mai ales, de modul lor de exprimare (vezi cap. 2.2.), operează cu patru tipuri fundamentale de scale (niveluri de măsurare): scala nominal ă, scala, ordinală, scala de interval şi scala de raport. Fiecare dintre aceste scale se remarc ă prin procedee specifice de exprimare numerică, ceea ce determină utilizarea anumitor opera ţii de analiză şi prelucrare a datelor, foarte puţine pentru nivelul nominal şi extrem de multe pentru cel de raport. Încheiem prin a remarca unele propriet ăţi pe care trebuie s ă le îndeplineasc ă o scală de măsur ă: - să fie consistent ă, - să fie corectă, - să fie exhaustiv ă şi - să fie mutual exclusiv ă. Scala are consisten ţă internă dacă produce rezultate (aproape) identice, atunci ă când este folosit ă în mod repetat pentru acela şi obiect sau fenomen; este corect ă dacă produce informaţia pe care o aşteptăm de la ea; are proprietatea de a fi exhaustivă atunci când poate m ăsura toate entit ăţile cărora le este destinat ă; şi este mutual exclusivă atunci când, în urma m ăsur ării, fiecare entitate prime şte o singur ă
valoare (Clocotici & Stan, 2001). MĂSUR Ă 2.4. SCALE DE MĂ
Scala nominală nominală. Este cel mai simplu tip de scal ă şi presupune doar diferen ţierea calitativă a obiectelor şi fenomenelor m ăsurate. Aplicarea unei scale nominale la o colectivitate statistic ă înseamnă, în esenţă, o clasificarea a indivizilor dup ă o caracteristică sau un atribut. Prin intermediul acestei scale se exprim ă apartenenţa unităţilor statistice investigate la o categorie. Din aceste considerente, întâlnim acest tip de scală şi cu denumirile de scal ă calitativă, categorială sau de clasificare. Condiţia fundamentală ce se cere unei scale nominale este, de fapt, cerin ţa ă fiind mul ţ imea elementar ă impusă oricărei clasificări: dat ă imea claselor scalei şi ă seasc ă în una şi numai una dintre clase mul ţ imea imea indivizilor, fiecare individ să se g ă (Rotariu et.al., 1999). Un exemplu clasic de variabil ă nominală utilizată în cercetările psiho-sociale este caracteristica „ gen”, ale cărei variante (categorii, atribute) sunt: masculin şi feminin. Chiar dacă, în activitatea concret ă de înregistrare a datelor, celor dou ă categorii le sunt atribuite codurile 1 şi 2 (la fel de bine putem codifica aceea şi variabilă prin m şi f ), ), aceste numere sunt doar ni şte simboluri, între ele existând un
17
raport de echivalen ţă şi nu unul de ordine. Nu putem afirma c ă 2 este „mai mult” decât 1, ci doar că este diferit de acesta! Alte scala nominale utilizate în psihologie şi sociologie sunt: - tipurilor temperamentale stabilite de Jung şi Eycenck: introvertit, extravertit, ambivert; - starea civil ă: necăsătorit, căsătorit, văduv, …; op ţiunea politic ă: partidul A, partidul B, …
Scala ordinală ordinală. Ca şi cea nominală, scala ordinală se foloseşte pentru exprimarea stărilor unor variabile calitative. În plus, acest tip de scal ă vine cu cerinţa ie de ordine. Aceste scalele sunt ca între categoriile (clasele) scalei să existe o rela ţ ie cunoscute şi sub numele de scale de ordine, scale de rang sau scale ierarhice. O scală ordinală permite ordonarea observaţiilor, persoanelor, situa ţiilor de la mic la mare, de la simplu la complex etc., permiţând astfel realizarea unor ierarhi (ranguri). În cazul scalelor ordinale putem stabili ierarhia celor „n” variante ale variabilei, îns ă nu putem preciza valoare diferen ţei dintre două variante. Cel mai frecvent folosim acest tip de scal ă în studiul atitudinilor. R ăspunsurile la o întrebare de genul „ Cât de mul ţ umit umit sunte ţ i de rela ţ iile iile din colectivul din care face ţ i parte?” pot fi cuantificate printr-o scal ă ordinală, ale cărei clase sunt: mul ţ umit umit , şi mul ţ umit umit ş şi nemul ţ umit umit , nemul ţ umit umit . Un alt exemplu de scal ă ordinală este ierarhia nevoilor umane în concep ţia psihologului american A. Maslow. Scala stabilită de el cuprinde urm ătoarele categorii, ordonate de la simplu la complex: nevoi fiziologice; nevoi de securitate; nevoi sociale, de apartenen ţă la grup; nevoia de stim ă, de a fi apreciat de ceilalţi; nevoia de autorealizare (Clocotici & Stan, 2001). Clasele pot fi şi aici codificate prin cuvinte care s ă exprime semnificaţia lor sau prin simboluri. Dacă în cazul scalelor nominale simbolurile puteau fi atribuite oricum, de data aceasta ele trebuie s ă evidenţieze ordinea claselor. Cel mai frecvent şi simplu mod de a eviden ţia ordinea este folosire numerelor naturale: 1, 2, 3 …. Atragem atenţia că aceste simboluri numerice reprezint ă numere ordinale şi nu cardinale, în consecin ţă, operaţiile aritmetice (adunarea, sc ădere, înmulţirea şi împăr ţirea) nu pot fi utilizate nici de aceast ă dată (Rotariu et.al., 1999). Scala de intervale. Împreună cu scalele de rapoarte, sunt utilizate pentru m ăsurarea variabilelor cantitative şi presupune atribuirea de valori numerice unit ăţilor colectivităţii. Din acest motiv ele se mai numesc scă ri ri metrice sau numerice. Pe lângă cele două proprietăţi impuse de nivelurile anterioare de m ăsurare, şi anume: ă seasc ă în una şi numai una dintre clase, - fiecare individ să se g ă - între categoriile (clasele) scalei să existe o rela ţ ie ie de ordine, scalele metrice adaug ă o a treia: elor dintre categoriile scalei. - are sens luarea în considerare a distan ţ elor Această proprietate face ca datele experimentale ob ţinute pe o scal ă metrică să suporte aproape toate prelucr ările statistice posibile. Caracteristic pentru scala de interval este faptul c ă utilizează o valoare 0 convenţională. Astfel, măsurarea cu acest tip de scal ă este independent ă de originea aleas ă şi de unitatea de măsur ă folosită, putându-se trece de la un sistem de m ăsurare la altul.
18
Exemplul clasic îl reprezint ă măsurarea temperaturii în sistemul Celsius şi în sistemul Fahreinheit. Trecând de la un sistem de m ăsurare la altul, deci schimbând zeroul convenţional şi valorile temperaturii, raportul dintre dou ă modificări de temperatur ă r ămâne acelaşi (Jaba & Grama, 2004). Un alt exemplu de astfel de scal ă îl reprezintă scalele pentru măsurarea inteligen ţei. Referindu-se la propriet ăţile scalelor de interval, M. Popa (2004) atrage aten ţia asupra faptului c ă valorile obţinute prin m ăsur ări de acest tip nu ne permit evalu ări de genul: „O temperatur ă de 10 grade este de dou ă ori mai mare decât una de 5 grade” sau, „O persoan ă care a obţinut un scor de 30 de puncte este de dou ă ori mai inteligentă decât una care a ob ţinut 15 puncte”. Aceasta, deoarece nici temperaturile măsurate pe scala Celsius şi nici inteligen ţa nu au o valoare 0 absolut ă (dacă acceptăm că nici un om viu nu are inteligen ţă nulă). De asemenea, trebuie remarcat faptul c ă cele mai multe dintre variabilele psihologice sunt expresia unor evalu ări subiective, aspect ce face greu de demonstrat egalitatea intervalelor dintre dou ă valori consecutive. Uneori, chiar şi în cazul unor măsur ători extrem de exacte este dificil de asumat acest lucru. De exemplu, dac ă măsur ăm „iubirea” la un eşantion de cupluri care se plimb ă, prin durata „ţinerii de mână”, nu putem fi siguri c ă diferenţa de „iubire” dintre cei care se ţin de mână 10 minute şi cei care se ţin de mână 20 de minute este aceea şi ca în cazul diferen ţei dintre 20 şi 30 de minute. Cu toate acestea, multe dintre m ăsur ătorile studiilor psihologice sunt asimilate scalei de tip interval. (Popa, 2004)
Scala de rapoarte sau scala de proporţ proporţii (sau scala de interval cu origine raţională). Face parte din categoria scalelor metrice, fiind folosit ă tot pentru exprimarea variabilele cantitative. Această scală de măsur ă posedă ca note distinctive existen ţa unei origini naturale (a unui 0 absolut; altfel spus, nu exist ă nici o valoare mai mic ă decât valoarea 0) şi precizarea clar ă a semnificaţiei unităţii de măsur ă, ceea ce face posibilă compararea raporturilor dintre grada ţiile scalei. Scala de rapoarte se folose şte pentru m ăsurarea valorilor unor variabile precum venitul, în ălţimea, timpul de reacţie ş.a. După uni autori (Kinnear şi Gray, 2000, cf . Sava, 2004a) şi după cum reiese şi din utilizarea programului SPSS, în care exist ă doar trei niveluri de m ăsurare, tendinţa actuală este de a renun ţa la diferenţierea între ultimele dou ă tipuri de scale. Aceasta pentru c ă majoritatea procedurilor statistice utilizate în cazul scalelor de intervale sunt valabile şi pentru scalele de rapoarte. Termenul generic sub care se reunesc cele dou ă tipuri de scale este cel de scal ă numerică sau metrică.
2.5. DEFINIREA VARIABILELOR STATISTICE CU AJUTORUL SPSS Pentru crearea unei baze de date se începe prin definirea variabilelor. Dup ă apariţia ferestrei de întâmpinare din editorul de date SPSS se deschide fereastra de gestionare a variabilelor unde, pentru fiecare variabil ă, sunt specificate urm ătoarele caracteristici:
19
Name – numele variabilei ( de exemplu: sex). Type – tipul variabilei, poate fi numeric, dat ă calendaristică, string ş.a. (în exemplul nostru: numeric). Width – numărul de caractere al variabilei ( ex.: 1). Decimals – pentru variabilele numerice trebuie specificat num ărul de caractere după virgulă al variabilei ( ex.: 0). Label – comentariu (eticheta) ce înso ţeşte variabila (ex.: sexul subiectului). Values – valorile pe care le poate lua variabila şi comentariile/etichetele ataşate acestora (ex.: 1 = „masculin”; 2 = „feminin”). Missing – specificarea cazurilor omise ( ex.: None). Columns – numărul de spaţii alocat în editorul de date acestei variabile (ex.: 8). Align – alinierea acestei variabile în editorul de date, poate fi aliniere la stânga, la dreapta sau centrat ( ex.: Center). Measure – Nivelul de m ăsurare al variabilei (tipul scalei), poate fi numeric (scale), ordinal şi nominal (ex.: Nominal).
20
3. ORDONAREA, GRUPAREA Ş I PREZENTAREA DATELOR STATISTICE 3.1. 3.2. 3.3. 3.4. 3.5. 3.6. 3.7.
Serii (distribuţii) statistice Gruparea (sistematizarea) datelor Prezentarea datelor sub formă de tabele Reprezentarea grafică a datelor statistice Utilizarea SPSS pentru ordonarea şi gruparea datelor statistice Utilizarea SPSS pentru prezentarea datelor statistice sub form ă de tabele Utilizarea SPSS pentru reprezentarea grafică a datelor statistice
DISTRIBUŢII) STATISTICE 3.1. SERII (DISTRIBUŢ
În cazul unui num ăr foarte mare de date este imposibil ă (şi inutil ă) analiza fiecărei valori în parte. În aceast ă situaţie, înaintea prelucr ării şi analizei datelor se procedează la ordonarea, gruparea şi organizarea lor. Rezultatul ordon ării şi grupării iile) statistice de frecven ţ e. datelor statistice îl constituie seriile (distribu ţ iile) Acestea sunt formate din dou ă şiruri paralele de date din care unul reprezint ă variantele/valorile variabilei (sau grupele de variante) iar cel ălalt numărul de unit ăţi statistice corespunz ătoare fiecărei valori sau variante (frecven ţele absolute sau relative). relative). Fiecare frecvenţă asociată valorii/variantei respective a caracteristicii studiate reprezint ă un termen al seriei statistice. variantele/valorile variabilei (sau grupele de variante)
Exemplu: x (vârsta) f termen al seriei statistice
20 ani 14
30 ani 36
40 ani 47
50 ani 21
frecven ţ ele ele absolute
În funcţie de modul de prezentare al variantelor, seriile statistice, se împart în: serii simple – obţinute prin simpla în şiruire a valorilor individuale. Acestea sunt ulterior supuse opera ţiilor de ordonare şi grupare (dacă numărul lor este suficient de mare), ob ţinându-se astfel unul din următoarele două tipuri de serii.
serii de (pe) variante – când fiecărei variante îi revine un anumit num ăr de unit ăţi. serii de (pe) intervale – când fiecărui interval, mărginit de o limit ă inferioar ă şi de una superioar ă, îi revine un anumit num ăr de unităţi. ii) de frecven ţ e şi formează Ultimele dou ă tipuri se mai numesc şi serii (reparti ţ ii) Ţ IE STATISTIC Ă . ceea ce numim o DISTRIBU Ţ
În funcţie de natura şi modul de manifestare ale variabilei studiate distingem două tipuri principale de serii statistice: serii statistice cantitative sau calitative. La acestea putem ad ăuga alte două tipuri de distribu ţii statistice, la care criteriul dup ă iale şi cronologice. care se face diferenţierea este spaţiul sau timpul: serii statistice spa ţ iale Aceste criterii nu numai c ă realizează o clasificare a seriilor statistice dar, vom vedea în capitolele urm ătoare, determină limitele şi specificul prelucr ărilor statistice complexe. Atunci când variabilele sunt cantitative vom vorbi despre tehnici statistice parametrice statistice parametrice; în celălalt caz, al caracteristicilor calitative, prelucr ările ce le vom efectua vor fi de tip non-parametric. În concluzie, seria statistic ă de frecvenţe este rezultatul opera ţiilor de ordonare şi grupare. Prezentarea seriilor statistice se face sub forma în şiruirii, pe orizontal ă sau pe verticală, a unor perechi de numere sau expresii, în care primul element reprezintă caracteristica (ce poate fi cantitativ ă sau calitativ ă, spaţială sau cronologică), iar al doilea frecvenţa, întotdeauna numeric ă, a variantelor sau grupelor de variante ce delimiteaz ă caracteristica respectiv ă. În rapoartele de cercetare aceste distribu ţii statistice, unele reflectând mai multe caracteristici concomitent, sunt ilustrate cu ajutorul tabelelor şi al graficelor. Reamintim următoarele nota ţii cu care oper ăm în prezentarea şi prelucrarea distribuţiilor statistice: - variantele sau grupele (clasele) de variante, x i: x1, x2, … xk , … - frecvenţa variantei xi (numărul de apariţii), ƒi: ƒ1, ƒ2, … ƒk , … - numărul total de variante (total frecven ţe) n: n = Σƒi i = 1, 2, … k, … În cazul seriilor statistice de intervale se presupune c ă toate valorile din ă a clasei, notată interiorul fiec ărei grupe (clase) se concentreaz ă în valoarea central ă tot cu xi. Această valoare va înlocui în seria statistic ă intervalul respectiv şi se calculează ca medie aritmetică a valorilor extreme ale intervalului: x + x min x i = max (3.1)
2
Menţionăm faptul că o distribu ţie statistic ă poate reda pe lângă frecvenţele absolute (ƒ sau ƒa) şi pe cele relative ( ƒr ). Acestea sunt absolut necesare când se doreşte compararea unor e şantioane cu num ărul total de variante (n) diferit ( de exemplu: în cazul a dou ă clase cu număr total de elevi diferit). Mai mult, atunci când prelucr ările statistici ulterioare o impun, putem determina şi alte frecvenţe: - frecvenţa (absolută sau relativ ă) cumulată crescător, dată de suma frecvenţelor valorilor care apar pân ă la valoarea xi respectivă, inclusiv; - frecvenţa (absolută sau relativ ă) cumulată descrescător, dată de suma frecvenţelor valorilor care apar de la valoarea x i respectivă, inclusiv.
22
3.2. GRUPAREA (SISTEMATIZAREA) DATELOR Gruparea statistic ă
reprezintă o operaţie de sistematizare a popula ţiei pe păr ţi statistic omogene în func ţie de variaţia1 unei variabile (sau a mai multora). Importanţa acestei operaţii iniţiale derivă din erorile ce pot fi induse fie în cazul stabilirii unui num ăr foarte mare de grupe (clase) – situa ţie în care se ajunge la „f ărâmiţarea” colectivit ăţii –, fie în situa ţia alegerii unui num ăr prea mic de grupe, cu intervale foarte mari în cadrul lor – situa ţie în care nu vom surprinde tipurile calitative existente. În cazul variabilelor numerice (cantitative) putem realiza 1) grupări pe variante – utilizate în cazul variabilelor de tip discret, când ele pot lua doar valori întregi ( exemple: numărul membrilor unei familii, notele şcolare). 2) grupări pe intervale – utilizate în cazul variabilelor de tip continuu, când ele pot lua orice valoare într-un interval finit sau infinit ( exemple: timpul de reacţie, mediile şcolare anuale, înălţimea). Menţionăm faptul că şi variabilele de tip discret pot fi supuse grup ărilor pe intervale (exemplu: note între 2 şi 4; 5–7; 8–10 etc.). În ambele situa ţii mă rimea rimea intervalului (K) se obţine cu ajutorul formulei lui H.A. Sturges: K =
x max − x min 1 + 3,322 • lg n
(3.2)
unde, n reprezint ă numărul total de variante. În situaţia în care numărul de grupe este ales de cercetător (bazându-se pe experienţă şi intui ţie), mărimea intervalului (K) rezult ă astfel: - în cazul variabilelor de tip continuu, prin raportarea amplitudinii varia ţ iei iei (A = xmax - xmin) la numărul de grupe:
K = -
(3.3)
în cazul variabilelor de tip discret, prin raportarea numă rului rului valorilor diferite ale variabilei (Nx = xmax - xmin +1 = A + 1) la num ărul de grupe:
K =
1
x max − x min nr. grupelor
x max − x min + 1 nr. grupelor
(3.4)
Variaţia reprezintă proprietatea unei variabile de a înregistra mai multe valori (în cazul variabilelor cantitative) sau mai multe forme de manifestare (în cazul variabilelor calitative) (Blezu, 2002).
23
O atenţie deosebit ă trebuie acordat ă precizării limitelor sau capetelor intervalelor. În cazul caracteristicilor discrete limitele intervalelor ies foarte bine în evidenţă, ele fiind diferite ( exemplu: intervalele 2–4; 5–7; 8–10). Mai delicat este cazul caracteristicilor continui, când trebuie precizat care dintre intervale include limita sau, altfel spus, care cap ăt al intervalului este deschis/închis (exemplu: intervalele (2–4]; (4–6]; (6–8] etc. sunt deschise în partea stâng ă). Pentru evitarea confuziilor se procedeaz ă din start la departajarea limitelor, astfel: 2,01–4; 4,01–6; 6,01–8 etc. FORMĂ DE TABELE 3.3. PREZENTAREA DATELOR SUB FORMĂ
Prezentarea datelor sub forma unui tabel statistic permite atât o bun ă vizualizare cât şi, mai ales, efectuarea diverselor calcule în procesul de prelucrare a datelor. În elaborarea unui tabel pot fi identificate urm ătoarele elemente şi reguli principale (Novak, 1995): - titlul tabelului - care trebuie s ă fie clar, scurt şi să definească exact fenomenul pe care îl reprezint ă şi, după caz, perioada la care se refer ă; - macheta tabelului - format ă din liniile orizontale (rânduri) şi liniile verticale (coloane) din întret ăierea cărora apar rubricile (celulele, c ăsuţele) care conţin datele numerice şi/sau denumirile textuale; - subiectul tabelului - înscris de obicei la cap ătul rândurilor, este constituit din unităţile popula ţiei statistice (ex.: grupe de note, grupe de puncte etc); - predicatul tabelului - înscris de obicei la cap ătul coloanelor, cuprinde ansamblul indicatorilor care se înregistreaz ă la nivelul unit ăţilor popula ţiei statistice; - indicarea obligatorie a sursei de date, atunci când este cazul (de obicei sub tabel); - se recomandă indicarea unit ăţilor de măsur ă în care se exprim ă datele (de obicei, între titlul şi macheta tabelului); - se recomandă numerotarea tabelelor - pentru identificarea mai u şoar ă a acestora în textul de analiz ă. În funcţie de scopul întocmirii, de con ţinutul lor şi de numărul caracteristicilor studiate tabelele pot fi de mai multe tipuri. Astfel: a) Tabele ale unor serii statistice Pot fi întocmite atât pentru seriile de variante cât şi pentru cele de intervale. Diferenţa este dată de rândurile tabelului care vor constitui variantele seriei, în primul caz, sau clasele de variante (eventual valorile centrale), în cel de-al doilea caz. În ambele situa ţii pe coloane vor fi trecute frecven ţele, absolute sau relative, cumulate sau descresc ătoare. ( Exemplu Exemplu: a se vedea tabelul 3.3) b) Tabele centralizatoare Sunt utilizate în toate situa ţiile în care un num ăr mare de date trebuie stocate şi conservate în vederea prelucr ării lor ulterioare. În lucr ările ştiin ţifice aceste tabele sunt, de obicei, prezentate sub form ă de anexe, şi conţin pe coloane totalitatea variabilelor studiate, iar pe rânduri, totalitatea unit ăţilor statistice (colectivitatea statistică) investigate.
24
c) Tabele comparative Cuprind fie datele ob ţinute pe eşantioane diferite pentru aceea şi caracteristic ă, fie datele aceluia şi eşantion pentru caracteristici diferite. d) Tabele cu dublă sau tripl ă intrare În acest caz, şi coloanele şi rândurile exprim ă variaţiile uneia sau a dou ă caracteristicii (variabile). Fiecare celul ă exprimă numărul de unit ăţi statistice caracterizate prin variantele corespunz ătoare tuturor caracteristicilor de pe orizontal ă şi vertical ă. EPREZENTAREA GRAFICĂ GRAFICĂ A DATELOR STATISTICE 3.4. R EPREZENTAREA
Cu ajutorul reprezent ărilor grafice sunt vizualizate informa ţiile statistice, facilitându-se perceperea pe ansamblu a datelor, sesizarea unor aspecte privind variaţia valorilor observate, reparti ţia lor, legăturile existente între ele ş.a. -
Graficul trebuie s ă cuprindă: titlul - care poate fi plasat fie sub, fie deasupra graficului şi trebuie să precizeze limpede fenomenul pe care îl reprezintă; legenda – utilizat ă pentru specificarea anumitor simboluri sau conven ţii utilizate; sistemul axelor rectangulare (dac ă este cazul) - în care linia orizontal ă (abscisă) cuprinde valorile variabile x, iar cea vertical ă (ordonată) cuprinzând frecvenţele f; se recomandă numerotarea graficelor - pentru identificarea mai u şoar ă a acestora.
Graficele cel mai des utilizate sunt graficele de tip bar ă, histogramele, poligoanele de frecven ţ e, şi curbele de distribu ţ ie ie, pe abscis ă notându-se intervalele de variaţie (sau variantele), iar pe ordonat ă frecvenţele corespunzătoare acestor intervale (sau variante). Aceste reprezent ări grafice se ob ţin prin unirea intersec ţiilor perpendicularelor ridicate din punctele perechi de pe cele dou ă axe. În cazul seriilor de intervale perpendiculara pentru desemnarea valorii frecven ţei se ridică din mijlocul intervalului, respectiv din punctul corespunz ător valorii centrale a clasei. Graficele de tip bar ă2 le folosim când dorim s ă reprezentăm fie variabile cantitative discrete, fie variabile categoriale (m ăsurate prin scale nominale sau ordinale). Caracteristic acestui tip de grafic este faptul c ă barele verticale sunt delimitate de un spa ţiu, iar ordinea barelor poate fi schimbat ă. Histogramele şi poligoanele de frecven ţe sunt reprezent ările grafice utilizabile în cazul seriilor statistice cantitative, îns ă numai atunci când variabilele sunt continue. De exemplu, situa ţia absolven ţilor de liceu dup ă examenul de admitere la facultate (exprimată prin două variante: „admis”, „respins”) va fi reprezentat ă printr-un grafic de tip bar ă (deoarece avem de-a face cu o variabilă calitativă, măsurată printr-o scal ă 2
În engleză: bar graph.
25
nominală), iar mediile la bacalaureat ale acelora şi absolven ţi printr-o histogram ă sau printr-un poligon de frecvenţe (deoarece avem o variabil ă cantitativă continuă sau, altfel spus, o variabil ă măsurată printr-o scal ă numerică). Pentru a eviden ţia şi/sau compara structurile se utilizeaz ă diagramele de structur ă, construite cu ajutorul suprafe ţelor (cercuri, pătrate, dreptunghiuri), diagramele de compara ţ ie ie şi reprezent ările prin figuri simbolice ş.a.. În multe cazuri, sunt studiate mai multe caracteristicii folosindu-se reprezent ări grafice complexe precum: piramide ale vârstelor , grafice comparative , grafice combinate .
Grafic de tip bară bară (Bar Graph) 120
i 100 n e 80 v l o 60 s b a 40 . r N 20 ţ
101 101
29
0 respins
admis
Histograma frecvente 40 38
30
26 23
20 20
14 10 9
0 5,01
6,01
7,01
8,00
medii la examenul de bacalaureat
26
9,00
10,00
În ce priveşte diagramele sub forma figurilor geometrice (cerc, p ătrat, dreptunghi) utilizate atât pentru prezentarea structurilor cât şi/sau pentru compararea în timp a evoluţiei fenomenelor se procedeaz ă astfel (Novak, 1995): - se construiesc cele dou ă figuri în aşa fel, încât raportul dintre raze (sau laturi) s ă fie propor ţional cu nivelurile fenomenului studiat în cele dou ă perioade diferite de timp (în dou ă localităţi etc.); - în cadrul fiec ărei figuri geometrice se reprezint ă structura corespunz ătoare anului (spaţiului geografic) respectiv. Structura eş eşantionului după după notele la examen 2-4 14%
8 - 10 35%
2-4 5-7 8 - 10
5-7 51%
3.5. UTILIZAREA SPSS PENTRU ORDONAREA ŞI GRUPAREA DATELOR STATISTICE
ORDONAREA DATELOR STATISTICE CU AJUTORUL SPSS Se parcurge, în bara de meniuri, traseul: „ Data” – „Sort cases...” Va fi afişată fereastr ă de dialog din figura 3.1. După ce selectăm variabila dup ă care dorim să facem ordonarea (prin trecere ei din stânga în fereastra intitulat ă „Sort by:”) ne mai r ămâne să alegem sensul ordonării: crescător/ascendent sau descresc ător/descendent. Se poate realiza sortarea datelor dup ă mai multe variabile; în acest caz, se va ţine cont de ordinea variabilelor în fereastra „Sort by:”.
27
ă de dialog pentru sortarea (ordonarea) datelor Figura 3.1. Fereastr ă
3.6. UTILIZAREA SPSS PENTRU PREZENTAREA DATELOR STATISTICE SUB FORMĂ FORMĂ DE TABELE
Pentru calcularea frecvenţelor absolute şi/sau relative ale unei serii statistice simple sau de variante, precum şi pentru redarea sub form ă tabelar ă a distribu ţiei de frecvenţe, se parcurge, în bara de meniuri, traseul: „Analyze” – „ Descriptive Statistics” – „ Frequencies…”
Vom fi întâmpina ţi de fereastra următoare, în care, în partea stâng ă sunt afişate toate variabilele din baza de date (în ordine alfabetic ă sau în ordinea definirii lor).
Figura 3.4. Fereastra de întâmpinare (de dialog) pentru calculul frecven ţ elor elor GRAFICĂ A 3.7. UTILIZAREA SPSS PENTRU REPREZENTAREA GRAFICĂ DATELOR STATISTICE
28
Pentru a obţine o reprezentare grafic ă aferentă seriei statistice respective, revenim la fereastra de întâmpinare pentru calculul frecven ţelor (figura 3.4) şi apăsăm butonul „ Charts…”.
ă de op ţ iuni iuni pentru reprezentarea grafică a datelor statistice Figura 3.7. Fereastr ă
Va apărea o nouă fereastr ă în care, înainte de a ap ăsa butonul „Continue”, vom opta pentru una din urm ătoarele situa ţii („Chart Type”): - „None”, când nu se dore şte reprezentarea grafic ă a variabilei; - „Bar charts”, reprezentare (printr-un „grafic de tip bar ă”) folosit ă pentru serii statistice calitative sau pentru seriile de frecven ţe (de variante sau de intervale) în care variabila este discontinu ă; aici putem opta pentru afi şarea valorilor pe grafic („ Chart Value”) sub forma frecven ţelor absolute („ Frequencies”) sau a celor relative („ Percentages”); - „Pie charts”, reprezentare grafică sub forma diagramei de structur ă prin arce de cerc folosită pentru serii statistice calitative sau pentru seriile de frecvenţe (de variante sau de intervale) cu num ăr redus de variante; avem posibilitatea acelora şi opţiuni de mai sus; - „Histograms”, reprezentare grafic ă sub formă de histogram ă folosită pentru serii statistice cantitative simple sau de variante, în care variabila este de tip continuu; aici se poate opta pentru trasarea curbei distribu ţiei normale prin activarea căsuţei „With normal curve”.
29
4. INDICATORI AI TENDINŢEI CENTRALE 4.1. 4.2. 4.3. 4.4. 4.5. 4.6.
Mediile Quantilele: mediana, quartilele, decilele şi centilele Modul Relaţia dintre indicatorii tendin ţei centrale Reprezentări de tip Boxplots Utilizarea SPSS pentru calcularea şi reprezentarea indicatorilor de pozi ţie
În cele mai multe investigaţii psihosociale sau educa ţionale prezentarea rezultatelor sub formă tabelar ă sau prin reprezentări grafice nu este suficient ă. Prin intermediul unor indicatori statistici putem realiza o prelucrare mult mai riguroas ă a datelor, putem cunoaşte mult mai temeinic fenomenele studiate. Termenul de „indicator” se refer ă la acele „valori ata şate variabilelor statistice cantitative prin intermediul că rora rora se încearcă exprimarea, de o manier ă ă sintetic ă a ă în distribu ţ ia informa ţ iei iei con ţ inut inut ă ia de frecven ţ e respectivă ” (Rotariu et. al., 1999, p.
42). În funcţie de natura informaţiei oferită de indicatorii statisticii, ace ştia se clasific ă în trei mari categorii: - indicatori ai tendin ţei centrale (de poziţie sau de nivel), - indicatori ai varia ţiei (de dispersie sau de împr ăş ăştiere), - indicatori ai formei distribuţiei. Pentru a determina modul în care datele statistice tind s ă graviteze în jurul unor elor centrale. Dintre aceştia vom prezenta: valori centrale se folosesc indicatorii tendin ţ elor media, quantilele (mediana, quartilele, decilele şi centilele) şi modul.
4.1. MEDIILE
Mărimile medii exprimă ceea ce este comun şi general în forma de manifestare a fenomenelor studiate. Pentru a ne fi de folos, îns ă, calculul mărimilor medii trebuie s ă îndeplinească anumite condiţii: - să se bazeze pe un număr suficient de mare de cazuri individuale; - valorile individuale ale caracteristicii s ă nu difere prea mult de la o unitate statistică la alta, adică să avem o colectivitate omogen ă;
-
mărimea medie aleasă pentru calcul să corespundă cel mai bine formei de variaţie a caracteristicii studiate şi să valorifice cel mai bine materialul cifric de care dispunem (Novak, 1995).
MEDIA ARITMETICĂ ARITMETICĂ
(m, sau μ1), reprezintă, în cazul datelor negrupate (serii simple), raportul dintre suma valorilor variabilei respective şi numărul lor. Media aritmetică
m=
Σ xi n
(4.1)
Dacă datele sunt grupate (distribu ţii de frecvenţe), media - numită uneori medie aritmetică ponderată2 - va fi: m=
Σ x i ⋅ f i Σ f i
(4.2)
În cazul grup ării valorilor pe intervale, în formula de mai sus xi reprezintă valoarea central ă a intervalului. • •
ăţ ile Propriet ăţ ile mediei aritmetice: dacă la toate valorile seriei statistice se adaug ă (scade) o constant ă c, atunci media se măreşte (scade) cu acea valoare: dac ă y i = x i + c , atunci m x = m y + c dacă toate valorile seriei statistice se înmul ţesc (divid) cu o constantă c, atunci şi media se va multiplica (divide) cu aceea şi valoare c: dacă y i = c ⋅ xi , atunci m y = c ⋅ m x
• •
suma abaterilor valorilor de la medie este întotdeauna nul ă: ∑ x i − m = 0 suma pătratelor abaterilor de la medie va fi întotdeauna mai mic ă decât suma pătratelor abaterilor de la oricare alt punct al distribu ţiei.
4.2. QUANTILE3
O altă categorie de indicatori ai tendin ţelor centrale o reprezint ă quantilele. Acestea sunt indicatori de pozi ţie şi au rolul de a împ ăr ţii seria de date într-un anumit număr de păr ţi. Dintre quantilele cele mai des calculate amintim:
1
m şi (x barat) se folosesc atunci când ne referim la media unui eşantion (situaţia cea mai frecventă), iar μ (miu) atunci când calcul ăm media întregii popula ţii de referin ţă. 2 ă recomandăm următoarea Pentru a înţelege corect sensul termenului de medie ponderat ă referinţă bibliografică: Rotariu et. al., 1999, pp. 43-44. 3 În limba engleză, se numesc percentiles.
32
Mediana (M sau Me), este valoarea care împarte seria ordonat ă de date în două păr ţi egale. Jumătate din valori (50%) se g ăsesc în partea stâng ă a medianei iar cealalt ă jumătate în partea dreapt ă. Pentru calculul medianei este absolut necesar ă ordonarea seriei statistice, fie crescător, fie descrescător (aspect f ăr ă importanţă în cazul calculului valorilor
medii!). Pentru a afla al câtelea element al unei serii cu num ăr impar de termeni este mediana se calculeaz ă cota medianei dup ă formula; Cota M = (n+1)/2 (4.7) De exemplu, presupunând c ă notele, ordonate cresc ător, obţinute de un lot de nouă subiecţi sunt: 4 5 6 7 7 8 8 8 9 cota medianei va fi (9+1)/2 = 5, astfel încât mediana va corespunde celui de-al cincilea termen din serie, adic ă 7. Se observă că şi în stânga şi în dreapta acestei valori se află un număr egal de termeni. Pentru seriile formate dintr-un num ăr par de valori formula (4.7) r ămâne valabilă, numai că rezultatul nu va mai fi întotdeauna un num ăr întreg. Vom vorbi de doi termeni centrali, pozi ţia medianei fiind între termenul n/2 şi (n/2)+1. În acest caz, mediana se calculeaz ă f ăcând media celor dou ă valori, putând să coincidă (dacă valorile corespunz ătoare termenilor n/2 şi (n/2)+1 sunt egale), sau nu (în caz contrar), cu una din valorile seriei. Dacă în exemplu anterior mai apare un subiect cu nota 9 vom avea o serie cu zece termeni: 4 5 6 7 7 8 8 8 9 9 mediana va fi dat ă de media valorilor corespunz ătoare termenilor cinci şi şase, adică 7,5. Lucrurile devin mult mai complicate dac ă ne referim la distribu ţii de frecvenţe4. Quartilele (Q) reprezint ă în patru păr ţi egale, astfel:
alte tipuri de quantile, ele împ ăr ţind seria de date
quartila 1 (Q1) împarte valorile în 25% (un sfert) şi, respectiv, 75% (trei sferturi); quartila 2 (Q2 = M) împarte seria de date în dou ă jumătăţi egale, ea fiind, de fapt, mediana; quartila 3 (Q3) împarte seria ordonat ă în 75% şi, respectiv, 25%.
4
Pentru unii indicatori ai tendin ţei centrale formulele de calcul sunt mai complexe atunci când datele sunt grupate. Tratatele de statistic ă aplicată prezintă în amănunt toate aceste formule.
33
Analog, se definesc şi celelalte quantile: decilele (împart o serie ordonat ă în zece păr ţi egale) şi centilele (împart o serie ordonat ă într-o sut ă de păr ţi egale). MODALĂ) 4.3. MODUL (VALOAREA MODALĂ
Modul «sau valoarea modal ă» (Mo), reprezintă valoarea caracteristicii prezintă frecvenţa cea mai mare, care apare de cele mai multe ori în seria de date.
care
De exemplu, în cazul unei serii simple de date de forma: 4 5 5 6 7 7 8 8 8 9 modul va fi 8, aceast ă valoare apărând de cele mai multe ori în cadrul seriei. Pentru o serie de variante, modul este egal cu varianta care are cea mai mare frecvenţă, iar pentru o serie de intervale, fie se calculeaz ă media intervalului cu cea mai mare frecvenţă, fie r ămânem doar la noţiunea de interval modal . De cele mai multe ori seriile statistice au un singur mod, situa ţie în care spunem ă . Dacă întâlnim dou ă sau mai multe valori modale că avem o distribuţie unimodal ă vom avea distribu ţii bi- sau multimodale (vezi capitolul 6.3.). ELAŢIA DINTRE MEDIE, MEDIANĂ MEDIANĂ ŞI MODUL 4.4. R ELAŢ
În funcţie de aspectul (grafic) al unei serii statistice cele trei valori medii pot s ă coincidă, sau nu. În prima situa ţie vom vorbi de o distribu ţie normală (gaussiană) sau vom afirma că populaţia din eşantionul studiat este distribuit ă „normal”, este omogenă în raport cu variabil ă respectivă (vezi capitolul 6.3.). În celălalt caz, nu toţi cei trei indicatori sunt reprezentativi; va trebui s ă ţinem seama de modul de exprimare al variabilei, motiv pentru care se impun urm ătoarele precizări: - media este recomandată în cazul variabilelor numerice care îndeplinesc condiţiile parametrice (distribu ţie normală, omogenitate ş.a.); - mediana se recomandă pentru cazurile în care nu sunt îndeplinite condi ţiile parametrice (distribuţii asimetrice, eterogenitate crescut ă etc) şi în cazul variabilelor de tip ordinal - modul este utilizat mai rar pentru date numerice, fiind îns ă foarte util în cazul variabilelor de tip categorial (date calitative, nominale), deoarece nu putem calcula ceilal ţi parametrii centrali (Sava, 2004b). Între aceste trei caracteristici medii de baz ă există o relaţie aproximativ ă, stabilită de G.U. Yule şi M.G. Kendall, valabil ă pentru distribu ţii moderat asimetrice: (4.8) M o = M e − 3(m − M e )
34
EPREZENTĂRI TIP BOXPLOT 4.5. R EPREZENTĂ
O modalitate specific ă de a reprezenta tendinţa cazurilor unei serii statistice de a se grupa în jurul unor valori centrale o reprezint ă diagramele de tip Boxplot . Acestea marchează printr-un dreptunghi (o cutie) cele trei quartile – Q1, Q2, şi Q3 – ale oricărei serii statistice şi prin dou ă linii distincte cea mai mic ă, respectiv cea mai mare valoare a seriei. Din acest motiv, despre aceast ă reprezentare se mai spune că reprezintă o rezumare prin cinci valori . Între cele două quartile Q1 şi Q3 (în interiorul dreptunghiului) se reg ăsesc 50% din cazuri. Mai mult, sunt reprezentate, atunci când este cazul, valorile extreme5 (mai mici/mari de 1.5, respectiv 3 lungimi de cutie 6 – simbolizate prin cerc, respectiv asterisc). 50
Outlier (al 8-lea subiect are vârsta mai mare decât 3 lungimi de de cutie)
8
Outlier (al 21-lea subiect are vârsta mai mare decât 1,5 lungimi de cutie) cutie)
40
21
Q3 (quartila superioar ă)
30
Q2 = Me (mediana) 20
Q1 (quartila inferioar ă) 10 N=
32
varsta s ubiectilor or
ilor” Figura 4.1. Reprezentare grafic ă de tip Boxplot a variabilei „Vârsta subiec ţ ilor”
5 6
În engleză, outliers. Lungimea (înălţimea) cutiei reprezint ă abaterea interquartil ă: I = Q3 − Q1 - vezi cap. 5.1.
35
4.6. UTILIZAREA SPSS PENTRU CALCULAREA ŞI REPREZENTAREA GRAFICĂ GRAFICĂ A INDICATORILOR DE POZIŢ POZIŢIE Cu ajutorul programului SPSS valorile tendin ţei centrale se ob ţin cu mare uşurinţă, existând mai multe posibilit ăţi. Una dintre posibilit ăţi este amintită în capitolul anterior, presupunând traseul: „Analyze” – „ Descriptive Statistics” – „ Frequencies…”
După ce, în fereastra de dialog pentru calculul frecven ţelor (vezi figura 3.4.), selectăm variabila sau variabilele dorite, ap ăsăm butonul „Statistics…” şi vom pătrunde într-o nou ă fereastr ă de opţiuni (figura 4.2).
ă de op ţ iuni iuni pentru calculul unor indicatori statistici Figura 4.2. Fereastr ă
La rubrica „ Percentile Values” putem opta pentru calculul quartilelor sau a oricăror altor quantile ( Percentiles) care să împartă seria în intervale egale ( equal groups), sau inegale. La rubrica „Central Tendency” se optează pentru calcularea mediei aritmetice (Mean), medianei (Median), Modului (Mode) sau sumei valorilor ( Sum).
36
5. INDICATORI AI VARIAŢIEI ŞI INDICATORI AI FORMEI 5.1. Indicatori simpli (elementari) ai varia ţiei 5.2. Indicatori sintetici ai varia ţiei 5.3. Indicatori ai formei distribu ţiei 5.4. Utilizarea SPSS pentru calcularea indicatorilor varia ţiei şi ai formei Utilizarea mediei pentru caracterizarea a ceea ce este comun şi tipic în colectivităţile statistice trebuie s ă fie însoţită de verificarea reprezentativit ăţii acesteia pentru întreaga serie de valori individuale. Vom analiza cu ajutorul unei alte variaţiei (de dispersie sau de categorii de indicatori, numi ţi indicatori ai variaţ împrăş împrăştiere tiere), măsura în care valorile individuale variaz ă în jurul mediei sau, altfel spus, gradul de împr ăş ăştiere (de dispersie) a indivizilor în cadrul seriei de valori pe care aceştia le iau. Putem avea serii statistice cu aceea şi medie, însă cu o distribu ţie a valorilor diferit ă, adică eşantioane diferite din punct de vedere al variabilit ăţii şi omogenităţii (vezi figura 5.1.). La rândul lor, indicatorii varia ţiei se împart în indicatori simpli şi indicatori sintetici.
m=100; s = 5
m=100; s = 15
55
70
85
10 0
11 5
13 0
145
Figura 5.1. Distribu ţ iiii statistice cu acelea şi valori centrale, dar cu grade diferite de variabilitate
VARIAŢIEI 5.1. INDICATORI SIMPLI (ELEMENTARI) AI VARIAŢ
Se obţin prin compararea a doi termeni din serie sau prin compararea oric ărui termen al seriei cu o valoare fix ă din cadrul seriei. Indicatorii simpli sunt amplitudinea, abaterea interquartil ă şi abaterile individuale . Toţi indicatori pot fi exprimaţi în mărimi absolute (adic ă în unitatea de m ăsur ă a caracteristicii analizate) sau în mărimi relative, calculate în raport cu media sau mediana.
AMPLITUDINEA Amplitudinea (A),1 se obţine prin diferen ţa dintre valoarea cea mai mare şi cea mai mică a caracteristicii respective. Amplitudinea absolut ă:
A = x max − x min
Amplitudinea relativ ă:
Ar =
x max − x min m
(5.1) (5.1’)
Acest indicator este cel mai simplu de calculat dar şi cel mai dezavantajos, deoarece ţine seama doar de dou ă valori, cele extreme, f ăr ă a oferii informaţii despre termenii din interiorul seriei. Iată două serii statistice (de exemplu: notele ob ţinute de elevi unei clase la dou ă discipline diferite) care au aceea şi amplitudine: prima serie: a doua serie:
2 3 4 4 4 5 5 6 6 6 6 7 7 8 8 8 9 9 10 2 5 5 5 5 5 6 6 6 6 6 6 6 6 7 7 7 7 10
În ambele cazuri amplitudinea va fi 8 (A = x max – x min = 10 – 2 = 8), însă prima serie prezintă o variaţie reală a notelor, pe când în cea de-a doua valorile extreme pot fi considerate excep ţii (atipice), nivelul redus al varia ţie nefiind reflectat deloc în valoarea amplitudinii. Din aceste motive, utilizarea amplitudinii în vederea caracteriz ării omogenităţii/eterogenităţii unei serii statistice trebuie f ăcută cu rezerve, doar atunci când valorile extreme nu se abat foarte mult de la ceilal ţi termeni ai seriei.
ABATEREA INTERQUARTILĂ INTERQUARTILĂ Abaterea interquartilă interquartilă (I) sau abaterea quartilă quartilă, se obţine prin diferenţa dintre quartila cea mai mare şi cea mai mică a caracteristicii respective 2. După cum am aflat în capitolul anterior, quartilele sunt în num ăr de trei (notate Q 1, Q2, Q3); ele împart seria statistic ă în patru păr ţi egale (vezi cap. 4.2.). Reamintim că Q2 este de fapt mediana seriei.
1 2
În engleză: Range. Similar pot fi definite abaterile interdecile sau intercentile.
38
Abaterea interquartil ă absolut ă:
I = Q3 − Q1
Abaterea interquartil ă relativă:
I r =
Q3 − Q1 Q2
(5.2) (5.2’)
Prin utilizarea acestui indicator sunt eliminate valorile extreme, mai precis, valorile situate în primul sfert (între x min şi Q1) şi ultimul sfert (între Q 3 şi xmax) al seriei, reducându-se astfel influen ţa acestora. Abaterea interquartil ă este preferată în locul amplitudinii atunci când valorile extreme din cadrul seriei sunt atipice, adic ă se abat prea mult de la ceilal ţi termeni ai seriei. Acest indicator este reprezentat grafic cu ajutorul diagramelor de tip Boxplot (vezi capitolul 4.5.). Reluând exemplul de mai sus, pentru a doua serie statistic ă abaterea interquartil ă este I = Q3 – Q1 = 7 – 5 = 2, ceea ce reflect ă mult mai bine lipsa de varia ţie a valorilor seriei. 2 5 5 5 5 5 6 6 6 6 6 6 6 6 7 7 7 7 10 xmin Q1 Q2 = Me Q3 xmax Cu toate acestea, nici în acest caz nu avem informa ţii despre ce se întâmpl ă între cele două quartile extreme, mai mult, apare dezavantajul elimin ării a jumătate din termenii seriei (din acest motiv, uneori calcul ăm abaterea interdecil ă, care elimină o cincime dintre valori, sau chiar abaterea intercentil ă, aceasta eliminând doar a cincizecia parte dintre valori). Toate aceste dezavantaje induse de amplitudine şi de abaterea interquartil ă pot fi eliminate dac ă se calculează abaterile (diferen ţele) nu doar dintre dou ă valori, ci între toate valorile seriei respective. Se ob ţine astfel un indicator cunoscut sub numele de indicele lui Gini 3, mai puţin folosit de c ătre psihologi, sociologi sau pedagogi. Mai cunoscute sunt acele abateri calculate pentru toate valorile caracteristicii prin raportare la o valoare fix ă, de obicei media sau mediana.
ABATERILE INDIVIDUALE Abaterile (deviaţ (deviaţiile) individuale (di), mai precis abaterile individuale de la 4 medie , se obţin prin diferenţa dintre fiecare valoare şi media aritmetic ă a caracteristicii respective. La fel pot fi calculate abaterile individuale de la median ă sau de la oricare alt ă valoare din cadrul seriei. Conform proprietăţilor mediei (vezi capitolul 4.1.) suma acestor abateri individuale este întotdeauna egal ă cu zero. 3
4
Indicele lui Gini (dup ă numele statisticianului italian Corado Gini) este definit ca: media aritmetică a diferenţelor dintre toate perechile de valorii, diferen ţe luate în valoare absolută/în modul (pentru formule vezi T. Rotariu et. al., 1999, p. 52). În practica statistic ă cele mai dese abateri individuale sunt calculate în raport cu media aritmetică, din acest motiv de cele mai multe ori, pentru a simplifica, vom folosi termenul de abatere individual ă în locul celui de abatere individual ă de la medie.
39
Abaterile individuale absolute :
d i = x i − m
Abaterile individuale relative :
d ir =
(5.3)
x i − m
(5.3’)
m
Abaterile individuale ne ofer ă informaţii doar despre pozi ţia unuia sau altuia dintre subiec ţi în raport cu media seriei, f ăr ă însă a surprinde în mod sintetic gradul de variaţie al caracteristicii. Pentru aceasta trebuie considerate toate abaterile individuale ale valorilor caracteristicii de la media lor, lucru posibil de realizat doar cu ajutorul indicatorilor sintetici ai varia ţiei. VARIAŢIEI 5.2. INDICATORI SINTETICI AI VARIAŢ
Aceşti indicatori au la baz ă calcularea valorii medii a tuturor abaterilor individuale ale variantelor de la media lor (se poate lua ca reper şi mediana seriei sau oricare altă valoare a seriei!). Se realizeaz ă astfel o sintetizare a varia ţiei unei caracteristici printr-o singur ă expresie numerică. Indicatorii sintetici sunt abaterea medie liniar ă, dispersia, abaterea medie pătratică şi coeficientul de varia ţ ie ie. Vom prezenta formulele pentru seriile simple şi pentru seriile (distribu ţiile) de frecven ţe.
ABATEREA MEDIE LINIAR Ă Abaterea (deviaţ (deviaţia) medie liniară liniară (d) sau pur şi simplu abaterea medie,5 se calculează ca o media aritmetică a tuturor abaterilor individuale, luate în valoare absolută (f ăr ă a lua în considerare semnul – sau +). Abaterea medie în cazul seriilor simple:
d =
Abaterea medie în cazul seriilor de frecven ţ e:
d =
∑ x
i
−m
(5.4)
n
∑ x − m ⋅ f ∑ f i
i
(5.4’)
i
Prin luarea în considerare a valorilor absolute se elimin ă, de fapt, acel inconvenient generat de proprietatea mediei aritmetice prin care suma abaterilor individuale este întotdeauna egal ă cu zero, adică ∑ x i − m = 0 . Abaterea medie ne arat ă cu cât se abate în medie fiecare valoare de la nivelul mediu şi se exprimă în unitatea de m ăsur ă a caracteristicii studiate. Dezavantajul acestui indicator const ă în faptul că el acordă aceeaşi importanţă tuturor abaterilor 5
Şi
de data aceasta, pentru simplificare, atunci când folosim termenul de abatere medie ne referim la abaterea medie de la medie. Se poate calcula abaterea medie de la median ă sau de la oricare altă valoare a seriei.
40
individuale, f ăr ă să ţină seama de abaterile individuale mai mari care, în valoare absolută, influenţează în mai mare măsur ă gradul de variaţie.
DISPERSIA Dispersia (s2 sau σ2)6 sau varianţ varianţa,7 se calculează ca o medie aritmetic ă a pătratelor abaterilor individuale ale tuturor valorilor fa ţă de media lor. Dispersia în cazul seriilor simple :
Dispersia în cazul seriilor de frecven ţ e:
s
2
s
2
∑ ( x =
i
∑ ( x =
i
− m)2
(5.5)
n
− m )2 ⋅ f i
(5.5’)
∑ f
i
Estimarea dispersiei unei popula ţ ii, ii, calculat ă pe baza unui e şantion
s
2
s
2
∑ ( x =
i
− m)2
(5.6)
n −1
( x − m )2 ⋅ f ∑ = ( ∑ f ) − 1 i
:
8
i
(5.6’)
i
Sunt autori care sus ţin că termenul de dispersie ar trebui evitat deoarece el „ este ă unul generic, fiind utilizat pentru to ţ i indicatorii din categoria celor care reflect ă împr ăş ăştierea valorilor ” (Rotariu et.al ., ., 1999, p. 42). Pe de altă parte, varianţa ă al dispersiei” (Luduşan et.al ., reprezintă „indicatorul sintetic de baz ă ., 1997, p. 277) ăştierii datelor ” sau „indicatorul statistic cel mai utilizat pentru aprecierea împr ăş
(Clocotici & Stan , 2000, p. 68). Dincolo de aceste opinii divergente, suntem de p ărere că el nu trebuie neglijat, oferindu-ne date despre gradul de omogenitate/eterogenitate al caracteristicii vizate; utilitatea lui o vom vedea la calculul urm ătorului indicator şi în capitolele de statistică inferenţială.
6
Se foloseşte s2 când facem referire la un e şantion şi σ2 (sigma la p ătrat) când calcul ăm abaterea standard pentru întreaga popula ţie. Aceeaşi semnifica ţie o au şi notaţiile pentru abaterea standard: s şi σ. 7 În engleză: variance. 8 Programele statistice pentru prelucrarea informatizat ă a datelor (SPSS, Excel etc.) folosesc pentru calculul dispersie şi abaterii standard formule ce au la numitor n-1. Este o corecţie generată de considerente teoretice - vezi caseta 5.1. Prin aceste formule se ob ţin estimări ale celor doi indicatori la nivelul întregii popula ţii statistice, în condi ţiile în care valorile la care ne raportăm apar ţin unui eşantion extras din popula ţia respectivă.
41
ABATEREA STANDARD Abaterea standard9 (s sau σ), numită şi abaterea medie pă pătratică tratică sau 10 abaterea tip, reprezintă r ădăcina pătrată din valoarea dispersiei. Abatere medie p ătratică în cazul seriilor simple : 2
s = s =
∑ ( x
i
− m)
2
(5.7)
n
Abaterea medie p ătratic ă în cazul seriilor de frecven ţ e: 2
s = s =
∑ ( x
2
i
− m ) ⋅ f i
∑
f i
(5.7’)
Estimarea abaterii standard a unei popula ţ ii, ii, calculat ă pe baza unui e şantion: 2
s = s =
2
s = s =
∑ ( x
i
− m)2
(5.8)
n −1
∑ ( x − m)2 ⋅ f ( ∑ f ) − 1 i
i
(5.8’)
i
ăţ ile Propriet ăţ ile abaterii standard: - dacă la toate valorile seriei
statistice se adaug ă (scade) o constant ă c, abaterea standard nu se modific ă: dacă y i = xi + c sau y i = xi − c , atunci s y = s x - dacă toate valorile seriei statistice se înmul ţesc/divid cu o constant ă c, atunci şi abaterea standard se va multiplica/divide cu aceea şi valoare c: dacă yi = c ⋅ xi , atunci s y = c ⋅ s x - abaterea standard fa ţă de medie este mai mică decât abaterea standard fa ţă de oricare altă valoare (mediană etc.) a distribuţiei. Mult mai des folosit ă în analiza seriilor statistice, abaterea medie p ătratică are acelaşi avantaj ca şi abaterea medie liniar ă, şi anume, se exprim ă în aceeaşi unitate de măsur ă ca şi datele ini ţiale pe care le studiem. De exemplu, dac ă studiul se bazează pe notele unui colectiv de elevi, abaterea tip se exprim ă tot în note,
9
În engleză: standard deviation (SD). Abaterea standard se refer ă doar la abaterea medie p ătratică faţă de medie. Putem calcula şi abaterea medie p ătratic ă faţă de mediană, prin înlocuirea mediei cu mediana. 10 În franceză: écart type.
42
ţ ând ând să se analizeze mai corect gradul de variabilitate al grupului ” (Radu „ permi ţ et.al., 1993, p.72). Asemănător dispersiei, o valoarea sc ăzută a abaterii standard reflect ă o serie statistică omogenă; în caz contrar vorbim de eterogenitatea datelor. Mai mult, pe graficul distribu ţiei acest indice marcheaz ă punctele de inflexiune ale curbei. Totuşi, atunci când dorim s ă compar ăm serii statistice cu unit ăţi de măsur ă diferite, ultimii doi indicatori nu ne mai sunt de folos. Vom folosi un alt indicator: coeficientul de varia ţie.
COEFICIENTUL DE VARIAŢ VARIAŢIE (DE VARIABILITATE) Coeficientul de variaţ variaţie (V) reprezintă raportul dintre abaterea medie p ătratică şi media colectivit ăţii studiate. Se folose şte atunci când dorim s ă compar ăm gradul ăştiere al unor serii statistice exprimate în unit ăţi de măsur ă diferite (de de împr ăş exemplu: înălţimile a două eşantioane de subiec ţi, exprimate în centimetrii, respectiv în inch). De asemenea, utiliz ăm acest indicator şi când seriile statistice au aceea şi unitate de m ăsur ă, dar nivelul general al valorilor caracteristicii studiate este total diferit (de exemplu: în ălţimile unor copii de la gr ădiniţă şi cele ale unor elevi de liceu, exprimate în centimetri). Coeficientul de varia ţ ie ie:
V =
s m
⋅ 100
(5.9)
Acest indicator se exprim ă în procente (se poate elimina înmul ţirea cu 100; vom obţine valori între 0 şi 1) şi ne arată gradul de omogenitate/eterogenitate al colectivităţii statistice studiate, astfel: cu cât valoarea coeficientului de varia ţie este mai aproape de zero, cu atât varia ţia este mai mică, deci colectivitatea este mai omogen ă. Dacă coeficientul de varia ţie este cuprins între 0 şi 15%, înseamnă că împr ăş ăştierea datelor este foarte mic ă, iar media este reprezentativ ă, deoarece eşantionul m ăsurat este omogen. Dac ă valoarea lui este între 15 şi 30%, împr ăş ăştierea datelor este mijlocie, media fiind înc ă suficient de reprezentativ ă. Limita maximă admisă pentru ca un e şantion să fie considerat omogen iar media s ă fie reprezentativă pentru colectivitatea respectiv ă este de 35% (Novak, 1995). Nici acest ultim indicator nu este lipsit de contraindicaţii! Cel puţin două atenţionări trebuie f ăcute: - formula coeficientului de varia ţie este aplicabil ă doar în cazul variabilelor m ăsurate pe scale de rapoarte, cu origine zero natural ă (rar întâlnite în psihologie şi pedagogie); - nu oricare dou ă caracteristici pot fi comparate cu ajutorul coeficientului ăm un e şantion după de variaţie (de exemplu: este inutil să compar ă salariul membrilor cu alt e şantion în care avem în vedere numă rul rul de la pantofi! – cf. Rotariu et.al., 1999, p. 59).
DISTRIBUŢIEI 5.3. INDICATORI AI FORMEI DISTRIBUŢ
Gradul de împr ăş ăştiere a valorilor unor serii statistice determin ă şi forme diferite ale reprezentărilor grafice ata şate acestor distribu ţii statistice. Pentru a reflecta forma
43
unei distribu ţii, mai ales pentru a face compara ţii între dou ă sau mai multe serii, ne folosim de o alt ă categorie de indicatori, numi ţi indicatori ai formei. Cei doi indicatori folosi ţi în statistica social ă sunt: oblicitatea şi boltirea.
INDICATORUL OBLICITĂŢ OBLICITĂŢII II (DE ASIMETRIE) 11 Oblicitatea a fost propus ă de către Pearson pentru aprecierea gradului de simterie/asimetrie a unei serii statistice. Se calculeaz ă cu una din formulele: Oblicitatea:
O=
sau O=
sau
3 ⋅ ( m − M e )
(5.10)
s m − M o
(5.10’)
s
∑ ( x O=
i
− m) 3
(5.10’’)
ns 3
Prin ridicarea abaterilor individuale la puterea a treia (formula 5.10’’) se acord ă o mai mare importan ţă valorilor extreme. Putem analiza astfel gradul de asimetrie al distribuţiei, altfel spus, tendin ţa valorilor de a se grupa spre una din cele dou ă extreme. În cazul distribu ţiilor simetrice, deoarece media şi modul sunt identice, oblicitatea va fi 0. În cazul curbelor de distribu ţie asimetrice, alungite spre dreapta sau spre stânga, oblicitatea va avea o valoarea negativ ă, respectiv pozitiv ă (vezi cap. 6.2.).
INDICATORUL BOLTIRII (DE EXCES, DE APLATIZARE) Boltirea12 exprimă înălţimea „cocoaşei” curbei de distribu ţie, comparativ cu cea normală. Ne arată măsura în care o distribu ţie este mai plată sau mai boltit ă. Boltirea:
∑ ( x B =
i
− m) 4
ns 4
−3
(5.11)
Pentru valori pozitive ale acestui indicator spunem c ă avem o distribu ţie „leptokurtică” (cu cocoaşă înaltă). În celălalt sens, distribu ţia va fi „platikurtic ă” (cu cocoaşă aplatizată) – vezi figura 5.1. Valori apropiate de 0 indic ă o distribu ţie „mezokurtică” 11 12
În engleză: skewness. În engleză: kurtosis (=cocoaşă).
44
Sunt considerate distribuţii relativ normale cazurile în care aceşti indicatori nu depăşesc ±1,96.
5.4. UTILIZAREA SPSS PENTRU CALCULAREA INDICATORILOR VARAŢ VARAŢIEI ŞI AI FORMEI Şi de aceast ă dată dispunem de mai multe posibilităţi pentru a calcula indicatorii variaţiei sau pe cei ai formei unei serii statistice. Ca şi în capitolele anteriore, prezent ăm pentru început solu ţia parcurgerii următoarelor comenzi: „Analyze” – „ Descriptive Statistics” – „ Frequencies…”
După ce, în fereastra de dialog pentru calculul frecven ţelor (vezi figura 2.1.), selectăm variabila sau variabilele dorite, ap ăsăm butonul „Statistics…” şi vom pătrunde într-o nou ă fereastr ă de opţiuni (figura 5.1).
ă de op ţ iuni iuni pentru calculul unor indicatori statistici Figura 5.1. Fereastr ă
La rubrica „ Dispersion” putem opta pentru calculul abaterii standard ( Std. deviation), a varianţei, a amplitudinii ( Range), a valorilor minime şi maxime şi a erorii standard a mediei ( S.E. mean). La rubrica „ Distribution” se optează pentru calcularea oblicit ăţii ( Skewness) sau boltirii ( Kurtosis).
45
6. DISTRIBUŢ DISTRIBUŢIILE STATISTICE 6.1. 6.2. 6.3. 6.4. 6.5.
Distribuţia normală Distribuţii simetrice şi asimetrice Distribuţii unimodale şi bimodale Valori normate (scoruri z) Distribuţia normală standardizată
După cum am ar ătat în capitolele anterioare (capitolul 3), prin asocierea variantelor (valorilor) unei variabile statistice cu frecven ţele (absolute sau relative) cu care acestea apar se obţine o DISTRIBUŢ DISTRIBUŢIE STATISTICĂ STATISTICĂ. Pentru exprimarea sintetic ă a informaţiilor conţinute de aceste şiruri de date putem calcula o mul ţime de indicatori statistici, astfel încât, printr-o simpl ă analiză a lor să putem spune dac ă distribuţiile statistice sunt simetrice sau asimetrice, unimodale sau multimodale, aplatizate sau înalte. ISTRIBUŢIA NORMALĂ NORMALĂ 6.1. DISTRIBUŢ
Cunoscută şi sub denumirea de curba (clopotul) lui Gauss, este o distribu ţie simetrică, spre care tind toate şirurile de date ob ţinute în practica statistic ă şi care se caracterizează prin aceea că valorile centrale sunt cât mai apropiate, iar de o parte şi de alta a lor avem un num ăr aproximativ egal de valori. Într-o distribu ţie perfect normală1 media, mediana şi modul sunt identice, iar celelalte valori sunt dispuse perfect simetric de o parte şi de alta a acelei valori centrale.
m = Me = Mo
x
iei normale Figura 6.1 Curba distribu ţ iei
1
Distribuţia perfect normală este o distribu ţie teoretic ă unimodală, simetrică şi continuă.
Matematicianul K.F. Gauss a constatat urm ătorul aspect: cu cât ob ţinem mai multe valori ale caracteristicii respective, cu atât curba distribu ţie tinde spre cea perfect normală (sau teoretic ă). De altfel, acest tip de curb ă este considerat de cele mai multe ori ca un reper, normalitatea unei distribu ţii verificându-se fa ţă de această curbă perfect simetrică sau, altfel spus, distribu ţia normală reprezintă o bună aproximaţie pentru distribu ţiile multor variabile întâlnite în aplica ţiile statistice curente. Caracteristicile curbei normale şi frecvenţa cu care se face apel la aceasta în studiile statistice determin ă adesea interpretări greşite. Atragem atenţia că distribuţiile reale pe care le descoper ă psihologii în studiile lor nu au niciodat ă parametrii unei curbe normale perfecte. Acest lucru este practic imposibil dac ă ne gândim că o curbă normală are limitele deschise, mergând spre infinit, în timp ce distribuţiile reale sunt finite (Popa, 2004). ISTRIBUŢII SIMETRICE ŞI ASIMETRICE 6.2. DISTRIBUŢ
În analiza fenomenele psihosociale distribu ţiile devin simetrice (vezi distribu ţia normală), de cele mai multe ori, doar dac ă cercetătorul analizeaz ă un număr suficient de mare de cazuri, astfel încât indicatorii tendin ţelor centrale s ă coincidă, iar de o parte şi de alta a lor s ă avem un număr aproximativ egal de valori. s=5
s = 15 m=Me=Mo=100 55
70
85
10 0
11 5
13 0
145
ie simetrice Figura 6.2. Curbe de distribu ţ ie
În foarte multe situa ţii, însă, variantele cu cele mai mari frecven ţe (valorile sau intervalele modale) nu coincid cu celelalte valori centrale (media sau mediana) înregistrându-se o polarizarea spre dreapta sau spre stânga a acestora. Pot ap ărea următoarele două situaţii: m > Me > Mo – spunem că distribu ţia prezintă o asimetrie de stânga sau pozitivă; m < Me < Mo – spunem că distribu ţia prezintă o asimetrie de dreapta sau negativă (figura 6.3).
48
asimetrie pozitivă
asimetrie negativă
f
f
Mo Me m
m Me Mo
x
x
ie asimetrice Figura 6.3. Curbe de distribu ţ ie
Reamintim că acest grad de asimetrie ne este dat şi de un indicator al formei distribuţiei şi anume, oblicitatea (vezi 5.3.). Acesta, prin valorile pozitive sau negative pe care le ia, ilustreaz ă asimetria pozitiv ă sau negativă. O asimetrie accentuat ă spre stânga sau spre dreapta determin ă apariţia unor tipuri particulare de distribu ţii, cunoscute cu numele de distribu ţii în formă de „ i ” şi în formă de „ j ” (figura 6.4.). De exemplu, erorile pe parcursul unui proces de formare a unei deprinderi sau timpul de execu ţie al unei ac ţiuni în procesul exerciţiului vor înregistra valori constant descresc ătoare, astfel încât, reprezentarea grafică a variaţiei lor va avea forma literei „ i ” (Radu et.al., 1993). distribu ţ ie ie în formă de „i ”
distribu ţ ie ie în formă de „ j ”
f
f
x
x
ie în formă de „i ” şi „ j ” Figura 6.4. Curbe de distribu ţ ie
ISTRIBUŢII UNIMODALE ŞI BIMODALE 6.3. DISTRIBUŢ
În unele serii statistice media î şi pierde reprezentativitatea deoarece colectivitatea are tendin ţa de a se grupa în dou ă (sau mai multe) grupe distincte. De data aceasta modul este indicatorul de pozi ţie cel mai relevant. Din acest motiv, vom spune că avem de-a face cu o DISTRIBUŢ DISTRIBUŢIE BIMODALĂ BIMODALĂ (uneori chiar multimodală multimodală).
49
La rândul lor, distribu ţiile bimodale pot fi simetrice sau asimetrice, negative sau pozitive (figura 6.5.) distribu ţ ie ie bimodal ă ă negativă
distribu ţ ie ie bimodal ă ă simetrică
distribu ţ ie ie bimodal ă ă pozitivă
f
m Me Mo
f
x
Mo m=Me Mo
x
f
Mo Me m
x
ie bimodale Figura 6.5. Curbe de distribu ţ ie
Încheiem această prezentare a tipurilor de distribu ţii statistice cu precizarea c ă în cazul curbelor simetrice se recomand ă determinarea mediei şi a abaterii standard, în timp ce pentru seriile statistice asimetrice sunt preferate valorile medianei şi oblicităţii. În cazul curbelor de distribu ţie în formă de „i ”, ”, a celor în formă de „ j ” şi a celor bimodale este bine s ă ne mulţumim cu un grafic şi să determinăm modul, respectiv frecven ţele (Radu et.al., 1993).
6.4. VALORILE NORMATE (STANDARDIZATE) – SCORURI Z
De foarte multe ori suntem pu şi în situa ţia de a compara valori ale unor caracteristici psihologice despre care nu cunoa ştem mare lucru. De exemplu, scorul de 17 puncte ob ţinut de un subiect pe scala de introversie/extraversie nu ne îndrept ăţeşte să afirmăm c ă este un scor mare sau mic, şi nici că este mai bun sau mai r ău decât cel de 9 puncte ob ţinut, de acela şi subiect, pe scala de stabilitate/instabilitate. stabilitate/instabilitate. În situaţia în care nu cunoa ştem semnificaţia datelor colectate în form ă brută putem recurge la transformarea acestora din cote brute în valori normate (standardizate), transformare ce se bazează pe proprietăţile mediei şi abaterii standard, în cazul unei distribu ţii normale. Scorul normat z (numit şi cota z sau scor z) exprimă semnificaţia unei anumite valori dintr-o distribu ţie prin raportare la parametrii distribu ţiei (medie şi abatere standard). Altfel spus, aceasta m ăsoar ă distanţa dintre o anumită valoare şi media distribuţiei, în abateri standard. Formula de calcul este:
z =
x − m (6.1)
s
unde x reprezintă oricare dintre valorile distribu ţiei, m şi s reprezintă media, respectiv abaterea standard.
50
notă standardizată standardizată z). Aceasta Scorul z se numeşte şi „scor standardizat z” (notă pentru că poate fi utilizat pentru a compara valori care provin din distribu ţii diferite, indiferent de unitatea de m ăsur ă a fiecăreia. Exemplu (apud Sava, 2004a): Un subiect a ob ţinut 43 de r ăspunsuri corecte la un test de acuitate vizual ă (TAV) şi 18 puncte la un test de aten ţie concentrată (TAC). Dacă transformăm în cote z cele 43 de puncte ob ţinute la TAV, vom ob ţine valoarea -1,71 (ştiind că m = 55, s = 7). Similar, dacă vom transforma în cote z rezultatul obţinut la TAC, vom ob ţine -0,96 (m = 21, s = 3,11). Pe baza acestor transform ări putem afirma că, deşi ambele rezultate sunt sub medie, performan ţa la TAC este mai bună decât cea obţinută la TAV. Utilizând propriet ăţile de transformare a formulei de defini ţie a scorului z, putem calcula o anumită valoare atunci când cunoa ştem valoarea lui z şi parametrii distribuţiei, astfel:
x = z ⋅ s + m
(6.2)
Proprietăţ Proprietăţile ile scorurilor z ă cu 0. 1. Media unei distribu ţ ii ii z este întotdeauna egal ă Pentru a explica aceast ă afirmaţie facem apel la una dintre propriet ăţile mediei, şi anume: sc ăderea unei constante la fiecare valoare determin ă scăderea mediei cu acea valoare (vezi 4.1.). Formula de calcul pentru z implică scăderea unei constante din fiecare valoare a distribu ţiei. Aceasta înseamnă că şi media noii distribu ţii (z) se va reduce cu constanta respectiv ă. Dar această constantă este însăşi media distribu ţiei originale, ceea ce înseamn ă că distribuţia z va avea media egală cu zero, ca rezultat al diminu ării mediei cu ea însăşi. 2. Abaterea standard a unei distribu ţ iiii z este întotdeauna 1. Acest fapt decurge prin efectul cumulat al propriet ăţilor abaterii standard (vezi 5.2.). Prima proprietate afirmă că în cazul scăderii unei constante (în cazul scorurilor z, media) din valorile unei distribu ţii, abaterea standard a acesteia nu se modific ă. A doua proprietate afirm ă că în cazul împăr ţirii valorilor unei distribuţii la o constant ă, noua abatere standard este rezultatul raportului dintre vechea abatere standard şi constantă. Dar constanta de care vorbim este, în cazul distribu ţiei z, chiar abaterea standard. Ca urmare, noua abatere standard este un raport dintre dou ă valori identice al c ărui rezultat, evident, este 1. (Popa, 1996)
51
Alte tipuri de scoruri standardizate Cotele z prezintă doua avantaje importante: permit compararea valorilor unei distribuţii, şi a valorilor provenite din distribu ţii diferite, ca urmare a faptului c ă se exprimă în abateri standard de la medie. Totu şi se impune o anumit ă precauţie în comparaţia pe baza scorurilor z atunci când distribu ţiile au forme diferite şi, mai ales, asimetrii opuse. Notele z au, însă, şi unele dezavantaje: se exprim ă prin numere mici, cu zecimale, (greu de manipulat intuitiv) şi, în plus, pot lua valori negative. Aceste dezavantaje pot fi u şor înlăturate printr-un artificiu de calcul care s ă conducă la note standardizate convenabile (ce corespund anumitor nevoi specifice). Mai jos sunt descrise câteva tipuri de note standard calculate pe baza notelor z. Cote T (Thurstone) – media unei distribu ţii T este întotdeauna egal ă cu 50 iar abaterea standard cu 10. T = 50 + 10 ∗ z
Cote H (Hull) H = 50 + 14 ∗ z
Cote IQ (Binet) IQ = 100 + 16 ∗ z
T = 50 + 10 ∗
x − m s
(6.3)
– media unei distribuţii H este întotdeauna egal ă cu 50 iar abaterea standard cu 14. H = 50 + 14 ∗
x − m s
(6.4)
– media unei distribuţii IQ de acest tip este întotdeauna egală cu 100 iar abaterea standard cu 16. x − m IQ = 100 + 16 ∗ s
(6.5)
Cote IQ (Wechsler) – media unei distribuţii IQ de acest tip este întotdeauna egală cu 100 iar abaterea standard cu 15. IQ = 100 + 15 ∗ z
x − m IQ = 100 + 15 ∗ s
52
(6.6)
6.5.
ISTRIBUŢIA NORMALĂ NORMALĂ STANDARDIZATĂ STANDARDIZATĂ DISTRIBUŢ
Distribuţia normală în care valorile sunt exprimate în scoruri z se nume şte CURBĂ CURBĂ NORMALĂ NORMALĂ STANDARDIZATĂ STANDARDIZATĂ. Ea are toate propriet ăţile enunţate mai sus, având însă şi parametrii oric ărei distribu ţii z: m=0 şi s=1. Valoarea 0 pentru medie a fost aleasă convenţional pentru c ă astfel distribu ţia este simetric ă în jurul lui 0. f
68,27%
2,14% 13,59% 34,13% m-3s
34,13% 13,59% 2,14%
m-2s
m-1s
m
m+1s
m+2s
m+3s
cote z
-3
-2
-1
0
+1
+2
+3
cote T
20
30
40
50
60
70
80
x
iei normale Figura 6.6. Curba distribu ţ iei
Curba normală standardizată are câteva caracteristici care sunt figurate în imaginea de mai sus şi pe care este important s ă le reţinem: - 34,13% dintre scorurile distribu ţiei normale se află între medie şi o abatere standard deasupra mediei (z = +1). La fel pentru z = –1. - Între –1z şi +1z se afl ă aproximativ 68% dintre valorile distribu ţiei. - Aproximativ 96% dintre scoruri se afl ă între –2z şi +2z. Mai mult, pe baza distribu ţiei scorurilor z pe o curb ă normală standardizată putem preciza: - procentajul de valori care se afl ă sub/peste o anumit ă cotă z; - procentajul de valori care se află între anumite cote z; ori între medie şi o cotă z - cota z corespunzătoare unui anumit procentaj de valori. Pentru aceasta, utiliz ăm un tabel special în care sunt trecute ariile determinate de curba distribu ţiei normale ce corespund distan ţei dintre medie şi z abateri standard de la medie. Aceste cifre exprim ă, sub formă de probabilit ăţi, frecvenţele valorilor de sub curba normal ă z (Anexa 1).
Aria de sub curba normală normală văzută zută ca probabilitate Valorile reprezentate pe curba normal ă nu constituie valori reale, rezultate în urma unui proces de măsurare. Ele reprezint ă valori ipotetice, distribuite astfel pe
53
baza unui model matematic (legea numerelor mari). Nimic nu ne împiedică să consider ăm c ă valorile de sub curba normal ă sunt rezultatul unei ipotetice extrageri aleatoare. Pe măsur ă ce „extragem” mai multe valori, curba de distribu ţie a acestora ia o formă care se apropie de forma curbei normale. Extr ăgând „la infinit” valori aleatoare, vom obţine o distribu ţie normală perfectă, exprimabilă printr-o curbă normală perfectă. Din cele spuse mai sus, rezult ă faptul că valorile din zona central ă a curbei sunt mai „frecvente” (mai multe), pentru c ă apariţia lor la o extragere aleatoare este mai „probabilă”. În acelaşi timp, valorile „mai pu ţin probabile”, apar mai rar, şi populează zone din ce în ce mai extreme ale distribu ţiei (curbei). Probabilitatea înseamn ă „frecvenţa relativă a apariţiei unui eveniment”. Subiectiv, se traduce prin „cât de siguri putem fi c ă acel eveniment apare”. Dacă probabilitatea reprezint ă raportul dintre evenimentul favorabil şi toate evenimentele posibile, atunci valoarea ei variaz ă între 0 şi 1. Ea poate fi exprimat ă şi în procente. De exemplu, probabilitatea de 0,05 corespunde unui procentaj de apariţie de 5% Utilizând simbolul p (de la „probabilitate”), spunem c ă dacă p<0,05 înseamnă că evenimentul are mai pu ţin de 5% şanse să apar ă, în condi ţiile unei distribu ţii corespunzătoare curbei normale. Procentajul ariilor de sub curba normal ă poate fi citit, deci, şi ca probabilitatea a distribuţiei. De exemplu, probabilitatea de a avea un scor între medie şi z=+1 este de 0,3413, ceea ce înseamnă că pentru un scor z ales la întâmplare exist ă 34,13 şanse dintr-o sut ă ca acesta să cadă în suprafaţa haşurată. (vezi figura 6.7. şi anexa 1)
34,13%
0 m
z m+1s
Probabilitatea de a avea un scor între medie şi z=+1 Figura 6.7. Probabilitatea
În acelaşi mod, pe baza propriet ăţilor distribu ţiei normale, vrem să identificăm valorile +z şi -z pentru care, într-o distribu ţie normală standardizată avem 95%, respectiv 99%, din valori. De aceste dou ă repere, frecvent utilizate în statistica inferenţială, se leagă probabilităţile de 5%, respectiv 1%. Vom identifica aceste dou ă repere cu ajutorul anexei 1:
54
- pentru z=1,96 aria de sub curba normal ă delimitată de medie şi +z este de 0,4750; adică 47,5% din valorile z sunt cuprinse între 0 şi 1,96 şi tot atâtea între -1,96 şi 0; - pentru z=2,58 aria de sub curba normal ă delimitată de medie şi +z este de aprox. 0,4950; adic ă 49,5% din valorile z sunt cuprinse între 0 şi 2,58 şi tot atâtea între -2,58 şi 0. Altfel spus: într-o distribu ţie normală standardizată, 95% dintre valorile z sunt cuprinse între -1,96 şi 1,96; de asemenea, avem 99% dintre valorile z cuprinse între 2,58 şi 2,58. Putem scrie aceste rela ţii sub forma: -1,96 < z < 1,96 ne folosim de formula 6.1. pentru a ob ţine: x - m) / s < 1,96 -1,96 < ( x
(m - 1,96s) < x < (m + 1,96s)
(6.7)
Deci, pentru o distribu ţie normală a unei variabile oarecare (nestandardizat ă) concluziile de mai sus devin (vezi figura 6.8.): - avem 95% din valorile x cuprinse în intervalul [m-1,96s; m+1,96s]; - avem 99% din valorile x cuprinse în intervalul [m-2,58s; m+2,58s]. Cu alte cuvinte, exist ă 5% şanse ca o valoare x luată la întâmplare să fie în afara intervalului [m-1,96s; m+1,96s], dup ă cum există o şansă din 100 ca | x x| să fie mai mare ca m+2,58s. 95% 2,5%
2,5% 99%
0,5%
0,5%
m-2,58s
m-1,96s
m
m+1,96s m+2,58s
ăţ ile ile distribu ţ iei iei normale Figura 6.8. Propriet ăţ
55
7. INFERENŢ INFERENŢA STATISTICĂ STATISTICĂ 7.1. 7.2. 7.3. 7.4.
Delimitări conceptuale Probleme de estimare Testarea ipotezelor Testele parametrice t şi z. 7.4.1. Testele t şi z pentru un e şantion. 7.4.2. Testele t şi z pentru dou ă eşantioane independente 7.4.3. Testele t şi z pentru dou ă eşantioane dependente 7.5. Utilizarea SPSS pentru aplicarea testului t
ELIMITĂRI CONCEPTUALE 7.1. DELIMITĂ
Datele obţinute în cursul unei experien ţe, a unei observa ţii sistematice sau ie. anchete, constituie un e şantion extras dintr-o colectivitate mai larg ă sau popula ţ ie Pe de altă parte, statistica descriptiv ă, reduce datele brute la câteva valori caracteristice: frecven ţe absolute sau relative, medii, abateri standard etc. Reamintim simbolurile pentru ace şti parametrii, în cele dou ă situaţii: µ, σ, σ2 – în cazul întregii colectivităţi statistice; m, s, s 2 – când ne referim la un e şantion.
Populaţ Populaţie (colectivitate) statistică statistică µ, σ, σ2, N
Eşantion m, s, s2, n
Se pune întrebarea în ce m ăsur ă, plecând de la indicatorii e şantionului cercetat, putem formula concluzii asupra popula ţiei? Cu alte cuvinte, se pune întrebarea: în ce măsur ă datele obţinute sunt relevante pentru popula ţie? Operaţia prin care facem extrapolarea concluziilor de la e şantion la popula ţie se numeşte inferen ţă statistică. Inferenţa statistic ă se bazează pe teoria probabilit ăţilor, permiţând desprinderea unor concluzii cu caracter probabilist. În practic ă, orice rezultat discutat în termeni de valori semnificative statistic la un prag de .05 sau .01 a corespuns unui demers
specific statisticii inferen ţiale. Principalele demersuri pe care se bazeaz ă statistica inferenţială sunt estimarea parametrilor statistici şi testarea ipotezelor (Sava, 2004a).
Eşantioane independente şi eş eşantioane perechi În multe cazuri psihologul este pus în situa ţia de a compara între ele mediile sau frecvenţele obţinute într-un experiment, punându- şi, în final, întrebarea dac ă diferenţele constatate între grupul de control şi cel experimental sunt semnificative sau nu. Apar următoarele situa ţii: 1. dacă cele două eşantioane sunt alese la întâmplare pe baza caracteristicilor lor naturale (de exemplu, dou ă clase paralele) spunem c ă avem e şantioane independente. 2. dacă cele două eşantioane sunt în rela ţie unul cu celălalt spunem c ă avem e şantioane dependente (sau e şantioane perechi ). ). Uzual, există trei situa ţii în care avem de a face cu eşantioane dependente: a. Perechile naturale: acestea nu sunt realizate de experimentator ci exist ă în mod natural. b. Perechile artificiale: acestea sunt realizate de c ătre experimentator pentru a egaliza cât mai mult grupele de subiec ţi. c. Măsur ători repetate: reprezint ă cazul cel mai des întâlnit, în special în terapie şi recuperare. Este vorba în aceast ă situaţie de un singur grup de subiecţi care vor fi testa ţi de două ori (înainte şi după introducerea variabilei independente).
7.2. PROBLEME DE ESTIMARE
Este unanim acceptat faptul c ă atunci când calcul ăm indicatori statistici pentru un eşantion facem acest lucru cu o anumit ă probabilitate. Altfel spus, nu reu şim să determinăm exact parametrii caracteristici ai întregii colectivit ăţi. Indicatorii ri ale parametrilor popula ţiei. statistici calcula ţi pentru un e şantion reprezint ă estimă ri Deoarece nu putem determina cu exactitate valoarea acestor parametri, vom încerca să stabilim un interval – numit şi interval de încredere – în care se g ăseşte cu certitudine parametrul respectiv. Cu cât acest interval este mai mic, cu atât informaţia noastr ă asupra adevăratei valori în popula ţie este mai precisă.
7.2.1. Semnificaţ Semnificaţia unei medii Notând cu µ valoarea medie calculat ă pentru întreaga popula ţie şi cu m media la nivelul e şantionului, diferen ţa (µ - m) reprezintă eroarea pe care noi o comitem atunci când în loc s ă cercetăm toţi cei N indivizi, prelev ăm datele numai de la o subpopulaţie oarecare de n indivizi. De cele mai multe ori aceast ă eroare este diferită de 0, motiv pentru care devine necesar ă evaluarea ei. Însă, prin alt ă metodă decât f ăcând diferenţa (µ - m), deoarece întotdeauna media popula ţiei ne este necunoscută (dacă am cunoaşte valoarea lui µ nu s-ar mai pune problema estimării) Semnificaţia unei valori medii depinde de doi parametrii: - volumul eşantionului (n) pe care se calculează media şi
58
- abaterea standard (σ) calculată la nivelul întregii popula ţii. Cu cât volumul eşantionului este mai mare iar dispersia popula ţiei mai mică, cu atât media calculat ă la nivelul e şantionului devine mai reprezentativ ă pentru întreaga colectivitate (Radu et.al., 1993). Pe baza acestor parametrii s-a definit eroarea standard a mediei , formula de calcul fiind: e=
σ
(7.1)
n
unde σ reprezintă abaterea standard a variabilei x pentru popula ţia totală, abatare care de cele mai multe ori r ămâne necunoscută, fiind înlocuit ă în calcule cu s, abaterea standard a aceleia şi variabile într-un e şantion oarecare. Pe baza erorii standard a mediei şi considerând c ă valorile medii, ob ţinute pe o mulţime de eşantioane consecutive extrase din aceea şi populaţie, sunt distribuite tot după curba normală a lui Gauss, putem stabili, cu o probabilitate de 95% sau 99%, limitele între care se g ăseşte adevărata valoare µ a colectivităţii generale. Intervalul delimitat de aceste limite este chiar intervalul de încredere stabilit pentru cele dou ă praguri (niveluri) de semnifica ţ ie ie: - [m - 1,96e; m + 1,96e], interval de încredere la pragul de p = .05; - [m - 2,58e; m + 2,58e], interval de încredere la pragul de p = .01. Vom spune că există riscul ca în 5%, respectiv 1%, din cazuri adev ărata medie să cadă în afara intervalului ales.
7.2.2. Semnificaţ Semnificaţia frecvenţ frecvenţei (absolute sau relative) Analog, calculăm eroarea standard a frecvenţei: e=
p × q
(7.2)
n
unde p reprezintă chiar frecvenţa (cu condi ţia ca mărimea eşantionului s ă fie f . n>100) iar q = 1- f Intervalul de încredere va fi: - [ f f - 1,96e; f + 1,96e], la pragul de p = .05; - [ f f - 2,58e; f + 2,58e], la pragul de p = .01.
7.3. TESTAREA IPOTEZELOR
Testarea ipotezelor – demers fundamental în activitatea de cercetare ştiinţifică – „reprezintă, alături de estimarea parametrilor statistici, unul dintre principalele aspecte ale inferen ţ ei ei statistice”. (Dyer, 1995, apud Sava, 2004a, p. 27) Ipoteza ştiinţifică este o predicţie care are capacitatea de a fi opera ţionalizată şi testată pentru a oferi un r ăspuns problemei studiate. Modul de formulare a ipotezei cercet ării determină două categorii de ipoteze: - unidirecţionale (unilateral ă), atunci când se precizeaz ă direcţia predicţiei prin formulări de genul: „exist ă o corelaţie pozitivă/negativă” sau „grupul A este mai bun/slab decât grupul B”
59
- bidirecţionale (bilateral ă), atunci când direc ţia predicţiei nu este precizată; vom avea formul ări de genul: „exist ă o corelaţie între variabile” sau „există diferenţe între loturi”. Dacă avem suficiente indicii cu privire la modul de evolu ţie a datelor este de preferat să optăm pentru formularea unor ipoteze unidirec ţionale, existând şanse mai mare ca aceasta să fie sprijinit ă. (Sava, 2004a) Indiferent de modul de formulare, al ături de această ipotez ă specifică (Hs), (numită şi ipoteză de cercetare, ipoteză de lucru sau ipotez ă alternativă) se exprimă şi o altă ipoteză care să atribuie numai întâmpl ării, hazardului, tendin ţele sau diferenţele constatate. Este vorba despre ipoteza nul ă (Ho) (sau ipoteza statistic ă) asupra căreia se impun urm ătoarele precizări: - atât ipoteza nul ă (Ho)cât şi ipoteza specific ă (Hs) se refer ă la populaţie, nu la eşantioane ca atare; - singurul lucru ce poate fi ob ţinut prin testarea ipotezelor este respingerea sau nerespingerea ipotezei nule; - dacă ipoteza nulă este respinsă, atunci ipoteza alternativ ă este sprijinit ă de datele obţinute, altfel spus: ipoteza specific ă este acceptată; - decizia de a respinge ipoteza nul ă se ia pe baza unui prag de semnifica ţie (cel mai adesea .05 sau .01). prag de semnificaţie
1
0.05 Ho nu este respins ă
0.01
Ho este respins ă şi se acceptă Hs
7.4. TESTELE PARAMETRICE t ŞI z.
Pe lângă studiul asocierii dintre variabile, tehnicile statistice pot fi utilizate şi pentru determinarea diferen ţelor dintre grupuri. Aceste metode se utilizeaz ă frecvent în cercetările experimentale. Acest capitol prezint ă acele tehnici parametrice care permit evaluarea efectelor unei variabile independente (manipulate de cercet ător) sau categoriale (vârsta, sex, etc) asupra unei variabile dependente, în situa ţia în care se lucrează cu una sau doua grupe de subiec ţi (Sava, 2004b). Cu ajutorul acestor teste statistice se ridic ă problema dacă diferenţele constatate între grupele de subiec ţi sunt datorate interven ţiei cercetătorului (variabilei independente), caracteristicilor variabilei categoriale sau dimpotriv ă, întâmplării. Există trei tipuri de tehnici principale: 1. Tehnici care privesc diferen ţa dintre un eşantion şi media popula ţiei din care acesta face parte – „the one simple t Test”; 2. Tehnici care privesc diferen ţa dintre dou ă grupe independente de subiec ţi – „the t test for independent samples”;
60
3. Tehnici care privesc diferen ţa dintre dou ă grupe dependente de subiec ţi – „the t test for correlated samples”. EŞANTION. 7.4.1. TEHNICILE t ŞI z PENTRU UN EŞ În acest caz dorim s ă aflăm dacă un eşantion de subiec ţi difer ă de o popula ţie mai mare. Să presupunem că un test de empatie a fost administrat pe o popula ţie mare de subiecţi elevi abia intra ţi la liceu (N = 1000), iar media ob ţinută pe întreaga populaţie testată a fost de 76 (µ). Când s-a efectuat acela şi test pe o clasă de elevi de n=32 subiec ţi, s-a obţinut media de 81 (m) şi o estimare a abaterii standard de 9 (s). Se pune problema dac ă elevii din aceast ă clasă au un nivel de empatie diferit de media specifică pentru clasa a IX-a. Pentru solu ţionarea acestei probleme exist ă două teste statistice adecvate, şi anume testele z şi t. Vom utiliza testul z dac ă: − se cunoaşte abaterea standard a variabilei dependente la nivelul popula ţiei; − numărul de subiec ţi cuprinşi în eşantionul comparativ este suficient de mare (de regulă peste 30 de subiec ţi). În situaţia în care una din cele doua condi ţii nu este îndeplinit ă, utilizăm testul t (Student) pentru un e şantion. În problema de faţă se observă că nu putem aplica testul z de şi avem un eşantion comparativ destul de mare n=32 (mai mare decât 30) deoarece nu se cunoa şte abaterea standard a popula ţiei din care face parte e şantionul. Ca urmare, calculăm testul t care valideaz ă sau infirmă ipoteza nul ă potrivit căreia, nu exist ă nici o diferen ţă între media (m) ob ţinută pe eşantionul de subiec ţi (n= 32) şi media (µ) obţinut ă pe populaţia din care a fost extras e şantionul. Matematic, ipoteza nul ă şi cea de lucru (alternativ ă) se formulează astfel: Ho: µ = m Hs1: m ≠ µ Hs2: µ > m ori µ < m În cazul Hs1 ipoteza alternativ ă precizează existenţa unei diferen ţe între cele două medii f ăr ă a ar ăta direcţia acestei diferenţe. În acest caz avem de a face cu un test t bilateral (two-tailed test). În cazul Hs 2 ipoteza alternativ ă specifică direcţia diferenţei între cele două medii - o medie este mai mic ă (mare) decât cealalt ă datorită unor considerente teoretice. Aceast ă situaţie necesită un test t unilateral (one-tailed). Cele doua tipuri de test t utilizeaz ă aceeaşi formulă, specificul unilateral vs. bilateral influen ţând doar valorile comparative prezente în tabelul lui t (anexa 2). Formula lui t este: t =
m − μ EE m
(7.3)
unde: m este media eşantionului µ (miu) este media popula ţiei din care face parte e şantionul; EEm este eroarea standard a mediei e şantionului;
61
EE m =
s n
(7.4)
unde: s este estimarea abaterii standard a e şantionului (s=9); n este volumul (mărimea) eşantionului (n=32). Calcularea testului z necesit ă utilizarea formulei: z =
m − μ EE μ
(7.6)
unde: m este media eşantionului comparat; µ este media populaţiei; EEµ este eroarea standard a mediei popula ţiei. EE μ =
σ
n
(7.7)
unde: σ (sigma) este abaterea standard a popula ţiei; n este volumul e şantionului comparat. Interpretarea valorii lui z ob ţinute se face raportând aceast ă valoare la valorile standardizate ale lui z. Spre deosebire de testul t, care necesit ă consultarea tabelului t în vederea admiterii sau respingerii ipotezei nule, în cazul testului z, valoarea obţinut ă se confruntă cu patru valori standardizate: Testul bilateral: z = 1,96 pentru un p < .05 z = 2,58 pentru un p < .01 Testul unilateral: z = 1,65 pentru un p < .05 z = 2,33 pentru un p < .01
7.4.2. TESTELE t ŞI z PENTRU EŞ EŞANTIOANE INDEPENDENTE Testele t şi z prezentate anterior pentru a determina dac ă un eşantion difer ă de o populaţie nu se aplic ă prea frecvent. Mai des sunt utilizate testele t şi z pentru a determina dacă mediile a două eşantioane, independente sau corelate (dependente), difer ă semnificativ. Situa ţiile în care avem e şantioane independente sau dependente le-am prezentat în subcapitolul 7.1. Ne punem întrebarea: „Când aplicăm testul t şi când aplicăm testul z?” R ăspunsul ţine de aceleaşi două condiţii prezentate anterior: cunoa şterea abaterii standard a celor dou ă eşantioane şi volumul acestora. Prima condi ţie este atins ă mult mai uşor, de aceea criteriul hot ărâtor în alegerea tipului de test (t sau z) este volumul eşantionului. Exist ă conform teoremei limitei centrale o evolu ţie a distribu ţiei datelor în func ţie de numărul de subiec ţi. Se consider ă şi se acceptă de majoritatea cercetătorilor, că un eşantion de 30 de subiec ţi sau mai mult are o distribu ţie normală a datelor z. Un număr mai mic de 30 de subiec ţi determină o distribu ţie asimetrică a datelor de tip t. Chiar dac ă se utilizeaz ă o împăr ţire grosier ă, s-a stabilit de c ătre cercetători următoarea clauză pentru cazul a dou ă eşantioane:
62
• •
Dacă n1 < 30 (numărul de subiec ţi din prima grup ă) şi n 2 < 30 (numărul de subiecţi din a doua grup ă) se aplică testul t. Dacă n1 > 30 şi n2 > 30 se aplica testul z.
TESTUL t (STUDENT) INDEPENDENT Testul t independent. m I − m II
t =
(7.8)
EE m I −m II
unde: mI şi mII reprezintă mediile celor dou ă eşantioane; EEmI-mII reprezintă eroarea standard a diferenţei dintre cele dou ă medii. Pentru calculul erorii standard a diferen ţei dintre medii (EE mI-mII) folosim formulele: Dacă nI este egal nII: EE m I −m II =
s I 2 n I
+
∑ x
2 s II
2
I
(7.9)
n II
−
( ∑ x I ) 2
EE m I −m II =
n I
+ ∑ x II − 2
( ∑ x II ) 2 n II
n I ( n II − 1)
(7.9')
unde: sI² reprezintă dispersia primului grup (abaterea standard la p ătrat); sII² reprezintă dispersia celui de-al doilea grup; n I - numărul de subiec ţi din primul grup; n II - numărul de subiecţi din al doilea grup. Dacă nI este diferit de n II:
EE m I −m II
⎛ ( x ) 2 ( ∑ x II ) 2 ⎞ 2 ⎜ ∑ x I 2 − ∑ I + ∑ x II ⎟ − ⎜ ⎟⎛ 1 n I n II 1 ⎞ ⎜ ⎟ = ⎜ + ⎟⎜ n n I + n II − 2 n II ⎠⎟ I ⎝ ⎜ ⎟ ⎜ ⎟ ⎝ ⎠
(7.10)
TESTUL Z INDEPENDENT În situaţia în care nI > 30 şi n II > 30 şi a două eşantioane independente aplic ăm testul z. Formula de calcul este: z =
m I − m II s I 2 n I
+
2 s II
(7.12)
n II
După cum se observă formula de calcul a lui z în aceast ă situaţie este identic ă cu cea a lui t independent pentru n I = nII. Spre deosebire de testul t independent, testul z are aceeaşi formulă şi în cazul în care n I ≠ nII.
63
Rezultatul obţinut este comparat cu cele dou ă valori standardizate z (1,96 pentru p < .05, respectiv 2,58 pentru p < .01 pentru testul bilateral, respectiv cu 1,65 pentru p < .05, respectiv 2,33 pentru p < .01 pentru testul unilateral). Algoritmul rezolv ării problemelor care necesită testul z este asem ănător cu cel prezentat în cazul lui z pentru un e şantion.
7.4.3. TESTELE t ŞI z PENTRU EŞ EŞANTIOANE DEPENDENTE Se folosesc atunci când elementele componente ale celor dou ă grupe sunt în relaţie de coresponden ţă. Formula lui t dependent este: t =
m I − m II
(7.13)
EE d
unde: mI şi mII sunt mediile celor dou ă grupe; EEd este eroarea standard a diferenţei (d). Pentru a calcula EE d utilizăm una din formulele: EE d =
Σd 2 −
(Σd )2
n −1
n
(7.14)
unde: d este diferen ţa dintre pre-test şi post-test, între pozi ţia unu în prima grupă şi poziţia unu din a doua grup ă ş.a.m.d.; n este numărul de perechi de subiec ţi (în cazul problemei date 12). sau EE d =
s I 2 n I
+
2 s II
n II
s I s II
− 2r 12 ∗
n I
∗
n II
(7.14')
unde: sI2 şi sII2 sunt dispersiile celor dou ă grupe; nI şi nII sunt egale şi reprezintă numărul de perechi de subiec ţi; r 12 12 este coeficientul de corela ţie între datele celor dou ă grupe; sI şi sII sunt abaterile standard ale celor dou ă grupe.
TESTUL z DEPENDENT Acesta poate fi utilizat în cazul e şantioanelor mai mari de 30 de subiec ţi fiecare. În această situaţie EEd (eroarea standard a diferen ţei) se calculeaz ă utilizând formula 7.14' prezentată pentru t dependent care con ţine coeficientul de corela ţie r 12 12. Interpretarea rezultatului ob ţinut se face dup ă acelaşi algoritm prezentat şi la celelalte teste z pentru un e şantion şi două eşantioane independente. Consideraţiile f ăcute în cazul testului z independent cu privire la tendin ţa actuală de a înlocui testul z cu testul t chiar în cazul e şantioanelor mai mari de 30 de subiec ţi r ămâne validă şi pentru testele dependente.
64
7.5. UTILIZAREA SPSS PENTRU APLICAREA TESTULUI t 1. TESTUL t PENTRU MEDIA UNUI SINGUR EŞ E ŞANTION Se parcurge, în bara de meniuri, traseul: „ Analyze” – „Compare Means” – „One-Sample T Test...” Va fi afişată fereastr ă de dialog intitulat ă „One-Sample T Test ” (figura 7.1).
Figura 7.1. Fereastra pentru calculul testului t pentru media unui singur e şantion. Vom începe prin a selecta variabila testat ă mutând-o din partea stâng ă în fereastra „Test Variable(s)”. În zona „Test Value” se înscrie media popula ţiei, sau altă valoare de referinţă. Prin apăsarea butonului „ Options” se va deschide o nouă fereastr ă în care vom putea schimba valoarea pragului de semnifica ţie. Confidence Interval 95% este echivalent cu p=0.05 si este valoarea implicită pentru toate testele statistice. Apăsăm „Continue” iar în final „ OK ”. ”.
* EŞANTIOANE INDEPENDENTE 2. TESTUL t PENTRU EŞ Se parcurge, în bara de meniuri, traseul: „ Analyze” – „Compare Means” – „One-Sample T Test...”
Va fi afişată fereastr ă de dialog intitulat ă „One-Sample T Test ” (figura 7.1).
65
Figura 7.2. Fereastra pentru calculul testului t pentru e şantioane independente. Şi de data aceast ă vom începe prin a selecta variabila testat ă mutând-o din partea stângă în fereastra „Test Variable(s)”. Diferenţa apare în zona „Grouping Variable”, acolo unde va trebui s ă definim variabila independent ă (grup), cea care face diferenţa între eşantioanele
independente. Prin apăsarea butonului „ Define Groups” se va deschide o nou ă fereastr ă în care vom specifica valorile care definesc cele dou ă grupuri. Apăsăm „Continue”, iar dacă toate câmpurile le-am completat corect se va activa butonul „ OK ”. ”.
* DIFERENŢA DINTRE MEDIILE A DOUĂ DOU Ă EŞANTIOANE 3. TESTUL T PENTRU DIFERENŢ DEPENDENTE (PERECHI) Se parcurge, în bara de meniuri, traseul:
„ Analyze” – „Compare Means” – „ Paired-Sample T Test...” Va fi afişată fereastr ă de dialog intitulat ă „ Paired -Sample T Test ” (figura 7.3).
66
Figura 7.3. Fereastra pentru calculul testului t pentru e şantioane perechi. Se selectează cu câte un clic de mouse, pe rând, fiecare dintre cele dou ă variabile. Astfel se constituie perechea de variabile în zona „ Current selection”. O dată constituită, perechea de variabile se trece în lista „ Paired Variables ” cu butonul de transfer (►). Pot fi create mai multe perechi de variabile şi prelucrate simultan. Caseta „Options” permite alegerea pragului de semnifica ţie, dacă dorim schimbarea celui implicit (p=0.05).
67
8. CORELAŢ CORELAŢIE ŞI REGRESIE 8.1. Noţiunea de covarian ţă 8.2. Coeficienţii de corelaţie 8.2.1. Clasificarea coeficienţilor de corela ţie 8.2.2. Formula coeficientului de corela ţie liniar ă simplă (Bravais-Pearson) 8.2.3. Reprezentarea grafic ă a corelaţiei. Liniaritatea rela ţiei. 8.2.4. Interpretarea coeficientului de corela ţie. Mărimea efectului. 8.3. Coeficienţi de corelaţie parametrici 8.3.1. Coeficientul de corela ţie Pearson r 8.3.2. Coeficientul r bis 8.4. Coeficienţi de corelaţie neparametrici: 8.4.1. Coeficientul de corela ţie a rangurilor Spearman ρ 8.5. Regresia simplă liniar ă. 8.6. Utilizarea SPSS pentru determinarea coeficienţilor de corelaţie Adesea, în practica sau cercetarea psihologic ă, pe lângă aplicarea testelor de semnificaţie prezentate în capitolul anterior (prin care verific ăm semnificaţia diferenţei între dou ă medii ale aceleiaşi variabile, măsurate în dou ă situaţii diferite), suntem interesa ţi de gradul de asociere dintre două variabile măsurate pe acela şi grup de subiec ţi. De data aceasta vom opera cu mai mult de o singur ă variabilă. ă , axată pe indicatori descriptivi de asociere sau Vorbim astfel de o statistică bivariat ă de relaţionare, înţeleşi prin termenii de covarian ţă şi independenţă. COVARIANŢĂ 8.1. NOŢIUNEA DE COVARIANŢĂ
Covarianţ Covarianţa este rezultatul varia ţiei concomitente a valorilor care apar ţin de două variabile. Covarian ţa ne indică existenţa unei legături între varia ţia valorilor unei variabile în raport cu cealalt ă variabilă. De exemplu (adaptare după Radu et.al., 1993, p.103), observând notele ob ţinute de aceiaşi elevi la matematic ă şi la fizică, constatăm c ă ele covariază, adică sunt asemănătoare: elevii cu performan ţe notabile la matematică au note mari şi la fizică, şi reciproc. În realitate, situa ţiile de acest gen sunt foarte multe: nivelul ridicat al preg ătirii şcolare covariază cu numărul de căr ţi citite într-o perioad ă de timp; performan ţele ridicate în conducerea autovehiculului sunt asociate cu rezultatele ridicate la testele de aten ţie etc. independenţă se opune celui de covarian ţă. El este caracteristic Conceptul de independenţă unei situa ţii de neasociere între dou ă variabile. Independen ţa se refer ă la relaţia dintre dou ă evenimente, variabile sau seturi de date, astfel încât nici una nu poate fi
influenţată de alta şi schimbările care pot fi realizate la nivelul uneia sunt posibile f ăr ă să o influenţeze pe cealaltă (English & English, 1958, apud Pitariu, 1991). Desigur, independen ţa trebuie luată în sens relativ. De exemplu, nu putem considera ca asociere relaţia dintre inteligen ţă şi numărul copacilor dintr-o p ădure. Covariaţia dintre dou ă variabile poate fi eviden ţiată prin trei elemente descriptive (Sava, 2004): - calcularea coeficien ţilor de corelaţie, - reprezentarea grafică a norului de puncte, - realizarea de tabele de contingen ţă (de asociere). OEFICIENŢII DE CORELAŢ CORELAŢIE 8.2. COEFICIENŢ
Coeficienţ Coeficienţii de corelaţ corelaţie sunt indicatori descriptivi ce arat ă gradul de covaria ţie dintre dou ă variabile. Ei reflect ă gradul de varia ţie concomitentă dintre dou ă şi numai două variabile: o singur ă variabilă independentă ( X X ) şi o singur ă variabilă dependentă (Y ). ). Când cele două variabile covariaz ă în acelaşi sens, vorbim despre o corelaţie pozitivă (ex. cu cât timpul alocat preg ătirii examenului de statistic ă este mai mare, cu atât nota ob ţinută la evaluarea final ă este mai bună). Dacă asocierea este în direcţii opuse (în timp ce o variabil ă creşte, cealaltă scade), discutăm despre o corelaţie negativă . (ex. performanţa unui angajat la un test de aten ţie concentrată este cu atât mai bun ă cu cât numărul de erori este mai mic). Se impune o precizare. Spre deosebire de experiment, care dezv ăluie relaţii cauză-efect, studiul de corela ţie nu ofer ă nemijlocit o măsur ă a cauzalităţii, ci pur şi simplu a modului de asociere. Coeficientul de corela ţie este un index al prezenţei/absenţei unei relaţii între dou ă variabile şi nu un index al unei rela ţii cauzale. Corelaţia însă este implicat ă în predicţie. O corelaţie semnificativ ă (mare) X şi Y ne poate spune, cu diferite grade de precizie c ă prin cunoaşterea valorii între X ş uneia dintre cele dou ă variabile, putem să estimăm valoarea celeilalte (ex. dacă scorurile la unele scale din CPI ( Y ) sunt ridicate, atunci şi performanţele manageriale ( X X ) se poate estima c ă vor fi ridicate; condi ţia este ca între cele dou ă variabile s ă existe o corela ţie semnificativ ă.)
8.2.1. Clasificarea coeficienţ coeficienţilor de corelaţ corelaţie
Coeficienţii de corelaţie se împart în dou ă mari categorii: - coeficienţi de corelaţie parametrici: coeficientul Bravais-Pearson (r), biserial (r bis bis), punct biserial (r pbis pbis); - coeficienţi de corelaţie neparametrici: coeficientul de corela ţie a rangurilor Spearman ( ρ), coeficientul Kendall ( τ), . În funcţie de tipul datelor colectate şi de liniaritatea/monotonia rela ţiei dintre cele două variabile, tratatele de statistic ă prezintă o multitudine de coeficien ţi de corelaţie. Ne vom limita în aceast ă lucrare doar la prezentarea celor care sunt utilizaţi mai des de către psihologi şi pedagogi.
70
Tabelul 8.1 Utilizarea coeficien ţilor de corelaţie în func ţie de tipul variabilelor 1. Variabila independent ă x Nominală Nominală cu Ordinală Ordinală mai mult de două valori
Nominală dihotomică dihotomică ă t n e d n e p e d y a l i b a i r a V
Nominală dihotomică dihotomică
Nominală Nominală cu mai mult de două valori Ordinală Ordinală
r, φ, χ 2, r tetrahoric tetrahoric
2
Numerică Numerică (de interval sau de raport)
χ , λ , C, V
Kendall τ
r, r bis, r pbis
χ 2, λ , C, V
Chi pătrat χ 2,
χ 2, λ
λ
Spearman ρ Spearman ρ Kendall τ Kendall τ Person r
Numerică Numerică (de interval sau de raport)
8.2.2. Formula de calcul a coeficientului de corelaţ corelaţie liniară liniară simplă simplă
După cum ştim, coeficienţii de corelaţie ne arată gradul de covariaţie dintre dou ă serii statistice. Covarian ţa dintre variabila X ş X şi variabila Y ne este dată de formula: cov xy =
∑ x ⋅ y n
(8.1)
În această formulă, x şi y sunt valorile-pereche ale celor dou ă variabile, iar n reprezintă volumul eşantionului. De şi reflectă cu succes asocierea sau rela ţionarea dintre cele două variabile, calculul covarian ţei întâmpină o problemă: produsul de la număr ător are sens doar dac ă cele două variabile sunt exprimate în aceea şi unitate de măsur ă. De exemplu (Popa, 2009), este evident faptul c ă, nu putem aplica formula de mai sus pentru a studia covarian ţa dintre în ălţime şi greutate, deoarece este dificil să înţelegem rezultatul unui produs dintre unit ăţi de măsur ă diferite (kg pentru greutate şi cm pentru lungime). Acest inconvenient a fost eliminat prin transformarea valorilor celor dou ă variabile în cote z. Astfel, produsul scorurilor standard z x şi zy nu mai are legătur ă cu unităţile de măsur ă ale lui X şi Y . Mai mult, această standardizare (i) va egaliza influen ţa variabilelor asupra gradului de asociere dintre ele (de exemplu [Sava, 2004], dac ă vom calcula covarian ţa dintre venit şi numărul anilor de şcoală absolviţi, prima variabil ă, având o amplitudine mai mare, va contribui mai mult la rezultatul final; venitul poate varia între 0 şi 10.000, în timp ce numărul anilor de şcoală absolviţi poate fi de maxim 25) şi (ii) va permite compararea gradului de asociere dintre dou ă variabile cu asocierea dintre alte dou ă variabile (de exemplu, care asociere este mai puternică, între inteligen ţa băieţilor şi a taţilor sau între frumuse ţea fetelor şi a mamelor?!). În consecinţă, corelaţia este o formă standardizată a covarianţei, eliminând problema m ăsur ării datelor prin scale diferite. Formula de calcul a corela ţiei este: r = 1
∑ z ⋅ z x
n
y
(8.2)
Literele greceşti din tabel au următoarele pronunţii: χ 2=chi pătrat, ρ=rho, τ=tau, λ =lamda, =lamda, φ=phi.
71
X şi Y , iar n mărimea eşantionului. unde zx şi zy scorurile z ale variabilelor X ş r exprimă intensitatea rela ţiei liniare dintre valorile a dou ă variabile şi este cunoscut sub numele de coeficient de corela ţ ie ie liniar ă simpl ă. Îl mai găsim sub denumirile: coeficient de corela ţie al „moment-produsului”, coeficient de corela ţie Bravais-Pearson2 sau chiar simplu „Pearson r”. Coeficientul de corela ţie Bravais-Pearson are cea mai mare frecven f recvenţă de utilizare în psihologie, îns ă -atenţie!- se foloseşte doar când rela ţia dintre variabilele supuse calculului de corela ţie este liniar ă (vezi 8.2.3.), iar cele dou ă variabile sunt exprimate numeric (în pu ţine cazuri, acceptăm şi variabile măsurate prin scale nominale dihotomice). Valorile lui r sunt cuprinse între -1 şi +1, trecând prin 0 care indic ă absenţa corelaţiei. Dacă r este pozitiv, atunci vorbim de o corela ţie directă, pozitivă. În cazul acesta, dacă una din variabile X creşte, atunci şi cealaltă variabilă Y va avea tendin ţa de a creşte. Când coeficientul de corela ţie este nul, se spune doar c ă variabilele X ş X şi Y sunt necorelate, eventual independente. Dacă r este negativ, atunci Y va avea tendin ţa de a varia în medie sens invers lui X . În acest caz corela ţie este negativ ă, inversă. Valorile r = -1 şi r = +1 ne indic ă existenţa unei relaţii perfecte între variabile.
-1 0 +1 Asociere negativ ă Lipsă de asociere Asociere pozitivă (inversă) (directă) ilor de corela ţ ie ie Figura 8.1. Valorile coeficien ţ ilor Formula coeficientului de corela ţiei ia în considerare, de fiecare dat ă, câte două variabile statistice. De multe ori, în studiile psihosociale ne intereseaz ă asocierea dintre mai multe variabile. Spre exemplu, dac ă avem trei variabile X, Z, şi Z vom calcula succesiv r xy xy, r xz xz şi r yz yz. Cu aceste valori putem întocmi o matrice a coeficienţilor de corelaţie utilizat ă în analiza factorial ă.
8.2.3. Reprezentarea grafică grafică a corelaţ corelaţiei. Liniaritatea relaţ relaţiei.
În cercetarea psihologic ă a corelaţiei, analiza norului de puncte3 este de mare importanţă, oferind numeroase explica ţii suplimentare fa ţă de un simplu coeficient de corelaţie. Astfel, ni se ofer ă detalii referitor la forma rela ţiei dintre dou ă variabile (liniar ă sau neliniar ă – figura 8.2.), direc ţia (pozitiv ă, negativă sau absenţa unei asocieri– figura 8.3.), intensitatea rela ţiei dintre dou ă variabile (puternic ă, medie sau 2
La sfâr şitul secolului al XIX-lea, statisticianul englez Karl Pearson (1857-1936) dezvolt ă, prin utilizarea datelor cuprinse în încercările lui Bravais, forma final ă a coeficientului de corelaţie prin momentul produselor. Pearson fost elev al celebrului matematician Francis Galton (1822-1911), cel care a introdus tehnica corela ţiei în biologie şi psihologie. (Clocotici & Stan, 2001) 3 În engleză scatterplot .
72
scăzută). O incursiune în domeniul reprezent ării grafice a coeficientului de corela ţie o găsim deci utilă. Examinarea norului de puncte, care reprezint ă proiecţia fiecărui subiect într-un spaţiu bidimensional, se poate afirma c ă este un pas semnificativ în studiul corela ţiei dintre dou ă variabile. El ofer ă, în final, indicii asupra tipului de coeficient de corelaţie pe care dorim s ă-l calculăm.
8.2.4. Interpretarea coeficientului de corelaţ corelaţie. Mă Mărimea efectului.
Interpretarea încrederii lui r Criteriul dup ă care poate fi discutat ă semnificaţia lui r presupune consultarea unei tabele special construite. Prin acest procedeu se poate respinge ipoteza nul ă conform căreia nu exist ă o relaţie adevarată (semnificativă), între variabile, iar eventualele asocieri se datoreaz ă întâmplării. Dacă o relaţie este semnificativ ă din punct de vedere statistic, adic ă este de încredere, înseamn ă ca vom obţine rezultate similare dacă s-ar reface experimentul. În utilizarea tabelului lui r putem alege diferite praguri de semnifica ţie. Există o înţelegere la nivelul comunit ăţii ştiin ţifice interna ţionale cum că pragul minim acceptat pentru a considera o rela ţie semnificativă statistic este 0,05. Aceste valori pot fi însa şi mai mici. Pentru aflarea semnifica ţiei unui coeficient de corela ţie este necesar ă parcurgerea urm ătorilor pa şi: 1. Se alege nivelul de semnifica ţie dorit, să zicem de 0,05. 2. Se stabileşte tipul de rela ţie între variabile: bilateral ă (two-tailed), respectiv unilaterală (one-tailed). 3. Se citeşte din tabel (Anexa 3) valoarea lui r pentru coloana corespunz ătoare numărului de grade de libertate (notat cu df). Acestea sunt pentru r de df=N2 stabilindu-se în func ţie de numărul de subiec ţi N valida ţi. 4. Daca valoarea lui r ob ţinută în urma calculării sale o dep ăşeşte pe cea din tabel, atunci aceasta este semnificativ ă la pragul de semnifica ţie ales, în cazul nostru de 0,05 (notat şi cu .05) şi numărul de grade de libertate specificat. Interpretarea corelaţ corelaţiei din perspectiva semnificaţ semnificaţiei Statistica poate r ăspunde la dou ă întrebări privind datele pe care le avem: Sunt autentice rela ţiile (efectele) descoperite? Ce semnifica ţie au acestea? Cel mai utilizat criteriu pentru interpretarea semnifica ţiei coeficientului de corelaţie este coeficientul de determinare (r² – r p ătrat). Acest criteriu nu are întotdeauna însemn ătate din cauza influen ţei importante pe care o are mărimea lotului în determinarea coeficientului de corela ţie. El trebuie analizat cu grija în cazurile în care exista un num ăr relativ mic de subiec ţi (sub 20). De asemenea, coeficientul de determinare poate fi aplicat doar dac ă am obţinut în prealabil un r semnificativ. Prin intermediul lui r p ătrat se determina partea de asociere comun ă a factorilor care influenţează cele doua variabile. Cu alte cuvinte, coeficientul de determinare
73
indică partea din dispersia total ă a măsur ării unei variabile care poate fi explicat ă sau justificată de dispersia valorilor din cealalt ă variabilă. De exemplu, dacă într-un studiu corela ţia găsită a fost de 0,83, atunci putem afirma că r² = (r)² (coeficientul de corela ţie la pătrat) este de 0,69. Uzual coeficientul de determinare se înmul ţeşte cu 100 şi exprimarea se transforma în procente din dispersie (69%). OEFICIENŢI DE CORELAŢ CORELAŢIE PARAMETRICI 8.3. COEFICIENŢ
Pentru a calcula coeficien ţii de corelaţie parametrici, variabilele studiate trebuie să îndeplinească următoarele condi ţii: - să fie variabile numerice (exprimate pe scale de intervale sau de rapoarte), - variabila supus ă studiului s ă aibă o distribu ţie cât mai apropiat ă de cea normală şi un grad ridicat de omogenitate; - distribuţia comună a variabilelor să nu prezinte valori extreme (outliers). Verificarea acestor condi ţii este o etap ă preliminar ă în orice analiz ă bazată pe studiul corela ţional. Este important de re ţinut că, înainte de a calcula unul sau altul dintre coeficien ţi, trebuie s ă verificăm valorile mediei, abaterii standard şi a indicatorilor de asimetrie, s ă analizăm norul de puncte ce reprezint ă grafic asocierea dintre variabile, iar, dac ă este cazul, să eliminăm valorile extreme4 sau să asigur ăm condiţia de homoscedasticitate homoscedasticitate 5.
8.3.1. Coeficientul de corelaţ corelaţie Pearson r.
Atunci când variabilele sunt prezentate sub form ă de scoruri brute, formula de calcul a lui Pearson r, este urm ătoarea: r =
Σ( xi − m x )( yi − m y ) Σ( xi − m x ) 2 ⋅ Σ( yi − m y ) 2
(8.3)
Aceasta este o formulă derivată din (8.2), în care s-au înlocuit expresiile pentru scorurile zx şi z y . Putem să simplificăm calculele utilizând o formul ă asemănătoare, care se bazează pe calcule mai u şor de realizat: r =
Σ( xi − m x )( yi − m y ) n ⋅ s x ⋅ s y
(8.4)
8.3.2. Coeficientul r biserial Coeficientul r biserial îl g ăsim notat cu simbolul r b b sau r bis. Este utilizat când două variabile corelabile sunt continue, dar una din ele a fost arbitrar dihotomizat ă. Există exemple numeroase când într-o cercetare corela ţională este mai avantajos s ă 4 5
Le mai putem spune valori neobişnuite sau influente; în englez ă se numesc „outliers”. Este o proprietate a rela ţiei liniare dintre dou ă variabile exprimat ă prin omogenitatea norului de puncte ce reprezintă distribuţia comună a variabilelor.
74
împăr ţim distribuţia scorurilor în dou ă clase, nu neapărat egale. Uneori chiar suntem constrânşi de împrejur ări s ă facem acest lucru, neavând la dispozi ţie decât o singur ă variabilă, cum ar fi de pild ă situaţia de „acceptat”/„respins” la un test de cuno ştinţe profesionale; această dihotomie o mai putem realiza în func ţie de comportamentul „extravertit”/„intravertit”, „extravertit”/„intravertit”, de locusul controlului „intern”/„extern” etc. Formula coeficientului r biserial, utilizat când avem de-a face cu variabile dihotomice sau organizate pe mai multe clase, este urm ătoarea: r bis =
m p − mq
×
pq
σ t
y
(8.5)
unde: m p = media scorurilor celor declara ţi „acceptaţi” la testul profesional; mq = media grupului grupului celor „respinşi” la testul profesional; p = propor ţia în grupul celor „accepta ţi”; q = (1- p p) propor ţia celor „respinşi” σt = abaterea standard pe lotul total; y = ordonata unit ăţii de arie a curbei normale la punctul care împarte aria totală în două segmente (p+q=1) – valoarea pq/y se extrage din tabele. OBSERVAŢIE: În cazul coeficientului de corela ţie biserial num ărul de subiec ţi cuprinşi în eşantion trebuie s ă fie mai mare de 50. OEFICIENŢI DE CORELAŢ CORELAŢIE NEPARAMETRICI 8.4. COEFICIENŢ
Coeficientul de corela ţie Bravais-Pearson nu poate fi utilizat în orice situa ţie. Apelul în orice condi ţii la acesta este o eroare pe care o fac mul ţi psihologi când vor să facă un studiu corela ţional. Un criteriu important în alegerea metodei adoptate în calculul coeficientului de corela ţie este analiza atent ă a setului de date cu care se operează. În continuare vom men ţiona câteva situa ţii particulare în care sunt folosi ţi alţi coeficienţi de corelaţie decât r .
8.4.1. Coeficientul de corelaţ corelaţie a rangurilor rho sau ρ (Spearman)
Când o scală (ex. variabila X ) este o măsur ă ordinală şi când a doua scal ă (ex. Y ) este fie o scal ă ordinală, fie una de raport sau de interval, nu se poate calcula coeficientul de corela ţie r a lui Bravais-Pearson. Coeficientul de corela ţie ρ se bazează pe calculul diferen ţei de ranguri obţinute de subiecţi la cele dou ă variabile. Formula de calcul este următoarea:
6∑ D 2 ρ = 1 − n( n 2 − 1)
(8.7)
unde D reprezint ă diferenţa de rang obţinută pe cele două variabile, pentru fiecare observaţie în parte. Coeficientul de corela ţie a rangurilor Spearman ρ are acelaşi domeniu de varia ţie (1/+1) şi se interpreteaz ă în acelaşi mod ca şi coeficientul de corela ţie pentru date parametrice Pearson r .
75
SIMPLĂ LINIAR Ă 8.5. REGRESIA SIMPLĂ
Într-un sens larg, regresia este o analiză a relaţiei existente între variabile. O ecuaţie de regresie simpl ă conţine o variabil ă independentă (X) şi o variabilă dependentă (Y). O ecuaţie care conţine mai multe variabile independente este o ă (R). Dacă procedăm la reprezentarea grafic ă a corelaţiei ecua ţ ie ie de regresie multipl ă dintre dou ă variabile distribuite liniar, observ ăm c ă norul de puncte poate fi divizat de o dreapt ă, linia de regresie sau „linia celei mai bune predic ţii”. Prin intermediul acestei linii, pot fi f ăcute predicţii asupra cărei valori a lui X îi va corespunde o valoare a lui Y ( şi invers). Utilitatea practic ă cea mai importantă a folosirii ecua ţiei de regresie în testarea psihologic ă, este să facă o predicţie a unui scor sau alt ă variabilă, când este cunoscut ă o variabil ă. Cu cât corelaţia dintre dou ă variabile este mai mare, cu atât predic ţia va fi mai precis ă. (Pitariu, 1991) Formula ecuaţiei de predicţie este: Y = a + bX
(8.8)
În formula de mai sus, a şi b sunt coeficien ţ iiii de regresie; b se refer ă la panta liniei de regresie iar a este o constant ă. Ambii coeficienţi se pot determina pe baza unor calcule algebrice din datele brute.
76
COEFICIENŢILOR 8.6. UTILIZAREA SPSS PENTRU CALCULAREA COEFICIENŢ DE CORELAŢ CORELAŢIE
Se parcurge, în bara de meniuri, traseul: „ Analyze” – „Corelate” – „ Bivariate...” Va fi afişată fereastr ă de dialog intitulat ă „ Bivariate Correlations ” (figura 8.5).
ilor de corela ţ ie. ie. Figura 8.5. Fereastra pentru calculul coeficien ţ ilor
Vom începe prin a selecta variabilele supuse corela ţiei mutându-le din partea stângă în fereastra „Variables:”. Pot fi selectate mai mult de dou ă variabile, situa ţie în care vom ob ţine coeficien ţii de corela ţie pentru toate perechile posibile de câte două variabile. De exemplu, dac ă selectăm trei variabile X, Y şi Z, vom obţine r xy xy, r xz i r . ş xz yz yz În zona „Correlation Coefficients”, în mod implicit va fi selectat coeficientul Pearson (r). Dacă variabilele nu sunt distribuite normal sau dac ă sunt măsurate pe scale ordinale (neparametrice), vom selecta fie coeficientul de corela ţie a lui Kendal (τ), fie pe cel al lui Spearman ( ρ). La rubrica „Test of Significance”, tipul implicit de testare a ipotezei este bilateral („Two-tailed ”), ”), dar se poate alege unilateral („ One-tailed ”). ”). „ Flag significant correlations”, ”, are ca efect marcarea cu un asterisc a coeficienţilor semnificativi la p=0.05 şi cu dou ă asteriscuri a celor semnificativi la p=0.01. Acest lucru este util atunci când matricea de corelaţie este mare, pentru a scoate în eviden ţă valorile semnificative ale lui r. Apăsând butonul „ Options...” putem solicita calcularea altor indicatori statistici ai variabilelor respective (de exemplu: media şi abaterea standard).
77
* EPREZENTAREA GRAFICĂ GRAFICĂ A CORELAŢ CORELAŢIEI CU AJUTORUL SPSS R EPREZENTAREA (SCATTERPLOT)
Pentru a vizualiza norul de puncte, implicit pentru a stabili caracterul şi intensitatea corela ţiei dintre cele dou ă variabile folosim o procedur ă grafică specifică, numită scatterplot . În bara de meniuri a programului SPSS vom parcurge traseul: „Graphs” – „ Legacy Dialogs” – „Scatter/Dot...” Se va deschide o fereastr ă nouă din care selectăm „Simple Scatter ”. ”.
ăm modalitatea de reprezentare scatterplot. Figura 8.6. Fereastra în care select ă
78
BIBLIOGRAFIE Bădiţă, Maria şi Cristache, Silvia Elena (1998) – Statistică – aplica ţ ii ii practice. Bucureşti, Editura Mondan. Biji, Mircea şi Biji, Elena (1979) - Statistică teoretică . Bucureşti, Editura Didactic ă şi Pedagogic ă. Blezu, Dorin (2002) – Statistica. Sibiu, Editura Alma Mater. Les mathematiques en sociologie. Paris, PUF. Boudon, Raymond (1971) – Les ă în psihologie. Iaşi, Clocotici, Valentin şi Stan, Aurel (2000) – Statistică aplicat ă Polirom.
Cramer, Duncan (1994) – Introducing Statistics for Social Research. London, Routledge. Culic, Irina (2004) – Metode avansate în cercetarea social ă ă Analiza multivariat ă ă de interdependen ţă . Iaşi, Polirom. ă aplicate în ştiin ţ ele Dragoman, Dragoş (2003) – Metode de analiz ă ele politice. Sibiu, Continent.
Giulvezan, C., Zaporojan, G. şi Grindeanu, S. (2000) – Introducere în informatica ă. Timşoara, Editura de Vest. social ă Gravetter, F.J. şi Wallnau, L.B. (1992) – Statistics for the Behavioral Sciences (3 rd ed.). St. Paul, West Publishing Company. Hartley, Alick (1999) – Bazele Bazele statisticii . Bucureşti, Editura Niculescu. Jaba, Elisabeta şi Grama, Ana (2004) – Analiza statistică cu SPSS sub Windows. Iaşi, Polirom. ă surarea şi analiza statistic ă în Luduşan, Nicolae şi Voiculescu, Florea (1997) - M ă ştiin ţ ele ele educa ţ iei iei. Sibiu, Editura IMAGO. ă surarea Mărginean, Ioan (1982) – M ă în sociologie. Bucureşti, Editura Ştiinţifică şi Enciclopedică. ă aplicat ă ă. Bucureşti, Editura Hyperion. Novak, Andrei (1995) - Statistică social ă ă şi educa ţ ional ional ă ă. ClujPitariu, Horia (1991) – Introducere în statistica psihologică ş Napoca, Universitatea „Babe ş-Bolyai” din Cluj-Napoca.
ii SPSS . Iaşi, Popa, Marian (2009) – Statistică pentru psihologie. Teorie şi aplica ţ ii Polirom.
ii SPSS . Bucureşti, Editura Popa, Marian (2004) – Statistică psihologică cu aplica ţ ii Universităţii din Bucureşti.
Popa, Marian (2006) – Statistic ă psihologică – Curs de baz ă ă. Găsită la http://popamarian.googlepages.com. Popescu, Angela (2000) - Statistică . Bucureşti, Editura Funda ţiei România de Mâine. Porojan, Dumitru (1993) - Statistica şi teoria sondajului. Bucureşti, Casa de editur ă şi presă „Şansa” S.R.L.. Radu I. (coord.) (1993) – Metodologia psihologică ş ă şi analiza datelor , Cluj-Napoca, Editura Sincron. ele umane. Rateau, Patrick (2004) – Metodele şi statisticele experimentale în ştiin ţ ele Iaşi, Polirom. ele sociale. Ia şi, Rotariu, Traian (coord.) (1999) – Metode statistice aplicate în ştiin ţ ele Polirom.
Sandu, Dumitru (1992) – Statistica în ştiin ţ ele ele sociale, Universitatea din Bucure şti. Sava, Florin (2004a) – Analiza datelor în cercetarea psihologică . Cluj-Napoca, Editura A.S.C.R. Sava, Florin (2004b) – Pagina http://statisticasociala. Pagina de statistică social ă ă . Găsită la http://statisticasociala. tripod.com. Bazele statisticii . Sibiu, Editura Alma Mater. Simion, Doina Maria (2002) – Bazele
* * * – SPSS 7.5 for Windows - Brief Guide. Chicago, Prentice-Hall Inc., 1997. Yule, G.U. şi Kendall, M.G. (1969) – Introducere în teoria statisticii. Bucureşti, Editura Ştiinţifică.
80