UNIVERSITATEA “ANDREI ŞAGUNA” CONSTANłA
MODELE SI PROGRAME DE ANALIZĂ A DATELOR Note de curs
LECT.UNIV.DR. NICU IONEL SAVA
CONSTANłA 2012
1. ELEMENTE DE STATISTICĂ DESCRIPTIVĂ I 1.1.
ModalităŃi de măsurare a variabilelor
Thorndike afirma că "tot ceea ce există se găseşte într-o anumită cantitate". McCall merge mai departe afirmând ca "tot ce se găseşte într-o anumită cantitate poate fi măsurat". Prin variabilă se înŃelege o anumită categorie care a fost cuantificată sau măsurată. Cea mai întâlnită clasificare a lor, împarte variabilele în patru tipuri: nominale (categoriale), ordinale, de tip interval şi de tip raport. Primele două tipuri sunt calitative, ultimele două cantitative (numerice). Scalele nominale reprezintă un prim mod de măsurare a variabilelor. Presupune o categorizare a variabilei fără a indica o anumită ordine ori cantitate. Variabila sex: masculin vs. feminin; Starea civilă: căsătorit, divorŃat, văduv, necăsătorit; reprezintă exemple de scală nominală. Ele pot fi notate cu cifre (0feminin; 1-masculin) însă acestea nu pot fi procesate în termeni de cantitate sau ordine. Scalele ordinale sunt tot calitative. În acest caz, numerele sunt ierarhii şi exprimă locul sau ordinea într-un şir de date. Un exemplu banal este locul ocupat de cineva la o competiŃie anumită (primul, al doilea, …, ultimul). În acest caz, numerele pot fi comparate între ele în termeni de "mai mult, mai puŃin sau egal". Trebuie însă subliniată valoarea ordinală a numerelor. Dacă un subiect ocupă locul doi, nu putem spune că el este la egală distanŃă între locul unu şi locul trei. Să luăm exemplul unui student care a obtinut 9,80 la examenul de admitere şi a ocupat locul al doilea. Locul unu ar fi ocupat de un alt student care a avut media de 9.85, în timp ce pe locul trei s-a situat o persoană cu media 9.30. În cazul datelor ordinale,
diferenŃa numerică în clasament nu este necesar egală cu diferenŃa numerică exprimată în unitatea de măsură utilizată în acel caz (cinci sutimi, respectiv cincizeci de sutimi). Cele doua tipuri de masuratori amintite pâna acum presupun întotdeauna utilizarea unor teste statistice neparametrice. Un al treilea tip de scală este de interval. Acest tip de măsuratoare permite comparaŃia dintre date. DiferenŃa dintre două rezultate 4 si 2 este egală cu diferenŃa dintre 6 si 4. În cazul unui test de inteligenŃa diferenŃa între 100 IQ si 50 IQ este egală cu diferenŃa dintre 100 IQ şi 150 IQ. DeficienŃa majoră a acestei scale este că valorile respective nu pot fi multiplicate sau divizate. Astfel noi nu putem concluziona că un subiect care a obŃinut 150 IQ este de 1,5 ori mai inteligent decât un altul care a obŃinut 100 IQ şi nici de 3 ori mai inteligent decât unul care a obtinut 50 IQ. Cele mai multe instrumente psihometrice sau educaŃionale implicate în măsurarea variabilelor cognitive sau comportamentale se găsesc la aceste trei nivele (nominale, ordinale, de interval). Un ultim tip de măsurători sunt scalele de raport. Acestea posedă toate calităŃile unei scale de interval şi are în plus două noi. Permite multiplicarea sau divizarea datelor (2 kg sunt jumatate din 4kg şi dublul unui kg). Acest tip de măsurare indică de asemenea valoarea zero absolut, ce arată lipsa totală a cantităŃii măsurate. Cele mai multe caracteristici fizice (greutate; înălŃime; timp de reacŃie; nivelul adrenalinei) pot fi măsurate astfel. Ultimele două tipuri de scale (de interval, respectiv de raport) sunt expresii cantitative ale variabilelor care pot fi supuse analizei statisticii parametrice cu mici excepŃii. Pentru a aplica tehnicile de statistică parametrică în cazul variabilelor măsurate
prin scale numerice (de interval sau de raport) trebuie să vedem dacă: Variabilele implicate sunt distribuite normal în cazul eşantionului selectat; Dispersia variabilelor de interes în cadrul eşantionului selectat trebuie să fie asemănătoare cu dispersia variabilei pentru întreaga populaŃie care îndeplineşte caracteristicile eşantionului. În plus, unele metode parametrice necesită condiŃii suplimentare. Dacă condiŃiile sunt îndeplinite, este de preferat să utilizăm tehnicile parametrice (cantitative) deoarece sunt mai solide. Aceasta înseamnă creşterea şansei de a respinge o falsă ipoteză nula. 1.2.
Analiza descriptivă univariată
Descrierea unui set de date necesită cel puŃin doi poarametri. Unul vizează tendinŃa centrală a datelor, adică găsirea unei valori reprezentative pentru setul respectiv de date, iar celălat vizează gradul de împrăştiere a datelor, urmărind omogenitatea sau eterogenitatea unui grup. In funcŃie de scalele de măsurare utilizate se stabileşte şi parametrul tendinŃei centrale, respectiv al împrăştierii datelor care ar trebui calculat. Între parametrii împrăştierii, abaterea standard şi dispersia sunt cei mai întâlniŃi în cazul datelor numerice, iar abaterea intercuartilă este mai des utilizată în cazul datelor măsurate prin scale ordinale. În ceea ce priveşte datele nominale, situaŃia indicatorilor împrăştierii este neclară.
Indicatori
precum entropia, indicele de fragmentare, indicele de diversitate sau cel al dispersiei calitative sunt aproape necunoscuŃi şi lipsesc cu desăvârşire din programele statistice pe calculator, în consecinŃă, răspândirea lor este minimă, majoritatea cercetătorilor rezumându-se la a urmări distribuŃia procentajelor pentru fiecare răspuns posibil.
În general, indicatorii împrăştierii iau valoarea zero dacă toate datele dintr-un set sunt identice.
Cu cât datele sunt mai împrăştiate (diferite), cu atât valorile
acestor indicatori sunt mai mari. În cazul datelor numerice, cel mai frecvent întâlnită pereche de parametri decriptivi este media, ca indicatori al tendinŃei centrale, şi abaterea standard, ca indicator al împrăştierii datelor. Acesşti parametri au cele mai multe avantaje tehnice, permiŃând realizarea mai multor operaŃii precum standardizarea datelor, clasificarea răspunsurilor etc. Totuşi în anumite situaŃii media şi abaterea standard pot conduce la rezultate distorsionate, iar pentru a evita acest lucru este esenŃial să inspecftăm grafic situaŃia rezultatelor obŃinute. 2. ELEMENTE DE STATISTICĂ DESCRIPTIVĂ II 2.1. Analiza descriptivă bivariată În cazul în care două variabile sunt analizate simultan, vorbim de o statistică bivariată. Cei mai importanŃi indicatori descriptivi în această direcŃie sunt indicatorii de asociere. Asocierea sau relaŃionarea dintre două variabile poate fi înŃeleasă prin termenii de covarianŃă şi independenŃă. Două variabile covariază dacă valorile uneia variază împreună cu valorile celeilate. În realitate se pot constata tot felul de astfel de legături. Conceptul de independenŃă este opus celui de covarianŃă. Atunci când valorile a două variabile nu se asociază se poate spune că cele două variabile sunt independente. Pentru a vedea gradul de covariaŃie dintre două variabile avem la dispoziŃie trei elemente descriptive: a. Calcularea coeficienŃilor de corelaŃie ca indicatori de asociere; b. Reprezentarea grafică a norului de puncte;
c. Realizarea de tabele de contingenŃă. 2.1.1. CoeficienŃii de corelaŃie Indicatorii descriptivi care arată gradul de covariaŃie dintre două variabile sunt denumiŃi coeficienŃi de corelaŃie. CorelaŃia este o formă standardizată a covariaŃiei, eliminând problema măsurării datelor prin scale diferite. Există mai mulŃi coeficienŃi de corelaŃie, selectarea lor făcându-se în funcŃie de tipul de date colectate (nominale dihotomice, nominale cu mai mult de două categorii, ordinale sau numerice), dar şi de liniaritatea (monotonia) relaŃiei dintre două variabile. CoeficienŃii de corelaŃie sunt indicatori descriptivi ce arată gradul de covariaŃie dintre două variabile. Ei reflectă gradul de variaŃie concomitentă dintre două şi numai două variabile: o singură variabilă independentă ( X) şi o singură variabilă dependentă (Y). Când cele două variabile covariază în acelaşi sens, vorbim despre ocorelaŃie pozitivă (ex. cu cât timpul alocat pregătirii examenului de statistic este mai mare, cu atât nota obŃinută la evaluarea finală este mai bună). Dacă asocierea este în direcŃii opuse (în timp ce o variabilă creşte, cealaltă scade), discutăm despre ocorelaŃie negativă. (ex. performanŃa unui angajat la un test de atenŃie concentrată este cu atât mai bună cu cât numărul de erori este mai mic).Se impune o precizare. Spre deosebire de experiment, care dezvăluie relaŃii cauză-efect, studiul de corelaŃie nu oferă nemijlocit o măsură a cauzalităŃii, ci pur şi simplu a modului de asociere. Coeficientul de corelaŃie este un index al prezenŃei/absenŃei unei relaŃii între două variabile şi nu un index al unei relaŃii cauzale. CorelaŃia însă este implicată în predicŃie. O corelaŃie semnificativ (mare) între X şi Y ne poate spune, cu diferite
grade de precizie că prin cunoaşterea valorii uneia dintre cele două variabile, putem să estimăm valoarea celeilalte (ex. dacă scorurile la unele scale din CPI (Y ) sunt ridicate, atunci şi performanŃele managerial ( X) se poate estima că vor fi ridicate; condiŃia este ca între cele două variabile să
existe o corelaŃie
semnificativă. CoeficienŃii de corelaŃie se împart în două mari categorii:-coeficienŃi de corelaŃie parametrici: coeficientul Bravais-Pearson (r), biserial (r bis), punct biserial (r pbis);- coeficienŃi de corelaŃie neparametrici: coeficientul de corelaŃie arangurilor Spearman (ρ), coeficientul Kendall (τ), .În funcŃie de tipul datelor colectate şi de liniaritatea/monotonia relaŃiei dintre cele două variabile, tratatele de statistică prezintă o multitudine de coeficienŃi de corelaŃie. Cel mai întâlnit coeficient statistic utilizat în studiile corelaŃionale este r Bravais-Pearson, cunoscut şi sub alte denumiri precum: coeficientul de corelaŃie liniară simplă, coeficientul r de ordinul zero etc. Acest coeficient r poate lua valori între -1 si +1, unde 0 semnifică absenŃa relaŃiei dintre cele două variabile analizate. Pentru a apela la r Bravais-Pearson, pe lângă caracterul numeric al datelor colectate, mai este nevoie ca relaŃia dintre cele două variabile să fie liniară şi ca norul de puncte să indice o situaŃie de homoscedasticitate (pentru detalii vezi Sava, 2004). 3. STATISTICĂ INFERENłIALĂ 3.1. Ipoteza nulă Ipoteza statistică este ipoteza care se face cu privire la parametrul unei repartiŃii sau la legea de repartiŃie pe care o urmează anumite variabile aleatoare. O ipoteză statistică nu este neapărat adevărată.
Ea poate fi corectă sau greşită. În statistică, ipotezele apar întotdeauna în perechi: ipoteza nulă şi ipoteza alternativă. Ipoteza statistică ce urmează a fi testată se numeşte ipoteză nulă şi este notată, uzual, H0. Ea constă întotdeauna în admiterea caracterului întâmplător al deosebirilor, adică în presupunerea că nu există deosebiri esenŃiale. Respingerea ipotezei nule care este testată implică acceptarea unei alte ipoteze. Această altă ipoteză este numită ipoteză alternativă, notată H1. Cele două ipoteze reprezintă teorii, mutual exclusive şi exhaustive, asupra valorii parametrului populaŃiei sau legii de repartiŃie. Spunem că ele sunt mutual exclusive deoarece este imposibil ca ambele ipoteze să fie adevărate. Spunem că ele sunt exhaustive deoarece acoperă toate posibilităŃile, adică ori ipoteza nulă, ori ipoteza alternativă trebuie să fie adevărată. Procedeul de verificare a unei ipoteze statistice se numeşte test sau criteriu de semnificaŃie. O secvenŃă generală de paşi se aplică la toate situaŃiile de testare a ipotezelor statistice. Există patru componente principale ale unui test privind o ipoteză: • ipoteza nulă; • ipoteza alternativă; • testul statistic; • regiunea critică (de respingere). Ipotezele se vor schimba, tehnicile statistice aplicate se vor schimba, dar procesul rămâne acelaşi, parcurgându-se următorii paşi: 1) Se identifică ipoteza statistică specială despre parametrul populaŃiei sau legea de repartiŃie (H0). Ipoteza statistică – numită şi ipoteză nulă – specifică întotdeauna o singură valoare a parametrului populaŃiei şi reprezintă status-quo-ul, ceea ce este acceptat până se dovedeşte a fi fals.
2) Întotdeauna ipoteza nulă este însoŃită de ipoteza alternativă (de cercetat), H1, ce reprezintă o teorie care contrazice ipoteza nulă. Ea va fi acceptată doar când există suficiente dovezi, evidenŃe, pentru a se stabili că este adevărată. Ipoteza alternativă este cea mai importantă, deoarece este ipoteza care ne răspunde la întrebare. Ipoteza alternativă poate căpăta trei forme, care răspund la trei tipuri de întrebări referitoare la parametrul studiat: - dacă parametrul este diferit (mai mare sau mai mic) decât valoarea specificată în ipoteza nulă; - dacă parametrul este mai mare decât valoarea specificată în ipoteza nulă; - dacă parametrul este mai mic decât valoarea specificată în ipoteza nulă; 3) Se calculează indicatorii statistici în eşantion, utilizaŃi pentru a accepta sau a respinge ipoteza nulă şi se determină testul statistic ce va fi utilizat drept criteriu de acceptare sau de respingere a ipotezei nule. Pentru cele mai multe testări statistice ale ipotezelor, testul statistic este derivat din estimatorul punctual al parametrului ce va fi testat. Spre exemplu, deoarece media eşantionului este un estimator punctual al mediei din colectivitatea generală, ea va fi utilizată în testarea ipotezelor privind parametrul media colectivităŃii generale. 4) Se stabileşte regiunea critică, Rc. Regiunea critică reprezintă valorile numerice ale testului statistic pentru care ipoteza nulă va fi respinsă. Regiunea critică este astfel aleasă încât probabilitatea ca ea să conŃină testul statistic, când ipoteza nulă este adevărată, să fie α, cu α mic (α=0.01 etc). Verificarea ipotezei nule se face pe baza unui eşantion de volum n, extras din populaŃia X, care este o variabilă aleatoare. Dacă punctul definit de vectorul de sondaj x1,x2,…,xn cade în regiunea critică Rc, ipoteza H0 se respinge, iar dacă punctul cade în afara regiunii critice Rc, ipoteza H0 se acceptă. Regiunea critică este delimitată de valoarea critică, C – punctul de tăietură în stabilirea acesteia. În baza legii numerelor mari, numai într-
un număr foarte mic de cazuri punctul rezultat din sondaj va cădea în Rc, majoritatea vor cădea în afara regiunii critice. Nu este însă exclus ca punctul din sondaj să cadă în regiunea critică, cu toate că ipoteza nulă despre parametrul populaŃiei este adevărată. Cu alte cuvinte, atunci când respingem ipoteza nulă, trebuie să ne gândim de două ori, deoarece există două posibilităŃi: ea este falsă într-adevăr şi ea este totuşi adevărată, deşi pe baza datelor din sondaj o respingem. 3.2.
Mărimea efectului
Aducem spre exmplificare doi indicatori de bază: r, respectiv r². Primul are întotdeauna o valoare egală cu cea a coeficientului de corelaŃie r Bravais-Pearson, fiind astfel extrem de uşor de calculat. Cel de-al doilea indicator este egal cu pătratul primului indicator (r*r). De remarcat este faptul că, deşi ridicat la pătrat, r² poate păstra semnul negativ dacă avem de-a face cu o ipoteză unilaterală care specifică asocierea inversă între două variabile, pentru a păstra tipul de relaŃie dintre acestea. Majoritatea cercetătorilor apelează la cel de-al doilea indicator în interpretarea rezultatelor din perspectiva mărimii efectului. Astfel, un r² = .16 (echivalent unui r de .40), reflectând legătura dintre nivelul de inteligenŃă şi reuşita şcolară a elevilor, este interpretat adesea în termeni procentuali. În cazul de faŃă, ar însemna că 16% din variaŃia rezultatelor şcolare poate fi pusă pe seama diferenŃelor în ceea ce priveşte inteligenŃa elevilor. Deşi logic ar fi să afirmăm că inteligenŃa influenŃează performanŃa şcolară, corelaŃia în sine nu ne poate demonstra cauzalitatea acestei relaŃii. Chiar dacă o asemenea valoare de 16% (corespunzatoare unui r² egal cu .16, respectiv unui r de .40) pare destul de redusă, interpretarea trebuie realizată în termeni relativi şi nu absoluŃi. Astfel, deoarece ne aflăm în cazul ştiintelor sociale
în care corelaŃiile mari (r > .50) sunt destul de rare, un asemenea rezultat (r² = .16) poate indica o legătură destul de strânsă între cele două variabile implicate. Cohen (1988) propune urmatoarele valori pentru r, respectiv r², în interpretarea magnitudinii mărimii efectului: efect scăzut (r = .10, r² = .01); efect mediu (r = .30, r² = .09); efect puternic (r = .50, r² = .25). Pentru exemplul oferit am putea afirma că, din punct de vedere practic, relaŃia dintre inteligenŃă şi reuşita şcolară are o intensitate de magnitudine moderată spre puternică, fapt ce presupune consecinŃe sesizabile în plan practic, care ar trebui luate în calcul. În plus, dacă Ńinem seama de transformările din r în d şi viceversa, am putea stabili chiar valori mai mici ale lui r şi r² pentru cele trei nivele de intensitate ale mărimii efectului. Astfel, am putea vorbi de: efect scăzut (r = .10, r² = .01, corespunzătoare unui d = .20); efect mediu (r = .25, r² = .06, corespunzătoare unui d = .50); efect puternic (r = .37, r² = .14, corespunzătoare unui d = .80). Ambele clasificări pot fi utilizate în interpretarea acestor indicatori de mărime a efectului, alegerea aparŃinând utilizatorului în funcŃie de preferinŃa avută. În afara acestor doi indicatori de bază pentru cazul r simplu, PowerStaTim oferă celor interesaŃi alŃi doi indicatori suplimentari (d Cohen si g Hedges), specifici situaŃiei de comparare a diferenŃelor dintre grupuri. Aceştia vin în sprijinul celor interesaŃi să uniformizeze calculul mărimii efectului, utilizând aceeaşi unitate de măsură sau în spijinul celor familiarizaŃi doar cu indicatorii mărimii efectului bazaŃi pe diferenŃele standardizate dintre medii.
4. STATISTICĂ INFERENłIALĂ II 4.1. Puterea statistică a unei cercetări ImaginaŃi-vă puterea statistică drept o capacitate de a detecta vizual fenomene. Dacă puterea statistică este mică, va fi dificil să observăm fenomenele de interes şi vom concluziona, poate, că fenomenele respective nu există. Acest lucru s-ar întâmpla datorită capacităŃii noastre reduse de detectare vizuală a fenomenului în cauză. În schimb, dacă vom reuşi să ne îmbunătăŃim aparatele de detectare a fenomenului, adică să creştem puterea statistică a unei cercetări, vom avea mai multe şanse să detectăm fenomenele aşteptate. Mai mult, în situaŃii în care puterea statistică a devenit foarte mare, vom putea detecta orice fenomene, inclusiv pe acelea minuscule sau insignifiante. În practică se întâmplă mai rar acest lucru, deoarece majoritatea studiilor suferă de o putere statistică scăzută. De altfel, Tversky si Kahneman (1993) sau Smith (2000) reamintesc de un studiu mai vechi a lui Cohen, care identifica, in studiile publicate in diverse reviste de specialitate, o valoare mediana a puterii statistice de .46. Acest rezultat este mult sub valoarea optimă prescrisă de .80. SituaŃia nu s-a schimbat de atunci, rezultate modeste, similare fiind obŃinute şi după 25 de ani de la efectuarea acelui studiu (Cohen, 1990). Puterea statistică poate fi determinată foarte uşor dacă Ńinem seama de valoarea lui β (riscul de a comite eroarea de tip II), deoarece puterea statistică este egală cu 1 – β. Astfel, dacă vom alege un β de .20, puterea statistică a cercetării respective va fi de .80, ceea ce semnifică o probabilitate de 80% de a detecta un efect dacă acesta există. ImportanŃa practică a puterii statistice este capitală în construcŃia designului de cercetare, deoarece puterea statistică a unei cercetări poate fi modificată în funcŃie de trei parametri importanŃi:
- mărimea efectului (Cât de mare trebuie să fie un efect sau o relaŃie dintre două variabile?); - mărimea eşantionului (De câŃi subiecŃi avem nevoie pentru a observa fenomenul de interes?); - valoarea α (Care este pragul de semnificaŃie de la care vom respinge ipoteza statistică?). De asemenea, fiind o ecuaŃie formată din patru parametri: puterea statistică, mărimea efectului, pragul de semnificaŃie ales şi mărimea eşantionului (erorile de măsurare) putem deduce oricare indicator lipsă. Astfel, putem estima numărul de subiecŃi necesari pentru a fi testaŃi dacă cunoaştem mărimea efectului studiat, dacă stabilim pragul de semnificaŃie sub care respingem ipoteza nulă (de pildă p de .05) şi dacă alegem o putere optimă de .80 de a verifica ipoteza formulată. Similar, pe baza numărului de subiecŃi testaŃi, a mărimii efectului observat, şi a pragului de semnificaŃie prestabilit se poate calcula puterea statistică a unui studiu. 4.2.Grade de libertate Gradele de libertate însoŃesc întotdeauna rezultatele statisticii inferenŃiale. APA (2001) recomandă ca în articolele de specialitate să se regăsească exprimări de genul t (23) = 4,11, p < .01, F (2, 20) = 1,73, P > .05 Dacă t sau F reprezintă simboluri ale tehnicilor statistice utilizate, iar p este pragul de semnificaŃie asociat acestor valori, datele din paranteză înseamnă coordonatele gradelor de libertate. În varianta clasică, aceste coordonate ne ajutau să descoperim valorile statistice din tabel care trebuie comparate cu valorile calculate de noi. O dată cu apariŃia statisticii pe calculator, acest lucru a devenit un atavism, deoarece pragul de semnificaŃie este oferit de calculator, împreună cu
rezultatele obŃinute. Ce sunt de fapt gradele de libertate? Yu (2003) afirma că aceste grade de libertate nu au nimic de a face cu căsătoria, deşi un bărbat însurat, având o singură parteneră, nu mai are nici un grad de libertate. Acelaşi autor oferă o excelentă explicaŃie intuitivă pentru gradele de libertate pornind de la elementele esenŃiale ce intervin în determinarea lor: volumul eşantionului, respectiv numărul de parametri care trebuie calculaŃi. Fără a avea caracter de lege, gradele de libertate pot fi exprimate frecvent prin numărul de observaŃii minus numărul de relaŃii necesare pentru a obŃine acele date (n – r). 5. TESTE STATISTICE PARAMETRICE PENTRU DATE CANTITATIVE I 5.1. Testul t pentru eşantioane independente CondiŃii de aplicare: - Eşantioane aleatorii (ideal) sau neafectate de erori de eşantionare (bias); - Eşantioane independente (distincte din punctul de vedere al variabilei independente, care determină constituirea grupurilor); - Variabila supusă măsurării se distribuie normal în ambele populaŃii. Aceasta garantează că şi distribuŃia diferenŃelor dintre medii se distribuie normal. Totuşi, teorema limitei centrale ne permite asumarea normalităŃii didtribuŃiei mediei de eşantionare chiar şi în cazul variabilelor care nu se distribuie normal la nivelul populaŃiei, pentru eşantioane mari. Dacă însă analiza distribuŃiilor indică forme aberante, iar volumul grupurilor comparate este foarte mic, se va alege soluŃia unui test neparametric. De menŃionat este faptul că testele t sunt robuste la încălcarea condiŃiilor de normalitate. - Dispersia celor două eşantioane este omogenă. Testul t poate fi aplicat strict
în cazurile în care dispersiile celor două populaŃii sunt aceleaşi; La publicarea testului t pentru diferenŃa dintre mediile a două eşantioane independente vor fi menŃionate: - Mediile şi abaterile standard ale fiecărui eşantion; - Volumul eşantioanelor sau gradele de libertate; - Valoarea testului; - Nivelul lui p; - Mărimea efectului; - Limitele de încredere pentru diferenŃa dintre medii. Concluzii: - Testul t pentru eşantioane independente verifică semnificaŃia diferenŃei dintre mediile a două eşantioane formate din subiecŃi diferiŃi, care au fost evaluate în condiŃii distincte; - În condiŃiile acestui test, se consideră o variabilă dependentă cantitativă şi o variabilă independentă calitativă, nominală, dihotomică (împarte eşantionul cercetării în două grupuri); - Respingerea ipotezei de nul în acest caz înseamnă acceptarea ipotezei că cele două medii sunt diferite, ceea ce este echivalent cu acceptarea ipotezei cercetării, care afirmă existenŃa unei relaŃii între condiŃia testării şi rezultatul măsurat prin variabila dependentă; - Intervalul de încredere pentru diferenŃa dintre medii reprezintă limitele între care se află diferenŃa mediilor la nivelul populaŃiilor de nul. Cu cât intervalul este mai restrâns, cu atât diferenŃa constatată între grupurile comparate este mai precisă în estimarea diferenŃei reale; - Valoarea calculată a testului nu se interpretează în nici un fel; - Pentru a estima importanŃa diferenŃei dintre medii, se calculează indicele de
mărime a efectului. Cu cât acesta este mai mare, cu atât diferenŃa dintre medii este mai importantă; - Testul t oferă o informaŃie referitoare la posibilitatea ca diferenŃa să fie întâmplătoare, în timp ce mărimea efectului ne spune cât de mare este acestă diferenŃă. 6. TESTE STATISTICE PARAMETRICE PENTRU DATE CANTITATIVE II 6.1.Testarea diferenŃei dintre mai mult de două medii: analiza de varianŃă (ANOVA – Analysis Of VAriance) Există mai multe tipuri de ANOVA, două dintre ele fiind mai frecvent folosite: - ANOVA unifactorială (One-way ANOVA) – atunci când avem o variabilă dependentă măsurată pe o scală de interval/raport măsurată pentru trei sau mai multe valori ale unei variabile independente categoriale; - ANOVA multifactorială – care se aplică când avem o singură variabilă dependentă, dar două sau mai multe variabile independente, fiecare cu câte două sau mai multe valori, măsurate pe o scală categorială (nominală sau ordinală). ANOVA este o procedură de comparare a mediilor eşantioanelor. Specificul rezidă din faptul că în locul diferenŃei directe dintre medii se utilizează dispersia lor, gradul de împrăştiere. CondiŃii pentru utilizarea testului ANOVA: - IndependenŃa eşantioanelor (grupurilor supuse comparaŃiei); - Normalitatea distribuŃiei de eşantionare, în conformitate cu teorema limitei centrale;
- AbsenŃa valorilor extreme (outliers); - Egalitatea varianŃei grupurilor comparate. În raportul de publicare ANOVA vor fi descrise grupurile (categoriile) comparate, mediile lor, valoarea testului F cu numărul gradelor de libertate şi pragul de semnificaŃie al testului. La aceasta se adaugă indicele de mărime a efectului. Concluzii: - Analiza de varianŃă (ANOVA) testează diferenŃa dintre mediile a mai mult de două medii obŃinute pe eşantioane independente; - SemnificaŃia diferenŃei dintre medii se testează prin analiza variabilităŃii lor; - ANOVA este necesară în cazul comparării a mai mult de două medii, deoarece compararea acestora cu ajutorul testului t, două câte două este nepermisă, ca urmare a acumulării nepermise de eroare de tip I; - o valoare semnificativă a testului F ne îndreptăŃeşte să considerăm că diferenŃa dintre mediile comparate este suficient de mare pentru a nu fi întâmplătoare. Această concluzie are un caracter global, care priveşte variaŃia tuturor mediilor, fără a ne spune ceva despre raporturile dintre medii una faŃă de alta. - Mărimea efectului pentru testul ANOVA se evaluează cu ajutorul a mai multor indicatori, dintre care cei mai utilizaŃi sunt eta-pătrat şi omegapătrat.
7. TESTE STATISTICE PARAMETRICE PENTRU DATE CANTITATIVE III 7.1.Testul t pentru diferenŃa dintre mediile a două eșșantioane dependente Este utilizat atunci când vizăm comparaŃia a două (sau mai multe) valori măsurate pe aceeaşi subiecŃi. SituaŃii de utilizare: - O anumită caracteristică se măsoară înaintea unei condiŃii şi după acŃiunea acesteia; - Un cercetător utilizează două condiŃii de investigare, dar plasează aceiaşi subiecŃi în ambele condiŃii; - Natura situaŃiei experimentale nu permite utilizarea aceloraşi subiecŃi pentru cele două măsurători. La publicarea rezultatului se vor menŃiona: volumul eşantionului, mediile variabilei dependente în raport cu valorile variabilei independente, valoarea testului t, pragul de semnificaŃie, tipul de test (unilateral sau bilateral), mărimea efectului şi limitele de încredere ale diferenŃei. Concluzii: - Testul t pentru diferenŃa mediilor a două eşantioane dependente vizează situaŃiile în care aceiaşi subiecŃi au fost evaluaŃi cu acelaşi instrument în situaŃii diferite; - Variabila independentă este reprezentată de condiŃia în care are loc măsurarea iar variabila dependentă este trăsătura care face obiectul măsurării, fiind exprimată pe scală cantitativă; - Modul de interpretare a testului, calcularea intervalului de încredere şi al
mărimii efectului sunt similare testului t pentru eşantioane independente. 8. TESTE
STATISTICE
PARAMETRICE
PENTRU
DATE
CANTITATIVE IV 8.1.Coeficientul de corelaŃie liniară Pearson Coeficientul de corelaŃie oferă informaŃii despre modul cum variază valorile a două variabile, una în raport cu cealaltă, Astfel, coeficientul de corelaŃie nu are o semnificaŃie cauzală decât dacă cele două variabile au fost măsurate într-un context care probează cauzalitatea. Iar acest lucru se petrece numai în condiŃii de experiment. Ceea ce exprimă r este intensitatea corelaŃiei liniare, adică măsura în care norul de puncte reprezentat de intersecŃia valorilor-pereche ale celor două variabile poate fi reprezentat de o linie dreaptă. Asocierea de tip lin iar este însă doar una dintre formele de aproximare a legăturii dintre variabile. In realitate, uneori corelaŃia dintre două variabile are o formă care se abate de la modelul rectiliniu. Spre deosebire de testele t, valoarea testului r este interpretabilă prin ea însăşi, exprimând intensitatea asocierii dintre variabile. O corelaŃie perfectă fiind atunci când r este egal cu 1 sau -1. Interpretarea coeficientului de corelaŃie (Hopkins, 2000): 0,0 – 0,1 – foarte mic, neglijabil, nesubstanŃial; 0,1 – 0,3 – Mic, minor; 0,3 – 0,5 – moderat, mediu; 0,5 – 0,7 – mare, ridicat, major; 0,7 – 0,9 – foarte mare, foarte ridicat; 0,9 – 1 – aproape perfect. Valorile lui r trebuie considerate pe o scală ordinală. Dacă dorim să comparăm
în mod direct doi coeficienŃi de corelaŃie, trebuie să ridicăm valorile lui r la pătrat, obŃinând astfel ceea ce se numeşte coeficient de determinare. Acesta este considerat un indicator mai adecvat al mărimii efectului, deoarec e ia valori sensibil mai mici decât cele ale coeficientului de corelaŃie. Pentru a putea utiliza în mod legitim calculul corelaŃiei, eşantionul trebuie să fie aleatoriu, iar cele două variabile să aibă o distribuŃie care să nu se abată grav de la distribuŃia normală. Această condiŃie este cu atât mai importantă cu cât eşantionul este mai mic. O atenŃie deosebită trebuie acordată valorilor extreme, prezenŃa lor putând avea efecte neaşteptate asupra valorii coeficientului de corelaŃie. Analiza de corelaŃie este una dintre cele mai uzuale proceduri statistice în cercetare. Coeficientul de corelaŃie Pearson nu este singurul test al asocierii variabilelor. Există o varietate de teste de corelaŃie, pentru situaŃiile în care variabilele cercetate sunt măsurate, fiecare, pe orice scală de măsurare. Raportarea coeficienŃilor de corelaŃie va cuprinde, pe lângă indicatorii statistici descriptivi ai variabilelor (medii, abateri standard, indicatorii simetriei aplatizării), volumul eşantionului, valoarea lui r, nivelul de semnificaŃie şi coeficientul de determinare r². Concluzii: - Coeficientul de corelaŃie Pearson testează intensitatea asocierii dintre două variabile măsurate pe aceiaşi subiecŃi, în condiŃii diferite sau cu instrumente diferite; - Coeficientul de corelaŃie nu este un indicator al relaŃiei cauzale, ci doar al variaŃiei concomitente a valorilor variabilelor testate; - Domeniul de variaŃie al coeficientului r se regăseşte între –1 (corelaŃie perfectă negativă) şi +1 (corelaŃie perfectă pozitivă). Valoarea 0 indică absenŃa oricărei corelaŃii;
- Coeficientul de corelaŃie este sensibil la valorile extreme. Cu cât eşantionul este mai mic, cu atât efectul eventualelor valori extreme este mai mare; - Tipul asocierii surprins de coeficientul Pearson este cel liniar, care înseamnp că, în cazul unor asocieri curbilinii, chiar perfecte, valoarea coeficientului Pearson (r) poate fi mai mică sau chiar 0; - Valoarea coeficientului de corelaŃie este, prin ea însăşi, un indicator de mărime a efectului. Totuşi, în acest scop se utilizează coeficientul de determinare r²; - Coeficientul r calculat pe eşantion estimează corelaŃia la nivelul populaŃiei; - Valoarea reală a corelaŃiei la nivelul populaŃiei nu poate fi cunoscută cu precizie, dar poate fi estimată cu ajutorul limitelor de încredere pentru r. 9. TESTE NEPARAMETRICE PENTRU DATE NOMINALE 9.1.DistribuŃia binomială DistribuŃia statistică binomială descrie frecvenŃa de apariŃie a unui anumit eveniment de tip dihotomic în contextul unei serii de observaŃii. Caracteristicile distribuŃiei binomiale diferă în funcŃie de numărul observaŃiilor (N) şi de probabilitatea de apariŃie a evenimentului (P), văzută ca şansă teoretică de apariŃie în raport cu toate evenimentele posibile. De exemplu, la aruncarea unei monede o singură dată, şansa (probabilitatea) teoretică de apariŃie a „mărcii” este P = ½ = 0,5. Aceeaşi probabilitate caracterizează şi răspunsul “corect”, dacă răspundem la întâmplare la o întrebare cu două variante de răspuns, din care una este corectă, iar alta greşită. Odată cu găsirea modalităŃii de elaborare a distribuŃiei de nul se pot crea diverse teste de inferenŃă statistică, printre care enumerăm: 9.1.1. Testul z pentru proporŃia unui eşantion în raport cu populaŃia –
implică testarea semnificaŃiei unui procent observat în raport cu procentul populaŃiei (atunci când acesta este cunoscut), pentru evenimente de tip dihotomic; 9.1.2. Testul z pentru diferenŃa dintre două proporŃii; 9.1.3. Testul semnului (denumit astfel pentru că ia în considerare doar sensul variaŃiei, nu şi valoarea ei) poate fi utilizat ca substitut al testului t pentru eşantioane independente în cazul datelor măsurate pe scală nominală dihotomică. Concluzii: - DistribuŃia binomială derivă din serii de evenimente independente dihotomice. Cele două posibilităŃi ale fiecărui eveniment au probabilităŃile P şi Q, a căror sumă este 1; - Când P = Q = 0,5 disatribuŃia binomială este simetrică; - Testul semnului poate fi utilizat în locul testului t pentru eşantioane dependente atunci când nivelul diferenŃei dintre cele două determinări nu poate fi evaluat, ci numai direcŃia diferenŃei. 9.2. DistribuŃia multinomială Evenimentele de tip binomial au un caracter dihotomic, putând lua doar două valori. Există însă şi evenimente care pot avea mai mult de două stări, ceea ce poate fi descris prin trei sau mai multe valori. Organizarea datelor se realizează printr-o reprezentare sintetică – tabelul de corespondenŃă (contingenŃă). Concluzii: - Dacă evenimentele probabilistice au mai mult de două valori, probabilitatea cu care fiecare eveniment cade într-una din categoriile posibile se supune distribuŃiei multinomiale; - Din cauza complexităŃii procesului de evaluare a probabilităŃilor multinomiale, este utilizată o estimare a acestora prin distribuŃia chi-pătrat.
Numărul gradelor de libertate pentru distribuŃia multinomială este dat de n umărul categoriilor minus 1; - Testul chi-pătrat are două variante: testul chi-pătrat al asocierii – testează diferenŃa dintre valorile a două variabile categoriale (nominale sau ordinale); testul chi-pătrat al corespondenŃei (goodness of fit) măsoară diferenŃa („potrivirea”) dintre valorile unei variabile categoriale şi probabilităŃile teoretice cunoscute dinainte ale acestor valori; - DiferenŃele mari dintre frecvenŃele observate şi cele aşteptate produc valori ridicate ale testului chi-pătrat, care cad în zona dreaptă (pozitivă) a distribuŃiei de nul şi conduc la respingerea acesteia. DiferenŃele mici produc valori ale testului chi-pătrat apropiate de zero, conducând la acceptarea ipotezei de nul; - Atunci când fiecare dintre cele două variabile are doar două categorii, situaŃie în care frecvenŃele aşteptate sunt prea m ici pentru a justifica o estimare chi-pătrat, se utilizează testul exact Fischer. 10. TESTE STATISTICE PENTRU DATE ORDINALE I Testele statistice pentru date ordinale se utilizează în următoarele situaŃii: - Atunci când variabile dependentă este exprimată pe scală de tip ordinal. În acest caz valorile nu au proprietăŃi de interval, dar exprimă poziŃia fiecăreia în raport cu cealaltă; - Atunci când variabila dependentă este măsurată pe scală de interval/raport, dar distribuŃia ei nurespectă condiŃiile impuse de testele parametrice. În această situaŃie se efectuează o transformare de rang, adică se înlocuieşte fiecare valoare a distribuŃiei cu poziŃia pe care o are în cadrul distribuŃiei, sub aspectul ordinii de mărime. Noua distribuŃie rezultată poate fi supusă
analizei statistice cu teste neparametrice ordinale. 10.1.
Testul
Mann-Whitney
(U)
pentru
două
eşantioane
independente Să luăm în considerare urmatoarea problemă: Un specialist care lucrează într-o mare bancă doreşte să vadă dacă există o diferenŃă între premiile băneşti anuale primite de femeile şi bărbaŃii angajaŃi ai băncii. Problema este una tipică pentru a fi rezolvată cu testul t al diferenŃei dintre mediile a două eşantioane independente. Avem o variabilă independentă de tip nominal-dihotomic şi una dependentă, de tip interval/raport. Din păcate, analiza preliminară a variabilei dependente ("prima") relevă abateri mari de la condiŃiile de normalitate (un indice de boltire, kurtosys, de peste 7) precum şi o slabă reprezentativitate a mediei, ambele datorate, mai ales, prezenŃei unei valori extreme (o primă de 200 mil. lei). După ce verificăm corectitudinea valorii respective, ajungem la concluzia ca ea nu poate fi eliminată şi, ca urmare, nu este recomandabilă utilizarea unui test parametric. Într-o situaŃie de acest gen este aplicabil testul "Mann-Whitney U" pentru date ordinale. Procedăm la transformarea în ranguri a valorilor variabilei dependente. Atribuirea rangurilor în mod descrescător sau crescător este nerelevantă. Dacă toate valorile sunt distincte, fiecare valoare primeşte un rang distinct. Atunci când există valori identice, valorile respective primesc un rang egal cu media aritmetică a rangurilor cuvenite. La publicarea rezultatului pentru testul Mann-Whitney U se vor indica: -
volumul grupurilor comparate (nA si nB)
-
valoarea testului (U)
-
pragul de semnificatie (p).
10.2.
Testul Kruskal-Wallis pentru mai mult de două eşantioane
independente Pentru evaluarea diferenŃei la nivel de ranguri între mai mult de două eşantioane independente se utilizează testul Kruskal-Wallis. Acesta poate fi asimilat unei analize de varianŃă pentru date ordinale. Să presupunem ca avem trei categorii de subiecŃi (piloŃi, controlori de trafic şi navigatori de bord) cărora le-a fost aplicat un test de reprezentare spaŃială. Să presupunem, de asemenea, că valorile variabilei dependente nu se pretează la un test ANOVA, dată fiind prezenŃa câtorva valori extreme ce nu pot fi eliminate. În aceste condiŃii, testul Kruskal-Wallis este alegerea potrivită. Aceasta presupune ordonarea după rang a valorilor variabilei dependente (reprezentare spaŃiala) pentru toate categoriile de subiecŃi, luate împreună. 11. TESTE STATISTICE PENTRU DATE ORDINALE II 11.1.Testul Wilcoxon pentru două eşantioane pereche Dacă avem subiecŃi evaluaŃi de două ori, pe o scală de interval, iar variabilele nu întrunesc condiŃiile pentru utilizarea testului t al diferenŃelor pentru eşantioane dependente, se poate apela la testul Wilcoxon. Acesta este un test care, deşi se aplică pe scale de interval/raport, utilizeaza proceduri de tip neparametric, apelând la diferenŃele dintre valorile perechi şi la ordonarea lor. Este, din acest punct de vedere, un test de date ordinale. 11.2.Testul Friedman pentru măsurători repetate Să presupunem că un psiholog doreşte să studieze relaŃia dintre stilurile de conducere (laissez-faire, democratic şi autoritar) asupra nivelului de satisfacŃie
profesională. În acest scop el poate constitui un grup de cercetare pe care să îl supună, în momente succesive, celor trei tipuri de conducere. Un alt model ar putea fi constituirea a trei eşantioane perechi, astfel constituite încât fiecărui subiect dintr-un eşantion să îi corespundă câte un subiect "echivalent" din fiecare dintre celelalte două eşantioane (criteriile de echivalenŃă pot fi: sexul, vârsta, nivelul de inteligenŃă, gradul de motivare, etc.). Dar, oricare dintre variantele pe care le-ar alege cercetatorul, din punct de vedere statistic el ar obŃine o structură de date identică: trei serii de evaluari ale satisfacŃiei (variabila dependentă), pentru aceiaşi subiecŃi (sau perechi de subiecŃi) corespunzatoare celor trei stiluri de conducere. Dacă variabila dependentă ar fi masurată pe o scala de interval/raport, testul parametric adecvat este, "ANOVA pentru măsurări repetate". În lipsa lui şi presupunând ca variabila dependentă nu întruneşte conditiile unui test parametric, soluŃia problemei este testul Friedman pentru date ordinale. Pentru aplicarea lui este suficient ca valorile variabilei dependente să fie ordonate după rang, ca în tabelul alăturat. Facem precizarea că, în acest caz, ordonarea după rang se face la nivelul fiecărui set de evaluări perechi: Testul Friedman poate fi aplicat şi în cazul a doar două măsurări, situaŃie în care devine similar testului semnului. La fel ca şi celelalte teste pentru date ordinale, el este afectat de existenŃa rangurilor atribuite ex-aequo, pentru valori identice. În astfel de cazuri este recomandabilă aplicarea unei corecŃii formulei de calcul, pe care nu o vom prezenta aici, în speranŃa că utilizarea programelor specializate va face, oricum, corecŃiile necesare. 12. TESTE STATISTICE PENTRU DATE ORDINALE III 12.1.Coeficientul de corelaŃie pentru date ordinale
Testele Wilcoxon şi Friedman sunt utilizate pentru a pune în evidenŃă diferenŃele dintre două sau mai multe eşantioane perechi (situaŃie care, de regulă, se referă la măsurări repetate pe aceiaşi subiecŃi). Atunci când avem două variabile ordinale şi suntem interesaŃi în evaluarea gradului de asociere între ele, vom utiliza un test similar coeficientului de corelaŃie pentru date de interval care este coeficientul de corelaŃie a rangurilor (Spearman). Aşa cum ne amintim, coeficientul de corelaŃie Pearson (r) ne dă măsura intensităŃii legăturii dintre două variabile exprimate pe scale de tip interval/raport. Mecanismul de calcul se bazează pe transformarea valorilor ambelor variabile în scoruri z, adică pe convertirea acestora în "distanŃă standard" faŃă de medie. Pentru datele de tip ordinal, modalitatea de calcul a coeficientului de corelaŃie se bazează pe poziŃia relativă a unei valori faŃă de celelalte. Coeficientul de corelaŃie a rangurilor Spearman (rS) are acelaşi domeniu de variaŃie
(-1/+1) şi se
interpretează în acelaşi mod ca şi coeficientul de corelaŃie pentru date parametrice Pearson. Dacă nivelul de semnificaŃie (p) este mai mare decât 0.05, coeficientul de corelaŃie va fi considerat nesemnificativ (are şanse prea mari să rezulte din jocul întâmplării). Aceasta nu înseamnă că nu există o corelaŃie între cele două variabile ci doar că datele noastre nu au putut să o pună în evidenŃă. Calcularea coeficientului de determinare (r2) în cazul corelaŃiei Spearman nu este recomandabilă, deşi există autori care o acceptă. 13. INTEGRAREA
ANALIZEI
STATISTICE
A
DATELOR
ÎN
DOCUMENTUL DE CERCETARE I 13.1.
Alegerea testului statistic
În statistică, cel mai simplu este „să aplici formula” şi să calculezi rezultatul. Dificultatea constă în a alege formula şi a interpreta rezultatul.
Alegerea testului statistic potrivit este adesea una din încercările cele mai mari prin care trece un tânăr cercetător. Alegerea testului statistic nu este prima, ci ultima problemă pe care trebuie să o rezolve. Pentru a rezolva această problemă sunt necesare atât cunoştinŃe de metodologia cercetării, cât şi o experienŃă destul de îndelungată în prelucrarea datelor. Totuşi, situaŃia poate fi mult uşurată dacă se urmează o serie de raŃionamente şi reguli de bază, precum: - Formularea ipotezelor; - Identificarea variabilelor cercetării; - Recoltarea datelor cercetării; - Sintetizarea datelor cercetării; - Alegerea testului statistic adecvat. Obiectivul cercetării
Variabila independentă
Variabila dependentă I/R
Una
Nominală I/R Independente
Diferenşa dintre grupuri
Categorială (număr de categorii)
Nominală Ordinală
Două
I/R Dependente Nominală Ordinală Independente
Ordinală
Trei + Dependente Asocierea variabilelor
I/R
Interval/Raport Ordinală
I/R Ordinală I/R Ordinală
Testul statistic aplicabil z/t pentru un eşantion z pentru o proporŃie t pentru eşantioane independente z pentru două proporŃii Mann-Whitney U t pentru eşantioane dependente Testul semnului Wilcoxon ANOVA unifactorială Kruskal-Wallis ANOVA pentru măsurători repetate Friedman r Pearson rs Spearman
Categorial (nominală sau ordinală)
13.2.
Categorială (N/O)
Chi-pătrat Testul exact Fisher
Reguli de fixare a mărimii eşantioanelor de cercetare
Alegerea mărimii eşantionului, în contextul diferitelor modele de cercetare, este un subiect ce trebuie tratat cu atenŃie, dacă dorim să asigurăm cercetărilor noastre consistenŃă sub aspectul puterii şi al mărimii efectului. Reputatul psihometrician Jacob Cohen îşi aduce aminte cum a învăŃat în facultate că pentru a compara două grupuri trebuie utilizate eşantioane a câte 30 de subiecŃi, orice eşantion mai mic de 30 fiind considerat „eşantion mic”. Concluzia este că puterea testului şi mărimea efectului sunt strâns legate de mărimea eşantionului. 14. INTEGRAREA ANALIZEI STATISTICE A DATELOR ÎN DOCUMENTUL DE CERCETARE II 14.1. Integrarea analizei statistice în documentul de cercetare - Prezentarea cadrului general al cercetării – exprimarea clară a tipului de studiu statistic efectuat, a obiectivelor urmărite, redarea ipotezei cercetării, definirea clară a populaŃiei şi a eşantionului supus cercetării; - Prezentarea metodei şi a lotului de subiecŃi – identificarea variabilelor analizate, a instrumentelor de cercetare, a procedurii de investigare; - Prelucrarea datelor – analiza primară a datelor, verificarea ipotezelor statistice, alegerea procedurilor statistice minime necesare, testarea ipotezelor, atenŃie la problema variabilelor multiple, reŃinere faŃă de declararea relaŃiei cauzale, tabele şi figuri; - Discutarea şi interpretarea rezultatelor – interpretarea semnificaŃiei statistice; - Formularea concluziilor
14.2. ConsideraŃii etice în analiza statistică Valoarea unei cercetări ştiinŃifice este condiŃionată în mod direct de măsura în care respectă criteriile etice ale comunităŃii profesionale. Aspecte relevante cu privire la utilitarea programelor statistice de prelucrare a datelor: - Standarde de competenŃă; - Corectitudinea datelor; - Transmiterea datelor; - Protejarea datelor; - Onestitatea ştiinŃifică; - Buna conduită în cercetarea ştiinŃifică.
Bibilografie: • OPARIUC-DAN, Cristian – Statistică aplicată în ştiințele socio-umane, Editura ASCR, Cluj-Napoca, 2009; • POPA, Marian – Statistică pentru psihologie, Editura Polirom, Iaşi, 2008; • POPA, Marian – Statistici multivariate, Editura Polirom, Iaşi, 2010; • SAVA, Nicu-Ionel – Suport de curs – Modele şi programe de analiză a datelor, Universitatea „Andrei Şaguna”, Constanta, 2011; • SAVA, Florin – Analiza datelor în cercetarea. Metode statistice complementare, Editura ASCR, Cluj-Napoca, 2004.