Analiza factorială exploratorie M. Popa
Cuprins • Introducere • Aplicaţiile majore ale analizei factoriale • Modele de analiză factorială – Analiza factorială exploratorie (AFE) – Analiza factorială de confirmare (AFC)
• Probleme fundamentale ale analizei factoriale – – – – –
Combinarea mai multor variabile într-un singur factor. Alegerea metodei de extragere Indicatori numerici ai factorilor Rotaţia factorilor. Identificarea factorilor
• Condiții • Aspecte problematice ale analizei factoriale • SPSS – Setarea procedurii AFE în SPSS – Analiza rezultatelor – Raportarea rezultatelor
1. Introducere • AF – colecție de tehnici statistice al căror obiectiv este acela de a simplifica seturi complexe de variabile
• Se bazează pe o îndelungată tradiție a gândirii filosofice și științifice – – – –
raționaliștii și atomiștii greci Aristotel Francis Bacon Descartes
1. Introducere • Istoria recentă • Thurstone (1931) introduce termenul de analiză factorială • Pearson (1901) • Spearman (1904) – unul dintre pionierii utilizării analizei factoriale în psihologie, fiind creditat uneori chiar cu inventarea acestui tip de analiză statistică: – scorurile copiilor şcolari la diferite discipline, aparent fără legătură unele cu altele, sunt pozitiv corelate, ceea ce l-a condus la postularea unei „aptitudini cognitive generale”, care susţine performanţa umană. – (factorul g).
• Raymond Cattell – teorie multifactorială pentru a explica inteligenţa. – Promotor al AF, dar şi al procedurilor psihometrice – aprecia că AF este un instrument care poate fi aplicat în studiul comportamentului, cu o obiectivitate care poate rivaliza cu cea din ştiinţele exacte
2. Aplicaţiile majore ale analizei factoriale • Detectarea structurii în relaţiile dintre variabile – Clasificarea variabilelor – Ex.: Leadership=orientare pe sarcină/pe relații
• Reducerea numărului variabilelor – Baterie de teste… – Itemii unui chestionar…
• Rezolvarea multicoliniarității în regresia multiplă • Validarea construcției unei scale compuse din mai mulți itemi – încărcarea fiecărui item în raport cu scala
3. Modele de AF • Ideea fundamentală – anumite variabile nu pot fi observate (măsurate) direct, ci doar prin intermediul altora – v. manifeste • observate, măsurate
– v. latente • integrează informația comună a mai multor v. manifeste
3. Modele de AF • Modelul factorului comun – fiecare variabilă manifestă (v) are două componente • una care decurge din variabila latentă (factor) • alta, care decurge unicitatea acelei variabile (e)
3. Modele de AF A. Analiza factorială exploratorie (AFE) B. Analiza factorială de confirmare (AFC)
A. Analiza factorială exploratorie • Caută o structură latentă în rândul mai multor variabile – tehnică reductivă de identificare a variabilele latente care înglobează anumite variabile observate
• Obiective – determinarea numărului constructelor latente – suport pentru a explica variabilitatea comună – definirea conținutului și semnificației factorilor
• Două metode de realizare 1) Analiza factorilor comuni • prin mai multe tipuri de tehnici
2) Analiza componentelor principale
1) Analiza factorilor comuni (Thurstone) • estimarea varianţei comune la nivelul variabilelor manifeste • presupune căutarea unui anumit număr minim de factori care ”absorb” varianța variabilelor studiate • rezultă întotdeauna mai puţini factori decât numărul variabilelor existente
2. Analiza componentelor principale (Hotteling) • analizează matricea corelațiilor liniare dintre variabile și evaluează varianța comună existentă – extrage factorul care înglobează cea mai mare cantitate de variabilitate – … al doilea factor cu cea mai mare cantitate de variabilitate din cea rămasă – … și așa mai departe
• soluţia finală: atâţia factori câte variabile sunt disponibile – chiar dacă este puţin probabil ca toţi factorii să întrunească criteriile de retenţie • Factorii astfel identificați sunt ortogonali
FC/CP • Deși soluții similare sunt totuși diferite – CP nu este o analiză factorială în adevăratul înțeles
• Analiza factorilor comuni – Urmărește identificarea unui număr relativ mic de factori care să explice varianța comună a variabilelor – Deși are caracter exploratoriu, proiectează un anumit model asupra variabilelor manifeste: • modelul liniar • când liniaritatea nu se confirmă, o ”forțează” – modifica variabilele (neutralizează tendințele curbilinii; valorile excesive) • aspect criticat, dar este un ”sacrificiu util”
FC/CP • Analiza componentelor principale – se limitează la descompunerea algebrică a matricei de date într-o structură de componente (factori) care acumulează o cantitate cât mai mare de variabilitate comună – generează factori ortogonali
FC sau CP? • Subiect controversat – Unii autori susțin evitarea ACP – … alții o recomandă…
• CP recomandabilă atunci când obiectivul analizei este acela de a investiga un volum mare de date – reducerea la o structură care reține cât mai multă variabilitate comună
• FC este recomandabilă dacă scopul analizei este modelarea unei anumite structuri a corelațiilor dintre variabilele manifeste – reprezentare cât mai „economică” a relațiilor dintre variabile
B. Analiza factorială de confirmare (AFC) • cercetătorul are un model aprioric cu privire la structurarea variabilelor – obiectivul AFC este acela de a-l verifica
• Abordări – Metoda tradițională – Modelarea ecuației de structură (Structural Equation Modeling)
• AFE … logică inductiv-epirică • SEM logică ipotetic-deductivă – Are un caracter de testare a ipotezei (potrivirea modelului cu structura variabilelor)
4. Probleme fundamentale ale AF a) Combinarea mai multor variabile într-un singur factor b) Alegerea metodei de extragere c) Indicatori numerici ai factorilor d) Rotaţia factorilor e) Identificarea factorilor
a) Combinarea mai multor variabile într-un singur factor • Imaginea intuitivă a combinării (reducerii) variabilelor este graficul scatterplot al corelaţiei. • Linia de regresie trasată prin norul de puncte al graficului reprezintă „cea mai bună aproximare” a relaţiei liniare dintre cele două variabile. – Valorile care se plasează pe linia de regresie captează „esenţa” variaţiei comune a celor două variabile corelate – procedeu intuitiv echivalent cu ceea ce, în analiza factorială, se numeşte „extragerea componentelor principale”.
b) Alegerea metodei de extragere a factorilor • ACP … sau …? – unweighted least squares – generalized least squares – maximum likelihood • Dacă se respectă condiția de normalitate
– principal axis factoring • Dacă nu se respectă condiția de normalitate
– alpha factoring • maximizează indicele de consistență internă al factorilor
– image factoring • utilizează matricea de corelație a variabilelor prezise pe baza regresiei multiple
c) Indicatori numerici ai factorilor • Valorile factorilor – scorul particular compus prin contribuția variabilelor
• Încărcarea factorilor – coeficientul de corelație dintre variabile și factorii aferenți
• Comunalitatea – pătratul corelației multiple pentru fiecare variabilă manifestă, utilizată drept criteriu, și toți factorii, utilizați drept predictori – procentul varianței unei variabile explicată de factorii reuniți – poate fi interpretată ca siguranța indicatorului reprezentat de acea variabilă
d) rotația factorilor • Soluție inițială – Factorii înglobează o anumită cantitate de varianță comună
• Soluția finală – Maximizarea varianței încorporate în fiecare factor
• Rotația – Modalitate de rotire a spațiului de variație astfel încât varianța să se distribuie ”optim” între factori
d) rotația factorilor • Tipuri de rotație – Ortogonală – Oblică
e) Identificarea factorilor • Alegerea numărului de factori • Denumirea factorilor
Alegerea numărului factorilor • Metoda K1 (Kaiser) – Indici eigenvalue (0-1) • suma coeficienţilor r2 dintre fiecare factor şi variabilele care intră în compunerea lor
– Se rețin factorii cu eigenvalue ≥1 – Subiect controversat… dar este soluția cea mai frecvent utilizată
• Cattel’s Scree test – Explorarea vizuală a graficului valorilor eigenvalue
• Principiul simplității (economiei) și al utilității practice
Denumirea factorilor • Atribuirea semnificației psihologice – Factorii se definesc prin gradul de încărcare („saturaţie”). – Cu cât un factor are o saturaţie mai mare în raport cu anumite variabile, cu atât aceste variabile „acoperă” o semnificaţie comună mai consistentă
• Reguli: – să fie succinţi, exprimaţi, dacă este posibil, printr-unul sau două cuvinte; – să exprime şi să comunice natura constructului la care se referă • Pentru AFC nu se pune problema
– variabilele care intră în compunerea factorilor vor fi analizate sub aspectul semnificaţiei (similitudini) – analizarea variabilelor care nu intră în componenţa unui factor
5. Condiţii preliminare • Variabile măsurate la nivel cantitativ (interval/raport) – pot fi incluse în analiză și variabile ordinale sau chiar dihotomice, chiar dacă, se apreciază că în acest ca factorii vor fi mai greu de interpretat
• Distribuţie normală – condiţie cu atât mai puţin restrictivă cu cât volumul eşantionului este mai mare
• Absența valorilor extreme • Alegerea atentă a variabilelor – variabile nerelevante, sau excluderea unora relevante, afectează calitatea modelului factorial
• Liniaritatea – corelații între variabile (>=0.30)
• Normalitatea multivariată – în absența evaluării directe a acesteia, investigarea normalității univariate este obligatorie
• Existența unor constructe reale – exprimă dimensiuni psihologice existente în realitate
5. Condiţii preliminare • Intercorelații moderate și moderat-ridicate, fără multicolinearitate – indicele KMO poate oferi o indicație utilă cu privire la existența multicolinearității – există un indice KMO pentru fiecare variabilă – suma lor dă indicele global KMO – acesta variază între 0 și 1, iar analiza factorială este justificată dacă valoarea lui este mare (de regulă peste 0.60)
• Eșantion adecvat – structurare factorială puternică: eșantion mai mic – Structurare factorială slabă: eșantion mai mare – este greu de pus în evidență o structură factorială pe un eșantion mai mic de 50 de cazuri, – 100 de cazuri este un eșantion mic – 200 de cazuri sunt suficiente – 300 de cazuri este un eșantion bun – 500 de cazuri este un eșantion foarte buna – iar 1000 de cazuri este excelent
6. Aspecte problematice ale AF • Erorile de măsurare au efect asupra soluției factoriale • Rotația, deși acceptabilă matematic, este discutabilă prin subiectivism • Interpretare dificilă și dependentă de intuiția analistului • În cazul unui număr foarte mare de variabile pot rezulta prea mulți factori pentru a putea fi analizați (înțeleși) • AF nu produce rezultate viabile cu itemi binari! – … corelația tetracorică (nu este efectuată în SPSS)
7. Exemplu de analiză factorială • studiu cu date reale (Popa, 2004), privitor la Inventarul de valori profesionale elaborat de D.E. Super şi adaptat de Chelcea (1994). • 15 valori importante pentru exercitarea oricărei profesiuni: altruism, ambianţa de muncă, avantaje materiale, conducere, creativitate, independenţă, prestigiu, relaţii cu colegii, relaţii cu superiorii, reuşita obiectivată, stimulare estetică, siguranţa postului, mod de viaţă, stimulare intelectuală, varietate. • Analiza preliminară a datelor a relevat faptul că mediile variabilelor tind să fie apropiate, iar matricea de corelaţie arată corelaţii pozitive şi semnificative între aproape toate valorile rezultate (?!). • Ca urmare, am presupus că scorurile celor 15 valori ar putea, de fapt, să varieze concomitent, în funcţie de gruparea întrunul sau mai mulţi factori.
Al
Al
Am
1
-0.17 -0.24
Am 0,24
Av
Co
Cr
In
Pr
Rc
Rs
Ro
Se
-0.12 -0.13 0.18 -0.12
1
-0.23
Sp
Mv
Si
-0.14 -0.21
0.11
-0.22 -0.15
Av
0,37
1
Co 0,21
0,26
0,18
Cr 0,38
0,24
0,35
In
0,21
0,35
0,24 0,35 0,30
Pr
0,27
0,35
0,30 0,48 0,31 0,30
Rc 0,44
0,30
0,11 0,19 0,30 0,16 0,30
0,27
0,48
0,29 0,22 0,22 0,33 0,37 0,29
Ro 0,38
0,46
0,29 0,38 0,44 0,37 0,48 0,36 0,43
Se
0,34
0,34
0,15 0,29 0,48 0,29 0,36 0,28 0,30 0,40
Sp
0,19
0,39
0,40 0,18 0,12 0,19 0,33 0,26 0,39 0,34 0,25
Mv 0,23
0,45
0,42 0,22 0,27 0,36 0,39 0,26 0,39 0,46 0,29 0,34
Si
0,39
0,25
0,16 0,39 0,58 0,30 0,38 0,33 0,25 0,47 0,36 0,15 0,29
Va
0,33
0,26
0,12 0,30 0,59 0,34 0,30 0,28 0,25 0,39 0,41 0,14 0,26 0,53
Rs
-0.27
-0.18
1 1
-0.16 1
Va
-0.14 -0.18 0.15 0.15 -0.16 -0.19 -0.12
-0.26 -0.16
-0.17
-0.23
0.10 -0.27 -0.17 0.23
0.27
-0.11 -0.17
-0.10 -0.15
1
-0.12
-0.19
1
-0.14 1
-0.22 -0.20 1 1
-0.13 1
-0.30 -0.24 1
-0.16 -0.14 1
0.19 1
Procedura de calcul cu SPSS
Statistics-Data reduction-Factor
Descriptives...
Extraction
Rotation:
Scores
• Dacă se doreşte calcularea unui scor individual pentru fiecare factor, se bifează Save as variable. • De regulă, această opţiune nu se selectează decât atunci când se doreşte utilizarea factorilor ca variabile de sine stătătoare. • Cu Display factor score coefficient matrix, se poate solicita afişarea matricii de corelaţia a factorilor. Aşa cum ne amintim, factorii sunt astfel calculaţi încât să fie ortogonali (adică sa coreleze puţin între ei). Ca urmare, această opţiune poate fi, şi ea, ignorată. • Se finalizează cu Continue.
Options
Se executa procedura de analiză factorială cu comanda OK din caseta principală
Analiza rezultatelor
Comunalitatea • porţiunea de variaţie a unei variabile comună cu a altor variabile • Valori foarte reduse ale comunalităţii indică faptul că acele variabile nu sunt bine reprezentate de respectivul model factorial.
Soluţia iniţială
Soluţia după rotaţia factorilor
Concluziile analizei • Factorul I – compus în principal din variabilele creativitate (0.747), stimulare intelectuală (0.716), varietate (0.705), conducere (0.665) – definiţie: „valori de autorealizare, dezvoltare”.
• Factorul II – compus din variabilele avantaje materiale (0.720), siguranţa postului (0.692), ambianţa de lucru (0.684), mod de viaţă (0.665), relaţii cu superiorii (0.627). – definiţie: „valori materiale, siguranţă şi confort”
• Factorul III – compus din variabilele relaţii cu colegii (0.752) şi altruism (0.727). – definiţie: „valori de relaţionare socială”
Consideraţii finale • Odată ales un model factorial de reducere a variabilelor analizate, se poate opta pentru realiza, scoruri individuale pentru fiecare factor, care vor putea fi utilizaţi: – fie pentru diagnostic individual – fie pentru comparaţii între categorii de subiecţi.
• Procedura de analiză factorială generează un mare volum de date numerice. – nu toate vor fi incluse în raportul de cercetare. – vor fi inserate informaţii cu privire la variabilele supuse analizei, statistica descriptivă sumară a fiecărei variabile (medii, abateri standard, skewness, kurtosis), matricea de corelaţie a acestora, tabelul varianţei totale, factorii selectaţi cu variabilele în care sunt saturaţi, varianţa totală explicată de fiecare factor în parte şi a tuturor împreună. – se va avea n vedere, totuşi, ca rezultatele să ofere informaţii consistente, fără a fi excesive.
• Analiza factorială nu face parte dintre procedurile statistice foarte frecvent utilizate. • Rezultatele vor fi exprimate succint, dar clar şi inteligibil, astfel încât semnificaţia lor să fie cât mai accesibilă.
Determinanţi individuali ai stilului de conducere al poliţiştilor Mihaela Grigoraş Ştefan Liţă
• The Leader Behavior Description Questionnaire (LBDQ) – – – – – – – – – – – –
Reprezentativitate: vorbeşte şi acţionează ca reprezentant al grupului. Împăcarea cerinţelor: împacă cerinţele organizaţionale contradictorii şi reduce dezordinea din sistem (entropia sistemului). Tolerarea incertitudinii: este capabil să suporte incertitudinea şi amânarea fără a deveni anxios sau nervos. Puterea de convingere: foloseşte în mod eficient persuasiunea şi discuţia; exprimă convingeri ferme. Structurare: îşi defineşte clar propriul rol şi le aduce la cunoştinţă subalternilor ce aşteaptă de la ei. Tolerarea libertăţii: le oferă subalternilor posibilitatea de a avea iniţiative, de a lua decizii şi de a acţiona. Asumarea rolului: îşi exercită în mod activ rolul de conducător, nu-şi deleagă autoritatea altora. Consideraţie: este preocupat de starea generală şi de statutul subalternilor. Accent pe producţie: exercită presiuni pentru a asigura producţia. Corectitudinea predicţiilor: dă dovadă de previziune, de capacitatea de a prevedea corect rezultatele. Integrare: menţine unitatea grupului pe care îl conduce; rezolvă conflictele apărute între membrii grupului. Orientarea spre superiori: menţine relaţii bune cu superiorii; are influenţă asupra lor; luptă pentru a-şi ridica statutul
.
Dimensiuni LBDQ
Fact. 1
Accent pe producţie Orientarea spre superiori Structurare Reprezentativitate Integrare Asumarea rolului Împăcarea cerinţelor Tolerarea incertitudinii Persuasiune Corectitudinea predicţiilor Tolerarea libertăţii Consideraţie
0,725 0,688 0,679 0,595 0,556 0,501
Fact. 2
Fact. 3
0,808 0,797 0,694 0,611 0,819 0,704
• Factorul I explică 25 % din varianţă şi este saturat în scalele Accent pe producţie, Orientare spre superiori, Structurare, Asumarea rolului, Integrare, Reprezentativitate. – Factor tradiţional
(orientare spre sarcină).
• Factorul II acoperă 20% din varianţă şi cuprinde scalele Împăcarea cerinţelor, Tolerarea incertitudinii, Putere de convingere, Corectitudinea predicţiilor. – factor poate fi numit integrativ şi inovativ • Factorul III explică 11% din varianţă şi este saturat în scalele Tolerarea libertăţii şi Consideraţie. – factor suportiv (orientarea spre relaţii).
Fidelitatea factorilor: consistența internă a scalelor
NOU
• Dacă se intenționează utilizarea factorilor ca variabile de sine stătătoare, este importantă fidelitatea lor • Metoda Alpha Factoring vizează amplificarea consistenței interne • Cronbach alfa este unul dintre indicatorii fidelității; alții: – – – –
ro al lui Raykov teta al lui Armor ro al lui Spearman (altul decât corelația ordinală) lambda 2 (λ2) din seria celor 6 coeficienți lambda ai lui Gutmann • lambda 3 (λ3) este Cronbach alfa
Câteva precizări de final de semestru: •
•
•
Examen: – 7 iunie - PORU+SOPO, ora 18 – 11 iunie - PASN, ora 18 Evaluarea practică de seminar – 21; 23; 24 mai la orele din program – miercuri 23 mai și joi 24 mai voi fi la laborator cu o oră mai devreme (pentru a câștiga timp) Workshop ”Introducere în modelarea ecuației de structură” (gratuit) – cei care sunt interesați, îmi vor trimite un email, până pe 24 mai, cu: • Subject: Workshop SEM - 2102 • precizarea opțiunii de participare • masterul la care sunt înscriși – după constituirea listei voi trimite pe adresa celor înscriși propuneri cu privire la data workshop-ului • perioada probabilă: 28 mai- 2 iunie