Guia Prático do SPSS
Utilização do SPSS (S t ta a t t i i s s t ti i c ca a l l P a ac c k k a a g g e e f o or r t h he e S o oc c i i a a l l S c ci i e e n n c c e e s s )
– Guia Prático I –
2
Utilização do SPSS (S t ta a t t i i s s t ti i c ca a l l P a ac c k k a a g g e e f o or r t h he e S o oc c i i a a l l S c ci i e e n n c c e e s s )
– Guia Prático I –
2
Programa “Utilização do SPSS” 1. Introdução 2. Origem 3. Abordagem conceptual 4. Áreas de interesse 5. Ambiente de trabalho 6. Criação de ficheiro de dados 7. Importação de ficheiros 8. Análise estatística de dados 9. Análise de gráficos 10. Ajuda - Utilização do tutorial Bibliografia •
PESTANA , M. H., GAGEI RO, J. N., Anális e de Dados para Ci ências So ciais – a complem entaridade do SP SS, Ed. Sílabo, 1998
•
PEREIRA, Alexandre, SPSS – Guia prático de utilização – Análise de Dados para Ciências Sociais e Psicologia, Ed. Sílabo, Lisboa, 1999
•
HILL
MAGALHÃES,
Manuela,
Hill,
ANDREW,
Investigação
por
Questio nário, Ed. Sílabo, Lisboa, 2000 . •
Site: www.spss.com
3
1. Introdução O
1.1 Objectivo: Dotar
os formandos de conhecimentos básicos para a utilização de determinadas técnicas para a obtenção e análise de resultados estatísticos.
1.2 Requisitos básicos: Estatística
(ou que utilizem como apoio um livro de estatística).
Informática
(windows,..).
1.3 Resultados esperados: Introduzir
dados num novo ficheiro; gravar ficheiros e abrir ficheiro criado anteriormente; definir e transformar variáveis;
Importar
dados do Excel e de outras aplicações;
Analisar
dados (estatística univariada e bivariada, tabelas e gráficos);
Executar
alguns procedimentos de estatística inferencial. 4
2. Origem Universidade
de Londres nos anos 60. Tornou-se muito popular no meio académico a partir da década de 70;
Além do SPSS, foram desenvolvidos na década de 60 vários softwares estatísticos. De entre esses, podem ser citados: SAS
(Statistic Analysis System): foi desenvolvido na Universidade da Carolina do Norte; é semelhante ao SPSS; contém vários módulos; é muito popular nos institutos de pesquisa;
"BMD"
( Biomedical ): Computer Programs desenvolvido na Universidade da Califórnia.
EPINFO:
foi desenvolvido sob os auspícios da ONU, para ser utilizado e popularizado na área médica; possui diversos módulos estatísticos; todavia, tecnicamente constitui um software limitado, principalmente quanto aos seus recursos gráficos;
5
SPHINX:
é originário da França; possui particularidades como a capacidade de realizar análises lexicais, factoriais e de correspondências múltiplas; ao contrário dos softwares tradicionais, possui uma visão dos dados que vai do particular ao geral;
Alguns endereços estatísticos: ♦
www.spss.com — é o site do SPSS com alguns links interessantes.
♦
www.statsoft.com — é o site de um pacote menos conhecido, chamado Statistica.
♦
www.statsoft.com/textbook/stathome.html
trochim.human.cornell.edu/selstat/ssstart.htm — é um site para seleccionar procedimentos
♦
estatísticos. ♦
www.ats.ucla.edu/stat/ — é o site sobre recursos académicos da Univiversidade Califórnia Los Angeles (UCLA).
6
3. Abordagem conceptual Segundo alguns especialistas, o SPSS é: uma
poderosa ferramenta informática que permite realizar cálculos estatísticos complexos, e visualizar os seus resultados, em poucos segundos, (Pereira, 1999).
Uma
das muitas aplicações para o tratamento estatístico de dados disponíveis e das mais divulgadas no mundo inteiro (Fonseca & Silva, 2003).
Um
software útil para gerir e analisar estatisticamente uma matriz de dados. Processa em ambientes DOS e Windows e possui uma visão que vai do geral para o particular.
Um poderoso software estatístico especialmente desenvolvido para a utilização por profissionais de ciências humanas. Diferentemente de outros pacotes estatísticos existentes no mercado, o SPSS apresenta uma interface bastante amigável ao usuário, facilitando em muito suas análises estatísticas (Valentim, Fernando, 2001:
[email protected])
7
4. Áreas de interesse O SPSS pode ser utilizado nas mais diversas áreas do conhecimento e aplicações:
Marketing Psicologia Administração Educação Ciências Sociais Serviço Social Economia Governamental Finanças Saúde Pública Pesquisa de Mercado Pesquisa Social Pesquisa Eleitoral Pesquisa de Opinião Pesquisa de Mídia
Investigação cientifica.
8
5. Ambiente de trabalho 5.1 Janelas
Há oito tipos de janelas/windows no SPSS:
Figura 1 – Lista de janelas do SPSS. 9
Data Editor – A janela que apresenta o conteúdo do ficheiro de
dados. Os dados podem ser criados ou modificados através desta janela. Só é possível ter uma destas abertas num dado momento. É a primeira janela que abre quando inicia o SPSS.
Barra de menus
Barra de ferramentas
Barra de estado Figura 2 – Janela de edição de dados
Folha de edi ão de dados Modo de visualização de dados
Modo de visualização e definição das variáveis.
10
Viewer
(Output)
Janela onde são apresentados todos os resultados estatísticos, tabelas, gráficos, etc. Abre automaticamente, sempre que um determinado procedimento gera resultados. É composto por duas sub janelas: à esquerda está um organigrama do output: à direita estão os resultados propriamente ditos. –
Figura 3 – Janela de visualização de resultados.
Draft Viewer
– Os resultados podem ser apresentados em forma de texto (instead of interactive pivot table) no Draft Viewer.
Pivot Table Editor – permite editar e modificar tabelas (editor da
tabela dinâmica). Pode editar-se o texto, trocar os dados de linhas com colunas, adicionar cor, criar tabelas multidimensionais, etc.
11
Chart Editor – permite editar e modificar gráficos. Podem alterarse as cores, seleccionar tipos e tamanhos de letras, trocar os eixos vertical com horizontal, fazer rotações, etc.
Figura 4 - Janela de edição de gráficos.
Text Output Editor – permite alterar texto que não seja visível no Pivot Table Editor.
Pode alterar-se com o tipo, tamanho, cor e estilo das letras.
Syntax Editor – Todos os comandos emitidos a partir dos menus
do SPSS podem ser apresentados numa janela de sintaxe. Para isso, utiliza-se o comando Paste das caixas de diálogo.
Script Editor – Janela de programação que permite personalizar e automatizar programas).
tarefas
do
SPSS
(pequenos
12
5.2 Menus File Edit View Data Transform Analyze Graphs Utilities Windows Help Tabela 1 – Menu da Janela de dados
Menu
File Edit View Data Transform Analyze Graph Utilities Add-ons Windows Help
Funcionalidades Criar, abrir, ler, gravar ou imprimir ficheiros. Modificar, copiar ou colar textos das janelas de output ou de sintaxe; pesquisa de dados e parametrização de opções diversas. Activar diversas barras de ferramentas/botões, fontes, grelhas, barra de status e mostrar os rótulos (labels) definidos. Alterar globalmente os dados tais como: transpor variáveis e casos, criar subconjuntos de casos para análise, inserção de dados. Obs: Estas alterações são temporárias e não afectam o ficheiro, excepto se for efectuada uma gravação com estas alterações. Produzir alterações nas variáveis seleccionadas e, calcular novas variáveis a partir de valores de outras já existentes. Obs: Estas alterações só serão efectivas se forem gravadas. Seleccionar vários procedimentos estatísticos como a análise descritiva, cruzamento de variáveis, análise da variância, correlações, regressões, clusters, séries, amostras, análise multivariada, estatísticas não paramétricas, etc. Criar gráficos de colunas, de sectores, histogramas, diagramas de dispersão, etc. Obter informação acerca das variáveis, controlar lista de variáveis que aparece nas caixas de diálogos, correr scripts e alterar menus. Comutar entre as várias janelas do SPSS ou minimizá-las. Ajudar o funcionamento do SPSS. Ligar à Página do SPSS na Internet.
13
6. Criação de Ficheiro de dados 6.1 Introdução de dados Aspectos a considerar:
Muitas das características da Janela do Data Editor do SPSS são similares às de qualquer folha de calculo em ambiente Windows, tal como o Excel.
As colunas correspondem às variáveis (ou campos). E as linhas aos casos (ou registos).
As células podem apenas conter valor (numéricos e não numéricos); não é possível, tal como se faz nas folhas de cálculos, definir fórmulas nas células.
Definição das variáveis (Data
Define Variable):
O primeiro caracter deve ser uma letra; os restantes podem ser numéricos ou não numéricos; ou mesmo incluir certos símbolos (@, #, _, ou $). Não deve incluir espaços em branco ou conter os símbolos: &, !,? ou *.
As palavras ALL, NE, EQ, TO, LE, LT, BY, OR, GT, AND, NOT, GE, WITH não podem constituir nomes para as variáveis. Estão reservadas para a Syntax.
Deve indicar o tipo da variável: numérico, textos/não numéricos ( string), data ( date), etc; descrever a variável e dos seus valores (rótulos/ labels); e codificar os valores em falta/sem informação ( missing values ).
Obs: É recomendável definir uma variável qualitativa como numérica e
depois atribuir os rótulos ou labels . Por exemplo, a variável sexo: digitar 1 para sexo feminino e 2 para sexo masculino e nos labels colocar a equivalência.
14
Exemplo 1 - Considere um exemplo prático. Número de linha
Nome da variável
Editor de Célula
Célula activa
Figura 5 – Introdução de dados
1. Guarde o ficheiro: File Save nomeficheiro (osvaldo.sav) 2. Produza: Tabela de frequências para a variável ano. Analyze Descriptive Statistics Frequencies variável 3. Repita a alínea 2) para as outras variáveis. 4. Feche todas as janelas do SPSS. Abra de novo o SPSS. 5. Abra o ficheiro de dados introduzido anteriormente: File Open nomeficheiro 6. Utilize no menu Edit as opções (copiar, apagar, paste, find, ...) 7. Introduza/Insira 5 novos casos: Data Insert Case 8. Insira 2 novas variáveis: Data Insert variable 15
Depois de efectuar o exemplo anterior, faça o seguinte: 9. Seleccione as variáveis sexo, idade, ano e turma e construa as frequências e os respectivos gráficos de barras.
Figura 6 – Selecção de variáveis
10. Cruze as variáveis ano e sexo. Analyze
Descriptive Statistics
Crosstabs
ANO * SEXO Crosstabulation Count SEXO f 7 ANO
8 9
2 2
10 Total
4
m
Total
4
4 2 3 1 10
1 1 6
Obs: Este resultado foi obtido para 10 casos/indivíduos. 16
11. Repita o procedimento utilizado em 10), separando os resultados por turma.
Split File: permite dividir uma qualitativa/categórica por grupos. Data
Split File
variável
Organize output by groups
Figura 7 – Divisão de ficheiro
A seguir, cruze as variáveis ano e sexo.
Para anular o Split File, deve fazer:
Data
Split File
Analyze all cases, do not create groups
12. Seleccione apenas os alunos do sexo feminino.
Select Cases: Selecciona determinados casos.
Data
Select Cases
if condition, is satisfied
17
Figura 8
18
6.2 Transformação de variável (TRANSFORM ) Transform
Função
Compute
Calcula uma nova variável a partir de outras já existentes, podendo usar todas as funções matemáticas e estatísticas
Como accionar e os subcomandos
Colocar o nome da nova variável em target variable . Em numerical expression colocar as variáveis existentes e as operações entre elas. Por exemplo: soma=a1+a2+a3+a4. Ainda, pode seleccionar casos utilizando a condição if . Random Number Serve para gerar um número aleatório Seed Recode
Rank cases
Recodifica variáveis
Into the same variable: altera os valores da variável e guarda as alterações na mesma variável. Seleccionar a variável e entrar em Old and new values, e a cada valor antigo colocar o valor novo e adicionar clicando add, no fim dar continue. • Into the diferent variable: cria uma nova variável em função de uma já existente, seguir o mesmo esquema do item anterior. Atribui postos na variável segundo uma outra. •
Automatic recode Cria uma nova variável com o mesmo conteúdo da
variável desejada Run Pending Roda as transformações pendentes transforms Create Time Series
Cria séries temporais.
19
7. Importação de ficheiros O SPSS dispõe de procedimentos de importação de ficheiros criados noutras aplicações designadamente folhas de cálculo (Lotus 123, Excel), bases de dados (dBase, Access), ficheiros ASCII (separados por tabulações, vírgula, espaços), etc. IMPORTAÇÃO DE FICHEIROS DE EXCEL File
Open
Figura 9 – Tipos de ficheiros
Nesta janela deve:
Procurar a pasta onde se encontra o ficheiro; Especificar Excel e seleccionar a opção (*.xls).
Aparece de seguida uma caixa de diálogo, onde se especifica se as primeiras células contêm os nomes das variáveis (se sim activar Read variable names) e o intervalo (rectangular) de células (no exemplo, A1:B11). Por último, o SPSS cria um ficheiro com tantas variáveis quantas as colunas e tantos casos quantas as linhas do bloco especificado. Não se esqueça de guardá-lo na sua pasta (extensão .sav ).
20
8. Análise de estatística de dados (STATISTICS)
O SPSS apresenta um conjunto de funções e procedimentos avançados para a análise estatística de dados, os quais se encontram sob o comando Analyze (Análise de dados).
8.1 Tabelas de Frequência Antes de dar início à apresentação das diferentes funções estatísticas, aconselha-se a interpretação das tabelas de frequência ( frequency). Considere o seguinte exemplo: Ano de Escolaridade
7 8 Valid
9 10 Total
Frequency
Percent
Valid Percent
18 14 11 7 50
36,0 28,0 22,0 14,0 100,0
36,0 28,0 22,0 14,0 100,0
Cumulative Percent
36,0 64,0 86,0 100,0
Interpretação:
Dezoito (18) alunos frequentam o 7º ano de escolaridade. Ou seja, 36% dos alunos estão a frequentar o 7º ano. ... 28% o 8º ano de estudo. ...
Há 64% de inquiridos estudam o 1º ciclo do ensino secundário (7º e 8º anos de escolaridade). Por outro lado, 36% frequentam o 2º ciclo (9º e 10º anos de escolaridade).
...
21
8.2 Análise de Relatórios (Reports)
O SPSS produz pequenos relatórios, contendo medidas estatísticas. Por exemplo, para seleccionar uma ou mais variáveis (ou categorias de variáveis), utiliza-se o seguinte procedimento: Analyze
Reports
OLAP Cubes...
OLAP: Online Analytical Processing.
Figura 10 •
Ainda, pode-se seleccionar diferentes medidas estatísticas, clicando no Statistics.
Figura 11 22
8.3 Medidas Estatísticas (Statistics) 8.3.1 Descritivas (Descriptives statistics)
O SPSS apresenta as medidas:
Localização Tendência não Central
Figura 12 – Estatísticas Descritiva
Dispersão (ou variabilidade)
Localização/Posição (Tendência Central)
Assimetria e Achatamento/Curtose
Podem ser obtidas de 2 formas:
Analyze
Descriptive Statistics
Frequencies
Statistics
Descriptive Statistics
Descriptive
Options
Ou
Analyze
23
Medidas de Tendência Central – medida de tendência central mais utilizada, sendo definida como o resultado da divisão da soma de todos os valores observados pelo número total de observações.
Mean (Media)
– valor central (meio) de uma distribuição; divide a distribuição em 2 partes iguais, tendo assim, 50% dos dados à sua direita como à sua esquerda.
Median
(Mediana)
- valor que ocorre com maior frequência numa distribuição. Ela pode não existir e, quando existe, pode não ser única.
Mode (Moda)
Medidas de Tendência não Central (ou de ordem) – são 3 pontos (Q1, Q 2 e Q 3) que dividem um conjunto de dados em 4 partes iguais: o Q 1 (1º Quartil) é precedido de 25% dos valores e sucedido por 75%; o Q2 tem abaixo de si 50% dos valores e acima de si também 50% e, por esta razão, coincide com a Mediana; o Q 3 é antecedido de 75% dos valores e seguido por 25% dos mesmos.
Quartiles (Quartis)
n equal groups – definem outros separadores: Decis (dividem em 10 partes iguais: D1, D2,...., D9), Percentis/centis (dividem em 100 partes iguais: P1, P2 ,....,P99), ....
Cut points for
Percentile(s):
permitem especificar o percentil pretendido, (por exemplo, 67º, 15º, ....)
Medidas de Dispersão (ou variabilidade)
24
– mais importante medida de dispersão, sendo definida como a raiz quadrada da variância. Variance (Variância) – média dos quadrados dos desvios de cada valor em relação à sua média. Contudo, a sua utilização como medida descritiva ocasiona alguma dificuldade (sobretudo de interpretação) visto que se trata, por definição, de uma média quadrática, não possuindo a mesma unidade de medida dos dados originais. Std deviation (Desvio Padrão)
– diferença entre os valores máximo e mínimo do conjunto de dados.
Range (amplitude do intervalo de variação)
Mínino (Minimum) – valor mínimo de uma distribuição. Máximo (Maximum)
– Valor máximo de uma distribuição.
– quociente entre o desvio padrão e a raiz quadrada da dimensão da amostra. Indica a variabilidade da média aritmética entre amostras tiradas da mesma população. Esta
S.E. Mean (Estimativa do Erro amostral)
medida permite a construção dos intervalos de confiança sobre o valor da média da população . Intervalo Interquartil (Interquartile Range): Q 3 - Q1 .
Medidas de Assimetria A medida de assimetria utilizada pelo SPSS é dada pelo quociente entre o Skewness e o seu Std Error. O resultado desse quociente deve ser analisado da seguinte forma: Assimétrica negativa
-2
Não rejeitar a simetria
-2
0
Assimetria positiva
+2
+2
Medidas de Achatamento (ou curtose) A divisão do Kurtosis pelo seu Std Error dá o coeficiente de achatamento (k). Quanto à forma de achatamento, uma 25
distribuição pode ser Mesocúrtica (k igual a 0), Platicurtica (k menor que -2) e Leptocúrtica (k maior que +2). Exemplo 4. Considere o seguinte output. Statistics IDADE
50 0 12,78 ,25 13,00 14 1,80 3,24 -,554 ,337 -1,093 ,662 5 10 15 639 10,75 13,00 14,00
Valid
N
Missing
Mean Std. Error of Mean Median Mode Std. Deviation Variance Skewness Std. Error of Skewness Kurtosis Std. Error of Kurtosis Range Minimum Maximum Sum 25 Percentiles
50 75
IDADE
10 11 12 Valid
13 14 15 Total
Frequency
Percent
Valid Percent
12 1 3 12 14 8 50
24,0 2,0 6,0 24,0 28,0 16,0 100,0
24,0 2,0 6,0 24,0 28,0 16,0 100,0
Cumulative Percent
24,0 26,0 32,0 56,0 84,0 100,0
26
Interpretação:
A idade média dos inquiridos é de 12,78 anos (Mean). A mediana ou precentil 50 indica que metade dos alunos tem até 13 anos. Na tabela de frequência, a mediana é a idade que acumula até si metade (50%) das observações, isto é, a idade que corresponde ao Cumulative Percent imediatamente superior a 50 (13
Cumulative
Percent=56,0), (Median). O quociente entre o desvio padrão (1,80) e a raiz quadrada da dimensão da amostra (n=50) é 0,25. Significa que a variação entre a média calculada (12,78) e a média de outras amostra aleatórias de igual dimensão é de 0,25 anos (Std Error Mean).
A maioria dos alunos tem 14 anos (Mode).
A variância é de 3,24. O desvio padrão igual a 1,80 denota uma baixa dispersão (coef.variação, 1,80/12,78=14%). Quanto menos dispersos estiverem os valores da variável idade relativamente à média, menor
será o desvio padrão, e vice versa (Variance e Std Deviation). O coeficiente de skewness é de –0.554 e o seu Std Error (estimativa do erro) é de 0.337. O quociente entre estes dois valores é igual a –1.64. Como o resultado é negativo e menor que 2, pode-se concluir que a distribuição é assimétrica negativa. Na prática, faz-se a diferença da média e da moda e divide-se pelo desvio padrão. Neste caso, esta diferença é negativa, - 0.68, e a conclusão é a mesma. Kurtosis/Std Error Kurtosis=-1,65. Como é menor que –2, diz-se que
a distribuição é Platicúrtica (mais achatada do que a normal). As idades variam entre os 10 (Mínimo) e os 15 (Máximo), sendo a amplitude do intervalo de variação de 5 anos (Range). A soma de todas idades é de 639 (Sum).
Percentil 75: Significa que 75% dos inquiridos têm até 14 anos.
27
Distribuição normal
O SPSS apresenta o histograma com a distribuição normal sobreposta. Recorda-se que a distribuição normal é: Teórica, contínua, simétrica e mesocúrtica; Tem a forma de um sino e é definida com base em dois parâmetros: média e desvio padrão. O ponto máximo da distribuição é a média.
Analyze
Descriptive Statistics
Frequencies
Chart
Figura 13 – Histograma com normal sobreposta
Veja o Output: IDADE 16 14 12 10 8 6
y c n e u q e r F
4 Std. Dev = 1,80 2
Mean = 12,8 N = 50,00
0 10,0
11,0
12,0
13,0
14,0
15,0
IDADE
Figura 14 – Histograma com normal sobreposta
O histograma acima com ajustamento à distribuição normal tem o aspecto onde sobressai o enviesamento da amostra para a direita em 28
relação à distribuição teórica, bem como um achatamento um maior que o que seria de esperar.
Opção Explore - calcula as estatísticas, e elabora o gráfico caule-e-folhas e o gráfico de extremos-e-quartis, muito útil para analisar a amostra em termos de concentração ou dispersão dos valores por intervalos quartílicos, bem como a sua simetria; além disso, é uma boa ferramenta de verificar se há observações “outliers”, isto é, observações extremas que se afastam muito da média dos valores da amostra. Analyze
Descriptive Statistics
Explore
Selecciona-se a variável a analisar (idade), tal como descrito atrás. De seguida, seleccionar o botão, Statistics.
Figura 15
Faça Continue para voltar ao Explore. Escolha, de seguida a opção Plots. Seleccione histograma. Faça Ok e analise o Output.
Figura 16 29
Faça Explore, utilizando o Factor List para a variável Sexo. Teste de Normalidade
Testa a hipótese de que os dados da amostra estão normalmente distribuídos.
Analyze
Descriptives statistics
Explore
Plots
Figura 17
A tabela Teste de Normalidade (Tests of Normality) mostra os resultados do Teste de Kolmogorov Smirnov (K-S). Se a amostra tiver menos de 50 casos o SPSS também calcula o teste de Shapiro-Wilk .
Tests of Normality a
Kolmogorov-Smirnov IDADE
Shapiro-Wilk
Statistic
df
Sig.
Statistic
df
Sig.
,229
50
,000
,824
50
,010**
**. This is an upper bound of the true significance. a. Lilliefors Significance Correction
. Um baixo valor de significância (é geralmente considerado
baixo se Sig. < 0.05) indica que a distribuição dos dados difere significativamente de uma distribuição normal. 30
Intervalos de Confiança sobre a média (IC ) Média: 12,78 com o Std Error = 0,25
Níveis: Confiança de 95%
Significância (risco) de 5%
Figura 18
Resultado: IC95% = ] 12,27 ; 13; 29[ Significado: Existe uma probabilidade de 95% para que o valor desconhecido da média da população pertença ao intervalo ]12,27 ; 13; 29[. Ou seja, com 95% de confiança, a verdadeira média da população deverá pertencer ao intervalo de 12,27 a 13,29.
Este intervalo de confiança só tem interesse se os valores em causa são de uma amostra seleccionada aleatoriamente de uma população mais vasta.
Níveis: Confiança de 99%
Significância (risco) de 1%
Figura 19
31
Resultado: IC99% = ] 12,10 ; 13; 46[ Conclusão: Diminuindo o nível de significância (risco) implica um aumento do intervalo de confiança.
8.3.2 Análise Inferencial 8.3.2.1 Análise Bivariada: Cruzamentos e Medidas de Associação (Crosstabs) "p" (nível de) significância estatística (Asymp. Sig.). – Prob. Geralmente, em ciências sociais, quando estas probabilidades (Asymp. Sig.) são inferiores a 5%, ou seja, há menos de 5 possibilidades em 100 de suceder um determinado resultado, considera-se que são estatisticamente significativas. Variável Qualitativa – Nominal Independência Estatística – utiliza-se normalmente o Teste de Qui-Quadrado de Pearson, 2. As hipóteses do Teste de Qui-Quadrado são: H0 (Hip. Nula): As variáveis turma e sexo são independentes. Ha (Hip. Alternativa): As variáveis turma e sexo são dependentes (existe uma relação entre as 2 variáveis).
Analyze
Descriptive Statistics
Crosstabs
Statistics
32
Figura 20
Resultado: Chi-Square Tests Value
Pearson Chi-Square
36,883a
df
Asymp. Sig. (2-sided)
2
,000
2
,000
Continuity Correction Likelihood Ratio
40,291
Linear-by-Linear Association N of Valid Cases
50
a. 2 cells (33,3%) have expected count less than 5. The minimum expected count is 3,90.
Conclusão :
Como o nível de significância do teste de Qui-Quadrado é de 0,000, valor inferior a 0,05 (5% de signficância fixada), rejeita-se a hipótese de serem independentes (H0), ou seja, há evidência/significância estatística para aceitar a hipótese alternativa de que são dependentes (existe relação entre 2 variáveis). Portanto, pode-se inferir a relação de dependência observada na amostra para o universo/população em estudo.
33
Medidas de Associação – baseadas no Teste de Qui-Quadrado Symmetric Measures
d
Value Phi Nominal by Nominal
Cramer's V Contingency Coefficient Kendall's tau-b
Ordinal by Ordinal
Kendall's tau-c Gamma
Measure of Agreement
Kappa
N of Valid Cases
Asymp. a Std. Error
,859 ,859 ,652 -,117 -,122 -,162 ,c 50
,132 ,136 ,179
b
Approx. T
Approx. Sig.
-,893 -,893 -,893
,000 ,000 ,000 ,372 ,372 ,372
a. Not assuming the null hypothesis. b. Using the asymptotic standard error assuming the null hypothesis. c. Kappa statistics cannot be computed.They require a symmetric 2-way table in which the values of the first variable match the values of the second variable. d. Correlation statistics are available for numeric data only.
Significado: Todos esses testes indicam que existe uma associação forte entre as duas variáveis devido aos seus altos valores. O teste Phi só se aplica para tabelas 2 x 2. Variáveis Quantitativas – aplica-se às variáveis quantitativas. Varia entre –1 (negativa) e 1 (positiva). Coeficiente de Correlação de Pearson
Quanto mais próximo estiver dos valores extremos maior e a associação linear. Associação ou Correlação Negativa :
variação entre as variáveis for em sentido contrário (aumento de uma variável está associada à diminuição de outra).
: variação entre as variáveis for no mesmo sentido.
Associação ou Correlação Positiva
Analyze
Correlate
Bivariate
variáveis
34
Figura 21
Variáveis Ordinais Coeficiente de Spearman – utiliza-se para as variáveis ordinais.
8.3.2.2 Regressão (Regression) Modelo estatístico usado para prever o comportamento de uma variável contínua (variável dependente ou Y) a partir de uma ou mais variáveis (var. independentes ou X). Modelo de Regressão Linear Simples (MRLS): Quando existe apenas uma variável independente. Modelo de Regressão Linear Múltipla (MRLS): Quando existe mais do que uma variável independente. Modelo de Regressão Linear Simples (MRLS): permite encontrar a recta que melhor representa a relação entre 2 variáveis (X e Y).
35
Y = aX + b, em que, Y: var. dependente/explicada X: var. independente/explicativa a: declive ou inclinação b: ordenada na origem (CONSTANT)
Para proceder ao cálculo da equação da recta de regressão linear, deve executar o seguinte procedimento:
Analyze
Regression
Linear
Figura 22
Resultado da regressão linear Coefficientsa
Unstandardized Coefficients
Model 1
(Constant) ALTURAP
B
Std. Error
,238 ,858
,276 ,154
Standardi zed Coefficient s Beta
t
Sig.
,892
,864 5,574
,413 ,001
a. Dependent Variable: ALTURAF
v
Ordenada na ori em Figura 23
0.01<0.05 .... H0 é rejeitada para o nível de si nificância de 5% 36
Equação da recta
ALTURAF = 0.858ALTURAP + 0,238
Interpretação: a = 0,858 - Por cada aumento de uma unidade na altura dos País (X) implica um aumento de 0.858 na altura dos Filhos (Y). O valor positivo indica de que a recta cresce da esquerda para a direita. Se o declive fosse negativo, a recta decresceria da esquerda para a direita. b = 0,238 – Para ALTURAP=0
ALTURAF=0,238.
Método utilizado: Mínimos Quadrados (MMQ). Exercício: Se um Pai tiver 1,95 m de altura, a altura do Filho será 1,91, aproximadamente. Coeficiente de determinação (R2 e R2 Ajustado) – indica a qualidade do ajustamento da recta estimada aos dados. Model Summaryb
Model 1
R
,892a
R Square
Adjusted R Square
Std. Error of the Estimate
,795
,770
4,638E-02
a. Predictors: (Constant), ALTURAP b. Dependent Variable: ALTURAF
Coeficiente de correlação Coeficiente de determinação Cerca de 80% (79,5%) da variação da variável dependente (ALTURAF) em torno da sua média é explicada pela regressão, ou seja, o modelo explica 80%. Portanto, considerase um bom ajustamento. 37
Teste T – testa a hipótese dos parâmetros, individualmente, serem nulos. Como o Sig.do Teste T é de 0,01, valor inferior a 0.05 (5%), pode-se concluir que a variável ALTURAP é diferente de zero, isto é, esta variável é estatisticamente significativa. Entretanto, a conclusão não é a mesma para a CONSTANT.
Teste F – valida, em termos globais o modelo, e não cada um dos parâmetros isoladamente. ANOVAb Model Regression 1
Residual Total
Sum of Squares
df
6,683E-02 1,721E-02 8,404E-02
1 8 9
Mean Square
6,683E-02 2,151E-03
F
31,072
Sig.
,001a
a. Predictors: (Constant), ALTURAP b. Dependent Variable: ALTURAF
Como o Sig.do Teste F é de 0,01, valor inferior a 5%, pode-se concluir que o modelo é adequado para descreve esta relação, ou seja, o modelo é estatisticamente significativo.
Diagrama de Dispersão (ou de pontos) I.
Graphs
Scatter
Simple
Define
II. Escolha as variáveis dependente e independentes III. Label Cases by colocar o nome da variável que identifique os pontos nos gráficos. Seleccione Options e active Display chart with case labels.
38
Figura 24
Resultado: Utilizando o ajustamento da recta. 2,0 Elmano, Pedro
1,9 Antonio, Joao Elton, Elio Mapa, Melo
1,8
Leao, Santos Pedro, Jorge Tavares, Silva
1,7
Lito, Silva Montei ro, Pina
F A R U T L A 1,6
Borges, Elzo
1,6
1,7
1,8
1,9
2,0
ALTURAP
Figura 25
39
Tabela 2 - Procedimentos de estatística: descritiva, inferencial e multivariada disponíveis pelo SPSS. Analyze
Sub-comandos
Função
Summarize Descriptives Frequencies statistics Descriptives
Compare means
ANOVA models
Correlate
Calcula a tabela de distribuição de frequências. Calcula as principais estatísticas descritivas. Faz uma análise completa das Explore variáveis, podendo ainda repetir essas análises por outra variável. Calcula a tabela de distribuição de Crosstabs frequências cruzadas, calcula o teste Qui-quadrado e o Coeficiente de Pearson para associação de variáveis e outros testes. Lista casos escolhendo as List cases variáveis desejadas Report Summaries Organiza relatórios em linhas, segundo uma variável in Rows Calcula a média, o desvio padrão, Means soma, etc. das variáveis desejadas. Calcula o teste de diferença de Independent– duas médias de populações sampled T-test independentes Paired-sampled T- Calcula o teste de diferença de duas médias de populações test emparelhadas. One-Way ANOVA Testa a diferença de médias de mais de duas amostras Testa a diferença de médias do Simple factorial modelo fatorial General factorial Testa a diferença de médias do modelo geral Calcula o teste de análise de Multivariate variância multivariada Calcula a matriz de correlação, Bivariate tomando as variáveis de duas em duas. Partial Calcula o coeficiente de correlação Distances 40
Regression
Linear Logistic Probit Nonlinear
Loglinear
General Hierarchical Logit K-means cluster Hierarchical clusters Discriminant Factor
Classify
Data Reduction Scale
Non Parametric Test
Survival Multiple response
parcial. Calcula a distância euclidiana entre os casos. Ajusta o modelo de regressão linear Ajusta o modelo de regressão logística Ajusta o modelo Probit Ajusta um modelo não linear
Análise de clusters Análise de clusters hierárquicos Análise discriminante Análise factorial
Reliabity analysis Análise de confiabilidade Multidimensional Scaling Testes não paramétricos ou de Chi-square distribuição livre Binomial Runs 1-Sample K-S 2-Independent Samples k-Independent Samples 2-Related Samples K-Related Samples
Análise de sobrevivência Análise de respostas múltiplas
Obs: As versões mais recentes do SPSS (11.0) apresentam mais procedimentos estatísticos.
41