Estatistica Não Parametrica_testes de Hipoteses e Medidas de Associação

Universidade dos Açores Departamento de Matemática

Estatística Não Paramétrica

Testes Te stes de Hipóteses Hipót eses e Medidas Medidas de Ass ociação oci ação

Discente: Filipe Gago da Câmara Docente: Dr. Osvaldo Silva

Ponta Delgada, 29 de Junho de 2001

Índice

Teste de Hipóteses...................... Hipóteses ............................................. .............................................. .............................................. .............................................. ........................... ....11 Introdução.............................................................. Introdução....................................... .............................................. .............................................. ..............................................3 .......................3 Capitulo 1: Caso de uma amostra...................... amostra ............................................. .............................................. .............................................. ........................... ....66 1.1 Teste da Binomial..................... Binomial ............................................ .............................................. .............................................. ..........................................6 ...................6 2 1.2 Teste do Qui-Quadrado ( χ ) para uma amostra ........................................... ............................................................10 .................10 1.3 Teste de Kolmogorov-Smirnov .............................................. ..................................................................... ........................................12 .................12 1.4. Teste de Iterações de Uma Amostra .............................................. ..................................................................... ................................ .........17 17 Capítulo 2: Caso de duas amostras relacionadas relacionadas...................... ............................................. .............................................. ...........................23 23 2.1 Teste dos Sinais ........................................... .................................................................. .............................................. ............................................23 .....................23 2.2 Teste de McNemar .............................................. ..................................................................... .............................................. .................................... .............25 25 2.3 Teste de Wilcoxon ........................................... .................................................................. .............................................. ........................................28 .................28 Capitulo 3: Caso de duas amostras independentes....................... independentes .............................................. ............................................32 .....................32 3.1 Teste de Iterações de Wald-Wolfowitz Wald-Wolfowitz ............................................. .................................................................... ............................. ......32 32 3.2 Teste U de Mann-Whitney ............................................. .................................................................... .............................................. ...........................37 37 3.3 Teste de Moses para reacções extremas ............................................ ................................................................... ............................. ......41 41 2 3.4 Teste da Qui-Quadrado ( χ ) para duas amostras independentes..................................44 Capítulo 4: Caso de k amostras relacionadas .............................................. ..................................................................... ............................. ......50 50 4.1 Teste Q de Cochran ............................................ ................................................................... .............................................. .................................... .............50 50 4.2 Teste de Friedman ........................................... .................................................................. .............................................. ........................................54 .................54 Capítulo 5: Caso de k amostras independentes independentes ........................................... .................................................................. ............................. ......57 57 5.1 Teste de Kruskal-Wallis ............................................. .................................................................... .............................................. ............................. ......57 57 Capitulo 6: Medidas de Correlação .............................................. ..................................................................... ............................................60 .....................60 6.1 Coeficiente de Correlação por postos de Kendall: τ .....................................................60 6.2 Coeficiente de Correlação por postos de Spearman: r S .................................................64 6.3 Coeficiente de Concordância de Kendall: W ................................................................66 Conclusão ........................................... .................................................................. .............................................. .............................................. ........................................70 .................70 Bibliografia...................... Bibliografia ............................................. .............................................. .............................................. .............................................. .................................... .............75 75 Anexos An exos..................... ............................................ .............................................. .............................................. .............................................. ............................................75 .....................75 Anexo 0 .............................................. ..................................................................... .............................................. .............................................. .................................... .............76 76 Anexo I: Caso de uma amostra................................................................ amostra....................................................................................... ............................. ......77 77 Anexo II: Caso duas amostras relacionadas ............................................ ................................................................... ............................. ......81 81 Anexo III: Caso de duas amostras independentes ........................................... ................................................................85 .....................85 Anexos IV: Caso de k amostras relacionadas....................................... relacionadas.............................................................. ................................ .........91 91 Anexo V: Caso de k amostras independentes................................... independentes.......................................................... .................................... .............94 94 Anexo VI: Medidas de Correlação. .............................................. ..................................................................... ........................................95 .................95 Ta belas....................................................... belas.............................................................................. ............................................... ............................................... ................................ .........75 75 Tabela A ............................................. .................................................................... .............................................. .............................................. .................................... .............76 76 Tabela B................................................. B........................................................................ ............................................... ............................................... ................................ .........77 77 Tabela C................................................. C........................................................................ ............................................... ............................................... ................................ .........78 78 Tabela D ............................................. .................................................................... .............................................. .............................................. .................................... .............79 79 Tabela E .............................................. ..................................................................... .............................................. .............................................. .................................... .............81 81 Tabela F .............................................. ..................................................................... .............................................. .............................................. .................................... .............82 82 Tabela G ............................................. .................................................................... .............................................. .............................................. .................................... .............84 84 Tabela J.......................................................... J................................................................................. .............................................. .............................................. ...........................85 85 Tabela K ............................................. .................................................................... .............................................. .............................................. .................................... .............88 88 Tabela N ............................................. .................................................................... .............................................. .............................................. .................................... .............89 89 Tabela O ............................................. .................................................................... .............................................. .............................................. .................................... .............91 91 Tabela P .............................................. ..................................................................... .............................................. .............................................. .................................... .............93 93 Tabela Q ............................................. .................................................................... .............................................. .............................................. .................................... .............94 94 Tabela R................................................. R........................................................................ ............................................... ............................................... ................................ .........95 95

Teste de Hipóteses

TESTE DE HIPÓTESES Em muitas situações, queremos tomar uma decisão de forma a minimizar os riscos envolventes. No campo da estatística, formulamos hipóteses acerca de uma dada amostra, estas hipóteses são submetidas a determinados testes. A hipótese a ser testada designamos por Hipótese Nula ( H 0 ), a Hipótese Alternativa ( H 1 ) é a conclusão a que chegamos quando a

hipótese nula é rejeitada. Quando formulamos uma decisão sobre H 0 podem ocorrer dois erros distintos. O primeiro, designado por erro tipo I, consiste em rejeitar a hipótese nula quando ela é verdadeira. O segundo, designado por erro tipo II, consiste em aceitar H 0 quando ela é falsa . A estes erros estão associados uma probabilidade, isto é,

P (rej H . 0 | H 0 verd .) = α P (ac H . 0 | H 0 falsa) = β Quando queremos reduzir a probabilidade de ambos os tipos de erro, devemos aumentar a dimensão da amostra. À probabilidade α damos o nome de nível de significância. Como o valor α entra no processo de determinação de aceitação ou rejeição de H 0 , a condição de objectividade da prova exige que o nível de significância seja fixado antes da recolha de dados. Os valores mais comuns para α são de 0,05 e 0,01 de acordo com a importância prática dos resultados. Quanto mais pequena é a probabilidade β mais potente é o teste, ou seja, o teste óptimo da hipótese H 0 vs. H 1 é aquele que para uma probabilidade de ocorrer o erro tipo I, torne mínima a probabilidade de ocorrer o erro tipo II. Após ter escolhido as hipóteses e o nível de significância devemos determinar qual a distribuição amostral. Esta é uma distribuição teórica que, se puséssemos considerar todos

os eventos possível, dava-nos as probabilidades, sob H 0 , associadas aos valores numéricos possíveis da estatística.

1

Teste de Hipóteses

Neste momento temos que escolher o teste estatístico apropriado, tendo em conta os seus pressupostos. Definida as hipóteses, o nível de significância, o teste estatístico, falta-nos saber como rejeitar/aceitar H 0 . Região de rejeição é uma região da distribuição amostral, na qual consiste num

conjunto de valores tão extremos que, quando H 0 é verdadeira, a probabilidade α do valor observado da amostra estar entre eles é muito pequena. A probabilidade associada a qualquer valor na região de rejeição é afectada pela natureza da hipótese alternativa. Se H 1indica o sentido da diferença, utiliza-se um teste unilateral, caso contrário, utiliza-se um teste bilateral.

A seguinte figura ilustra-nos como as duas regiões diferem entre si, mas não altera o tamanho. Figura 1: Dois tipos de testes

Teste bilateral

P=0.025

Teste unilateral

P=0.025

P=0.05

A área de cor azul é a região de rejeição para um α = 0.05 Para uma decisão final, basta ver se o valor resultante de um teste estatístico está na região de rejeição ou não. Uma abordagem alternativa para o teste de hipóteses é sugerida pelo cálculo da probabilidade associada. ( p ) a uma dada observação. O valor p é a probabilidade de H 0ser verdadeira. Se p toma um valor menor ou igual a α , então rejeitamos a hipótese nula, caso contrário, se p toma um valor superior a α , então aceitamos H 0 . O valor p (ou probabiliade de significância) dá-nos também uma ideia do poder do teste estatístico.

Quanto maior for a probabilidade p mais forte é o teste e com mais facilidade s e aceita a hipótese nula.

2

Introdução

INTRODUÇÃO Nos primórdios da estatística, desde que o Homem se organiza em sociedade, ela aparece como processo organizado de contagem, seja ela de pessoas, cereais, frutas, etc.. Estes processos de contagem eram, posteriormente, apresentados à sociedade através de tabelas e gráficos. A palavra estatística aparece sempre ligada a coisas do Estado ( status), mas só no séc. XVII a estatística é tida como uma disciplina autónoma destinada a descrever factos ligados ao estado. A estatística era associada ao processo político, como base para o planeamento do Estado. Esse processo de contagem do todo, denominado Censo, não é um procedimento dos tempos passados. Na verdade ela constitui uma importante área da Estatística. Relativamente à totalidade dos dados, há uma outra linha de trabalho que é conhecida como Estatística Descritiva, que procura expressar as informações mais relevantes contidas num conjunto de dados através do cálculo de valores. Cada um destes valores resume de uma forma específica o conjunto de dados. Mais recentemente, surgiu outro campo da estatística que designa-se por Estatística Indutiva ou Inferência Estatística Esta estatística preocupa-se em estimar o verdadeiro valor desconhecido do(s) parâmetro(s) de uma população e testar hipóteses com respeito ao valor dos parâmetros estimados, ou à natureza da distribuição da população. Aqui é que surge uma separação, ou sabemos à partida qual a distribuição da população (Estatística Paramétrica), ou não sabemos qual a sua distribuição (Estatística Não Paramétrica). Focaremos o nosso estudo sobre a Estatística Não Paramétrica. Os primeiros métodos da estatística não paramétrica, embora com pouco uso até aos anos 40, foram referidos por John Arbuthnot em 1710. Estes começaram a ter maior impacto só a partir de 1942 com Wolfowitz. A partir daí o interesse aumentou de uma forma rápida. Hoje a estatística não paramétrica é considerada como um dos campos mais importantes da estatística. As técnicas que advêm desta categoria são usadas com grande frequência nas ciências físicas, biológicas e sociais ou até mesmo na comunicação. Outros autores, também dão importância a outros campos, tais como, na análise de dados da qualidade da água

3

Introdução

(Helsel), em aplicações na medicina (Brown and Hayden) ou mesmo na psicologia (Buckalew). Enumeremos, algumas vantagens para os métodos conhecidos: 1. Como os métodos da estatística não paramétrica depende do mínimo de suposições, a possibilidade de o método não ser adequado é menor. 2. Para alguns métodos a avaliação pode ser rápida e fácil, especialmente se o cálculo for manual. Deste modo, usando-os pode poupar tempo. É considerado importante, se não tivermos tempo ou se não temos meios técnicos para o cálculo rápido. 3. Os métodos estatísticos são fáceis de perceber, mesmo tendo o mínimo de preparação matemática e estatística. 4. Muito dos testes não paramétrica trabalham só com a ordem dos dados. 5. Poderão trabalhar com amostras de pequenas dimensões. É claro que os métodos de estatística não paramétrica também trazem desvantagens. As mais importantes são as seguintes: 1. Os testes não paramétricos, por vezes, são usados quando os testes paramétricos são mais apropriados, porque estes testes são mais simples e rápidos, deste modo, pode haver perda de informação. 2. Ainda que os procedimentos não paramétricos têm a reputação de requerer só cálculos simples, a aritmética em muitas instâncias pode ser tendenciosa e trabalhosa, especialmente quando as amostras são grandes. 3. Os métodos paramétricos são mais potentes para uma mesma dimensão e um mesmo α do que os métodos da estatística não paramétrica. Situação onde podemos usar os métodos da estatística não paramétrica Os métodos não paramétricos são apropriados quando: 1. As hipóteses a testar não envolve parâmetros da população. 2. Se conhece a ordem dos dados. 3. Os pressupostos necessários para o uso válidos dos métodos paramétricos não são conhecidos. Em muitos casos o planeamento de um projecto de pesquisa pode

4

Introdução

sugerir um certo processo paramétrico, mas quando iremos aplicar este processo poderá violar de uma forma determinante os pressuposto. Neste caso, um método não paramétrico seria a única alternativa. Quando queremos implementar um método devemos ter em conta o nível de medida das variáveis a analisar, estas estão divididas em diferentes grupos: 1. Escala Nominal: neste nível situam-se todas as observações que são categorias e não têm uma ordem natural, por exemplo, o sexo dos alunos de uma dada turma. Para que tenha uma ordem, pode ser atribuído um valor numérico, no entanto, os números não tem um verdadeiro e único significado (Ex.: masculino=1, feminino=2 ou feminino=1, masculino=2); 2. Escala Ordinal: as observações são categorias que têm uma ordem natural. Estas observações podem não ser numéricas. Por exemplo, as classificações dos testes podem ser mau, não satisfaz, satisfaz, bom ou muito bom. 3. Escala Intervalar: tem todas as características da ordinal com a vantagem de conhecer as distâncias entre dois números quaisquer da escala. Estes valores estão limitados entre dois valores. (Ex. As notas das frequências de uma dada turma, os valores estão entre zero e vinte). 4. Escala de Razões: além das características de uma escala intervalar, tem um verdadeiro ponto zero como origem. Não existe limites. Nesta escala, a razão de dois pontos quaisquer é independente da unidade de mensuração, por exemplo, se determinarmos os pesos de dois objectos diferentes não somente em libras, mas também em gramas, observamos que a razão dos dois pesos em libras é idêntica à razão dos dois pesos em gramas. Os vários métodos para testar as hipóteses serão apresentados de forma a focar as diferenças entre as várias fontes de informação disponíveis, tais como, as tabelas e os dois Software especializados: o Mathematica® e o SPSS®. A introdução dos dados, no caso do SPSS®, e a programação das funções, no caso do Mathematica®, estarão em anexo, bem com as tabelas aqui utilizadas.

5

Capítulo 1: Caso de uma amostra

CAPITULO 1: CASO DE UMA AMOSTRA Os testes estatísticos inerentes ao caso de uma amostra servem para comprovar uma hipótese que exige a extracção de uma amostra. É usualmente usado para teste de aderência, isto é, se determinada amostra provém de uma determinada população com uma distribuição específica. As provas de uma amostra verificam se há diferenças significativas na locação (tendência central) entre a amostra e a população, se há diferenças significativas entre frequências observadas e as frequências que poderíamos esperar com base em determinado princípio, se há diferenças significativas entre as proporções observadas e as proporções esperadas e se é razoável admitir que a amostra seja uma amostra aleatória de alguma população conhecida.

1.1 Teste da Binomial Antes de falar no teste da Binomial, falemos um pouco da distribuição Binomial. Esta distribuição é comum ser usada para a contagem de eventos de um modelo observado. É baseado no pressuposto de que a contagem podem ser representada como um resultado de uma sequência de resultados independentes de Bernoulli (por exemplo: o lançamento de uma moeda). Se a probabilidade de observar um resultado R é P para cada n ensaios, então a probabilidade que R será observado num ensaio x exacto é

⎛ N ⎞ p x = ⎜⎜ ⎟⎟ P x (1 − P ) N − x ⎝ x ⎠

(1.1.1)

A distribuição definida por: P [ X = x] = p x ( x = 1,K, N ) é chamada distribuição binomial com parâmetros n e p. O nome aparece, pelo facto de que a expansão binomial de

( p + 1 − p) n é P 0 + P 1 + K + P n .

O Teste da Binomial aplica-se a amostras que provém de uma população, onde o número de casos observados podem ser representados por uma variável aleatória que tenha distribuição binomial. As amostras consistem em dois classes (ex: cara o u coroa; sucesso ou insucesso), deste modo este teste é aplicado a amostra de escala nominal.

6


Cada uma das classes tem a sua proporção de casos esperados, tomaremos, assim, P para a proporção de uma das classes, e Q = 1 - P para a outra classe.

P é fixo para uma determinada população, mas, devido aos efeitos aleatórios, não podemos esperar que determinada amostra tenha exactamente a mesma proporção. A hipótese a ser testada é se o valor da população é P . A probabilidade de obter

objectos numa das categorias e N − x noutra categoria é

dada pela fórmula 1.1.1.. No entanto, não queremos saber qual a probabilidade exacta dos valores observadas, mas sim qual a probabilidade de obter os valores observados ou valores mais extremos. Então para o método aplicamos a seguinte distribuição amostral: x

∑ C P Q N i

i

N -i

(1.1.2)

i =0

Método: 1. Determinar o número de casos observados N (dimensão da amostra); 2. Determinar as frequências em cada uma das classes; 3. Conforme a dimensão da am ostra, elas são classificadas em pequenas amostras ( N ≤ 25) ) e grandes amostras ( N > 25 ): 3.1. Para pequenas amostra e P = Q = 12 , a tabela D dá as probabilidades unilaterais, sob H 0 , de vários tão pequenos quanto um x observado. Emprega-se uma prova unilateral quando se conhece em antemão qual das classes tem menor frequência, caso contrário basta, para uma prova bilateral, duplicar os valores da tabela D. 3.2. Se P = Q , determina-se a probabilidade, sob H 0 , de ocorrência do valor observado , utilizando a fórmula 1.1.2. 3.3. Para grandes amostras, pode-se demonstrar que quando N cresce a distribuição binomial tende para a distribuição Normal. Se rá mais rápida se P estiver próximo de

1 2

. Os parâmetros a usar serão a média

=NP e o desvio padrão

x

σ

x

= NPQ ,

deste modo, z tem distribuição aproximadamente normal com média 0 e variância 1, sendo: z=

x-µ x σ

x

=

x-NP NPQ

(1.1.3)

7


Devido à natureza da variável x ser discreta e a distribuição normal ser contínua, deve-se incorporar um factor de correcção. Assim sendo z fica

z =

( x ± 0.5)-NP NPQ

(1.1.4)

onde x + 0.5 é utilizado quando x < NP e x – 0.5 quando x > NP . Então para grandes amostras e P próximo de

1 2

, testamos a hipóteses apl icando a

fórmula 1.1.4. A tabela A dá a probabilidade, sob H 0 , associada à ocorrência de valores tão grandes quanto um valor de z observado, dado por aquela fórmula. A tabela dá os valores unilaterais de p, sendo necessário para prova bilateral, duplicá-los. Se o valor p associado ao valor observado x, não superar α , então rejeita-se H 0 . Exem plo 1.1.1: Suponhamos que numa dada família nasceram 12 filhos, 7 do sexo feminino e 5 do sexo masculino. Os pais querem saber se a probabilidade de nascer feminino ou masculino é igual. R esolução: Hipóteses: H 0 : p1 = p 2 Não há diferenças na probabil idade de nascer menino ( p1 ) ou

menina ( p 2 ) . H 1 : p1 ≠ p 2 Há diferença na pro babilidade.

Escolhe-se o teste binom ial porque os dados estão dicotomizados em duas classes discretas. O nascimento é um processo aleatório, assim, P = Q = 12 . Seja α = 0,01 e N número de filhos = 12

8


A distribuição amostral é dada pela fórmula: x

∑ C P Q N i

i

N -i

i =0

5

= ∑ C i12 P i Q N -i = 0,387 i =0

Sabemos que o cálculo anterior deu a probabilidade unilateral, p ara a bilateral basta duplicar o valor, sendo assim, p = 2 × 0,387 = 0,774 . A região de rejeição consiste em todos os valores d e x x tão pequenos que a probabilidade, sob a hipótese nula, associada à sua ocorrência não seja superior a 0,01. Como a probabilidade p = 0,774 associado a x ≤ 5 é maior que

α

= 0,01 , conclui-se

que não existe diferenças nas probabilidades de nascer menino ou menina. O SPSS®, além do valor p, valor p, dá-nos dá-nos um quadro resumo r esumo da amostra: Output 1.1.1:

Este software pode fazer o teste com maior rapidez, muito embora, se a dimensão da amostra for muito grande, a introdução dos dados poderá ser demorada. Para colmatar esta situação podemos recorrer ao Mathematica®, pois, basta dar o número de casos de um das classes como ilustra o seguinte exemplo: Exempl emploo 1.1. 1.1.2: 2: Suponhamos agora que queremos saber se a probabilidade de nascer masculino ou feminino num dado país é igual. Considerando uma amostra de 1500 nascimentos e que nasceram 725 crianças do sexo masculino, para testar a hipótese, basta: npmBi nomi al p- val ue = 0. 5725 One- Si ded PVal ue - > 0. 102896822008

Tw Two- Si ded PVal ue

- >

0. 205793644017

9


Como o “p-value” é maior que

α

= 0.01 , então aceitamos a hipótese de que não existe

diferenças entre o número de nascimentos do sexo masculino e feminino.

1.2 Teste do Qui-Quadrado ( χ 2 ) para uma amostra É adequado aplicar este teste quando temos os dados da amostra dividida em duas ou mais categoria. O propósito deste método é ver se existem diferenças significativas entre o núm números de indivíd ivíduo uoss, de obje objecctos tos ou de res respost postas as,, em dete determ rmin inad adaa clas classse, e o res respect pectiv ivoo número esperado baseado na hipótese nula. Isto é, a técnica

χ

2

testa se as frequências

obser vadas estão suficientemente próximas das esperadas para justificar sua ocorrência sob a hipótese nula. Método: O método envolve os seguintes passos: 1. Enquadrar as frequências observadas nas k categorias. categorias. A soma das frequências deve ser N ser N , número de observações independentes; independentes; 2. Por meio de H 0 , determinar as frequências esperadas para uma das k células; células; 3. Calcular o valor de

2 χ calc .

χ

2

k

(Oi − E i )2

i =1

E i

=∑

por meio da seguinte seguinte f órmula:

1.2.1

Oi = número de casos observados na categoria i E i = número de casos esperados na categoria i sob H 0

k = número de categorias na classificação; 4. Determinar o grau de liberdade ( gl = k − 1 ); 5. Com base na tabela C, determinar a probabilidade associada à ocorrência, sob H 0 , de um valor tão grande quanto o valor observado de

χ

2

para o valor de gl

considerado. Se o valor de p de p,, assim obtido, for igual a, ou menor do que,

α ,

rejeita-

se a hipótese nula.

10


Nota: quando k > 2, se mais de 20 por cento dos E i ’s são inferiores a cinco, combinase de maneira razoável, categorias adjacentes. Reduzindo, assim o número de classes e aumentando o números de alg uns dos E i ’s. Quando k = = 2. Pode-se empregar a prova

χ

2

para uma amostra só só se cada frequência frequência esperada é no mínimo, igual a 5 (Cochran, 1954). 1954). Exemplo 1.2.1: Dada a seguinte tabela: Tabela 1.2.1:

Cor

Vermelho lho

Branc rancoo

Preto reto

Azul Azul

Cin Cinzent zentoo

Número de automóveis automóveis

29

25

19

15

17

Quere uerem mos saber se há prefe referê rênc ncia ia em deter eterm minad inadaa cor, or, isto isto é, há raz razões para para dize izer que que há preferê ferênncia em determi rminada cor? Com um ní nível de de sign ignificâ icância

α

= 0,05 .

R esolução: Formulamos as hipóteses: H 0 : P Vermelho = P Branco = P Preto = P Azul = P Cinzento =

1 5

H 1 : H 0 é falsa.

Calculamos o número total de frequências fr equências e o valor esperado: N = N Vermelho = N Branco = N Preto = N Azul = N Cinzento = 29 + 25 + 19 + 15 + 17 = 105

E i =

N 105 = = 21 k 5

Calculamos χ 2 : χ

2

=

(29 − 21)2 (25 − 21)2 (19 − 21)2 (15 − 21) 2 (17 − 21) 2 21

+

21

+

21

+

21

+

21

≈ 6,48

11


A tabela C indica que

χ

2

≥ 6,48 para gl = 4 tem a probabilidade de ocorrência

entre p = 0,1 e p = 0,2 . Como p >

α então

não podemos rejeitar H 0 . Concluindo que a

proporção de casos em cada categoria é igual, para um nível de 0,05. Através deste exemplo, verifica-se que não podemos ir buscar o valor exacto de p na tabela, deste modo, seria mais preciso se util izarmos outros meios de cálculo mais eficazes, assim, o SPSS® seria a melhor escolha, como ilustra o seguinte output: Output 1.2.1:

Poderíamos utilizar o Mathematica®, através da função QuiQuadrada1Amostra[], dando como parâmetro a amostra: Qui Quadr ada1Amost r a 29, 25, 19, 17, 15 PVal ue: 0. 166297

como é observado, o Mathematica® calcula com maior precisão o valor da probabilidade associada.

1.3 Teste de Kolmogorov-Smirnov O Teste de Kolmogorov-Smirnov de uma amostra é baseado na diferença entre a função de distribuição cumulativa F 0 ( x ) e a função de distribuição empírica da amostra S n ( x) . A função de distribuição empírica da amostra define-se como a proporção das observações da amostra que são menores ou iguais a x para todos os valores reais x . S n ( x ) dispõe dum estimador pontual consistente para a verdadeira distribuição F X ( x ) . Mais, através do teorema

12


de Glivenko-Cantelli1 , podemos afirmar que S n ( x) aproxima-se da distribuição teórica. Portanto, para um n grande, o desvio entre as duas di stribuições, S n ( x) − F X ( x) , fica cada vez mais pequenos para todos os valores de . Assim ficam os com o seguinte resultado:

Dn = sup S n ( x) − F X ( x)

(1.3.1)

x

À estatística D n chamamos estatística de Kolmogorov-Smirnov de uma amostra. É particularmente útil par a a Estatística Não Paramétrica, porque a probabilidade de D n não depende de F X ( x) desde que F X seja contínua. D este modo, Dn pode ser chamada estatística sem distribuição. O desvio à direita e à esquerda definida por

Dn+ = sup[S n ( x) − F X ( x)]

Dn− = sup[ F X ( x) − S n ( x)]

x

(1.3.2)

x

são chamados estatísticas de Kolmogorov-Smirnov unilaterais. Estas medidas também não têm distribuição. Para que possamos utilizar a estatística de Kolmogorov para inferência, a distribuição da amostra deve ser conhecida. Sabendo que as distrib uições de Dn são independentes de F X , podemos assumir, sem perda de generalidade, que F X é a distribuição uniforme com parâmetros (0,1). Assim obtemos o seguinte teorema: Teorema 1.3.1:

Para Dn = sup S n ( x) − F X ( x) onde F X ( x ) é uma função distribuição x

cumulativa contínua qualquer, temos:

1

Teorema de Glivenko-Cantelli: S n ( x ) converge uniformemente para F X ( x ) com a probabilidade 1; que é

P ⎡⎢lim sup S n ( x) − F X ( x) = 0⎤⎥ = 1 ⎣n→∞ −∞< x<∞ ⎦

13


⎧0 se v ≤ 0 ⎪ ⎪ 1 ⎞ ⎪ 1 / 2 n +v 3 / 2 n + v ( 2 n −1) / 2 n +v 2n − 1 ⎛ P ⎜ Dn < + v ⎟ = ⎨∫1 / 2 n −v ∫3 / 2 n −v K ∫( 2 n −1) / 2 n −v f (u1 , u 2 , K, u n )du n K du1 se 0 < v < 2n ⎠ ⎪ 2n ⎝ 2n − 1 ⎪ se v ≥ ⎪⎩1 2n

⎧n! 0 < u1 < K < u n < 1 onde f (u1 , u 2 ,K, u n ) = ⎨ ⎩0 caso contrário Método: Este método pretende testar se uma determinada amostra fo i extraída de uma população com uma determinada distribuição teórica. Quando se escolhe este teste é preciso ter em conta que a variável seja pelo m enos ordinal. Seja F 0 ( X ) uma distribuição de frequências acumuladas, teórica, sob H 0 . Seja S N ( X ) a distribuição de frequências acumuladas de uma amostra aleatória de N observações. Quando X é qualquer valor possível, S N ( X ) =

k , onde k é o número de N

observações não superiores a X . Pela hipótese Nula, de que a amostra tenha sido extraída de uma população com a distribuição teórica es pecífica, espera-se que as diferenças entre S N ( X ) e F 0 ( X ) sejam pequenas e estejam dentro dos limites dos erros aleatórios. O teste de Kolm ogorov-Smirnov focaliza a maior dessas diferenças. Ao valor de F 0 ( X ) − S N ( X ) é chamado de desvio máximo, D: D = máx F 0 ( X ) − S N ( X )

(1.3.3)

A Distribuição amostral de D, sob H 0 , é conhecida. A tabela E dá certos valores críticos dessa distribuição amostral. Note-se que a significância de um dado valor D depende de N .

14


Exemplo 1.3.1: Suponha-se que um pesquisador esteja interessado na confirmação experimental da observação sociológica, de que os negros Americanos aparentam demonstrar uma hierarquia de preferência em relação à tonalidade de pele. Para comprovar quão sistemáticas são essas preferências, o pesquisador fictício tira uma fotografia de cada um dentro de 10 indivíduos negros. O fotógrafo revela essas fotografias, obtendo cinco cópias de cada uma, de tal forma que cada cópia difi ra ligeiramente das outras em tonalidade, podendo, poi s, ser classificadas em cinco tipos, desde a mais clara até à mais escura. À fotografia mais escura é atribuído o posto 1, e para a mais clara é atribuída o posto 5. Pede-se então a cada indivíduo que escolha uma de entre as cinco cópias de sua própria foto. Se os indivíduos forem indiferentes em relação à tonalidade da cor da pele, a escolha deverá recair igualmente sobre os cinco postos (com excepção, é óbvio, de diferenças aleatórias). Se, por outro lado, a cor tiver importância, tal como supomos, en tão os diversos indivíduos deverão consistentemente manifestar preferência por um dos postos extremos. Os resultados estão na seguinte tabela: Tabela 1.3.1:

Posto da foto

1

2

3

4

5

N.º de indivíduos

0

1

0

5

4

Resolução: Formulamos as hipóteses: H 0 : f 1 = f 2 = f 3 = f 4 = f 5 (Não há diferenças no número esperado de escolhas para

cada um dos cinco postos, isto é, a amostra prov ém de uma população com um a distribuição uniforme.) H 1 : H 0 é falsa ( f 1 , f 2 , f 3 , f 4 , f 5 não são iguais).

Com a ajuda de uma tabela, calculamos a diferença entre a distribui ção de frequências acumuladas teórica e a da amostra:

15


Tabela 1.3.2:

f 1

f 2

f 3

f 4

f 5

0

1

0

5

4

F 0 ( X )

1 5

1 5

1 5

1 5

1 5

S 0 ( X )

0

1 10

1 10

6 10

10 10

F 0 ( X ) − S N ( X )

1 5

3 10

5 10

2 10

0

N.º de indivíduos que escolhem a cor

De seguida, calculamos o máximo entre estas diferenças: D = máx{ F 0 ( X ) − S N ( X ) } =

5 = 0,5 10

Consultamos a tabela E que nos dá a probabilidade p associada de ocorrência (bilateral) de D ≥ 0,5 com N = 10 : p ≤ 0,01 . Utilizando um nível de significância

α

= 0,01 , podemos concluir que H 0 é falsa, sendo

assim, os indivíduos demonstram preferência na tonalidade. Como é observado, a tabela dá-nos intervalos de p , não sendo possível obter o seu valor exacto. Poderíamos escolher um

α

= 0,03 e se, após o cálculo de D, a probabilidade

associada estiver entre 0,01 e 0,05, não era possível dar uma resposta. No SPSS® podemos obter o valor exacto de p: Output 1.3.1:

16


1.4. Teste de Iterações de Uma Amostra Dado uma sequência de dois ou mais tipos de símbolos, uma iteração é definida como uma sucess ão de um ou mais símbolos idênticos em que são seguidos e precedidos por outro símbolo diferente ou nenhum símbolo. Pistas para uma sequência não aleatória são dadas através da existência de algum padrão. O número de iterações e o comprimento, em que estão interrelacionados, devem reflectir a existência de algum tipo de padrão. Uma alternativa para saber se é ou não aleatória é baseada no número total de iterações. Quer a situação de um número pequeno quer a situação de um número grande de iterações, sugere que a sequência de símbolos estão dispostos de forma ordenada (não aleatória), isto é, a hipótese nula é rejeitada se o número de iterações é muito grande ou muito pequeno. Este teste utiliza-se quando os valores estão numa escala nominal ou ordinal, em que a amostra é dicotómica. Dada uma sequência d e n elementos de dois tipos, n1 do prim eiro tipo e n 2 do segundo tipo, onde n1 + n 2 = n . Se r 1 é o número de iterações do tipo 1 e r 2 do tipo 2, então, o número total de iterações na sequência é R = r 1 + r 2 . Para fazer um teste para a aleatoriedade, precisamos da distribuição de probabilidade de R quando a hipótese nula é verdadeira. A distribuição de R será encontrada quando conhecerm os a distribuição de r 1 e r 2 , bastando somar as duas distribuições. Sabendo que sobre a hipótese nula todos os arranjos de n1 + n 2 objectos é equiprovável, a probabilidade de R1 = r 1 e R2 = r 2 é o número de arranjos

distintos de n1 + n 2 objectos dividido pelo total de arranjos distintos, que é n! / n1! n 2 ! . Para a quantidade do numerador, o lema seguinte pode ser usado. Lema 1.4.1:

O número de formas distintas para distribuir n objectos iguais por

⎛ n − 1⎞ ⎟⎟, n ≥ r . r 1 − ⎝ ⎠

r distintas células sem células vazias é ⎜⎜

De modo a obter uma sequência com r 1 iterações de objectos do tipo 1, os n1 objectos

⎛ n − 1⎞ iguais deve ser postas dentro de r 1 cé lulas, em que pode ser feito em ⎜⎜ 1 ⎟⎟ diferentes ⎝ r 1 − 1 ⎠

17


maneiras. Aplica-se do mesmo modo para obter r 2 iterações com outros n 2 objectos. O número total de arranjos distintos começando com uma iteração do tipo 1 é o produto

⎛ n1 − 1 ⎞⎛ n2 − 1⎞ ⎜⎜ ⎟⎟⎜⎜ ⎟⎟ . Analogamente, para uma sequência começando com um a iteração do tipo 2. ⎝ r 1 − 1 ⎠⎝ r 2 − 1 ⎠ O conjunto de objectos do tipo 1 e do tipo 2 deve ser alternado, e consequentemente poderá acontecer o seguinte: r 1 = r 2 ± 1 ou r 1 = r 2 . Se r 1 = r 2 + 1 , a sequência deve começar com uma iteração do tipo 1; Se r 1 = r 2 − 1 então deve ser o tipo 2 a começar. Caso r 1 = r 2 a sequência pode começar com o do tipo 1 ou 2., portanto, o número de arranjos distintos deve s er duplicado. Assim foi provado os seguintes resultados. Teorema 1.4.1: Seja R1 e R 2 os respectivos números de iterações de n1 objectos do tipo 1 e n 2 objectos do tipo 2 numa amostra aleatória de dimensão n = n1 + n 2 . A distribuição da probabilidade conjunta de R1 e R 2 é

f R1 , R2 ( r 1 ,r 2 )

⎛ n − 1 ⎞⎛ n − 1 ⎞ c⎜⎜ 1 ⎟⎟⎜⎜ 2 ⎟⎟ r − 1 r − 1 = ⎝ 1 ⎠⎝ 2 ⎠ ⎛ n1 + n2 ⎞ ⎜⎜ ⎟⎟ n ⎝ 1 ⎠

r 1 = 1,2,K , n1 r 2 = 1,2,K , n2 r 1 = r 2 ou r 1 = r 2 ± 1

(1.4.1)

onde c = 2 se r 1 = r 2 e c = 1 se r 1 = r 2 ± 1 . Corolário 1.4.1: A distribuição da probabilidade marginal de R1 é

f R1 ( r 1 )

⎛ n1 − 1 ⎞⎛ n2 + 1 ⎞ ⎜⎜ ⎟⎟⎜⎜ ⎟⎟ r r − 1 = ⎝ 1 ⎠⎝ 1 ⎠ ⎛ n1 + n2 ⎞ ⎜⎜ ⎟⎟ n ⎝ 1 ⎠

r 1 = 1,2,K, n1

(1.4.2)

Similar para R 2 trocando posições de n1 com n 2 e vice-versa. Teorema 1.4.2:

A distribuição de probabilidade de R , número total de iterações e

n = n1 + n 2 objectos, n1 do tipo 1 e n 2 do tipo 2, numa amostra aleatória é

18


⎧ ⎛ n1 − 1 ⎞⎛ n2 − 1 ⎞ ⎪ 2⎜⎜ r / 2 − 1⎟⎟⎜⎜ r / 2 − 1⎟⎟ ⎠⎝ ⎠ ⎪ ⎝ se r é impar ⎪ n + n ⎛ 1 2 ⎞ ⎜⎜ ⎟⎟ ⎪ n ⎝ 1 ⎠ ⎪⎪ f R (r ) = ⎨ ⎪ ⎛ n1 − 1 ⎞⎛ n2 − 1 ⎞ ⎛ n1 − 1 ⎞⎛ n2 − 1 ⎞ ⎪ ⎜⎜ ⎟⎟⎜⎜ ⎟⎟ + ⎜⎜ ⎟⎟⎜⎜ ⎟⎟ r − r − r − r − ( 1 ) / 2 ( 3 ) / 2 ( 3 ) / 2 ( 1 ) / 2 ⎪ ⎝ ⎠⎝ ⎠ ⎝ ⎠⎝ ⎠ se r é par ⎪ ⎛ n1 + n 2 ⎞ ⎪ ⎜⎜ ⎟⎟ ⎪⎩ ⎝ n1 ⎠

(1.4.3)

para r = 2,3,K , n1 + n 2

Método:

1. Dispor as n1 e n2 observações na sua ordem de ocorrência; 2. Contar o número r de iter ações; 3. Determinar a probabilidade, sob H 0 , associada a um valor tão extremo quanto o valor observado de r . Se tal probabilidade é igual, ou inferior, a

α ,

rejeitar H 0 . A

técnica para a determinação do valor de p depende do tama nho dos grupos n1 e n2 : 3.1. Se n1 e n2 são ambos não superiores a 20, recorrer à tabela F. A tabela FI dá o valor de r que é tão pequeno que a sua probabilidade associada, sob H 0 é p = 0,025 ; a tabela FII dá o valor de r que é tão grande que a sua probabilidade

associada é p = 0,025 . Para uma prova bilateral consideramos os dois valores, ao nível p = 0,05 . Para uma prova unilateral consideramos a tabela correspondente aos valores previstos ta mbém a um nível p = 0,05 . 3.2. Se n1 ou n2 for superior a 20 então determinar uma aproximação à Normal através da seguinte fórmula:

z =

r − µ r σ r

⎛ 2n n ⎞ r − ⎜⎜ 1 2 + 1⎟⎟ ⎝ n1 + n2 ⎠ = 2n1n2 (2n1n2 − n1 − n2 ) (n1 + n2 )2 (n1 + n2 − 1)

(1.4.1)

19


calculado o valor de z, recorrer à tabela A. Exemplo 1.4.1: Apresentamos uma tabela onde é dado o total de pagamentos feitos pelas equipas da Liga Nacional de baseball dos EUA: Tabela 1.4.1: Pagamentos em milhões de dólares.

Equipa

Pagamento

Equipa

Pagamento

Atlanta

47.93

Montreal

15.41

Chicago Cubs

31.45

New York Mets

23.46

Cincinnati

40.72

Philadelphia

29.72

Colorado

38.19

Pittsburgh

21.25

Florida

30.08

San Diego

27.25

Houston

26.89

San Francisco

34.79

Los Angeles

34.65

St. Louis

38.92

A mediana deste conjunto de números é de 30,765. Convertemos os valores indicados na tabela para zeros e uns, o zero corresponde a um valor menor que a mediana e o um corresponde a um valor maior que a mediana. Obtemos a seguinte sequência: 1,1,1,1,0,0,1,0,0,0,0,0,1,1 Queremos saber se os valores estão numa sequ ência aleatória. Com um nível de significância α = 0,05 . Resolução: Formulamos as hipóteses: H 0 : os zeros e uns ocorrem em ordem aleatória H 1 : H 0 é falsa.

O número de iterações é r = 5 ; n1 = 7 e n 2 = 7 Calculamos os extremo s para o r com a ajuda da Tabela F que nos dá o seguinte resultado: Região de Aceitação

Região de Rejeição

Região de Rejeição 20

3

5

13


Como r pertence ao intervalo de aceitação, podemos aceitar H 0 , deste modo, concluímos que, com um nível de significância

α

= 0,05 , os pagamentos ocorrem de forma

aleatória. Podemos verificar que estas tabelas não nos dão o valor de p, apenas um intervalo de rejeição. Quer no Mathematica®, quer no SPSS® podemos calcular de uma forma exacta o valor da probabilidade associada. Vejamos então no SPSS: Output 1.4.1:

Como podemos observar a probabilidade associada é de p = 0,164 , assim chegamos ao mesmo resultado, isto é, aceitamos a hipótese nula. No Mathematica® usamos dois procedimentos, um para converter para zeros e uns outro para o cálculo da probabilidade: Guardamos os valores numa variável do tipo lista: Pagament os = 47. 93, 31. 45, 40. 72, 38. 19, 30. 08, 26. 89, 34. 65, 15. 41, 23. 46, 29. 72, 21. 25, 27. 25, 34. 79, 38. 92

convertemos para zeros e uns: Zer oUns = conver t ToZer osAndOnes pagament os 1, 1, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1

21


e calculamos a probab ilidade associada: npmRunsTes t Zer oUns Number of Runs - > 5 Two- Si ded PVal ue - > 0. 155012

Concluímos, do mesmo modo, que não há razão para rejeitar a hipótese nula. Como conclusão para este teste, podem os afirmar que, com a ajuda do computador, não é necessário fazer uma aproximação à normal, visto que, não tem a limitação das tabelas.

22

Capítulo 2: Caso de duas amostras relacionadas

CAPÍTULO 2: CASO DE DUAS AMOSTRAS RELACIONADAS Empregam-se os testes para duas amostras relacionadas quando queremos determinar, para uma mesma situação, se duas abordagens, tratamentos ou métodos são diferentes ou se um é melhor que o ou tro.

2.1 Teste dos Sinais É

dado

uma

amostra

aleatória

de

pares

ordenados

da

forma

{( y11 , y12 ), ( y 21 , y 22 ),..., ( y n1 , y n 2 )} , cada par é substituído por um sinal mais ou menos depende se o primeiro valor é maior ou menor. Método: 1. Emparelhar n pares; 2. Determinar o sinal da diferença entre os dois m embros de cada par; 3. Determinar N = número das diferenças com sinal; 4. O método para determinar a probabilidade as sociada à ocorrência, sob H 0 , de um valor tão extremo quanto o valor observado de z depende do tamanho de N : i. Se N ≤ 25 , a tabela D dá a probabilidade unila teral p associada a uma valor tão pequeno quanto o valor esperado

= número de sinais com menor

frequência. Duplica-se o valor da pr obabilidade quando se trata de um teste bilateral. ii. Se N > 25 , calcular o valor de

mediante o emprego da fórmula:

( x ± 0,5) − 12 N z = 1 2 N

(2.1.1)

Utiliza-se x + 0,5 quando x < 12 N , caso contrário, x − 0,5 . A tabela A dá os valores unilaterais de p , para um teste bilater al duplicar o valor de p . Se o valor da probabilidade obtida no teste não for superior a

α ,

rejeitar H 0 .

23


Exemplo 2.1.1: Um professor da disciplina de alemão pretende avaliar o impacto de uma viagem, com a duração de uma semana à Alemanha, sobre o vocabulário dos estudantes. O prof essor acredita que uma semana na Alemanha resultará num acréscimo significativo das palavras do vocabulário dos seus alunos, antes e depois de regressarem da viagem, tendo obtido os seguintes resultados: Tabela 2.1.1:

Antes 98 Depois 121

76 85

60 58

46 58

86 91

33 32

94 122 106 145

75 83

65 78

80 80

111 122

62 75

R esolução: Formulamos as hipóteses: H 0 : Não há diferenças, i sto é, o número de sinais “+” é o mesmo de sinais “-”. H 1 : H 0 é falsa.

Iremos usar o teste dos sinais, escolhendo um

α

= 0,05 .

Após a análise dos pares ordenados verificamos a seguinte sequência de sinais: + + - + + - + + + + + +i

N = 12 (neste caso houve um empate) e x = 2 Como N ≤ 25 , recorremos à tabela D, e verificamos que para uma prova unilateral o valor de p é de 0,019, mas como a prova é bilateral p = 0,038 Sendo assim, rejeitamos a hipótese nula, dado lugar à hipótese alternativa, concluindo que seria recomendável os alunos irem à Alemanha. Para o caso de grandes amostras a contagem de sinais seriam demorados e susceptível a erros e teríamos que utilizar uma aproximação, seria prudente a utilização de um computador. Vamos ver como seria no computador este exemplo: Após a introdução dos dados no SPSS®, teríamos os seguintes resultados:

24


Output 2.1.1:

Como pode-se verificar, além de podermos visualizar o valor da probabilidade de um modo mais exacto, podemos ver também o número total de sinais que ocorrem. Outro modo seria utilizando o Mathematica®, na função a utilizar damos como parâmetr os: o número de sinais positivos e o número de sinais negativos, excluindo os empates em ambos os casos: npmSi gnTest Fr equenci es 2, 10 Ti t l e: Si gn Test Test St at i sti c: Number of Pl uses i s 2 Di st r i but i on Bi nomi al Di st r i but i on 2 - si ded p- val ue - > 0. 0385742

Podemos verificar que o valor de p é dado com maior número de casas decimais.

2.2 Teste de McNemar O teste desenvolvido por McNemar é usado para analisar frequências (proporções) de duas amostras relacionadas, isto é, tem como objectivo avaliar a eficiência de situações “antes” e “depois”, em que cada o indivíduo é utilizado como o seu próprio controlo. Utilizase a mensuração em escala nominal para avaliar alterações da situação “após” em relação à situação “antes”. Método: 1. Enquadrar as frequências observadas numa tabela de quatro células na forma seguinte:

25


Tabela 2.2.1:

Depois Antes + -

-

+

A C

B D

As células A e D são consideradas células de mudança, enquanto que as células B e C são células que não muda de estado. O total de indivíduos que acusam mudança

é

m = A + D ; 2. Considerando p1 a probabilidade de “Antes probabilidade de “Antes



Negativo; De pois  Positivo” e p 2 a



Positivo; Depois



Negativo” e p1 = p 2 , calcular as

frequências esperadas nas células A e D: E = 12 ( A + D ) . Se as frequências esperadas são inferiores a 5 , empregar a prova binomial em substituição á de McNemar, neste caso, N = A + D e x = min{ A, D} ; 3. Caso não se verifique que as frequências são inferiores a 5, calcular o valor de X 2 com o emprego da seguinte fórmula:

2

X =

( A − D − 1)2 A + D

com gl = 1

(2.2.1)

4. Mediante referência à tabela C, determinar o probabilidade, sob H 0 , associada a um valor tão grande quanto o valor observado de X 2 . Se se tratar de uma pro va unilateral, basta dividir por dois o valor tabelado. Caso o valor de p, exibido pela tabela, não supera

α ,

rejeitar H 0 em favor da hipótese alternativa.

Exem plo 2.2.1: Dada a seguinte tabela de resultados: Tabela 2.2.1:

Marca B Marca A Sucesso Insuce sso

Sucesso

Insucesso

19 4

11 16

26


Queremos saber qual a melhor marca de medicamentos com um nível de sign ificância de α = 0,05 . Resolução: McNemar demonstrou que A ou D não contribui para a determinação das diferenças entre a marca A e a marca B, Mas sim através das restantes células ( B e C ). Se verificarmos que B > C , podemos concluir que a Marca A é melhor que a marca B, caso contrário, se B < C então a marca B é melhor. Com base neste raciocínio, formulamos as nossas hipóteses: H 0 : Não existe diferenças entre a marca A e a Marca B ( p marcaA = p marcaB = 12 ) H 1 : H 0 é falsa.

X 2 =

(19 − 16 − 1)2 19 + 16

= 0,1142857143 com gl = 1

Através da tabela C, calculamos uma aproximação do valor de X 12− (1) : α

X 12− (1) = X 02.95 (1) = 0,0039 α

Como X 2 > X 02.95 (1) então rejeitamos a hipótese nula, dando lugar à hipótese alternativa, isto é, existe diferenças entre a marca A e a marca B, sendo a marca A melhor que a marca B. Com a ajuda do computador, não é preciso recorrer à tabela, podendo calcular o valor preciso da probabilidade associada: Output 2.2.1:

27


No Mathematica®, a função a utilizar será a mesma da binomial dando como parâmetros: o número total dos valores das células onde há mudança de comportamento entre as marcas, a probabilidade (neste caso é 0,5) e o menor valor entre as células de mudança: npmBi nomi al PVal ue 0. 5, 4 One- Si ded PVal ue Two- Si ded PVal ue

- > - >

0. 0592346 0. 118469

Com o Mathematica® chegamos à mesma conclusão do método pelas tabelas, com a vantagem de ser com maior precisão.

2.3 Teste de Wilcoxon O teste de Wilcoxon é mais poderoso que o teste dos sinais, pois, além de considerar o sentido da diferença também tem em conta o seu valor e o posto em que se insere. Método: 1. Para cada par, determinar a diferença ( d i ), com sinal, entre os dois valores; 2. Atribuir postos a esses d i ’s independentemente de sinal. No caso de d ’s empatados, atribuir a média dos postos empatados; 3. Atribuir a cada posto o sinal + ou o sinal – do d que ele representa; 4. Determinar T que é igual à menor das somas de postos de mesmo sinal; 5. Determinar N que é igual ao total de d ’s com sinal; 6. O processo para determinação da significân cia do valor o bservado de T vai depender de N : Se N ≤ 25 , a tabela G dá os valores críticos de T pa ra diversos tam anhos de N. Se o valor observado de T não supera o valor indicado na tabela, para um dado nível de significância e um particular N, H 0 pode ser rejeitada; Se N > 25 , calcular o valor de z pela seguinte fórmu la:

N ( N + 1) 4 z = N ( N + 1)(2 N + 1 24 T −

(2.3.1)

28


Determinar a sua probabilidade associada, sob H 0 , mediante referência à Tabela A. Para uma prova bilateral, duplicar o valor de p dado. Se o p assim obtido não for superior a

α ,

rejeitar H 0 .

Exemplo 2.3.1: Na tabela seguinte apresentamos uma sequência de valores que correspondem ao número de pessoas que trabalham à mais de 25 a nos em diferentes profissões divididos pelo sexo: Tabela 2.3.1:

Feminino 47618 15110 6555 8556 2972 324 19448 1790 5163 12495 7594 1128 3724 614 Masculino 56523 16708 8883 7825 1002 442 11161 1661 6346 3153 4760 10946 10593 2356 Pretendemos determinar se existem grandes diferenças entre os sexos nas diferentes ocupações. R esolução: Formulamos as hipóteses: H 0 : Não há diferenças entre o sexo masculino e o feminino nas diferentes ocupações. H 1 : Há diferenças entre os sexos.

Iremos usar o teste de Wilcoxon, escolhendo um

α

= 0,05 .

Dispomos os dados numa tabela para calcular as diferenças e os postos:

29


Tabela 2.3.2:

Ai

Bi

d i = Ai − Bi

Postos

47618

56523

-8 905

12

15110

16708

-1598

5

6555

8883

-2328

8

8556

7825

731

3

2972

1002

1970

7

324

442

-118

1

19448

11161

8287

11

1790

1661

129

2

5163

6346

-1183

4

12495

3153

9342

13

7594

4760

2834

9

1128

10946

-9818

14

3724

10593

-6869

10

614

2356

-1742

6

T + = 3 + 7 + 11 + 2 + 13 + 9 = 45 T − = 12 + 5 + 8 + 1 + 4 + 14 + 10 + 6 = 60

T = min{T + , T − } = 45

Como N < 25 (N = 14) então estamos perante a um caso de pequenas amostras, neste caso basta ver qual o valor tabelado de T descrito na tabela G: Para um N = 14 e

α

= 0,05 (prova bilateral) temos T tabelado = 21

Como T > T tabelado então aceitamos a hipótese, isto é, não existe diferenças entre os sexos nas diferentes ocupações. No SPSS®, basta introduzir os dados em duas series de variáveis, ficando com o seguinte resultado:

30


Output 2.3.1:

Podemos observar que o SPSS faz um teste assimptotico. Não nos dá o valor de T mas sim o valor da probabilidade associada. Neste caso p = 0,638 , então podemos concluir que não existe diferenças entre os sexos.

31

Capítulo 3: Caso de duas amostras independentes

CAPITULO 3: CASO DE DUAS AMOSTRAS INDEPENDENTES Como os testes do capítulo 2, os testes, de seguida, apresentados, servem, de um modo geral, para determinar se as diferenças nas amostras constituem evidência convincente de um a diferença nos processos, ou tratamen tos, aplicados a elas. A principal diferença é de que as amostras são independentes e como tal, podem ter dim ensões diferentes.

3.1 Teste de Iterações de Wald-Wolfowitz Seja duas amostras independentes X 1 , X 2 , K , X m e Y 1 , Y 2 , K , Y n combinadas numa única sequência ordenada da menor à maior, não deixando de identificar a sua amostra. Assumindo que as suas d istribuições são contínuas, uma única ordem é sempre possível, visto que teoricamente não existem empates. Por exemplo, com m = 4 e n = 5 , a sequência poder ia ser X Y Y X X Y Y em que é indicado que o menor elemento pertence à amostra X , o segundo menor da amostra Y , etc., e o valor maior pertence à amostra Y . Sobre a hipótese nula de que as distribuições são idênticas

H 0 : F Y ( x ) = F x ( x ) para todo o x esperamos que X e Y estejam bem misturadas na sequência obtida. Visto que, a dimensão

m + n = N constitui uma amostra de dimensão N de uma população comum. Com a iteração, definida em 1.4, como uma sequência de letra s idênticas precedida e seguida por uma letra diferente ou nenhuma letra, o número total de iterações de uma amostra ordenada é um indicativo do grau de mistura. Um padrão de arranjos com muito poucas iterações sugere que os N valores da sequência não provém de uma única amostra, mas sim de duas amostras de duas populações diferentes. Por exemplo, se todos os elemento de X são menores que os elementos de Y , na sequência formada deveria ter só duas iterações. Esta configuração pa rticular pode indicar que não só as populações não são equivalentes, como também podem indicar que X ’s são estocasticamente menores que os Y ’s. Contudo, a ordem inversa também só contém duas iterações, e, portanto, um teste baseado só no número total de iterações não po de distinguir estes casos. Em primeiro lugar, o teste de iterações é apropriado quando a hipótese alternativa é bilateral

32


H 1 : F Y ( x ) ≠ F x ( x ) para alguns x

Definimos uma variável R aleatória como o número total de iterações numa ordem de m

X e n Y valores aleatórios. Desde que poucas iterações tendem a duvidar da hipótese nula quando a alternativa é H 1 , O teste de iterações de Wald-Wolfowitz (1940) para um nível de significância

α

geralmente tem a região de rejeição R ≤ c onde c é escolhido para ser o maior inteiro que α

α

satisfaz P ( R ≤ c ) ≤ α quando H 0 é verdadeira. α

Desde que as observações X e Y são dois tipos de objectos arranjados numa sequência completamente aleatória, se H 0 é verdadeira, a distribuição da probabilidade nula de R é igual é distribuição 1.4.2 do corolário 1.4.1 para o teste de iterações de um a amostra, bastando mudar n1 e n 2 para m e n respectivamente, assumindo que os X ’s são os objecto do tipo 1 e os Y’s são os objectos do tipo 2. Este teste tem a particular vantagem de permitir comprovar qualquer tipo de diferença. Para que possam os aplicar a prova de Wald-Wolfowitz supõe-se que a variável em estudo tenha distribuição básica contínua, e exige mensuração no mínimo ao nível de escala ordinal. Método: Suponhamos que n1 = n e n2 = m , os passos a seguir são: i. Dispor os n1 + n 2 valores numa única sequência ordenada; ii. Determinar r = número de iterações; iii. O método para determinação da significância do valor observado de r depende do tamanho de n1 e n 2 : iv. Se n1 , n 2 ≤ 20 , a tabela FI dá os valores críticos de r para um nível de significância 0,05. Caso o valor observado de r não superar o valor tabelado para os valores dados de n1 e n 2 , então podemo s rejeitar H 0 ao nível de significância α = 0,05 ; v. Se um dos valores de n1 e n 2 superar 20, podemos utilizar a seguinte aproximação à N ormal:

33


⎛ 2n n ⎞ r − ⎜⎜ 1 2 + 1⎟⎟ − 0.5 ⎝ 2n1n2 ⎠ z = 2n1n2 (2n1 n2 − n1 − n2 ) (n1 + n2 ) 2 (n1 + n2 − 1)

(3.1.1)

Após a determinação do valor de z, determina-se a probabilidade associada

p através da tabela A. Se o valor p não for maior que

α então devemos rejeitar

a hipótese nula; Caso ocorram empates. Teoricamente, não deveria ocorrer empates nos valores de uma prova de iterações, por que as populações, das quais se extraíram as amostras, deveriam ter distribuições contínuas. Na aplicação do m étodo, p or f alta de prec isão ou de sensi bilidade das mensurações pode eventua lme nte oco rrer emp ates nos dife rent es g rupo s. Portanto, por vezes, pode originar valores diferentes para r . Assim para abranger todos os casos, deve-se r epetir o método para todas as ordens diferentes. Caso chegue a diferentes decisõ es sobre a hipótese nula, então, este m étodo é inaplicável. Exemplo 3.1.1: Num estudo destinado a comprovar a teoria da equipotencialidade, Ghiselli comparou o número de tentativas de aprendizagem (numa tarefa de discriminação de brilho) de 21 ratos normais com o número de tentativas de reaprendizagem de 8 ratos. Queremos saber se os dois grupos de an imais diferem nas suas taxas de aprendizagem (reaprendizagem). A seguinte tabela dá-nos as tentativas de apr endizagem ( reap rendizagem) feitas pelos ratos do grupo A e do grupo B: Tabela 3.1.1:

Ratos A 20 55 29 24 75 56 31 45 Ratos B

23 8 24 15 8 6 15 15 21 23 16 15 24 15 21 15 18 14 22 15 14

34


Resolução: Formulamos as hipóteses: H 0 : Não há diferenças entre os ratos normais e os ratos em período pós-operatório com

lesões corticais, no que diz respeito à aprendizagem (ou reaprendizagem) numa tarefa de discriminação de brilho. H 1 : Os dois grupos de ratos diferem em relação à taxa de aprendizagem

(reaprendizagem). A prova a escolher é a prova de Wald-Wolfowitz, pois é uma prova global para a diferença entre duas amostras. O nível de significância a escolher será

α

= 0,01 .

Dispomos por ordem crescente e contamos o número de iterações:

Tabela 3.1.2:

Valores 6 8 8 14 14 15 15 15 15 15 15 15 16 18 20 Grupo

B B B B B B B B B B B B B B A

Iterações

1

2

Tabela 3.1.2 (continuação):

Valores 21 21 22 23 23 24 24 24 29 31 45 55 56 75 Grupo Iterações

B

B

B B B B A B 3

4

5

A

A A A A A 6

Neste caso o número de iterações é r 1 = 6 , mas, note-se que há empates entre os dois grupos, neste caso, teremos que repetir a contagem:

Tabela 3.1.3:

Valores 6 8 8 14 14 15 15 15 15 15 15 15 16 18 20 Grupo Iterações

B B B B B B B B B B B B B B A 1

2

35


Tabela 3.1.3 (continuação):

Valores 21 21 22 23 23 24 24 24 29 31 45 55 56 75 Grupo

B

B

B B B B B A

Iterações

A

A A A A A

3

4

Assim, ficamos com r 2 = 4 . Dado que n1 = 8 e n 2 = 21 > 20 , então não podemos recorrer à tabela F. Para que possamos calcular a probabilidade associada teremos que fazer uma aproximação à Normal com o auxilio da fórmula (3.2.1): Para r 1 = 4 :

Para r 2 = 6 :

⎛ (2)(8)(21) + ⎞ − 4−⎜ 1⎟ 0,5 + 8 21 ⎝ ⎠ z1 = (2)(8)(21)[(2)(8)(21) − 8 − 21] (8 + 21) 2 (8 + 21 − 1)

⎛ (2)(8)(21) + 1 ⎞ − 0,5 6−⎜ ⎟ 8 + 21 ⎝ ⎠ z 2 = (2)(8)(21)[(2)(8)(21) − 8 − 21] (8 + 21) 2 (8 + 21 − 1) = 2,908

= 3,864 Recorrendo à Tabela A, calcula-se o valor da probabilidade associada: Para um z1 ≥ 3,864 , verificamos que

Para um z 2 ≥ 2,908 , verificamos que a

a probabilidade é

probabilidade é

p1 = 0

p 2 = 0,0014

Ambas as probabilidades p1 e p 2 , são inferiores a

α

= 0,01 . Deste modo, concluímos

que os dois grupos de animais diferem significativamente nas suas taxas de aprendizagem (reaprendizagem). Caso, alguma das probabilidades fossem superior do que o nível d e si gnificância este método não teria efeito. Vejamos como o SPSS® apresentava o resultado:

36


Output 3.1.1:

Como podemos constatar, o SPSS® indica-nos o número mínimo e máximo de iterações, calculando para cada um a probabilidade associada. A conclusão a tirar seria a mesma pelo método tradicional. Como vantagem para o SPSS®, é o modo rápido como se calcula as probabilidades, visto que, no m étodo tradicional, em caso de empates, temos que repetir a ordenação e o cálculo de p , podendo provocar maior número de erros.

3.2 Teste U de Mann-Whitney Como no teste de iterações de Wald-Wolfowitz, o teste de U de Mann-Whitney (1947) é baseado na ideia de que um padrão particular, exibido quando X e Y variáveis aleatórias estão numa única fila postos em ordem crescente, fornece informação sobre a relação entre as suas populações. Contudo, em vez de basear-se pelo núm ero total de iterações, o critério do teste de Mann-Whitney é baseado na magnitude de Y ’s em relação com os X ’s, digamos que é a posição dos Y ’s numa sequência ordenada. O objectivo deste teste é comprovar se dois grupos independentes foram ou não extraídos duma população com a mesma mediana. Para isso, as amostras devem ser independentes e aleatórias: uma extraída duma população com mediana não conhecida M 1e outra extraída de outra população com mediana desconhecida M 2. O nível de mensuração tem que ser pelo menos ordinal e as duas popul ações devem ter uma distribuição contínua. A hipótese a comprovar é ver se as populações têm a mesma mediana, sendo a alternativa, as medianas serem diferentes ou uma maior do que a outra.

37


Método: 1. Determinar os valores n1 (=número de casos do menor grupo) e n 2 ; 2. Dispor em conjunto os valores dos dois grupos, ordenando-os de forma ascendente; 3. Atribuir postos aos valores, em caso de empate, fazer a média dos postos correspondentes; 4. Par a determinar U basta recorrer à fórmula seguinte: U = min(U 1 ; U 2 )

Sendo: U 1 = n1 n2 +

(3.2.1) n1 (n1 + 1) − R1 e U 2 = n1 n 2 − U 1 2

com R1 = soma do s postos atribuídos à amostra 1; 5. O método para determin ar a significância do valor de depende de n 2 : i. Se n 2 ≤ 8 , a tabela J dá a probabilidade exacta associada a um valor tão pequeno quanto o valor de U . Para uma prova bilateral basta duplicar o valor obtido na tabela, Caso o valor de U não co nstar na tabela, deve ser interpretado como U ' = n1n 2 − U ; ii. Se 9 ≤ n 2 ≤ 20 , é utilizada a tabela K, que dá os valores críticos de U para níveis de significância de 0,001, 0,01, 0,025, 0,05 para um teste unilateral, duplicando estes valores para u ma prova bilateral. Caso o valor observado de U é maior do que n1 n 2 /2, deve ser interpretado como U’ descrito na alínea anter ior; iii. Se n 2 > 20 , a probabilidade deve ser calculada através de uma aproximação à distribuição Normal, através do valor de z que é nos dado pela fórmula:

n1 n2 2 z = n1 n2 (n1 + n2 + 1) 12 U −

(3.2.2)

Caso ocorram empates, em grandes am ostras, expressão utilizada será:

38


n1n 2 2 z = 3 ⎞ n1 n2 ⎛ N − N ⎜⎜ − ∑ T ⎟⎟ N ( N − 1) ⎝ 12 ⎠ U −

(3.2.3)

t 3 − t onde: N = n1 + n 2 e T = sendo t o número de observaçõe s empatadas para uma dada 12 posição. Se o valor observado de U tem probabilidade associada não superior a

α ,

rejeitar a

hipótese nula. Exemplo 3.2.1: Na disciplina de Estatística Aplicada, onde se encontra inscritos alunos do curso de Matemática (ensino de) e Matemática/Informática, registaram-se as seguintes classificações numa das frequências:

Tabela 3.2.1:

Mat. (ensino de) 10.5 16.5 11

9.8 17.1 1.5 14.8 9.9 9.8 10.3 8.7

Mat./Informática 11.4 12.9 10.1 7.9 8.8 12.8 O que se pode conclu ir acerca das médias das ordens das classificações. Resolução: Formulamos as hipóteses: H 0 : Não há diferenças entre as médias das ordens das notas dos alunos de Matem ática

(ensino de) e de Matemática Informática H 1 : Há diferenças entre as médias das ordens (teste bilateral).

A pós a contagem do número de casos em ambas as amostras temos:

39


n1 = 6 e n2 = 11

Calculemos U : Tabela 3.2.2:

1,5 7,9 8,7 8,8 9,8 9,8 9,9 10,1 10,3 10,5 11 11,4 12,8 12,9 14,8 16,5 17,1 E

I

E

I

1

2

3

4

U 1 = 6 × 11 +

E

E

E

I

E

E

E

I

I

I

E

E

E

5,5 5,5

7

8

9

10

11

12

13

14

15

16

17

6 × (6 + 1) − (2 + 4 + 8 + 12 + 13 + 14) = 34 2

U 2 = 6 × 11 − 34 = 32

U = min(34;32) = 32

Como 9 ≤ n 2 ≤ 20 recorremos à tabela J: Para n1 = 6 , n 2 = 11 e α = 0.05 (bilateral), temos: U tabelado = 13 . Como U tabelado < U calculado , podemos concluir que as duas amostras provêem de populações com a mesma média. Vejamos como podemos resolver este exemplo no SPSS®: Após a introdução dos valores, dá-nos o seguinte resultado: Output 3.2.1:

40


É claro que existe clara vantagens em utilizar o SPSS®. Pois, dá um quadro resume que contém o valor exacto da probabilidade, a probabilidade assimptótica e tam bém o valor de U . Tendo como principal vantagem o pouco tempo gasto para o emprego deste teste. No Mathematica® coma ajuda da função npmMannWhitneyTest[list1,list2], fica: Mat Ensi no = 10. 5, 16. 5, 11, 9. 8, 17. 1, 1. 5, 14. 8, 9. 9, 9. 8, 10. 3, 8. 7 Mat I nf or mat i ca = 11. 4, 12. 9, 10. 1, 7. 9, 8. 8, 12. 8 r pmMannWhi t neyTest Mat Ensi no, Mat I nf or mat i ca Ti t l e: Mann- Whi t ney Test Sampl e Medi ans: 10. 75, 10. 3 Test St at i st i c: 32. Di str i but i on: Normal Approxi mat i on 2

-

Si ded PVal ue

- >

0. 919895

Esta função apenas dá um valor aproximado de p. Podemos concluir que para fazer um teste com maior rigor e rapidez, o SPSS® seria a melhor escolha, pois o SPPS® calcula o valor exacto.

3.3 Teste de Moses para reacções extremas O teste de Moses dest ina-se especificamente a dados de mensuração mínima na escala ordinal. Esta prova tem como objectivo ver se as populações têm a mesma oscilação, isto é, o teste de Moses é aplicável quando é previsto que um dos grupos tenha valores altos, e o outro valores baixos. A principal vantagem deste teste é que não requer que as populações tenha medianas iguais. Todavia, Moses (1952b) salienta que um teste baseado em medianas ou em postos médios, por exemplo, o teste U de Mann-Whitney, é mais eficiente, devendo, por conseguinte, ser preferido à prova de Moses. Esta última é espec ialmente útil quando existem razões a priori para esperar que determinada condição experimental conduza a escores extremos em uma ou em outra direcção. Método: Os passos a seguir para o teste de Mos es são: Seja n C e n E o número de casos de controlo e experimentais respectivamente. 1. Antes de reunir os dados deve-se especific ar h . Será um número pe qu eno arbitrário;

41


2. Reunidos os dados, dispô-los em postos em uma única série conservando a identidade do grupo em cada posto; 3. Determinar o valor de s h , âmbito ou abrangênc ia do s postos de controlo, após eliminar os h postos mais extremos dos C ’s em cada extremidade da respectiva série, isto é, s h = C 2 − C 1 + 1

(3.3.1)

onde, C 2 é o posto que corresponde o último grupo de controlo, retirando h valores de controlo e C 1 corresponde ao primeiro posto do grupo de controlo, retirando h valores de controlo; 4. Determinar o valor de

, excesso do valor observado de s h sobre nC − 2h ,ou seja,

g = s h − ( nC − 2h) ;

5. Determinar a probabilidade associada aos dados observados, calculando o valor de

p pela fórmula:

⎛ i + nC − 2h − 2 ⎞⎛ n E + 2h + 1 − i ⎞ ⎜⎜ ⎟⎟⎜⎜ ⎟⎟ ∑ n i − i E ⎠⎝ ⎠ p ( s h ≤ nC − 2h + g ) = i =0 ⎝ ⎛ nC + n E ⎞ ⎜⎜ ⎟⎟ n ⎝ C ⎠ g

(3.3.2)

Em caso de ocorrência de empates entre grupos, considerar esses empates de todos os modos possíveis e determinar p para cada um deles. A média desses p’s é então utilizada para a decisão; 6.

Se p não superar α , rejeitar H 0 . Exemplo 3.3.1: Num estudo para avaliar o grau de medo, perante ratos, escolheu-se dois grupos de

indivíduos. O grupo C, constituído por 7 indivíduos, que trabalha diariamente com rato s e o grupo E, formado por 6 indivíduos, têm dificuldades em controlar o medo, quando estão próximos de ratos. Quer o grupo C quer o grupo E estiveram em contacto com ratos durante 10 m inutos e o grau de medo foi medido numa escala de 0 a 20 . o grau 20 significa que a pessoa tem pavor a ratos. Os resultados foram:

42


Tabela 3.3.1:

Grupo C

6

5

10

7

12

3

Grupo E

0

4

11

18

9

19

8

Será que as duas amostras provêem da mesma população? Resolução: Formulamos as hipóteses: H 0 : Não há diferenças entre o grupo C e o grupo E. H 1 : Há diferenças entre os dois grupos.

Dividimos em dois casos: o da esquerda com h = 0 e o da direita com h = 1. Dispomos os valores em postos, conservando o gru po:

Tabela 3.3.2:

Tabela 3.3.3:

Posto 1 2 3 4 5 6 7 8 9 10 11 12 13 Grupo E C E C C C C E C E C E E

Posto 1 2 3 4 5 6 7 8 9 10 11 12 13 Grupo E C E C C C C E C E C E E

s h = 9 − 4 + 1 = 6 s h = 11 − 2 + 1 = 10 Determinamos o valor de , com s h = 10 e Determinamos o valor de , com s h = 6 e nC = 7 :

nC = 7 : g = 10 − (7 − 2 × 0) = 3

g = 6 − (7 − 2 × 1) = 1

Então utilizando a fórmula 3.3.2:

⎛ i + 5 ⎞⎛ 7 − i ⎞ ⎟⎟ ⎜⎜ ⎟⎟⎜⎜ ∑ i = 0 ⎝ i ⎠⎝ 6 − i ⎠ p( s h ≤ 10) = ⎛ 13 ⎞ ⎜⎜ ⎟⎟ ⎝ 7 ⎠ = 0,2168 3

Sendo

α

⎛ i + 3 ⎞⎛ 9 − i ⎞ ⎟⎟ ⎜⎜ ⎟⎟⎜⎜ ∑ i =0 ⎝ i ⎠⎝ 6 − i ⎠ p( s h ≤ 6) = ⎛ 13 ⎞ ⎜⎜ ⎟⎟ ⎝ 7 ⎠ = 0,1795 1

= 0,05 , concluímos que, para qualquer um dos casos, não e xis te diferenças

entre os grupos C e E, sendo assim , as amostras provêem da mesma população.

43


No SPSS®, após a introdução dos valores e escolha do teste, temos o seguinte resultado: Output 3.3.1:

Como podemos ver no SPSS®, ele calcula a probabilidade associada para um h = 1 (por ele escolhido) e para um h = 0 , assim não o precisamos de escolher um h no início do teste. No Mathematica®, o procedimento a utilizar foi o npmMosesTest, este procedimento aceita como parâmetros as duas amostras, sendo a de controlo a primeira, e o h escolhido: Primeiramente, criamos as duas listas e de seguida corremos o procedimento: Amost r a1 = 6, 5, 10, 7, 12, 3, 8 Amost r a2 = 0, 4, 11, 18, 9, 19 r pmMosesTest amost r a1, amost r a2, 1 h

=

1; Sh

=

6

Nc = 7; Ne = 6; N = 13 Val or Uni l ateral de p: 0. 179487 Val or Bi l at er al de p: 0. 358974

Como podemos verificar, o Mathematica® dá-nos os valores de ambas a probabilidades e as principais variáveis do teste. As vantagens deste procedimento são a rapidez e a precisão dos valores dados.

3.4 Teste da Qui-Quadrado ( χ 2 ) para duas amostras independentes O objectivo deste teste é de comprovar que dois grupos diferem em relação a determinada característica e, consequentemente, com respeito à frequência relativa com que os componentes dos grupos se enquadram nas diversas categorias. Para a comprovação, contamos o número de casos de cada grupo que recai nas diversas categorias, e comparamos a proporção de casos de um grupo nas diversas categorias, com a proporção de casos do outro grupo. A escala de medida pode ser em apenas nominal.

44


Método: Os passos a seguir para o teste são: 1. Enquadrar as frequências observadas numa tabela de contingência k × r . Utilizando as k colunas para os grupos e as r linhas para as condições. Assim para este teste,

k = 2 ; 2. Determinar a frequência esperad a ( E ij ) de cada célula fazendo o produto dos totais marginais referentes a cada uma e dividindo-o por N . ( N é o total de casos); 3. Para determinar o valor de

χ

2

há que conside rar dois casos:

Se r > 2 a fórmula será: r k (O − E )2 ij ij 2 χ = ∑∑ E ij i =1 j =1

(3.4.1)

Oij = número de casos observados na categoria i no grupo j E ij = número de casos esperados na categoria i no grupo j sob H 0

k = número de grupos na classificação r = número de categorias na classificação; Se r = 2 então consideramos a seguinte tabela: Tabela 3.4.1:

Grupo 1 Grupo 2 Total Categoria 1 A B A+B Categoria 2 C D C+D Total A+C B+D N Então temos a fórmula: 2

χ

2

N ⎞ ⎛ N ⎜ AD − BC − ⎟ 2 ⎠ ⎝ = ( A + B )(C + D )( A + C )( B + D)

(3.4.2)

Esta fórmula é um pouco mais fácil da aplicar do que a fórmula (3.4.1), pois requer apenas uma divisão. Além disso, tem a principal vantagem de

45


incorporar uma correcção de continuidade que melhora sensivelmente a aproximação do

χ

2

;

4. Determinar a significância do valor observado de

χ

2

com gl = ( r − 1)( k − 1) , com o

auxílio da tabela C. Para um teste unilateral basta dividir por dois o nível de significância indicado. Se a probabilidade indicada na tabela for inferior a

α ,

rejeitar a hipótese nula. Exemplo 3.4.1: Um investigador estudou a relação entre os interesses vocacionais e a escolha do currículo, e a taxa de desistência do curso universitário por parte de estudantes bem dotados. Os indivíduos observados era m estudantes classificados no mínimo de 90 pontos percentuais nos testes de admissão e que haviam resolvido mudar de carreira após a matrícula. o pesquisador comparou os e studantes destacados cuja a escolha curricular se manteve na linha considerada desejável à vista do resultado obtido no Teste Vocacional de Strong (tais casos sendo considerad os como “positivos”) com os estudantes destacados cuja escolha curricular se processou em sentido diverso do indicado pelo Teste de interesse. A hipótese do investigador é que os estudantes cuja escolha foi considera da “positiva” acusam maior frequência de permanência na faculdade ou no curso universitário inicialmente escolhido. Os valores são dados na seguinte tabela: Tabela 3.4.2:

Positivo Negativo Total Afastamento

10

11

21

Permanência

46

13

59

Total

56

24

80

Resolução: Formulamos as hipóteses: H 0 : Não há diferenças entre os dois grupos no que diz respeito à proporção dos

estudantes que permanecem na faculdade.

46


H 1 : A percentagem de permanência na faculdade é maior que os estudantes cuja a

escolha do currículo foi considerada “positiva”. Iremos trabalhar com um nível de significância

α

= 0,05 .

Considerando os valores dados pela tabela ficamos com: 2

χ

2

80 ⎞ ⎛ 80⎜ (10)(13) − (11)(46) − ⎟ 2 ⎠ = ⎝ = 5,424 (21)(59)(56)(24)

A probabilidade de ocorrência, sob H 0 , de 1 p < (0,02) = 0,01 . Como este valor é inferior a 2

α

χ

2

≥ 5,424 com gl = 1

é

= 0,05 , a decisão é rejeitar H 0 . Conclui-

se, pois, que os estudantes bem dotados cuja escolha de currículo foi considerando “positiva” acusam maior frequência de permanência na universidade do que os estudantes bem dotados cuja escolha foi considerada “negativa”. No SPSS® temos o seguinte Output: Output 3.4.1:

O SPSS® dá-nos o valor de

χ

2

, com e sem o factor de correcção de continuidade e

calcula o valor assimptótico da probabilidade associada p = 0,009 . O procedimento para o Mathematica®, que será descrito a seguir, serve só para as tabelas de contingência 2 × 2 . Este procedimento tem a particularidade de ter uma opção para

47


a escolha dois tipos de co rrecção de continuidade: o método de Yates (1934) , já considerado na fórmula 3.4.2, e o método de Haber 2. Vejamos então para o exemplo ac ima considerado: No caso de não escolhermos o método de correcção, o procedimento apenas calcula o valor de p sem utilizar um dos factores de correcção: r pmChi Squar e2x2Test 10, 11, 46, 13 Ti t l e: Chi Square Test Di stri buti on: Chi Square Cor r ecti on: None Two- Si ded P- Val ue: 0. 00915693 One- Si ded P- Val ue: 0. 00457847

r pmChi Squar e2x2Test 10, 11, 46, 13 mt hd®yat es Ti t l e: Chi Square Test Di stri buti on: Chi Square Corr ecti on: Yat es Two- Si ded P- Val ue: 0. 0198649 One- Si ded P- Val ue: 0. 00993245

r pmChi Squar e2x2Test 10, 11, 46, 13 mt hd®haber Ti t l e: Chi Square Test Di stri buti on: Chi Square Cor r ecti on: Haber Two- Si ded P- Val ue: 0. 0125872 One- Si ded P- Val ue: 0. 00629361

Qualquer um dos três casos chega à decisão de rejeitar a hipótese nula. Assim concluímos, que a percentagem de permanência na faculdade é maior que os estudantes cuja a escolha do currículo foi considerada “pos itiva”. Note-se que qualquer dos valores é semelhante. Sendo assim o Mathem atica® está em clara vantagem em relação à utilização da tabela ou mesmo do SPSS®.

2

Considerando

O = min Oij : i = 1,2, j = 1,2 temos:

Se

Oij ≤ 2O então D = maior múltiplo de 0.5 que é < Oij − O ou

se

Oij > 2O então D = Oij − O − 0.5 o teste estatístico fica: 2 χ H

N 3 D 2 = ( A + B)(C + D )( A + C )( B + D)

48

Capítulo 4: Caso de k amostras relacionadas

CAPÍTULO 4: CASO DE K AMOSTRAS RELACIONADAS O objectivo principal dos testes que irão ser apresentados, é comprovar a hipótese de que as k amostras tenham sido extraídas da mesma população ou de populações idênticas. Há dois planos básicos para comprovar k grupos. No primeiro deles, as k amostras de igual tamanho são postas em correspondência de acordo com determinado(s) critério(s) que pode(m) afectar os valores das observações. Ou então cada um dos N grupos pode ser mensurado sob todas as k condições. Em tais planos, devem-se usar os testes estatísticos aqui apresentados.

4.1 Teste Q de Cochran O modelo típico para o teste Q de Cochran (1950) envolve um conjunto de k ≥ 2 tratamentos que são aplicados independentemente para cada N indivíduos. Os resultados de cada tratamento são guardados como uma variável dicotómica de sucesso e insucesso. Os uns e zeros (que correspondem ao sucesso e insucesso respectivamente) são dispostos numa tabela de contingência. Deste modo, o teste de Cochran permite investigar quando um conjunto de k proporções relacionadas difere significativamente. Método: Os passos a seguir para o teste são: 1. Para dados dicotomizados, at ribuir o valo r “1” a cada “su cesso” e o valor “0” a cada “insucesso”; 2. Dispor os dados numa tabela k × N , com k colunas e N linhas. N = número de casos em cada k grupos. 3. Determinar o valor Q utilizando a fórmula:

⎡ k 2 ⎛ k ⎞ 2 ⎤ (k − 1)⎢k ∑ G j − ⎜⎜ ∑ G j ⎟⎟ ⎥ ⎢⎣ j =1 ⎝ j =1 ⎠ ⎥⎦ Q= N

N

i =1

i =1

(4.1.1)

k ∑ Li − ∑ Li 2

50


onde: G j é a soma dos valores das j colunas; Li é a soma do s valores das i linhas.

4. a significância do valor observado de Q pode ser determinada mediante referência à tabela C, pois Q tem distribuição aproximadamente Qui-Q uadrado com gl = k − 1 .

Se a probabilidade associada à ocorrência, sob H 0 , de um valor tão grande quanto um valor observado de Q não supera

α ,

rejeita-se a hipótese nula.

Exemplo 4.1.1: Cada um dos quatro fãs de futebol criou um s istema para antever os resultados dos jogos da 1ª liga. Foram escolhidos ao acaso seis jogos, e cada um dos fãs anteviu o resultado de cada jogo. Os resultados dos prognósticos foram dispos tos num a tabela, utilizando “1” para um prognóstico bem sucedido e “0” para um prognóstico falhado. Os resultados são apresentados na tabela 4.1.1. Queremos testar a hipótese de que cada fã tem um sistema de igual efeito para antever os resultados dos jogos com um nível de significância de 5%. Tabela 4.1.1:

Fãs Jogos

1

2

3

4

Totais

1

1

1

0

0

2

2

1

1

1

0

3

3

1

1

1

0

3

4

0

1

1

0

2

5

0

1

0

0

1

6

1

1

0

1

3

Totais

4

6

3

1

14

51


Resolução: As hipóteses são as seguintes: H 0 : Cada fã tem um sistema de igual efeito para antever os resultados dos jogos de

futebol. H 1 : Existe diferenças nos efeitos dos sistemas criados pelos fãs.

Primeiro dispomos os resultados de novo numa tabela, que será apenas uma modificação da tabela 4.1.1: Tabela 4.1.2:

Fãs Jogos

1

2

3

4

Li

Li 2

1

1

1

0

0

2

4

2

1

1

1

0

3

9

3

1

1

1

0

3

9

4

0

1

1

0

2

4

5

0

1

0

0

1

1

6

1

1

0

1

3

9

G j

4

6

3

1

14

36

G j 2

16

36

9

1

62

Então, após o cálculo dos somatórios temos, com o auxílio da fórmula 4.4.1:

3 × 4 × 62 − (14)2 Q= = 7,8 4 × 14 − 36 Calculamos agora a significância do valor observado, com a ajuda da tabela C: gl = 4 − 1 = 3

Assim, como 0,02 ≤ p ≤ 0,05 e

α

= 0,05 , rejeitamos a hipótese, concluindo que existe

diferenças nos efeitos dos sistemas criados pelos fãs.

52


No SPSS® temos os seguintes resultados: Output 4.1.1:

Output 4.1.2:

De facto, p está entre 0,01 e 0,05, mas teremos maior certeza de rejeitar a hipótese nula se activássemos a opção de fazer um teste com m aior precisão como consta no Output 4.1.2. No Mathematica®, utilizaremos a função npmCoch ransQTest: r es ul t ados = 1, 1, 0, 0 , 1, 1, 1, 0 , 1, 1, 1, 0 , 0, 1, 1, 0 , 0, 1, 0, 0 , 1, 1, 0, 1 r pmCochr ansQTest r esul t ados , mt hd®appr ox Ti t l e: Cochr an Q Test Test St at i st i c: 7. 8

Col umn Tot al s: 4, 6, 3, 1 Di s t r i but i on: Chi Squar e PVal ue: 0. 0503311

r pmCochr ansQTest r esul t ados , mt hd®exact Ti t l e: Cochr an Q Test Test St at i st i c: 7. 8

Col umn Tot al s: 4, 6, 3, 1 Di str i but i on: Exact PVal ue: 0. 0481771

Foi introduzida a tabela na lista “resultados”. Com a opção para approx, obtemos um valor aproximado de p = 0,053311 , baseado na distribuição da Qui-Quadrado com três graus de liberdade, com este valor aceitava-se a hipótese nula o que seria um erro. Porém, rejeitávamos (com

α

= 0,05) se escolhêssemos o método exacto.

53


Para concluir, o Mathematica® é, de facto, o mais indicado para os cálculos, porque dános os valores com maior precisão, emb ora os dois resultados originassem respostas diferentes. Cabe ao investigad or escolher.

4.2 Teste de Friedman Quando os dados de k amostras correspondentes se apresentam pelo menos em escala ordinal, o teste de Friedman (1937) é útil para comprovar de que as k amostras tenham sido extraídas da mesma população. Método: Os passos a seguir para o teste são: 1. Dispor os valores numa tabela de dupla entrada com k colunas e N linhas; 2. Atribuir postos de 1 a k aos valores de cada linha; 3. Determinar a soma dos postos da cada coluna: R j ; 4. Calcular o valor de χ r 2 , pela fórmula: k 12 ( R j )2 − 3 N (k + 1) = ∑ Nk (k + 1) j =1

2 χ r

(4.2.1)

onde: N é o número de linhas; k é o número de colunas; R j a soma das ordens na coluna. 5. O método para determinar a probabilidad e de ocorrência sobre a hipótese nula associado a valor observado de

2

χ r

depende dos tamanhos de N e k :

i. A tabela N dá-nos as probabilidades exactas associadas a valores tão grandes quanto um χ r 2 observado para k =3 com N de 2 a 9 e para k =4 com N de 2 a 4. Caso os valores tenham ex cedidos os valores da tabela N, a probabilidade associada pode ser determinada mediante referência à distribuição Q uiQuadrado (Tabela C) com gl = k − 1 ; 6. Se a probabilidade obtida pelo método adequado indicado no item 5 não superar α, rejeita-se H 0.

54


Exemplo 4.2.1: A fim de avaliar se houve progressão na aprendizagem, um professor reteve as médias de um grupo de 4 alunos no final de cada trimestre: Tabela 4.2.1:

Alunos

A

B

C

D

1º Trimestre

8

15 11

7

2º Trimestre 14 17 13 10 3º Trimestre 15 17 14 12 Considerando um

α

= 0,05 , que conclusão poderá tirar?

Resolução: Hipóteses: H 0 : Não houve progressão na aprendizagem ao longo do ano escolar; H 1 : Houve progressão ao longo do ano escolar.

Atribuímos os postos através da seguinte tabela e calculamos as somas: Tabela 4.2.2:

Alunos 1º Trimestre 2º Trimestre 3º Trimestre A

1

2

3

B

1

2.5

2.5

C

1

2

3

D

1

2

3

R j

4

8.5

11.5

R j 2

16

72.25

132.25

Assim, fica:

N = 4 e k = 3 então χ r 2 =

12 × [16 + 72,25 + 132,25] − 3 × 4 × (3 + 1) = 7,125 4 × 3× 4

55


Com o auxílio da Tabela N temos 0,0046 ≤ p ≤ 0,042 . Assim, com

α

= 0,05 ,

rejeitamos a hipótese nula, concluindo que houve progressão na aprendi zagem ao longo do ano escolar. No SPSS®, chegamos à mesma conclusão, pois, dá-nos um p = 0,022 . Output 4.2.1:

No Mathematica®, dá-nos a aproximação à Qui-Quadrado, sendo o valor mais preciso do que o SPSS®. medi as = 8, 15, 11, 7, 14, 17, 13, 10, 15, 17, 14, 12 r pmFr i edmanTest = medi as Ti t l e: Fri edman Test Sampl e Medi ans: 12, 13. 5, 14. 5 Test St at i st i c: 7. 6 Di st r i but i on: Chi Squar e PVal ue: 0. 0223708

56

Capítulo 5: Caso para k amostras independentes

CAPÍTULO 5: CASO DE K AMOSTRAS INDEPENDENTES Na análise de dados de pesquisa, o pesquisador frequentemente precisa decidir se diversas variáveis independentes devem ser consideradas como proveniente da mesma população. Os valores amostrais quase sempre são um tanto diferentes, e o problema é deter minar se as diferenças amostrais observadas sugerem realmente diferenças entre as populações ou se são apenas variações casuais que podem ser esperadas entre amostras aleatórias da mesma popu lação.

5.1 Teste de Kruskal-Wallis O objectivo do teste de Kruskal-Wallis (1952) é ver se as diferentes k amostras provêem da mesma população ou de populações idênticas em relação às médias. O teste supõe que a variável tenha distribuição contínua, e exige mensuração no mínimo ao nível ordinal. Método: São os seguintes passos a percorrer: 1. Dispor, em postos, as observações de todos os k grupos numa única série, atribuindo-lhes postos de 1 a N ; 2. Determinar o valor de R (soma dos postos) para cada um dos k grupos de postos; 3. Caso não ocorram empates, calcular o valor de H pe la seguinte fór mula: 2

k R 12 j H = − 3( N + 1) ∑ N ( N + 1) j =1 n j onde: k = número de amostras;

(5.1.1)

n j = número de casos na amostra j N = ∑ n j , número de casos em todas as amostras combinadas; R j = soma das ordens na amostra j (colunas). Se houver empates, atribui-se a cad a uma delas a média das respectivas ordens. O valor de H é influenciado pelos em pates, sendo assim, é necessário introduzir um factor de correcção. Deste modo, para o calculo de H deve-se utilizar a fórmula:

57


2

k R 12 j − 3( N + 1) ∑ N ( N + 1) j =1 n j (5.1.2) H = ∑ T 1− 3 N − N 3 onde: T = t − t (sendo o número de observações empatada s n um grup o de valores

em patados); 4. O método para determinar a significância do valor observado de H depende do tamanho de k e do tamanho dos grupos: i. Se k = 3 e n1 , n2 , n3 ≤ 5 , pode-se utilizar a tabela O para determinar a probabilidade associada, sob H 0 , de um H tão grande quanto o observado; ii. Em outros casos, a significância de um valor tão grande quanto o valor observado de H pode ser determinado mediante referência à tabela C, com gl = k − 1 ; 5. Se a probabilidade associada ao valor observado de H não superar o nível de significância previamente fixado, rejeitar H 0 em favor de H 1 . Exemplo 5.1.1: Em 1996 nas semifinais da corrida de obstáculos a cavalo femininos de 400 metros os tempos foram os seguintes: Tabela 5.1.1:

Atleta 1 54.88 54.96 55.91 55.99 56.67 57.29 Atleta 2 54.67 54.87 54.95 56.27 58.33 81.99 Atleta 3 55.66 56.46 56.74 57.86 58.90 59.56 Utilize o teste de Kruskal-Wallis, com α = 0,05 , para testar se existe diferenças entre as atletas. Resolução: As hipóteses a testar são: H 0 : Não há diferenças entre as atletas; H 1 : Há diferenças entre as atletas. Dispomos os postos consoante os dados:

58


Tabela 5.1.2:

Atleta 1 Posto Atleta 2 Posto Atleta 3 Posto

54.88

54.96 3

54.67

55.91 5

54.87 1

55.66

7 54.95

2 56.46

6

55.99 8 56.27 4

56.74 10

56.67 11 58.33 9

57.86 12

57.29 13 81.99 15

58.90 14

18

R2 = 49

17

R3 = 75

59.56 16

R1 = 47

Como não há empates, calculamos H pela fórmula 5.1.1:

⎡ 47 2 49 2 75 2 ⎤ 12 H = + + − 3(18 + 1) = 2,854 (18)(18 + 1) ⎣⎢ 6 6 6 ⎥⎦ A partir da tabela C, observamos que o valor de p está entre 0,3 e 0,2, concluindo, a um nível de significância de 0,05, que não há diferenças entre as atletas. No SPSS temos o mesmo resultado mas com maior rigor e rapidez, pois sabemos agora que p = 0,24 :

Output 5.1.1:

No Mathematica® o resultado apresenta-se com maior número de casas decimais: rpmKruskalWallisTest tabela

Ti t l e: Kr uskal Wal l i s Test Sample Medi ans: 55.9, 55.61, 57.3

Test St at i st i c: 2. 8538 Di stri buti on: Chi Square PVal ue - > 0. 240052

59

Capítulo 6: Medidas de Correlação

CAPITULO 6: MEDIDAS DE CORRELAÇÃO

6.1 Coeficiente de Correlação por postos de Kendall:

τ

Suponhamos que um número de alunos está classificado por postos de acordo com as suas habilidades em matemática e em música. A seguinte tabela mostra os valores de cada aluno designado por letras: Tabela 6.1.1:

Aluno:

A

B

C

D

E

F

G

H

I

J

Matemática:

7

4

3

10

6

2

9

8

1

5

Música:

5

7

3

10

1

9

6

2

8

4

Queremos saber se há alguma relação entre a habilidade na matemática e na música. Observando os resultados da tabela anterior, vemos que a concordância entre eles está longe de ser perfeita, mas alguns alunos ocupam a mesma ou perto da mesma posição entre as duas disciplinas. Podemos ver a correspondência mais facilmente se na tabela for dada uma ordem natural aos resultados de matemática: Tabela 6.1.2:

Aluno:

I

F

C

B

J

E

A

H

G

D

Matemática:

1

2

3

4

5

6

7

8

9

10

Música:

8

9

3

7

4

1

5

2

6

10

O que queremos saber é uma medida de correspondência entre estas duas variáveis, ou medir a intensidade da correlação dos postos. esta medida (que será um coeficiente que designamos por 

τ

) deve ter as seguintes propriedades:

Se a correspondência entre os postos for perfeita, por exemplo, se todos os indivíduos tiverem o mesmo posto nas duas disciplinas,

τ

deve ser +1, indicando uma correlação

perf eita positiva; 

Se houver uma discordância perfeita, por exemplo, se um dos postos for o inverso do outro, τ deve ser –1, indicando uma correlação perfeita negativa;



Se houver um crescime nto do valor d e

τ

entre –1 e 1, então deve corresponder a um

acréscimo na relação entre as duas variáveis.

60


Consideremos qualquer par de a lunos da tabela 6.1.1, por exemplo, o par AB. Os seus postos, 7 e 4, ocorrem em ordem inversa (a ordem natural 1,...,10 é a ordem directa) e consequentemente atribu ímos o valor a este par –1. Se o par estivesse em ord em directa, deveríamos atribuir +1. Na segunda variável (música) no par AB os postos estão em ordem directa, deste modo, atribuímos +1. Agora, multiplicamos os dois valores do par que dá (-1)(+1)=-1. É evidente que para cada par os valores seria +1 e –1, que significaria que ambas as vari áveis estavam (+1) ou não (-1) iguais em termos de ordem. O mesmo procedimento é feito para todos os 45 pares. O total de resultados positivos são P = 21 e os negativos são − Q = −24 . Adicionando os dois temos o resultado final S = −3 . See os postos são idênticos em cada um, e se os 45 valores forem positivos então o valor máximo de S é 45. Portanto calculamos o valor máximo

τ

como:

Resultado actual 3 = − = −0,07 Resultado máximo possível 45 O valor próximo de zero indica que existe uma correlação muito pequena entre as duas variáveis. Consideremos o caso geral. Se tivermos duas variáveis com n valores para comparar. O

⎛ n ⎞ 1 número de pares para comparar é ⎜⎜ ⎟⎟ = n(n − 1) . Este é o número máximo de resultados ⎝ 2 ⎠ 2 possíveis. Se S é a soma dos resultados obtidos, então definimos o coeficiente de correlação como: τ

=

2S n(n − 1)

(6.1.1)

Existe um modo prático de determinar o valor de S (número de resultados positivos): Considerando a tabela 6.1.2. em que a primeira variável (m atemática) está na ordem natural, a segunda variável apresenta a seguinte sequência: 8 9 3 7 4 1 5 2 6 10 Considerando o primeiro valor, 8, observamos que na direita existe dois valores maiores. Então contribui-se para P o valor +2. Tendo em atenção o 9, encontramos, à direita, a contribuição de +1 para P e assim sucessivamente. Assim temos o valor de P que é

61


P = 2 + 1 + 5 + 1 + 3 + 4 + 2 + 2 + 1 = 21 consequentemente,

⎛ n ⎞ S = 2 P − ⎜⎜ ⎟⎟ ⎝ 2 ⎠

(6.1.2)

Método: 1. Atribuir postos de 1 a n à variável X . Atribuir também à variável Y postos de 1 a n. Note-se que na tabela 6.1.1 os postos já foram atribuídos; 2. Ordenar os n indivíduos de maneira que os postos de X se apresenta m na ordem natural. No exemplo acima referido será a tabela 6.1.2; 3. Observar a ocorrência dos postos de Y quando os postos de X se acham na ordem natural. Determinar o valor de S (soma dos resultados de todos os pares) pelo processo acima descrito; 4. Se não há empates, aplicar a fórmula 6.1.1. Em caso de haver observações empatadas, atribuímos às observações empatadas a média dos postos que lhe caberiam se não houvesse empate. O efeito dos empates consiste em modificar o denominador da fórmula 6.1.1. Neste caso temos: S τ = (6.1.3) 1 1 n(n − 1) − T x n(n − 1) − T y 2 2 onde: T x = 12 ∑ t (t − 1) , t sendo o número de observações empatadas em cada grupo de empates na variável X . T y =

1 2

∑ t (t − 1) , t sendo número de observações empatadas em cada grupo de

empates na v ariável Y . Se os n indivíduos constituem uma amostra aleatória de alguma população, pode-se comprovar se o valor observado de

τ

indica existência de associação entre as variáveis X e Y

na população. O método depende do tamanho de n: 1. Para n ≤ 10. a tabela Q dá a probabilidade associada (unilateral) a um valor tão grande quanto um S observado; 2. Para n>10, pode-se calcular o valor de z associado a

τ

pela fórmula:

62


z =

τ

2(n + 5) 9n(n − 1)

(6.1.4)

A tabela A dá a probabilidade associada a um valor tão grande quanto um z observado. Se o valor de p não superar

α

, H 0 pode ser rejeitada.

Retomando o exemplo da tabela 6.1.1, vejamos o que acontece no SPSS®: Output 6.1.1:

O coeficiente ( τ ) é dado com maior precisão e, claro, com rapidez. O SPSS® também dá-nos o valor da probabilidade associada, assim podemos comprovar se o coeficiente indica existência ou não de associação entre as variáveis. Neste caso, p > α , sendo ele de 0.05, podemos concluir que o coeficiente indica existência de associação. O Mathematica®, com a função KendallRankCorrelation, dá-nos apenas o coeficiente, mas é neste software que consegue-se m aior precisão N Kendal l RankCor r el at i on 7, 4, 3, 10, 6, 2, 9, 8, 1, 5, 5, 7, 3, 10, 1, 9, 6, 2, 8, 4 - 0. 0666667

63


6.2 Coeficiente de Correlação por postos de Spearman: r S É uma medida de associação que exige que ambas as variáveis se apresentem em escala ordinal, de modo que os objectos ou indivíduos em estudo possam dispor-se por postos em duas séries ordenadas. Consideremos a tabela 6.1.1, vamos subtrair os postos da música pelos de matemática e amostrar os resultados na seguinte tabela: Tabela 6.2.1:

Aluno:

A

B

C

D

E

F

G

H

I

J

Matemática:

7

4

3

10

6

2

9

8

1

5

Música:

5

7

3

10

1

9

6

2

8

4

d i

2

-3

0

0

5

-7

3

6

-7

1

d i 2

4

9

0

0

25

49

9

36

49

1

O somatório das diferenças d i deve dar zero (serve como ferramenta de verificação), porque é a soma das diferenças de duas quantidades que cada uma delas vai de 1 a 10. Também na tabela mostra o quadrado das diferenças. Denotando o som atório destas diferenças por

n

∑ d

2

i

definimos o coef iciente de Spearman como

i =0

n

r s = 1 −

6∑ d i 2 i =0 3

n −n Da qual, aplicada ao exemplo, fica r S = 1 −

(6.2.1)

6(4 + 9 + 0 + 0 + 25 + 49 + 9 + 36 + 49 + 1) = −0,103 3 10 − 10

Método: 1. Dispor em postos a variável X , de 1 a n. O mesmo para a variável Y ; 2. Determinar o valor das diferenças de cada indivíduo e elevá-lo ao quadrado (Como mostrado na tabela 6.2.1); 3. Calcular r S aplicando a fórmula (6.2.1).

64


Caso haja empates: Quando a proporção de empates na variável X ou na variável Y é t 3 − t grande, deve-se incorporar um factor de correcção T = , onde t é o número de 12 observações empatadas em determinado posto. Assim, temos a fórmula de r s para o caso de empates: n

r S =

∑ x 2 + ∑ y 2 − ∑ d i 2

∑ x ∑ y ∑ x = n 12− n − ∑ T e ∑ y 2

2

2

onde:

2

3

x

em que

(6.2.2)

i =1

∑ T

x ou y

2

n3 − n = − ∑ T y 12

é o somatório sobre os vários valores de T para todos os grupos de

observações empatadas. Se os indivíduos constituem uma amostra aleatório de uma população, pode-se comprovar se o valor observado de r S indica a existência de associação entre as variáveis X e Y na população. O método dep ende do tamanho de n: 1. Para n de 4 a 30, a tabela P, dá os valores críticos de r S para níveis de significância 0,05 e 0,01 (teste unilateral). 2. Para n ≥ 10 , pode-se determinar a significância de um valor tão grande quanto um r S observado calcula-se o valor de t associado aquele valor, pela fórmula: n−2 (6.2.2) ≈ t ( n−2 ) 1 − r S 2 Em seguida determina-se a sign ificância do valor com o auxilio da tabela B. t = r S

Através do SPSS®, constatamos o mesm o valor calculado anteriormente: Output 6.2.1:

65


É também apresentado a significância do coeficiente que, neste caso, com um

α

= 0,05 ,

podemos concluir que o valor indica a existência de associação entre as variáveis. No Mathematica® apenas é fornecido o coeficiente, mas com maior número de casas decimais: N Sper manRankCor r el at i on 7, 4, 3, 10, 6, 2, 9, 8, 1, 5, 5, 7, 3, 10, 1, 9, 6, 2, 8, 4 - 0. 10303

6.3 Coeficiente de Concordância de Kendall: W Já conhecemos dois coeficientes ( τ e r S ) para a determinação da concordância entre dois conjuntos de postos. Suponhamos que temos k conjuntos de postos, poderia parecer razoável determinar os coeficientes entre todos os pares possíveis de postos e então calcular a média entre eles para saber o grau de concordância das k amostras. Adoptando tal método,

⎛ k ⎞ teremos que calcular ⎜⎜ ⎟⎟ coeficientes de correlação de postos o que seria impraticável se k ⎝ 2 ⎠ tomar valores muito grandes. O cálculo de W é muito mais simples: Método: 1. Se n é o número de objectos ou indivíduos a serem classificados em postos, e k o número de juízes classificadores. Dispor os postos observados numa tabela k × n ; 2. Para cada indivíduo, ou objecto, determinar R j , soma dos postos atribuídos àquele indivíduo pelos k juízes; 3. Determinar S pela fórmula seguinte: 2

n ⎛ ⎞ R ⎜ ⎟ ∑ j n S = ∑ ⎜⎜ R j − j =1 ⎟⎟ n j =1 ⎜⎜ ⎟⎟ ⎝ ⎠ 4. Calcular o valor de W utilizando a fórmula:

W =

S 1 2 3 k (n − n) 12

(6.3.1)

(6.3.2)

66


Se houver observações empatadas, atribui-se a elas a média dos postos que lhes caberiam se não ho uvesse empates. Introduz-se um factor correctivo na fórmula.

∑ (t − t ) T = 3

(6.3.3) 12 onde t é o número de observações empatadas em relaç ão a um da do po sto e ∑ será a soma de todos os grupos de empates dentro de qualquer um dos k conjuntos de postos. Com a correcção para empates incorporada, o coefic iente de concordância de Kendall é S

W =

(6.3.4) 1 2 3 k (n − n) − k ∑ T 12 T onde ∑ T é o somatório sobre todos os valores de T para todos os k conjuntos de postos. T

Podemos comprovar a significância de qualquer valor observado de W determinando a probabilidade associada à ocorrência, sob H 0 , de um valor tão grande quanto o S a que está associado. A de terminação da probabilidade depende de n: 1. Se n ≤ 7 , a tabela R dá os valores críticos de S ass ociado com os W’s significativos aos níveis 0.05 e 0.01; 2. Se n > 7 , podemos utilizar a fórmula: χ

2

=

S

com gl = n – 1

(6.3.5)

1 kn(n + 1) 12 Se o valor do χ 2 é igual ou superior ao valor exibido na tabela C para um dado nível de significância e com n-1 graus de liberdade, então H 0 (de que não há relacionamento entre os k conjuntos de postos) pode ser rejeitada. Exemplo 6.3.1: Sete empresas foram avaliadas em três critérios (P - Produtividade, Q - Qualidade do serviço e M – Motivação dos colaboradores) para análise das suas performances no mercado onde estão inseridas. A tabela seguinte apresenta os resultados obtidos:

67


Tabela 6.3.1:

Empresa Critérios P

A

B

C

D

E

F

G

65

52

80

48 92

77

68

Q

58

45

76

58 88

88

55

M

70

56

83

61

70

70

75

Calcular o coeficiente de concordância de Kendall. Resolução: Primeiramente atribuímos os postos em cada critério e de seguida calculamos a soma dos postos por empresa: Tabela 6.3.2:

Empresa

A

B

C

D

E

F

G

3

2

6

1

7

5

4

Q

3.5

1

5

3.5

6.5

6.5

2

M R j

4

1

7

2

6

4

4

10,5 10,5

4

18

Critérios P

6,5 6,5 19,5 19,5 15,5 15,5

10

A média das somas dos postos de cada empresa é calculada de seguida: 7

∑ R

j

j =1

7

=

10,5 + 4 + 18 + 6,5 + 19,5 + 15,5 + 10 84 = = 12 7 7

Portanto o valor de S é S = (10,5 − 12) 2 + (4 − 12) 2 + (18 − 12) 2 + (6,5 − 12) 2 + (19,5 − 12) 2 + (15,5 − 12) 2 +

+ (10 − 12) 2 = 205 De seguida calculamos os valores para os empates: (2 3 − 2) + (2 3 − 2) (33 − 3) Sendo T Q = = 1 e T M = = 2 então 12 12

∑ T = 1 + 2 = 3 T

Logo, obtemos o coeficiente pela fórmula 6.3.4:

68


W =

205 1 2 3 (3) (7 − 7) − 3(3) 12

= 0.844

Concluímos, assim, que existe uma forte correlação entre as diversas empresas. No SPSS®, era muito mais fácil, pois, não teríamos que efectuar muitos cálculos com a vantagem de não haver erros desnecessários. Output 6.3.1:

Através do “Output” podem os concluir, além da já mencionada correlação, que esta medida é significante para medir o grau de correlação entre as 7 amos tras.

69

Conclusão

CONCLUSÃO Após esta explanação, dos vários métodos para a estatística não paramétric a, com abordagem de dois softwares res de aplicação nos vário rios métodos, pod emos tirar vária rias conclusões. Estas conclusões são ap resentadas de seguida e m formato de quadro resu mo. Cada quadro irá conter os diferentes métodos nas linhas e os métodos de resolução, quer d o método tradicional (Tabelas), quer a utilização do com computa putaddor, or, nas colu colunnas. as. O quadr uadroo irá conte onterr as prin princcipa ipais características para cada método em particular. Quadro 1: Caso de uma am ostra

Processo de Resolução:

Tabelas

Teste da Binomial

Nem sempre é possível determinar o valor exacto de p de p;;  Apenas para pequenas amostras; amostras;  Recorre-se à tabela A.

SPSS®



Mathematica®

Pode-se utilizar para grandes amostras; de p é é  O valor de p apresentado com maior n.º de casas decimais.



Valor de p de p com com precisão e rapidez rapidez  Fornece dados em relação à amostra. 

Calcula um valor assimptótico;  Dá-nos algumas informações do t este (ex.: valor esperado, graus de liberdade).



Dá-nos a dimensão da amostra, as diferenças máximas; Calcula o valor de p de p assimptótico.

Não foi possível conseguir um procedimento que fizesse o teste.



Qui-Quadrado para uma amostra

Não calculamos o valor de p de p,, apenas temos um intervalo; Utiliza-se a tabela C. 

Não calculamos o valor de p de p,, apenas temos um intervalo;  Utiliza-se a tabela E;  Não calculamos o valor de p de p,, apenas temos um intervalo das iterações;  Utiliza-se a tabela F. 

KolmogorovSmirnov para uma amostra

Iterações para uma amostra







Dá-nos o valor de r , e da probabilidade assimptótica.

Dá o valor de p de p com exactidão.

Após a conversão para zeros e uns, uns, calcula a probabilidade e o número de iterações.



70

Conclusão

Quadro 2: Caso de duas amostras relacionadas


Tabelas

SPSS®

Mathematica®

Teste dos sinais

Nem sempre é possível determinar o valor exacto de p;  Só para dimensões menores que 25;  R ecorre-se à tabela D.

Utiliza a distribuição Binomial para o cálculo da probabilidade  Fornece dados em relação ao teste: empates, sinais positivos e negativos.

Utiliza também a distr ibuição binomial par a o cálculo de p;  O valor de p é o mais preciso com maior n.º de casas decimais.







 É empregue a

Teste de McNemar

Teste de Wilcoxon

f órmula 2.2.1 que dá-nos o resultado que, posteriormente, é comparado com valores da tabela C;  Não temos o cálculo de p.  Não calculamos o valor de p, apenas comparamos o valor de T calculado com os tabelados na tabela G;

Calcula um valor assimptótico, utilizando a distr ibuição Binomial. 

O cálculo do valor assimptótico de p é baseado nos números negativos.



O calculo de p é feito através de pr ocedimento n pmBinomialPValue [], o mesmo da Binomial. 



Não foi possível conseguir um procedimento.

71

Conclusão

Quadro 3: Caso de duas amostras independentes


Tabelas

SPSS®

Mathematica®

 Recorre-se à tabela

Teste de WaldWolfowitz

Teste U de Mann-Whitney

F, caso as dimensões não superar 20, neste caso não se calcula o valor da probabilidade, apenas compara-se o número de iterações. Caso contrário, recorre-se à tabel a A.  Calculamos o val or de U recorrendo à fórmula 3.2.1, que, posteriormente, é comparado com os valores apresentados na tabela K e J.

Teste de Moses para reacções extremas

Não é preciso tabelas, apenas recorre-se à fórmula 3.3.2 para o cálculo de p;

Qui-Quadrado duas amostras independentes

Não calculamos o valor de p, apenas temos um intervalo;  Utiliza-se a tabela C. 

 Fornece o número

mínimo de iterações e o número máximo, calculando para cada um deles a probabilidade associada.

Calcula o valor d e U e o valor de p, quer assimptótico, quer exacto.







Dá-nos a dimensão da amostra, as diferenças máximas; Calcula o valor de p assimptótico. 

Calcula o valor aproximado da probabilidade associada.

Não foi possível conseguir um procedimento que fizesse o teste.

Calcula o valor aproximado da probabilidade com maior número de casas decimais. 

O processo é o mesmo do manua l, mas com a vantag em de não haver erros;  Mais rápido.  Calcula o valor de p de três modos: 1. Sem correcção; 2. Correcção de Yates; 3. Correcção de Haber. Mas, só para tabela 2x2. 

72

Conclusão

Quadro 4: Caso de k amostras

Processo de Resolução: Teste Q de Cochran (Amostras relacionadas) Teste Friedman (Amostras relacionadas)

Teste de KruskalWallis (Amostras independentes)

Tabelas

SPSS®


 Podemos escolher

C, para o cálculo da probabilidade de ocorrência de Q.  Calculamos um intervalo para a probabilidade com o auxílio da tabela N.  Recorre-se à Tabela O para o cálculo da probabilidade;  as amostras só podem ser no máximo dimensão não superior a cinco.

entre um teste exacto e um teste assimptótico;  Calcula o valor de Q  Calcula o valor de p recorrendo à QuiQuadrado com k -1 graus de liberdade. 

Calcula um valor aproximado da probabilidade, recorrendo à QuiQuadrado com k -1 graus de liberdade.

Mathematica®  Igual ao SPSS®, mas

com maior precisão. Do mesmo modo que o SPSS®, mas com maior precisão.





Igual ao SPSS, mas com maior rigor.

Quadro 5: Medidas de Correlação


Tabelas

SPSS®


O, estando limitado a dimensões não superiores a 10;  Para o cálculo do coeficiente pode haver erro.

Coeficiente de correlação por postos de Kendall:

 Calcula o coeficiente e

também a probabilidade associada sob a hipótese nula. Calcula o coeficiente, como também a sua probabilidade associada.  Calcula o coeficiente e a probabilidade associada;  Apresenta a média dos postos para cada amostra;

Mathematica®  Apenas dá o

coeficiente;  O coeficiente é apresentado com maior número de casas decimais.



Coeficiente de correlação por postos de Spearman ( rS )

 Recorre-se à tabela P

para os valores críticos de r S . 

Coeficiente de concordância de Kendall (W )

Fácil cometer erros no calculo do coeficiente, principalmente em caso de empate.



Apenas dá o coeficiente.

Não foi possível apresentar um procedimento que calcula-se o coeficiente.

Se observarmos atentamente este resume, compreendemos que as tabelas estão inadequadas para amostras de grandes dimensões, a melhor solução para este problema será recorrer ao computador.

73

Conclusão

O SPSS® é mais fácil de trabalhar, pois apresenta um ambien te de fácil utilização, tornandose uma ferramenta “popular”. O “output” de cada teste tem a vantagem de poder ser formatado ao gosto do utilizador. Este trabalho desenvolvido, é apenas uma ínfima parte do que o SPSS® pode fazer no campo da Estatística. O Mathematica® é uma ferramenta preciosa na Matemática e em particular para a Estatística Não Paramétrica, pois poder-se-á desenvolver função para testar hipóteses utilizando os diferentes métodos da Estatística. Os procedimentos, aqui utilizados, apresentam resultados com mais precisão do que o SPSS®, podendo escolher o número de casas decimais com a função N[]. A programação destes procedimentos encontra-se em anexo.

74

Bibliografia

BIBLIOGRAFIA 

Gibbons, Jean Dickinson e Chakraborti, Subhabrata, (1991) Nonparametric Statistical Inference, Third Edition, Dekker, Estados Unidos da América;



Siegel, Sidney, (1975) Estatística comportamento, McGraw-Hill, Brasil;

Não-Parametrica para as ciências

do



Daniel, W. W., Applied Nonparametric Statistic, Second Edition, PWS-Kent, Estados Unidos da América;



Wonnacott, Thomas H. e Wonnacott, Ronald J., Introductory Statistic, Fifth Edition;



Kendall, Maurice e Gibbons, Jean Dickinson, (1990) Rank Correlation Methods, Fifth Edition, Oxford University Press, Estados Unidos da América;



Kotz, Samuel e Johnson, Norman L., (1982) Encyclopedia of Statistical Sciences, Volume 2, Wiley-Interscience, Estados Unidos da América;



Mello, F. Galvão de Mello, Probabilidades e Estatística conceitos e métodos fundamentais, volume I e II, Escobar Editora;



Abell, Martha L., Braselton, James P. e Rafter, John A., (1999) Statistic with Mathematica®, Academic Press, Estados Unidos da América;



Sernadas, A. e Sernadas C., (1996) Programação em Mathematica, Secção de Ciências da Computação, Departamento de Matemática IST, Lisboa;



Carmo, José, (1998) Introdução à Programação em Mathematica, Secção de Ciências da Computação, Departamento de Matemática IST, Lisboa.

75

Bibliografia

ANEXOS

Estatística Não Paramétrica Testes de Hipóteses e Medidas de Associação

75

Anexo 0

Anexo 0 No SPSS® é preciso pesar os dados para que se possa aplicar alguns dos métodos. Estes são: 

Teste da Qui-Quadrado, quer para uma amostra, quer para duas amostras independentes,



Teste de Kolmogorov-Smirnov;



Teste de McNemar. Para pesar os dados é preciso realizar os seguintes passos:

76

Anexo I: Caso de uma amostra

Anexo I: Caso de uma amostra I.1 Teste da Binomial: 

SPSS®



Mathematica® Of f Gener al spel l 1; << Statistics`DiscreteDistributions` upper PSum p0, s : =Modul ek bdi st Bi nomi nal Di st r i but i on upboundPDFbdi st s onet ai = CDFbdi st s t wot ai =onet ai k=n; whi l eAndPDFbdi st k <= upbounds <> s t wot ai =l t wor a+PDFbdi st ; k=k- 1; t wot ai =Mi nt wot ai ; onet ai , t wot ai l ;

77


l ower PSum, p0, s : =Modul ek, bdi st =Bi nomi al Di st r i but i on, p0; upboundPDFbdi st ; onet ai =l 1- CDFbdi st s ; t wot ai =l onet ai 1; k=0; whi l ePDFbdi st k <= upbound, t wot ai =l t wot ai +PDFbdi st k; k=k+1; Mi nt wot ai , l 1; onet ai , l t wot ai l

npmBinomial PValue0, s := Modulebdist, pv al, spHat, bdist=binomialDistribution p0; pHat=s n; If pHat <= p0, pvals upperPSum, p0, s; If pHat <= p0, pvals lowerPSum p0, s; Print “OneSidedPValue -> “, pvals1; Print “TwoSidedPValue -> “, pvals2

I.2 Teste da Qui-quadrado ( 

χ

2

) de uma amostra

SPSS®

78




Mathematica®

<
I.3 Teste de Kolmogorov-Smirnov para uma amostra 

SPSS®

79


I.4 Teste de iterações de uma amostra 

SPSS®



Mathematica®

OffGeneral spell1; Statistics`NormalDistribution` << Statistics`DataManipulation` <<

dropValxs := If x!=medAppendTo newListx fy, m0 :=Module, If y < m0, 0, 1 findFirstOne dlist := Module, k=1; while listk != 1, k=k+1 findFirstZero k:=Module, k=1; While listk !=0, k=k+1;

80

Anexo II: Caso de duas amostras relacionadas

Anexo II: Caso duas amostras relacionadas A seguir à introdução dos dados qualquer um dos testes deste anexo tem o seguinte passo: Passo (*):

81


II.1 Teste dos Sinais 

SPSS®

Passo (*)



Mathematica®

Of f Gener al spel l 1; << Statistics`DiscreteDistributions`

Option spmSignTestFrequencies sided -> 2

82


Clean spmSignTestFrequencies npmSignTestFrequencies f1, f2, opts := Modules, n, tail, s=f1; n=f1+f2; tail=sided opts Option spmSignTestFrequencies If s <= n 2, pval = N CDFBinomialDistribution 1, 2, s, pval = 1-N CDFBinomialDistribution 1, 2, s; Iftail == 2, pval = 2*pval; Print “TitleSignTest”; Print “Distribution “BinominalDistribution, n, “, 1 2 “; Print tail “ – sided p-value -> “, pval; II.2 Teste dos McNemar 

SPSS®

Passo (*)

83


II.3 Teste de Wilcoxon 

SPSS®

Passo (*)

84

Anexo III: Caso de duas amostras independentes

Anexo III: Caso de duas amostras independentes A seguir à introdução dos dados qualquer um dos testes (excepto o teste da QuiQuadrado) do Anexo III tem o seguinte Passo: Passo (**):

85

Anexo III: Caso Caso de duas amostras independentes

III.1 Teste de Wald-Wolfowitz 

SPSS®

Passo (**) Na página seguinte: seguinte:

86


III.2 Teste de U de Mann-Whitney 

SPSS®

Passo (**) Na página seguinte: seguinte:

87


III.3 Teste de Moses para reacções extremas 

SPSS®

Passo (**)

88


III.4 Teste da Qui-quadrado ( χ 2 ) para duas amostras independentes 

SPSS®

89


90

Anexo IV: Caso de k amostras relacionadas

Anexos IV: Caso de k amostras relacionadas Após a introdução dos dados, é feito o seguinte passo, comum a todos: Passo (***):

91


IV.1 Teste de Q de Cochran 

SPSS®

Passo (***)

IV.2 Teste de Friedman 

SPSS®

Passo (***)

92


93

Anexo V: Caso de k amostras independentes

Anexo V: Caso de k amostras independentes V.1 Teste de Kruskal-Wallis 

SPSS®

94

Anexo VI: Medidas de Correlação

Anexo VI: Medidas de Correlação. As medidas de correlação estão por defeito no Mathematica® portanto neste anexo só apresento os passos para o SPSS®: VI.1 Coeficiente de correlação por postos de Kendall: τ

95


VI.2 Coeficiente de correlação por postos de Spearman: r S

96


VI.3 Coeficiente de concordância de Kendall: W

97

TABELAS

Estatística Não Paramétrica

Testes de Hipóteses e Medidas de Associação

75

Tabelas

Tabela A

Probabilidades associadas a valores tão extremos quanto os valore s observados de z na Distribuição Normal O corpo da tabela dá as probabilidades unilaterais de z sob H 0. A coluna da margem esquerda dá os valores de z com uma décima, e a linha superior dá os valores com duas décimas. Assim, por exemplo, a probabilidade unilateral p de z ≥ 0,11 ou ≤ −0,11 é p = 0,4562 z 0,0 0,1 0,2 0,3 0,4

0,00 0,5000 0,4602 0,4207 0,3821 0,3446

0,01 0,4960 0,4562 0,4168 0,3783 0,3409

0,02 0,4920 0,4522 0,4129 0,3745 0,3372

0,03 0,4880 0,4483 0,4090 0,3707 0,3336

0,04 0,4840 0, 4443 0,4052 0,3669 0,3300

0,05 0,4801 0,4404 0,4013 0,3632 0,3264

0,06 0,4761 0,4364 0,3974 0,3594 0,3228

0,07 0, 4721 0,4325 0,3936 0,3557 0,3192

0,08 0,46 81 0 ,4286 0,38 97 0,35 20 0,31 56

0,09 0,4641 0,4247 0,3859 0,3483 0,3121

0,5 0,6 0,7 0,8 0,9

0,3085 0,2743 0,2420 0,2119 0,1841

0,3050 0,2709 0,2389 0,2090 0,1814

0,3015 0,2676 0,2358 0,2061 0,1788

0,2981 0,2643 0,2327 0,2033 0,1762

0,2946 0,2611 0, 2296 0,2005 0,1736

0,2912 0,2578 0,2266 0,1977 0,1711

0,2877 0,2546 0,2236 0,1949 0,1685

0,2843 0,2514 0,2206 0 ,1922 0,1660

0,28 10 0,24 83 0 ,2177 0,18 94 0,16 35

0,2776 0,2451 0,2148 0,1867 0,1611

1,0 1,1 1,2 1,3 1,4

0,1587 0,1357 0,1151 0,0968 0,0808

0,1562 0,1335 0,1131 0,0951 0,0793

0,1539 0,1314 0,1112 0,0934 0,0778

0,1515 0,1292 0,1093 0,0918 0,0764

0,1492 0,1271 0,1075 0,0901 0, 0749

0,1469 0,1251 0,1056 0,0885 0,0735

0,1446 0,1230 0,1038 0,0869 0,0721

0,1423 0,1210 0,1020 0,0853 0,0708

0,14 01 0,11 90 0,10 03 0,08 38 0 ,0694

0,1379 0,1170 0,0985 0,0823 0,0681

1,5 1,6 1,7 1,8 1,9

0,0668 0,0548 0,0446 0,0359 0,0287

0,0655 0,0537 0,0436 0,0351 0,0281

0,0643 0,0526 0,0427 0,0344 0,0274

0,0630 0,0516 0,0418 0,0336 0,0268

0,0618 0,0505 0,0409 0,0329 0,0262

0,0606 0,0495 0,0401 0,0322 0,0256

0,0594 0,0485 0,0392 0,0314 0,0250

0,0582 0,0475 0,0384 0,0307 0,0244

0,05 71 0,04 65 0,03 75 0,03 01 0,02 39

0,0559 0,0455 0,0367 0,0294 0,0233

2,0 2,1 2,2 2,3 2,4

0,0228 0,0179 0,0139 0,0107 0,0082

0,0222 0,0174 0,0136 0,0104 0,0080

0,0217 0,0170 0,0132 0,0102 0,0078

0,0212 0,0166 0,0129 0,0099 0,0075

0, 0207 0,0162 0,0125 0,0096 0,0073

0,0202 0,0158 0,0122 0,0094 0,0071

0,0197 0,0154 0,0119 0,0091 0,0069

0,0192 0,0150 0,0116 0,0089 0,0068

0 ,0188 0,01 46 0,01 13 0,00 87 0,00 66

0,0183 0,0143 0,0110 0,0084 0,0064

2,5 2,6 2,7 2,8 2,9

0,0062 0,0047 0,0035 0,0026 0,0019

0,0060 0,0045 0,0034 0,0025 0,0018

0,0059 0,0044 0,0033 0,0024 0,0018

0,0057 0,0043 0,0032 0,0023 0,0017

0,0055 0,0041 0,0031 0,0023 0,0016

0,0054 0,0040 0,0030 0,0022 0,0016

0,0052 0,0039 0,0029 0,0021 0,0015

0,0051 0, 0038 0, 0028 0,0021 0,0015

0,00 49 0,0037 0,0027 0,00 20 0,00 14

0,0048 0,0036 0,0026 0,0019 0,0014

3,0 3,1 3,2 3,3 3,4

0,0013 0,0010 0,0007 0,0005 0,0003

0,0013 0,0009

0,0013 0,0009

0,0012 0,0009

0,0012 0,0008

0,0011 0,0008

0,0011 0,0008

0,0011 0,0008

0,00 10 0,00 07

0,0010 0,0007

3,5 3,6 3,7 3,8 3,9

0,00023 0,00016 0,00011 0,00007 0,00005

4,0

0,00003

76

Tabelas

Tabela B

Valores críticos de t.

0,2

Nível de significân cia para o te ste unilateral 0,05 0,025 0,01 0,005 0,0005 Nível de signif icância para o teste bilateral 0,1 0,05 0,02 0,01 0,001

1 2 3 4 5

3,078 1,886 1,638 1,533 1,476

6,314 2,920 2,353 2,132 2,015

12,706 4,303 3,182 2,776 2,571

3 1,821 6,965 4,541 3,747 3,365

63,6 56 9,9 25 5,8 41 4,604 4,0 32

636,5 78 31,6 00 12,924 8,610 6,869

6 7 8 9 10

1,440 1,415 1,397 1,383 1,372

1,943 1,895 1,860 1,833 1,812

2,447 2,365 2,306 2,262 2,228

3,143 2,998 2,896 2,821 2,764

3,707 3,499 3,3 55 3,250 3,169

5,959 5,408 5,041 4,781 4,587

11 12 13 14 15

1,363 1,356 1,350 1,345 1,341

1,796 1,782 1,771 1,761 1,753

2,201 2,179 2,160 2,145 2,131

2,718 2,681 2,650 2,624 2,602

3,106 3,055 3,0 12 2,977 2,947

4,437 4,318 4,221 4,140 4,073

16 17 18 19 20

1,337 1,333 1,330 1,328 1,325

1,746 1,74 0 1,734 1,729 1,725

2,120 2,110 2,101 2,093 2,086

2,583 2,567 2,552 2,539 2,528

2,921 2,898 2,878 2,861 2,845

4,015 3,965 3,922 3,883 3,850

21 22 23 24 25

1,323 1,321 1,319 1,318 1,316

1,721 1,717 1,714 1,711 1,708

2,080 2,074 2,069 2,064 2,060

2,518 2,508 2,500 2,492 2,485

2,831 2,819 2,807 2,797 2,787

3,819 3,792 3,768 3,745 3,725

26 27 28 29 30

1,315 1,314 1,313 1,311 1,310

1,706 1,703 1,701 1,699 1,697

2,056 2,052 2,048 2,045 2,042

2,479 2,473 2,467 2,462 2,457

2,779 2,771 2,763 2,756 2,750

3 ,707 3,689 3,674 3,660 3,646

40 60 120

1,303 1,296 1,289 1,282

1,684 1,671 1,658 1,645

2,021 2,000 1,980 1,960

2,423 2,390 2,358 2,326

2,704 2,660 2,617 2,576

3,551 3,460 3,373 3,290

gl

∞

0,1

77

Tabelas

Tabela C

Valores críticos de Qui-Quadrado

Pro babilidade, sob H 0 , de χ 2 ≥ qui-quadrado

gl 0,99

1 2 3 4 5

0,98

0,95

0,90

0,80

0,064 0,45 1,01 1,65 2,34

0,70

0,50

0,15 0,45 0,71 1,39 1,42 2,37 2,19 3,36 3,00 4,35

0,30

0,20

0,10

0,05

0,02

0,01

0,001

1,07 1,64 2,41 3,2 2 3,6 6 4,64 4,8 8 5 ,99 6,06 7,29

2,71 4 ,61 6,25 7,78 9,24

3,84 5,99 7,81 9,49 11,07

5,41 7,82 9,84 11 ,67 13,39

6,63 9,21 11 ,34 13,28 15,09

10,83 13 ,82 16,27 18,47 20,51

0,00016 0,02 0,11 0,30 0,55

0,00063 0,04 0,18 0,43 0,75

0,0039 0,10 0,35 0,71 1,15

0,016 0,21 0,58 1,06 1,61

6 7 8 9 10

0,87 1,24 1,65 2,09 2,56

1,13 1,56 2,03 2,53 3,06

1,64 2,17 2,73 3,33 3,94

2,20 3,07 3,83 5,35 2,83 3,82 4,67 6,35 3,49 4,59 5,53 7,34 4,17 5,38 6,39 8,34 4,87 6,18 7,27 9,34

7,23 8,38 9,52 10,66 11,78

8,56 9,80 11,03 12,24 13,44

10,64 12,02 13,36 14,68 15,99

12,59 14,07 15,51 16,92 18,31

15,03 16,62 18,17 19,68 21,16

16,81 18,48 20,09 21,67 23,21

22,46 24,32 26,12 27,88 29,59

11 12 13 14 15

3,05 3,57 4,11 4,66 5,23

3,61 4,18 4,77 5,37 5,98

4,57 5,23 5,89 6,57 7,26

5,58 6,30 7,04 7,79 8,55

6,99 7,81 8,63 9,47 10,31

8,15 9,03 9,93 10,82 11,72

10,34 11,34 12,34 13,34 14,34

12,90 14,01 15,12 16,22 17,32

14,63 15,81 16,98 18,15 19,31

17,28 18,55 19,81 21,06 22,31

19,68 21,03 22,36 23,68 25,00

22,62 24,05 25,47 26,87 28,26

24,73 26,22 27,69 29,14 30,58

31,26 32,91 34,53 36,12 37,70

16 17 18 19 20

5,81 6,41 7,01 7,63 8,26

6,61 7,25 7,91 8,57 9,24

7,96 8,67 9,39 10,12 10,85

9,31 10,09 10,86 11,65 12,44

11,15 12,00 12,86 13,72 14,58

12,62 13,53 14,44 15,35 16,27

15,34 16,34 17,34 18,34 19,34

18,42 19,51 20,60 21,69 22,77

20,47 21,61 22,76 23,90 25,04

23,54 24,77 25,99 27,20 28,41

26,30 27,59 28,87 30,14 31,41

29,63 31,00 32,35 33,69 35,02

32,00 33,41 34,81 36,19 37,57

39,25 40,79 42,31 43,82 45,31

21 22 23 24 25

8,90 9,54 10,20 10,86 11,52

9,91 10,60 11,29 11,99 12,70

11,59 12,34 13,09 13,85 14,61

13,24 14,04 14,85 15,66 16,47

15,44 16,31 17,19 18,06 18,94

17,18 18,10 19,02 19,94 20,87

20,34 21,34 22,34 23,34 24,34

23,86 24,94 26,02 27,10 28,17

26,17 27,30 28,43 29,55 30,68

29,62 30,81 32,01 33,20 34,38

32,67 33,92 35,17 36,42 37,65

36,34 37,66 38,97 40,27 41,57

38,93 40,29 41,64 42,98 44,31

46,80 48,27 49,73 51,18 52,62

26 27 28 29 30

12,20 12,88 13,56 14,26 14,95

13,41 14,13 14,85 15,57 16,31

15,38 16,15 16,93 17,71 18,49

17,29 18,11 18,94 19,77 20,60

19,82 20,70 21,59 22,48 23,36

21,79 22,72 23,65 24,58 25,51

25,34 26,34 27,34 28,34 29,34

29,25 30,32 31,39 32,46 33,53

31,79 32,91 34,03 35,14 36,25

35,56 36,74 37,92 39,09 40,26

38,89 40,11 41,34 42,56 43,77

42,86 44,14 45,42 46,69 47,96

45,64 46,96 48,28 49,59 50,89

54,05 55,48 56,89 58,30 59,70

78

Tabelas

Tabela D

Probabilidades associadas a valores tão pequenas quanto os valores observados de x no Teste Binomial. O corpo da tabela dá as probabilidades unilaterais de z, sob H 0 , do teste binomial, quando P = Q = ½. Omitiram-se as vírgulas decimais nos p’s. x 0

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

031 016 008 004 002 001

188 109 062 035 020 011 006 003 002 001

500 344 227 145 090 055 033 019 011 006 004 002 001 001

812 656 500 363 254 172 113 073 046 029 018 011 006 004 002 001 001

969 891 773 637 500 377 274 194 133 090 059 038 025 015 010 006 004 002 001 001

* 984 938 855 746 623 500 387 291 212 151 105 072 048 032 021 013 008 005 003 002

* 992 965 910 828 726 613 500 395 304 227 166 119 084 058 039 026 017 011 007

* 996 980 945 887 806 709 605 500 402 315 240 180 132 095 067 047 032 022

* 998 989 967 927 867 788 696 598 500 407 324 252 192 143 105 076 054

* 999 994 981 954 910 849 773 685 593 500 412 332 262 202 154 115

* * 997 989 971 941 895 834 760 676 588 500 416 339 271 212

* * 998 994 982 962 928 881 820 748 668 584 500 419 345

* * 999 996 989 975 952 916 868 808 738 661 581 500

* * * 998 994 985 968 942 905 857 798 729 655

* * * 999 996 990 979 961 933 895 846 788

* * * 999 998 994 987 974 953 924 885

N

5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

* 1,0 ou aproximadamente 1,0

79

Tabelas

Probabilidades associadas a valores tão pequenas quanto os valores observados de x no Teste Binomial. O corpo da tabela dá as probabilidades unilaterais de z, sob H 0 , do teste binomial, quando P = Q = ½. Omitiram-se as vírgulas decimais nos p’s. x 0

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

031 016 008 004 002 001

188 109 062 035 020 011 006 003 002 001

500 344 227 145 090 055 033 019 011 006 004 002 001 001

812 656 500 363 254 172 113 073 046 029 018 011 006 004 002 001 001

969 891 773 637 500 377 274 194 133 090 059 038 025 015 010 006 004 002 001 001

* 984 938 855 746 623 500 387 291 212 151 105 072 048 032 021 013 008 005 003 002

* 992 965 910 828 726 613 500 395 304 227 166 119 084 058 039 026 017 011 007

* 996 980 945 887 806 709 605 500 402 315 240 180 132 095 067 047 032 022

* 998 989 967 927 867 788 696 598 500 407 324 252 192 143 105 076 054

* 999 994 981 954 910 849 773 685 593 500 412 332 262 202 154 115

* * 997 989 971 941 895 834 760 676 588 500 416 339 271 212

* * 998 994 982 962 928 881 820 748 668 584 500 419 345

* * 999 996 989 975 952 916 868 808 738 661 581 500

* * * 998 994 985 968 942 905 857 798 729 655

* * * 999 996 990 979 961 933 895 846 788

* * * 999 998 994 987 974 953 924 885

N 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

* 1,0 ou aproximadamente 1,0

80

Tabelas

Tabela E

Valores críticos de D no Teste de Kolmogorov-Smirnov para uma amostra.

Nível de Significância para

D = máx F 0 ( X ) − S N ( X ) N

0,20

0,15

0,10

0,05

0,01

1 2 3 4 5

0,900 0,684 0,565 0,494 0,446

0,925 0,726 0,597 0,525 0,474

0,950 0,776 0,642 0,564 0,510

0,975 0,842 0,708 0,624 0,565

0,995 0,929 0,828 0,733 0,669

6 7 8 9 10

0,410 0,381 0,358 0,339 0,332

0,436 0,405 0,381 0,360 0,342

0,470 0,438 0,411 0,388 0,368

0,521 0,486 0,457 0,432 0,410

0,618 0,577 0,543 0,514 0,490

11 12 13 14 15

0,307 0,295 0,284 0,274 0,266

0,326 0,313 0,302 0,292 0,283

0,352 0,338 0,325 0,314 0,304

0,391 0,375 0,361 0,349 0,338

0,468 0,450 0,433 0,418 0,404

16 17 18 19 20

0,258 0,250 0,244 0,237 0,231

0,274 0,266 0,259 0,252 0,246

0,295 0,286 0,278 0,272 0,264

0,328 0,318 0,309 0,301 0,294

0,392 0,381 0,371 0,363 0,356

25 30 35

0,21 0,19 0,18

0,22 0,20 0,19

0,24 0,22 0,21

0,27 0,24 0,23

0,32 0,29 0,27

Mais de 35

1, 07 N

1,14 N

1, 22 N

1,36 N

0 , 63 N

81

Tabelas

Tabela F

Valores críticos de r no teste de Iterações O corpo das tabelas FI e FII contém diversos valores críticos de r para vários valores de n1 e n2. Para o teste de iterações de uma amostra, qualquer valor de r não superior ao exibido na tabela FI ou não inferior ao exibido na tabela FII é significativo ao nível 0,05. Para o teste de iterações de Wald-Wolfowitz qualquer valor der não superior ao exibido na tábua FI é significativo ao nível 0,05. Tabela FI

2 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

2 2 2 2 2 2 2 2 2

3

2 2 2 2 2 2 2 2 2 3 3 3 3 3 3

4

2 2 2 3 3 3 3 3 3 3 3 4 4 4 4 4

5

6

7

8

9

10 11 12 13 14 15 16 17 18 19 20

2 2 3 3 3 3 3 4 4 4 4 4 4 4 5 5 5

2 2 3 3 3 3 4 4 4 4 5 5 5 5 5 5 6 6

2 2 3 3 3 4 4 5 5 5 5 5 6 6 6 6 6 6

2 3 3 3 4 4 5 5 5 6 6 6 6 6 7 7 7 7

2 3 3 4 4 5 5 5 6 6 6 7 7 7 7 8 8 8

2 3 3 4 5 5 5 6 6 7 7 7 7 8 8 8 8 9

2 3 4 4 5 5 6 6 7 7 7 8 8 8 9 9 9 9

2 2 3 4 4 5 6 6 7 7 7 8 8 8 9 9 9 10 10

2 2 3 4 5 5 6 6 7 7 8 8 9 9 9 10 10 10 10

2 2 3 4 5 5 6 7 7 8 8 9 9 9 10 10 10 11 11

2 3 3 4 5 6 6 7 7 8 8 9 9 10 10 11 11 11 12

2 3 4 4 5 6 6 7 8 8 9 9 10 10 11 11 11 12 12

2 3 4 4 5 6 7 7 8 9 9 10 10 11 11 11 12 12 13

2 3 4 5 5 6 7 8 8 9 9 10 10 11 11 12 12 13 13

2 3 4 5 6 6 7 8 8 9 10 10 11 11 12 12 13 13 13

2 3 4 5 6 6 7 8 9 9 10 10 11 12 12 13 13 13 14

82

Tabelas

Tabela FII

2 3 4 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

5

6

9 9 10 9 10 11 11

9 10 11 12 12 13 13 13 13

7

8

9

10

11

12

13

14

15

16

17

18

19

20

11 12 13 13 14 14 14 14 15 15 15

11 12 13 14 14 15 15 16 16 16 16 17 17 17 17 17

13 14 14 15 16 16 16 17 17 18 18 18 18 18 18

13 14 15 16 16 17 17 18 18 18 19 19 19 20 20

13 14 15 16 17 17 18 19 19 19 20 20 20 21 21

13 14 16 16 17 18 19 19 20 20 21 21 21 22 22

15 16 17 18 19 19 20 20 21 21 22 22 23 23

15 16 17 18 19 20 20 21 22 22 23 23 23 24

15 16 18 18 19 20 21 22 22 23 23 24 24 25

17 18 19 20 21 21 22 23 23 24 25 25 25

17 18 19 20 21 22 23 23 24 25 25 26 26

17 18 19 20 21 22 23 24 25 25 26 26 27

17 18 20 21 22 23 23 24 25 26 26 27 27

17 18 20 21 22 23 24 25 25 26 27 27 28

83

Tabelas

Tabela G

Valores críticos de T no teste de Wilcoxon

N

Nível de significância para teste unilateral 0,025 0,01 0,005 Nível de significância para teste bilateral 0,05 0,02 0,01

6 7 8 9 10

0 2 4 6 8

0 2 3 5

0 2 3

11 12 13 14 15

11 14 17 21 25

7 10 13 16 20

5 7 10 13 16

16 17 18 19 20

30 35 40 46 52

24 28 33 38 43

20 23 28 32 38

21 22 23 24 25

59 66 73 81 89

49 56 62 69 77

43 49 55 61 68

84

Tabelas

Tabela J

Probabilidades associadas a valores tão pequenos quanto os valores observados de U no teste de Mann-Whitney

85

Tabelas

Probabilidades associadas a valores tão pequenos quanto os valores observados de U no teste de Mann-Whitney (continuação)

86

Tabelas

Probabilidades associadas a valores tão pequenos quanto os valores observados de U no teste de Mann-Whitney (continuação)

87

Tabelas

Tabela K

Valores críticos de U no teste de Mann-Whitney Tabela KI. Valores críticos para um teste unilateral

Tabela KII. Valores críticos para um teste unilateral

Tabela KIII. Valores críticos para um teste unilateral

Tabela KIV. Valores críticos para um teste unilateral

com α=0,001 e um teste bilateral com α=0,002




88

Tabelas

Tabela N Probabilidades associadas a valores tão grandes quanto os valores observados de χr2 no teste de Friedman

89

Tabelas

Probabilidades associadas a valores tão grandes quanto os valores observados de χr2 no teste de Friedman (continuação) para k = 4

90

Tabelas

Tabela O

Probabilidades associadas a valores tão grandes quanto os valores observados de H no teste de Kruskal-Wallis.

91

Tabelas

Probabilidades associadas a valores tão grandes quanto os valores observados de H no teste de Kruskal-Wallis.

92

Tabelas

Tabela P

Valores Críticos de rS, coeficiente de correlação de Spearman

N

4 5 6 7 8 9 10 12 14 16 18 20 22 24 26 28 30

Nível de significância (unilateral) 0,05 0,01 1,000 0,900 0,829 0,714 0,643 0,600 0,564 0,506 0,456 0,425 0,399 0,377 0,359 0,343 0,329 0,317 0,306

1,000 0,943 0,893 0,833 0,783 0,746 0,712 0,645 0,601 0,564 0,534 0,508 0,485 0,465 0,448 0,432

93

Tabelas

Tabela Q

Probabilidades associadas a valores tão grandes quanto os valores observados de S no coeficiente de correlação de Kendall S 4 0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36

0,625 0,375 0,167 0,042

5 0,592 0,408 0,242 0,117 0,042 0,0083

Valores de N 8 0,548 0,452 0,360 0,274 0,199 0,138 0,089 0,054 0,031 0,016 0,0071 0,0028 0,00087 0,00019 0,000025

S 9 0,540 0,460 0,381 0,306 0,238 0,179 0,130 0,090 0,060 0,038 0,022 0,012 0,0063 0,0029 0,00012 0,00043 0,000012 0,000025 0,0000028

6 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45

0,500 0,360 0,235 0,068 0,028 0,0083 0,0014

Valores de N 7 10 0,500 0,386 0,281 0,191 0,119 0,068 0,035 0,015 0,0054 0,0014 0,00020

0,500 0,431 0,364 0,300 0,242 0,190 0,146 0,108 0,078 0,054 0,036 0,023 0,014 0,0083 0,0046 0,0023 0,0011 0,00047 0,00018 0,000058 0,000015 0,0000028 0,00000028

94

Estatistica Não Parametrica_testes de Hipoteses e Medidas de Associação

Recommend Documents