Capítulo 1 Inferência Estatística 1.1 Introdução Considere-se Considere-se que o resultado de um experimento experimento qualquer é a observação de uma variável variável aleatória aleatória , discreta discreta ou continua. Esta variável variável é caracterizada por uma uma distribui distribuição ção de de distribuições probabili probabilidade dade pertencendo a alguma alguma famíl família ia distribuições especificada especificada na qual um número úmero fin finito de parâm parâmetr etros os ( , . . ., ) é, em geral geral,, desc descon onhe heci cido. do. Sej Seja ( ; ) a função de probabilidade ou densidade de dado . Aqui ( ; ) é escrito indiferen indiferentemente temente para distribuições distribuições univariadas univariadas discretas ou contín contínuas uas.. Admi Admite-s te-see que temos temos observ observaçõe açõess ( , . . ., ) - rea1iz rea1izaçõe açõess da vari variáv ável el aleatória - geradas repetindo-se o experimento. experimento. A teoria de probabili probabilidade dade trata trat a do problema problema da distribuição distribuição de quando esta é completamente completamente defin definida ida (i.é, todos os parâmetros 's são conhecidos). conhecidos). Entretanto, se a distribuição de não está completamente definida e podemos apenas supor que a sua distribuição pertence pert ence a família família ), o problema passa a ser de inferência estatística. esta tística. O interesse interesse é então, a partir das observações , ter alguma alguma inform informação ação sobre sobre e assim assim determinar determinar completamente a distribuição ) de . ´ supor que a distribuic Parece razoavel distribuica brasileiros ros adultos possa ser ¸~a o das alturas dos brasilei ~ e´ suficiente para representada por uma distribuição Normal. Mas esta afirmacao ¸~ nao ´ determinar qual a distribuicao conhecer os ¸~ Normal correspondente; precisariamos ^ ´ e variancia, parametros, media vari^ancia, desta Normal. Normal. ´ ´ Se pudessemos medir as alturas de todos os brasileiros adultos, teriamos meios de ^ obter os o s verdadeiros valores valores dos parametros e, assim, assim, produzir a distribuicao distribuicao ¸~ Normal exata. ´ ou ^ Contudo, fazer inferencia atraves´ dos dados populacionais nem sempre e´ possivel ´ viavel. ~ valores assumidos ´ Considere Considere um experimento experimento estatistico cujos resultados, , sao assumidos ´ aleatoria ´ . por uma variavel variavel aleatoria Seja ( ) a distribuicao distribuicao probabilidade dade de onde é desconhecido desconhecido e ¸~ de probabili
denominado PARÂMETRO. ´istica numerica ´ carac teristica desconhecida que determina dete rmina completamente completament e a e´ uma caracter distrib distribui uição ção de probabil probabilida idade de ( ).
1
Exemplos: pode representar r epresentar a
chegada de navios no porto: po rto: , com co m parâmetro
onde ^ ´ Populacional e Variancia Media Populacional 2) altura das pessoas de uma cidade, usualmente usualmente , com parâmetros e , onde ^ ´ Populacional e Variancia Media Populacional 3 tem temperatu ratura ra em cada mê do ano com parâm râmetro etro de form orma e parâmetro de escala , onde e 4 tem tempo de falh alha de um com compon ponente ente elet eletrô rônnico ou
~ sera´ completam ´ a, ( ) nao ´ um ou mais Na pratica, pratic completamente ente conheci conhecida, da, isto isto e, mais ~ desconhecidos. ^ serao parametros desconhecidos. ´ ^ O objetivo objetivo do estatistico e´ estimar estes parametros desconhecidos desconhecidos ou testar a validade de certas afirmacoes ¸~ sobre eles. Definição:
O conjunto conjunto de todos os possíveis possíveis valores que um parâmetro (de uma f.d.p ( ) pode pode assu assumi mirr é cham chamado ado Espaço Espaço Paramé Paramétri trico. co.
Exemplos: No primeiro primeiro exemplo exemplo acima, temos , logo .
2)
No
segundo,
temos ( e .
e
0,
então:
e
. Se é conhecido, conhecido, então
3) No terceir terceiroo exem exempl plo, o, temos temos 0 e 0, então então , e (, 0 e 0 . 4) Seja ~ com desconhecido, desconhecido, então e .
2
Exemplos: pode representar r epresentar a
chegada de navios no porto: po rto: , com co m parâmetro
onde ^ ´ Populacional e Variancia Media Populacional 2) altura das pessoas de uma cidade, usualmente usualmente , com parâmetros e , onde ^ ´ Populacional e Variancia Media Populacional 3 tem temperatu ratura ra em cada mê do ano com parâm râmetro etro de form orma e parâmetro de escala , onde e 4 tem tempo de falh alha de um com compon ponente ente elet eletrô rônnico ou
~ sera´ completam ´ a, ( ) nao ´ um ou mais Na pratica, pratic completamente ente conheci conhecida, da, isto isto e, mais ~ desconhecidos. ^ serao parametros desconhecidos. ´ ^ O objetivo objetivo do estatistico e´ estimar estes parametros desconhecidos desconhecidos ou testar a validade de certas afirmacoes ¸~ sobre eles. Definição:
O conjunto conjunto de todos os possíveis possíveis valores que um parâmetro (de uma f.d.p ( ) pode pode assu assumi mirr é cham chamado ado Espaço Espaço Paramé Paramétri trico. co.
Exemplos: No primeiro primeiro exemplo exemplo acima, temos , logo .
2)
No
segundo,
temos ( e .
e
0,
então:
e
. Se é conhecido, conhecido, então
3) No terceir terceiroo exem exempl plo, o, temos temos 0 e 0, então então , e (, 0 e 0 . 4) Seja ~ com desconhecido, desconhecido, então e .
2
1.2 Amostra Aleatória Para o estatístico estimar estimar os parâmetros da distribuição distribuição de probabili probabilidade dade ( ) ele então observa observa n valores valores , . . ., assumi assumidos dos pela pela v.a.. Cada i pode ser conside considerado rado ~ v.a's. como como o val valor assu assum mido por uma uma v.a. , i , . . ., , onde onde , . . ., n sao .a's. indepen independentes dentes com f.d.p f.d.p comum comum ( ). Definição: Seja Seja
uma uma v.a. v.a. com f.d.p f.d.p ( ) ´ As observacoes observacoe (a.a.) ¸~ s , , . . . , formam uma AMOSTRA ALEATORIA de tamanho n da v.a. , se elas resultam resulta m de selecoes ¸~ independentes e cada tem a mesma distribuic distribuica ¸~a o de (da populacao). ¸~ linha linha de producao, muito importante importante que o tempo gasto numa numa ¸~ e´ muito determinada determinada operacao operaca na~o varie muito muito de empregado para empregado. ¸~o nao 11 empregados apresentam os tempos abaixo abaixo para realizar essa operacao operaca ¸~ o
Exemplo: Numa
125 135 115 120 150 130 125 145 125 140 130
QUESTÕES: 1) Qual distribuição distribuição de probabilidade probabilidade ( ) melhor melhor representaria a população tempo gasto na operacao operaca nesses dados? ¸~o baseada nesses 2) Uma vez reconhecida reco nhecida a distribuição (ou a melhor distribuição dentre dentr e várias possíveis) possíveis) ( ), para os dados acima, como estimar estimar o(s) parâmetro(s) parâmetro (s) . ~ , o objetivo ´ Entao, Entao objetivo do estatistico e´ decidir, decidir, com base numa numa amostra adequadamente adequadamente selecion selecionada, ada, que membro membro ou memb membros ros da famil fam´ilia ia { ( ), } pode representar representar a f.d.p f.d.p de . ~ chamados ´ ^ a Estatistica Problemas Problemas deste tipo sao chamados problemas problemas de Inferencia Inferenci e sera´ o objeto de estudo destas notas.
3
1.3 Histograma: estimador da 'forma' da distribuição de Suponhamos que temos uma populacao ¸~ cuja distribuicao ¸~ desconhecemos. Extraimos uma amostra de tamanho dessa populacao. ¸~ ´ da forma da distribuicao Com esta informacao ¸~ queremos ter uma ideia ¸~ ´ ´ continua) desconhecida, ou seja, queremos estimar a funcao ¸~ densidade (no caso de variavel ´ discreta). ou a distribuicao ¸~ de probabilidades (no caso de variavel No caso de v.a. discreta, o problema a ser investigado geralmente já sugere a distribuição de probabilidade a ser adotada, contudo, para uma v.a. contínua, pode existir várias distribuições a ser utilizada no problema. ^ Exemplo: Numa central telefonica chegam 300 telefonemas por hora. ~ haja nenhum chamado. Qual a probabilidade de que num minuto nao Sol:
Seja X: nu´mero de chamadas por minuto. X ~ Poisson() onde E(X) = . ´ de chamadas por minuto e´ = O nu´mero medio Portanto, P{X = 0} =
e-5. 5 0 0!
300 60
=5
= 0,006738
´ Os dados abaixo referem-se aos montantes (em milhares de dolares) de 32 ´ emprestimos pessoais em uma companhia financeira. Exemplo:
6.0 0.0 2.0 6.5 5.0 3.5 4.0 7.0 8.0 7.0 8.5 6.0 4.5 0.0 6.5 6.0 2.0 5.0 5.5 5.0 7.0 1.5 5.0 5.0 4.0 4.5 4.0 1.0 5.5 3.5 2.5 4.5 Com os dados da tabela construimos o histograma dado abaixo. h=hist(X) xhist=c(min(h$breaks),h$breaks) yhist=c(0,h$density,0) xfit=seq(min(X),max(X) ,length=85) yfit=dnorm(xfit,5,1.8) plot(xhist,yhist,type="s",ylim=c(0,max(yhist,yfit))) lines(xfit,yfit,col="red")
4
0 2 . 0
5 1 . 0
t s i
h y
0 1 . 0
5 0 . 0
0 0 . 0
0
2
4
6
8
10
xhist
´ da verdadeira forma da distribuicao A curva suavizada da figura da´ uma ideia ¸~ da ´ momentante de empréstimos. variavel Uma comparaca ¸~o visual permite-nos concluir que a distribuicao ¸~ obtida aproxima-se razoavelmente de uma Distribuicao ¸~ Normal, i.é, . Podemos checar a Normalidade dos dados pelo Teste . Existem vários métodos (gráficos e testes) para checarmos o ajustamento dos dados (a.a.) a uma distribuição de probabilidade conhecida.
´ 1.4 Estatistica Definic¸~ ao:
Seja , , . . . , uma a.a. de uma v.a. , e sejam , , . . . , os valores tomados pela amostra. ´ Definimos ESTATISTICA à uma funcao ¸~ ( , , . . . , ), que tome o valor ( , , . . . , ). ´ ´ Obs: 1) Uma Estatistica e´ uma funcao das observacoes ¸~ de valor numerico ¸~ amostrais. Qualquer função da amostra que não depende de parâmetros desconhecidos é uma estatística.
5
´ 2) Os valores de uma estatistica possuem uma variabilidade, pois dependem da ´ amostra, portanto a estatistica e´ uma v.a.. ~ de grande interesse: ´ As seguintes estatisticas sao
_
´ i) Media Amostral
1
n
_ Xi - X
^ ii) Variancia Amostral
S =
´ iii) Minimo da Amostra
´ (X , . . ., Xn ) K = min
´ iv) Maximo da Amostra
´ (X , . . ., Xn ) M = max
i=1
n
v) Correlação Amostral
i=1 n
i=1
Exemplo:
n - 1
_ _ (i )( i )
_ (i )
n
i=1
_ (i )
Seja ~ , onde é conhecido mas é desconhecido. Seja , . . ., uma amostra de De acordo com a definição,
=1
não é uma estatística
´ 1.5 Distribuicao ¸ ~ Amostral de uma Estatistica _ ~ variaveis ´ ´ ´ Lembremos que estatisticas amostrais, p.ex, X, S , e outras, sao aleatorias, ~ constantes fixadas que podem ser ^ enquanto os parametros populacionais , sao desconhecidas. Definic¸~ ao: A distribuicao ¸~ de ~ DISTRIBUICAO AMOSTRAL . ¸
´ probabilidade de uma estatistica e´ chamada sua
Naturalmente, há muitas outras estatística importantes que encontraremos, mas certamente aquelas mencionadas acima desempenham importante papel em muitas aplicações estatísticas. Enunciaremos agora (e demonstraremos) alguns teoremas referentes às estatísticas acima.
6
1.5.1 Média Amostral ^ ´ e variancia com media . , . . . , uma amostra aleatória. Seja _ _ _ . . . ~ ´ Amostral, Seja = a Media Amostral, entao enta o E(X) = e var(X) =
Teorema: Seja uma v.a. qualquer
_ prova: i) E(X) =
E(X ) + E(X ) + . . . + E(X E(Xn ) n
=
++...+
n
=
n. n
n
= .
´ ii) Pelo fato das variaveis serem independentes, vem _ var(X) =
var(X ar(X ) + var var(X (X ) + . . . + var(X ar(Xn ) + + . . . + = n n
=
n. n
=
n
.
^ ´ 2 Seja uma populacao sendo que uma delas contem ¸~ consistindo de 3 residencias; ^ odos, outra ^ ^ a contem ^ odos. ´ 3 comodos ´ 4 comodos. comodos, com out ra contem e a terceira t erceira residencia residenci com ^ ^ Seja a v.a. X: no. de comodos em cada residencias. ^ Sup. que selecionamos aleatoriamente aleato riamente uma amostra amostr a de duas residencia com ~ reposicao. ¸ _ ~ A distribuicao distribuicao ¸ amostral de X e´ dada por, ------------------------------------------- _ Valor de X Probabilidade --------------------------------------------2.0 1/9 2.5 2/9 3.0 3/9 3.5 2/9 4.0 1/9 ------------------------------------------Exemplo:
^ ´ populacional e a variancia Calculando a media populacional, encontraremos: encontr aremos: = 2 + 33 + 4
segue:
= 3 e =
(2 - 3) 3) + (3 (3 - 3) + (3 (3 - 4) 3
= 0.67
_ _ _ ~ Pela distribuic distribuica a o de probabilidade probabil idade da v.a. X podemos calcular calcul ar E(X) e var(X), como ¸ _ E(X) =
_ _ _ Xi .P .P(Xi = xi ) = 2x 19 + 2.5x 29 + 3x 39 + 3.5x 29 + 4x 19 =
27 9
=3
_ _ _ Xi .P(Xi =x) = 4x 19 + 6.25x 92 + 9x 93 + 12.25x 29 + 16x 91 =
84 9
= 9 .3 3
5
i=1
_ E(X ) =
5
i=1
_ _ _ var(X ar(X)) = E(X E(X ) - E(X) E(X)
7
= 9.33 9.3333 - 9 = 0.33 0.3333 33
_ Portanto, E(X) =
_ var(X) =
e
n
,
o que comprova o resultado do Teorema.
_ ~ ^ ´ e a variancia Ja´ determinam dete rminamos os _ a media da distribuicao de X. Para obtermos obter mos as ¸ demais propriedades de X, bastaria agora determinar qual _ _ a forma da curva referente à ´ distribuicao de X. ¸~ de X , ou seja qual o modelo probabilistico Para amostras amostras casuais casuais simp si _ mples les X , . . . , Xn , retiradas retiradas de uma uma populacao populacao Normal, a ¸~ Normal, ´ X sera´ Normal. distribuicao ¸~ amostral da media Teorema: Seja
uma v.a. com distribuição normal _ . Seja , . . . , uma amostra aleatória, entao enta~o ,
_ ~ ´ prova: Com o proposito de encontrar a funcao funcao densidade de X, considere considere sua funcao funcao ¸ densidade ¸~ geratriz de momentos. momentos. Dai,´
M _ X (t )
=
=E
E et.Xi/n =
_ t . eX
= E et.(X +X + . . . +Xn)/n = E et.X/n . E et.X/n . . . E et.X n/n =
MXi (t/n). Ou seja, M _ X (t ) =
MXi (t/n).
Sabemos que se Xi ~ N( , ) entao ta~o MXi (t) = exp .t + Da´i, M _ X (t ) =
exp . nt +
2.
t n
= exp
.t
n
+
.t
.t 2.n
2
.
n
= exp .t +
.t
2.n
´ el normal com media ´ ae Logo, M _ func¸~ao geratriz de momentos momentos da variavel variav medi X (t) e´ a funcao ^ variancia /n.
8
Exemplo: Numa urna urna tem-se 5 tiras de papel numeradas numeradas 1, 3, 5, 5, e 7.
Seja a v.a. X = valor assumido assumido pelo elemento elemento na populacao. ¸~ A distribuicao distribuicao ¸~ de X e´ dada por
-------------------------------------------------------x 1 3 5 7 --------- ---------------------------------------------p(X=x) 1/5 1/5 2/5 1/5 --------------------------------------------------------
~ uma segunda tira e´ Uma tira de papel e´ sorteada e recolocada na urna; entao sorteada. Sejam X e X , respectivamente, respectivamente, o primeiro primeiro e o segundo nu´meros ´meros sorteados. _ ´ Tabela: Possiveis valores de X. (X , X ) (1,1) (1,3) (1,5) (1,5) (1,5) (1,7) (3,1) (3,3) (3,5) (3,5) (3,5) (3,7) (5,1) (5,3) ---------------------------------------------------------------------------------------------------- _ X= X +X 1 2 3 3 4 2 3 4 4 5 3 4 2 (5,5) (5,5) (5,7) (5,1) (5,3) (5,5) (5,5) (5,7) (7,1) (7,3) (7,5) (7,5) (7,7) -------------------------------------------------------------------------------------------------5 5 6 3 4 5 5 6 4 5 6 6 7 _ ~ Assim, Assim, a distribuicao amostral amostr al de X p/ n=2 e´ dada por, ¸ _ x _ _ 1 2 3 4 5 6 7 P{X = x} 1/25 2/25 5/25 6/25 6/25 4/25 1/25
9
Digamos que a v.a. X represente o peso real de pacotes de cafe,´ enchidos automaticamente. Sabe-se que X tem distribuicao ¸~ Normal N(500, 81). Sorteamos 9 pacotes ´ e medimos seus pesos. Assim, se a maquina estiver regulada, a probabilidade de ´ de 9 pacotes diferindo de 500 com menos de 6 gramas sera? ´ encontrarmos a media Exemplo:
Sol: P
_ _ X - 500 6 P{494 X 506} P
494 500 9/3
_ X 500 9/3
506 500 9/3
~ 95% P{ 2 Z 2} = ~ uma media ´ fora do intervalo [498, 502]. Caso Ou seja, dificilmente 9 pacotes terao ´ fora desse intervalo, sera´ razoavel ´ desconfiar que a 9 pacotes apresentem uma media ´ maquina esteja desregulada.
~ sao ~ nem ´ Como a maioria das variaveis de interesse possuem distribuicoes ¸~ que nao mesmo aproximadamente normais, e´ importante sabermos se as propriedades anteriores de _ ~ aproximadamente satisfeitas quando a amostragem e´ realizada a partir de uma X sao ~ distribuicao ¸~ nao-normal. Teorema:
Seja uma amostra aleatória de uma distribuição de Poisson com
média Então
tem distribuição de Poisson com parâmetro n.
_ Daí, P
n
para
k =
0, 1, 2, ...
que fornece a distribuição exata da média amostral para uma amostra de uma distribuição de Poisson.
10
Teorema:
Se X , . . . , X n é _ uma amostra aleatória de () , com fdp dada por ~ ( , ). () I (, entao
prova: Veja Mood, Graybill e Boes. Exemplo:
Um dispositivo eletrônico tem uma duração de vida , a qual é exponencialmente distribuída, com parâmetro 0,001; quer dizer, sua fdp é () 0,0010,001 . Suponha-se que 100 desses dispositivos constituem uma a.a., fornecendo os valores observados 1 , . . ., . Qual é a probabilidade de que _ 950 1.100? _ Sol: No caso presente, poderemos realmente obter a distribuição exata de Pelo Teorema acima 99! (0,001) 99 0,001 _ onde éa fdp de 1 . . . . Daí, a fdp de será dada por _ _ _ 99 0,01 99! (0,01) .
_
Portanto, tem uma distribuição gama com parâmetros 0,1 e 100. Logo, _ 950 1.100
1100 _ _ 950 ......
A figura abaixo sugere-nos que, quando o tamanho da amostra _ aumenta, independendo da distribuicao ¸~ da populacao ¸~ original, a distribuicao ¸~ amostral de X aproximase cada vez mais de uma de uma distribuicao ¸~ normal. Este resultado, fundamental na teoria ´ ^ de Inferencia Estatistica, e´ conhecido como Teorema do Limite Central.
TEOREMA DO LIMITE CENTRAL TLC:
^ ´ e variancia . Seja X uma v.a. qualquer com media _ ~ Seja , . . . , uma amostra aleatória, entao ,
quando e´ grande. prova: Ver Meyer pgs. 293 e 294.
11
´ ´ NOTA: Independente de a distribuicao discreta, simetrica ou ¸~ populacional ser continua, ~ a distribuicao ^ ´ assimetrica, o TLC _ estabelece que se a variancia populacional e´ finita, entao, ¸~ ´ amostral X e´ aproximadamente Normal se o tamanho da amostra for grande. da media ^ A rapidez dessa convergencia depende da distribuicao ¸~ da populacao ¸~ da qual a ^ ´ amostra e´ retirada. Se a populacao da Normal, sua convergencia e´ ¸~ original e´ proxima ^ ´ rapida; ja,´ se a distribuicao e´ mais ¸~ da populacao ¸~ tem a forma de um V, essa convergencia demorada.
12
Para introduzirmos os conceitos, neste curso, assumiremos que para amostras com mais de 30 elementos a aproximacao ¸~ por uma uma distribuição Normal ja´ pode ser ´ ´ considerada muito boa. Na pratica, isto precisa ser checado antes de qualquer analise apresentada. ^ Queremos investigar a duracao pois ¸~ de vida de um novo tipo de lampada, acreditamos que ela tenha uma duracao ¸~ maior do que as fabricadas atualmente. Cem ~ deixadas acesas ate´ queimarem. A duracao ^ lampadas do novo tipo sao ¸~ em horas de cada ^ lampada e´ registrada. ^ ´ = 82 e variancia Supor que a populacao = 144. ¸~ tenha media Exemplo:
´ de tamanho n = 64 e´ selecionada, qual e´ a probabilidade i) Se uma amostra aleatoria ´ amostral estar entre 80.8 e 83.2? da media _ ii) Com n = 100, calcular P{80.8 X 83.2}. Sol: i) Com = 82 e _ = 144 _ e como n = 64 e´ grande, o TLC estabelece que X82 a ´ N(, ). Portanto, Z = X = 1.5 ~ N(0, 1). Dai,
_ X a~
n
_ P{80.8 X 83.2} P
80.8 82 1.5
_ X 82 1.5
83.2 82 1.5
0.7881 0.2119 0.5762
ii) Com n = 100, temos
=
n
12 100
_ P{80.8 X 83.2} = P = 0.8413 -0.1587 = 06826.
P{-0.8 Z 0.8}
= 1.2. Portanto
80.8 82 1.2
_ X 82 1.2
83.2 82 1.2
= P{-1 Z 1
NOTAS 1) Incidentalmente, no exemplo anterior, o modelo geralmente adotado e´ o ´ exponencial, i.e,´ o conhecimento do problema fisico sugere a adocao ¸~ do modelo ~ soubéssemos a distribuicao ^ ´ exponencial para a duracao Se nao ¸~ das lampadas. ¸~ da media amostral para um modelo exponencial utilizaríamos o TLC, por se tratar de uma amostra grande. ´ e 2) Observem que, nos exemplos, consideramos sempre uma populacao ¸~ com media ^ ´ estar dentro de um variancia conhecidas, cujo interesse e´ obter a probabilidade da media ´ pois desconhecemos tais valores. O ´ nem sempre e´ possivel, intervalo fixado. Isto na pratica que faremos e,´ com base nos resultados apresentados, obter intervalos que contenham estes ^ ´ resultante da amostra. parametros, para uma probabilidade fixada e media
13
1.5.2 Variância Amostral Teorema: Suponhamos
que (X , . . . , X n) constitua uma amostra casual simples de uma ^ ´ e variancia populacao . ¸~ Normal com media Seja
n
S =
i=1
_ (Xi X) n1
~ ^ a Variancia Amostral. Entao: i) E(S ) = ; _ ~ v.a's. independentes; ii) X e S sao (n 1).S ´ iii) a estatistica tem uma distribuicao ¸~ Qui-Quadrado com n 1 graus de liberdade. prova: i) Escrevamos:
n
i=1
_ (Xi X) =
n
i=1
_ (Xi + X) =
_ _ (Xi ) + 2.( X)(Xi ) + ( X) =
n
i=1
_ n _ (Xi ) + 2.( X). (Xi ) + n.( X) = i=1 i=1 _ _ _ n n = (Xi ) 2.n.( X) + n.( X) = (Xi ) n.(X ) . n
i=1
Portanto,
E(S ) = E
n
i=1
_ (Xi X) n1
i=1
=
1
n 1 . n. n. n
=
^ por (n 1) ao definir S , a ´ NOTA: Se tivessemos dividido por n em vez de faze-lo ~ seria valida. ´ propriedade acima nao ii) Prova Omitida. iii) Vemos inicialmente que a soma tem distribuicao ¸~ (n) , pois cada
n
i=1
=
(Xi ) =
n
i=1
.
n
i=1
n
i=1
_ _ (Xi X + X ) =
_ _ (Xi X) + 2.(X ).
e do fato de )
Xi
_ (Xi X) =
n
i=1
n
i=1
X
+
X
+...+
Xn
tem distribuicao ¸~ N(0 , 1). Agora,
n
i=1
_ _ _ _ (Xi X) + 2(Xi X)(X ) + (X ) =
_ _ (Xi X) + n.(X ) ,
_ Xi n.X = 0 , vem
14
n
i=1
(Xi ) =
n
i=1
_ _ (Xi X) + n.(X
Dividindo ambos os membros por , e reescrevendo convenientemente, teremos: _
n
Xi
i=1
_ Xi X
n
=
i=1
+
X / n
. (*)
~ (*) tem distribuicao ~ do O primeiro membro da expressao ¸~ (n) e a u´ltima expressao segundo membro tem distribuicao ¸~ (1), pois _ X / n
tem distribuicao ¸~ N(0 , 1). Do ´item ii) deste teorema pode-se provar que
_ X / n
n
i=1
_ Xi X
e
~ v.a. independentes. Pelo Teorema 3 da Distribuicao sao ¸~ , podemos concluir
que
n
_ Xi X
i=1
tem distribuicao ¸~ (n - 1). Com isso, observamos imediatamente que a v.a. (n 1).S
=
(n 1)
.
1
n 1.
tem distribuicao ¸~ (n - 1).
n
i=1
_ (Xi X) =
n
_ Xi X
i=1
´ NOTA: Muito embora S seja definida como a soma de quadrado de n variaveis, estas n ~ sao ~ independentes. S contem ´ ´ somente n 1 variaveis ´ variaveis nao independentes por ´ ser a soma das variaveis nula. _ n (Xi X) = 0
i=1
~ ´ Por isso, existe uma relacao o que significa que tao ¸~ linear entre estas n variaveis, logo quaisquer n 1 delas sejam conhecidas a n-a ficara´ determinada. Corola´rio:
var(S ) =
2 n-1
.
~ var(X) = 2. . prova: Vimos que se X ~ ( ) entao Do ´item iii) do Teorema acima, tem-se (n 1).S ~ (n - 1) Dai,´ var (n 1).S = 2.(n 1)
n1
Logo,
.var(S ) = 2.(n 1)
var(S ) =
15
2 n-1
.
_ ^ ´ amostral X vista anteriormente dependeu inteiramente do A inferencia sobre a media ^ fato de que a variancia populacional era conhecida. ~ se conhecer , uma situacao ~ sera´ ´ Quando nao nao ¸~ _ muito comum na pratica, ´ calcular a variancia ^ ´ amostral, var(X) = n . possivel da media ~ necessario ~ envolve o ´ obter uma distribuicao ´ Sera´ entao a qual nao ¸~ exata da media, ^ parametro . ´ e Se é uma a.a. de uma distribuição , com media ~ a estatistica ´ ^ variancia desconhecidas. Entao, Teorema:
_
~ da prova: Inicialmente dividamos numerador e denominador pelo desvio-padrao populacao, ¸~ e teremos _ X / S . / n
_ X
O numerador Z = . n tem distribuicao ¸~ N(0 , 1), como ja´ foi visto. O quadrado do denominador pode ser escrito como (n 1).S
/(n 1) =
Y n1
,
´ onde Y = (n 1).S . Mas como foi visto, se os X i forem normalmente distribuidos, Y tem distribuicao ¸~ (n - 1). _ ~ independentes, pois X e S sao ~ independentes. Observe que Z e Y sao _ Logo, por teorema T = X S t(n - 1).
n
~ Observac¸~a o: O teorema vale mesmo no caso de amostras extraidas de populacoes ¸~ nao Normais, mas que tenham distribuicoes ¸~ em forma de sino, como a distribuicao ¸~ Normal. ´ . Suponhamos Sejam X , X , . . ., X N uma populacao ¸~ qualquer com media ~ que uma a.a. (X , . . . , Xn ) seja selecionada dessa populacao. ¸~ Entao, TEOREMA:
Z=
_ X-
S
n
~
N(0, 1)
16
quando n e´ grande
Se e são amostras aleatórias independentes obtidas das distribuições e , respectivamente, então: Teorema:
_ _
Y
~
Em particular, se , então _ _
Y
~
. uma a.a. de tamanho de uma distribuição Seja uma a.a. de tamanho de uma distribuição . Se as duas amostras são independentes, então:
Teorema: Seja 1 , . . .,
onde
_
e
_
Se, em particular, então
~ .
Todos os resultados desta seção só se aplicam a populações normais. De fato, pode ser demonstrado que para nenhuma outra distribuição: (i) a média amostral e a variância amostral são independentementes distribuídas ou (ii) a média amostral tem uma distribuição normal exata.
1.5.3 Estatísticas de Ordem As variáveis aleatórias , 1, são denominadas Estatísticas de Ordem associadas com a amostra aleatória , . . ., . Neste caso, 1 2 . . . .
Os valores extremos de amostra ( e ) são freqüentemente de considerável interesse. Por exemplo, na construção de diques para controle de enchentes, a maior altura da água que um rio particular tenha atingido nos últimos 50 anos pode ser muito importante.
17
Teorema: Seja
uma variável aleatória continua com fdp e fd . Seja 1 , . . ., uma amostra aleatória de e sejam e o mínimo e o máximo da amostra, respectivamente. Então, (a) A fdp de será dada por () [ ()] (). (b) A fdp de será dada por ( ) [1 ( )] ( ). prova: Seja () a fd de . Ora, é equivalente ao evento , para todo . Logo, visto que os são independentes, encontramos () [ ( )] .
Por isso, () () [ ()] ( ).
A dedução da fdp de será deixada como exercício. Exemplo:
Um dispositivo eletrônico tem uma duração de vida , a qual é exponencialmente distribuída, com parâmetro 0,001; quer dizer, sua fdp é () 0,0010,001 . Suponha-se que 100 desses dispositivos sejam ensaiados, fornecendo os valores observados 1 , . . ., . (a) Qual é a probabilidade de que o maior valor observado ultrapasse 7.200 horas? Sol: Pede-se que 7.200 1 7.200 . Ora, o valor máximo será menor que 7.200 se, e somente se, todo valor amostral for menor que 7.200. Daí, 100 . 7.200 1 [ (7.200)] Para calcular (7.200), recordemos que para a variável aleatória exponencialmente distribuída com parâmetro 0,001, () 1 0,001 Portanto, (7.200) 1 0,0017200) 0,99925.
Por conseguinte, a probabilidade pedida é 1 (0,99925) 100 0,071. (b) Qual é a probabilidade de que a menor duração até falhar seja menor do que 10 horas? Exigiremos que 10 10 .
18
Ora, o mínimo da amostra será maior do ou igual que 10, se, e somente se, todo valor amostral for maior do ou igual que 10. Portanto, 0 1 [ ( 0)]100 .
Empregando a expressão de dada em (a), acima, 1 (10) 1 0,0010) 0,01 0,99005. Daí, 0 1 [0,99005] 100 0,63.
teremos
1.5.4 Correlação Amostral Quando temos duas variáveis aleatórias bidimensionais ( , ) que dão origern a uma amostra aleatória ( , ), . . ., ( , Y ), um dos parâmetros importantes, associado a uma variável alestória bidimensional é o coeficiente de correlação . A estimativa geralmente empregada para é o coeficiente de correlação amostral, assim definido:
r n
i=1 n
i=1
_ _ (i )( i )
_ (i )
n
i=1
_ (i )
Exemplo:
Os dados reunidos na Tabela abaixo representarn a velocidade (km/seg) e a altitude (km) do meteoro N." 1.242, como relatado em "Smithsonian Contributions to Astrophysics", dos Proceedings of the Symposium on Astronomy and Physics of Meteors, Cambridge, Mass., ago. 28-set., 1, 1961.
Tabela: --------------------------------------------------------------------------------X(velocidade, km/seg) 11,93 11,81 11,48 10,49 10,13 8,87 --------------------------------------------------------------------------------Y(alt.itude, km) 62,56 57,78 53,10 48,61 44,38 40,57 --------------------------------------------------------------------------------Um cálculo direto fornece
r = 0,94.
19
^ 1.5.5 Inferencia sobre a proporcao ¸~ amostral ^p ´ Seja p a proporcao numa ¸~ de unidades que possuem uma dada caracteristica populacao. ¸~ ´ X tal que Assim, a populacao ¸~ pode ser considerada como a variavel ´ tem a dada caracteristica ´ 1 se o individuo X= ~ tem a dada caracteristica ´ ´ 0 se o individuo nao Logo, = E(X) = p
e = var(X) = p.(1 p)
Retirada uma amostra casual simples (X , . . . , Xn ), com reposicao, ¸~ dessa ´ populacao, na ¸~ e se indicarmos por S n o total de unidades que possuem a dada caracteristica amostra, ou seja Sn =
n
i=1
Xi
´ onde Xi = 1 se a i-a unidade na amostra tem a dada caracteristica ´ 0 se a i-a unidade na amostra tem a dada caracteristica ~ entao
Sn ~ b(n , p)
´ Definindo como p^ a proporcao na ¸~ de unidades que possuem a dada caracteristica ´ amostra, i.e., p^ = Snn temos que
P{Sn = k} = P
Sn n
=
k n
= P p^ =
k n
ou seja, a distribuicao ¸~ amostral de ^p e´ obtida da distribuicao ¸~ de Sn . Propriedades de p^: ^ =p i) E(p)
e
^ = p.(1 n p) var(p)
ii) a funcao ¸~ de probabilidade para ^p pode ser escrita explicitamente por:
20
^ = f(p)
n
np^
^ .pn.p^ .(1 p)n.(1-p)
, p^ = 0 ,
1 n
,
Figura: Distribuicao ¸~ Amostral de Sn e ^p para n = 3 e p =
2 n
, . . . .1
1 2
_ ~ ^ ´ ´ iii) A proporcao ¸ amostral p e um caso especial da media amostral X.
^ =E prova: i) E(p) ^ = var(p) iii) ^p =
Sn n
var(Sn ) n Sn n
=
=
n.p n
= p
n.p.(1 p) n
=
p.(1 p) n
=
=
E(Sn ) n
X + X + . . . + Xn n
_ =X
Para n suficientemente grande, podemos considerar a distribuicao ¸~ amostral de p^ do seguinte modo: p^ ~ N p , p.(1n- p) , quando n + TEOREMA:
´ i.e,
p^ - p
p(1-p) n
a~ N(0, 1)
prova: Vimos que Podemos escrever
Sn ~ b(n , p) _ Sn = n.X ,
_ mas pelo Teorema do Limite Central, X tera´ distribuicao ¸~ aproximadamente normal, com p.(1 p) ^ ´ p e variancia media , n _ X ~ N p , p.(1 n p)
21
Logo, a transformada Sn tera´ a distribuicao ¸~ aproximada
Sn ~ N n.p , n.p.(1 p) . _ ^p; assim, para n ´ ´ Observe que X, na propriedade (iii), e´ a propria variavel suficientemente grande, podemos considerar a distribuicao ¸~ amostral de p^ do seguinte modo: p^ ~ N p , p.(1n p) .
~ esta´ proxima ´ quando a proporcao ´ NOTA 1) Esta aproximacao ¸~ e´ bastante satisfatoria ¸~ p nao de 0 ou de 1, e n e´ suficientemente grande; em geral quando n.p 5 e n.(1 - p) 5. # 2) Para uma boa aproximacao ¸~ a normalidade usar uma correcao ¸~ de continuidade (somar e subtrair 21 para cada valor de uma v.a. p com distribuicao ¸~ binomial. ~ ´ Constata-se que 2% das pecas sao ¸ fabricadas por determinada maquina defeituosas. Qual a probabilidade de, em um lote de 400 de tais pecas, ¸ 3% ou mais serem defeituosas? Exemplo:
Sol: De acordo com as propriedades anteriores, tem-se: ^ = p = 0.02 E(p)
e
^ = p.(1 - p) = var (p) n
0.02x0.98 400
P{3% ou mais} = P{p^ 0.03} = P
Portanto,
=
0.0196 400
p^ - 0.02 0.007
= 0.000049 0.03 - 0.02 0.007
.
Como n = 400 e´ um valor grande, utilizamos a aproximacao ¸~ pela Normal, i.e,´ P
p^ - 0.02 0.007
0.03 - 0.02 0.007
= P{Z 1.428} = 0.5 - 0.4236 = 0.0764.
1.6 Normalidade dos dados Observaremos que a distribuição normal representa um papel muito importante na Estatística. De fato, o Teorema do Limite Central por si só assegura isto, mas há outras razões igualmente importantes. Em primeiro lugar, muitas populações encontradas na prática nas diversas áreas do conhecimento parecem ter uma distribuição aproximadamente normal.
22
Outra consideração em favor da distribuição normal é o fato que distribuições amostrais baseadas numa distribuição aparentemente normal são facilmente manipuladas analiticamente. Assim, o problema matemático de obter distribuições para as várias funções da amostra é freqüentemente mais fácil para amostras de uma população normal que de qualquer outra, e esta seção será dedicada ao problema de se obter as distribuições de várias funções diferentes de uma amostra aleatória de uma população normalmente distribuída. Para aplicar os métodos estatísticos baseados na distribuição normal, o pesquisador tem que saber, pelo menos aproximadamente, a forma geral da função de distribuição que os seus dados seguem. Se for normal, pode usar os métodos diretamente; se não for, pode, às vezes, transformar os dados de modo que as observações transformadas sigam uma distribuição normal. Quando o pesquisador não sabe a forma da distribuição de sua população, então ele pode usar outros métodos mais gerais mas normalmente menos poderosos de análise chamados métodos de não-paramétricos.
´ ^ 1.7 Inferencia Estatistica ´ Na disciplina Estatistica Descritiva, vimos como resumir descritivamente um conjunto de dados e no 1-o semestre de Probabilidade e Estatística vê-se como construir modelos ´ ^ probabilisticos para descrever alguns fenomenos. ´ ^ ´ O estudo da Inferencia Estatistica tem como objetivo estudar os metodos que permitam ~ sobre os parametros ^ ´ dos dados tirar conclusoes desconhecidos da populacao ¸~ a partir da analise amostrais. ~ baseadas em informacoes ^ As inferencias de interesse sao ¸~ ou quantidades obtidas de uma amostra selecionada da populacao. ¸~ ^ Tais inferencias podem ser de dois tipos: ~
^ I) ESTIMACAO : quando usamos os dados amostrais para produzir estimativas do parametro ¸ populacional. ^ A estimacao pode ser feita de duas maneiras: ¸~ dos parametros ~
a) ESTIMACAO PONTUAL ¸ - quando a partir da amostra procuramos obter um u´nico valor para representar o ^ parametro populacional. _ ^ Exemplo: X e´ um estimador pontual do parametro populacional .
23
~
b) ESTIMACAO POR INTERVALO ¸ - quando a partir da amostra procuramos construir um intervalo ^ ^ para um certo coeficiente de confianca ¸ 1 , fixado a priori. Em 100.(1 )% das vezes que o ^ experimento for realizado, este intervalo contera´ o verdadeiro parametro populacional . Exemplo:
Se tem uma distribuicao ¸~ Normal, i.e,´ f( ; , ) =
1 2
exp
^ = ( , ) e´ desconhecido. onde o parametro
1 2
,
~ ´ estimar a media ´ = , entao i) se e´ desejavel _ ´ a estatistica ( ) = ~ X=
n
i=1
Xi
n
´ estimador de . e´ um possivel
_ _ ´ estimador intervalar de . ii) e (X 1.96 S /n ; X 1.96 S /n ) e´ um possivel
´ ´ II) TESTES DE HIPOTESES : quando usamos os dados amostrais para testarmos possiveis ^ valores de certos parametros da populacao, ¸~ ou mesmo tratarmos da natureza da populacao. ¸~ ´ Quanto aos testes de hipoteses eles podem ser de dois tipos: ´ ´ a) PARAMETRICOS : quando formulamos hipoteses com respeito ao valor de um ^ parametro populacional.
´ populacional da altura dos brasileiros e´ 1,65 m, i.e., ´ o 1,65. 1) a media 2) a proporcao ¸~ de brasileiros com a doenca ¸ X e´ 40%, ou seja, o 0,40.
Exemplo:
~ ´ ´ b) NAO-PARAMETRICOS : quando formulamos hipoteses com respeito a# natureza ^ ´ da distribuicao de amostras, variaveis qualitativas. ¸~ da populacao, ¸~ independencia Exemplo: o :
A distribuicao ¸~ da populacao ¸~ e´ N 1 , 0.2 .
2) Deseja-se verificar se existe dependência entre a renda (variável A) e o número de filhos em famílias (variável B) de uma cidade, i.é, o : A e B são variáveis independentes 3) : o modelo é linear
24
Capítulo 2 Estimação Pontual 21 Introdução Vamos assumir que a distribuição da variável aleatória pertence a certa família de distribuições em que um particular elemento é especificado, quando o valor do parâmetro é especificado. No caso de um problema de estimação, o objetivo é procurar, segundo algum critério especificado, valores que representem adequadamente os parâmetros desconhecidos. Neste capítulo o conceito de estimador são introduzidos. Critérios para a comparação de estimadores são também considerados. Definição:
Qualquer estatística ( , . . ., que assuma valores em é um estimador para . ´ valor do parametro. ^ ´ de um possivel O estimadador da´ ideia 1) Seja , . . ., uma a.a. de onde não é conhecido. _ Então ( ~ ) é um estimador de , e também ( ~)
Exemplo:
2 (n+1)
Na verdade, qualquer ( ~ ) é um estimador de . 2) Seja , . . ., uma a.a. de onde é desconhecido. _ Então é um estimador de
Exemplo:
Alguns outros estimadores são ( ~ ) , ( ~ ) e ( ~)
Nosso interesse é conhecer aproximadamente com base na amostra , . . ., disponível, i.é, determinar uma funcao ¸~ (X) ¸~ que represente o verdadeiro ~ dessas observacoes ^ valor do parametro . Em muitas situações, o interesse é estimar uma função (). ^ ´ estimar e´ desconhecido Se e´ desejavel 3) Seja onde o parametro ´ i.e, ´ , então () a media, Exemplo:
25
Exemplo:
4) Weibull, e função de confiabilidade () ,
para fixo, então (~) . ^ NOTAÇÃO: O estimador ( ~ ) de é usualmente denotado por
Um dos grandes problemas da Estatística é o de encontrar um estimador razoável para o parâmetro desconhecido ou para uma função ().
2.2 Propriedades de Estimadores e´ um Estimador Definic¸~ ao: Diz-se que o estimador ^
~ ^ se: Nao-Viciado do parametro
E(^) = , para todo Sejam , . . . , uma amostra aleatória da v.a. com [] e [ ] . Temos, então, que Exemplo:
_ E(X ) + E(X ) + . . . + E(X ) n i) E(X) = = + +n. . . + = n ´ e pelo fato das variaveis serem independentes, vem _ var(X) =
var(X ) + var(X ) + . . . + var(Xn ) + + . . . + = n n
=
n. n
n. n
= ,
=
n
_ Portanto X é um estimador não-viciado para . Suponha-se que desejemos um estimador não-viciado da variância de uma variável aleatória, baseada em uma amostra , . . . , . Muito embora intuitivamente pudéssemos considerar o estimador Exemplo:
^ 1n
n
i=1
_ (Xi X) ,
verifica-se que este estimador tem um valor esperado E(^ )
1 n
n
i=1
_ (Xi X) 1n E i=1 _ _ E(Xi X) E(X ) .
E(^ ) = E
1 n
n
n
i=1
(n1) n . De
_ _ (Xi X) n(X ) =
_ _ Lembrando que = E(Xi ) e var(X) = E(X ) , temos
26
fato,
E(^ ) =
1 n
_ n var(X) =
n
=
(n1) n .
Portanto ^ é viciado para , mas é assintóticamente não viciado, ou seja, à medida que o tamanho da amostra aumenta, o vício diminui. Por isso, um estimador não-viciado de é dado pela variância amostral _ n 1 (Xi X) .
i=1
Interpretação:
"Não-viciado" significa, essencialmente, que o valor médio do estimador será próximo do verdadeiro valor do parâmetro. Por exemplo, se o mesmo estimador for empregado repetidamente e fizermos a média desses valores, esperaríamos que essa média fosse próxima do verdadeiro valor do parâmetro (Veja exemplo no cap 1). Muito embora seja desejável que um estimador seja não-viciado, haverá ocasiões em que poderemos preferir estimador viciado (veja abaixo). É possível (e na verdade muito facilmente feito) encontrar mais de um estimador não-viciado para um parâmetro desconhecido. A fim de realizar uma escolha plausível em tais situações, introduziremos o seguinte conceito. Definic¸~ ao: O Erro
Quadrático Médio (EQM) de um estimador ^ do parâmetro é dado por (^) ^ .
Pode-se mostrar que
(^) ^ ício(^).
onde ício(^)=[ (^) é o vicío do estimador ^. No caso em que ^ é um estimador não viciado para , temos que (^) ^ ,
ou seja, o erro quadrático médio de ^ se reduz à sua variância. Sejam , . . . , uma amostra aleatória da variável aleatória ( . _ n Conforme visto no anterior ^ 1n (Xi X) é um estimador viciado para .
Exemplo:
Também vimos que
1
n
i=1
i=1
_ (Xi X) é um estimador não viciado para .
Por outro lado, temos que [ ] [ ]
27
2
e que
^ ] [
2
.
Notemos que ^ , apesar de viciado, apresenta um menor que o do estimador .
Definic¸~ ao: Seja ^ um estimador não-viciado de .
Diremos que ^ é um estimatidor não-viciado, de variância mínima de , se para todas os estimadores ^* tais que (^*) , tivermos (^) (^*) para todo .
Isto é, dentre todas os estimadores não-viciados de , ^ tem a menor variância de todos. ~ ^ Sejam ^ e ^ dois estimadores nao-viciados de um mesmo parametro . Diz-se que ^ e´ Mais Eficiente do que ^ se: (^) (^ ) Definic¸~ ao:
NOTA:
A variância de uma variável aleatória mede a variabilidade da variável aleatória em torno de seu valor esperado. Por isso, exigir que um estimador não-viciado tenha variância pequena é intuitivamente com preensível, pois se a variância for pequena, então o valor da variável aleatória tende a ser próximo de sua média, o que no caso de um estimador nãoviciado significa próximo do verdadeiro valor do parâmetro. Exemplo:
Sejam ^ , ^ , ^ e ^ estimadores de , cuja f.d.p. esta´ esbocada na figura ¸
abaixo.
^ a ^ . Ambos estimadores sao ~ nao ~ viciados e ´ Presumivelmente prefeririamos var(^ ) var(^ ).
28
No caso dos estimadores ^ e ^ , a decisão não é tão evidente (Fig. 14.2), porque ^3 é não-viciado, enquanto ^4 não o é. Todavia, ( ^ ) (^ ). Isso significa que, enquanto em média ^ será próximo de , sua grande variância revela que desvios consideráveis em relação a não serão de surpreender. ^ por sua vez, tende a ser um tanto maior do que , em média, e no entanto, poderá ser mais próximo de do que ^ (veja a Figura acima). Sejam , , uma amostra aleatória da variável aleatória com [ ] e [ ] 1. Consideremos os estimadores Exemplo:
^ _ Então,
X X X
e ^ X 4 X2 4 X3 .
[^ ]
Temos também que [^2 ] Então,
e
e
[^ ]
[^2 ] 14
1
6
n
1
3
6
6 16
Como ^ e ^2 são ambos não viciados, segue que ^ é melhor que ^2, pois [^ ] [ ^ ], para todo .
Exemplo:
Outro interessante exemplo é dado no livro do Meyer (Exemplo 14.2 pg 336).
NOTA:
Existem algumas técnicas gerais para encontrar estimadores não-viciados de variância mínima. Contudo, não estamos capacitados a explicar isso aqui. Faremos uso deste conceito principalmente com a finalidade de escolher entre dois ou mais estimadores não-viciados disponíveis. Quer dizer, se ^ e ^ forem ambos estimadores não-viciados de ^ ) (^ ), preferiremos ^ . , e se (
29
´ ´ 1-a Lista de Exercicios de Probabilidade e Estatistica ´ 1) Em uma populacao ¸~ em que N = 6, tal que X = {1, 3, 4, 7, 8, 11}, calcular a media ´ amostral para todas as possiveis amostras de tamanho 2. _ ^ ´ amostral X e da variancia a) Verificar as propriedades da media amostral S . Use o processo com e sem reposicao. ¸~ ´ b) Determinar a distribuicao ¸~ amostral destas duas estatisticas. ~ defeituosas. Sorteiam-se 8 pecas, 2) Sabe-se que 20% das pecas ¸ de um lote sao ¸ com reposicao, ¸~ e calcula-se a proporcao ¸~ ^p de pecas ¸ defeituosas na amostra. ´ da distribuicao a) Construa a distribuicao ¸~ exata de ^p (use a tabua ¸~ binomial) # b) Construa a aproximacao ¸~ normal a binomial c) Voce^ acha que a segunda distribuicao ¸~ e´ uma boa aproximacao ¸~ da primeira? # d) Ja´ sabemos que, para dado p fixo, a aproximacao ¸~ melhora a medida que n aumenta. Agora, se n e´ fixo, para qual valor de p a aproximacao ¸~ e´ melhor? ´ foi selecionada em uma zona urbana que 3) Uma amostra simples ao acaso de 30 domicilios ´ ´ que integram a ´ 15000 domicilios. contem O nu´mero de pessoas de cada um dos domicilios amostra e´ o seguinte: 5 6 3 3 2 3 3 3 4 4 3 2 7 4 3 5 4 4 3 3 4 3 3 1 2 4 3 4 2 4 Estimar o nu´mero total de pessoas que vivem nesta zona. _ ´ e = X como sendo o erro amostral da media. ´ 4) Definimos a variavel Suponha que a ~ seja 400 unidades ao quadrado. ^ ´ variancia dos salarios de uma certa regiao a) Determine E(e) e var(e) ~ erro amostral absoluto maior b) Que proporcao ¸~ das amostras de tamanho 25 terao do que 2 unidades? c) E que proporcao ¸~ das amostras de tamanho 100? d) Neste u´ltimo caso, qual o valor de d, tal que P e d = 1%?
e) Qual deve ser o tamanho da amostra para que 95% dos erros amostrais absolutos sejam inferiores a uma unidade? ~ de 60 horas. ´ de determinado ser vivo e´ de 2000 horas, com desvio-padrao 5) A vida media ´ de 10 desses seres vivos, determine a probabilidade de o Escolhida uma amostra aleatoria ~ amostral nao ~ exceder 50 horas. desvio-padrao
30
~ 10. ´ 100 e desvio-padrao 6) Uma v.a. X tem distribuicao ¸~ Normal, com media a) Qual _ a P{90 X 110} ? ´ a media ´ de uma amostra de 16 elementos retirados dessa populacao, b) se X e _ ¸~ calcule P{90 X 110}. _ ~ ´ c) Desenhe, num grafico, as distribuicoes ¸ de X e X. _ d) Que tamanho deveria ter a amostra para que P{90 X 110} = 95% ? ´ 7) A maquina de empacotar um determinado produto o faz segundo uma distribuicao ¸~ ~ 10g. ´ e desvio-padrao normal, com media ´ para que apenas 10% dos pacotes a) Em quanto deve ser regulado o peso medio tenham menos do que 500g? ´ b) Com a maquina assim regulada, qual a probabilidade de que o peso total de 4 pacotes escolhidos ao acaso seja inferior a 2 kg? ´ 8) Um procedimento de controle de qualidade foi planejado para garantir um maximo de 10% de ´itens defeituosos na producao. ¸~ Supondo que a producao ¸~ esteja sob controle e que os ´itens sejam vendidos em caixas com 100, qual a probabilidade de que uma caixa : a) tenha mais do que 10% de defeituosos? b) Tenha nenhum defeituoso? ´ c) Se um cliente encontrar mais do que 18 defeituosos ele recebe uma caixa gratis. Qual a proporcao ¸~ esperada de clientes bonificados? ´ 2 9) A distribuicao ¸~ dos comprimentos dos elos de corrente de bicicleta e´normal, com media ^ cm e variancia igual a 0,01 cm . Para que uma corrente se ajuste #a bicicleta, deve ter ~ comprimento total entre 58 e 61 cm. Qual a probabilidade de uma corrente com 30 elos nao se ajustar a# bicicleta? ~ era de 10) Ao medir o tempo de reacao, ¸~ um psicologista avaliou que seu desvio-padrao # medicoes, 0.05 segundos. De que tamanho deve ser tomada uma amostra destinada as ¸~ para ´ de reacao que se possa estar 99% confiante de que o erro da estimativa do tempo medio ¸~ ~ exceda a 0.01 segundos? nao 11) Em um parque existe uma populacao ¸~ muito grande de esquilos. Em uma amostra ~ infetados com o bacilo da peste. De que ´ 40 destes esquilos achou-se que estao aleatoria, ~ tamanho deveria ser tomada a amostra para estimar a dita proporcao ¸~ com um erro nao maior de 5%, com uma probabilidade de acerto de 99%?
31
Capítulo 3 Intervalos de Confiança 3.1 Introducao ¸~ Suponhamos que o modelo de probabilidade f(x , ) para um experimento envolve ^ um parametro desconhecido . ´ de uma amostra aleatoria ´ (X , . . . , Xn ) , desejamos obter alguma Atraves ^ da populacao informacao ¸~ sobre o verdadeiro valor 0 do parametro ¸~ . ´ do verdadeiro valor 0 de e´ atraves ´ dos Uma maneira de se ter uma ideia estimadores pontuais; estes especificam um u´nico valor para o estimador. _ ´ ´ real da Por exemplo, a media X obtida da amostra e´ uma estimativa da media ~ permite julgar qual a possivel ´ magnitude do erro que populacao. ¸~ Este procedimento nao estamos cometendo. ´ surge a ideia ´ de construir Intervalos de Confianca Dai, ¸ que, nos casos estudados ~ ~ neste curso, sao baseados na distribuicao ¸ amostral do estimador pontual. Desse modo, se ^ e´ um estimador de , e conhecida a distribuicao ¸~ amostral de ^, geralmente podemos obter dois valores A0 e B0 , tais que P{A0 B0 } = onde e´ denominado Coeficiente de Confianca. ¸ ´ Portanto, o intervalo de confianca A0 e B0 entre ¸ e´ dado por dois limites numericos ^ os quais supomos estar o verdadeiro parametro, com um coeficiente de confianca ¸ especificado. ~ valores dentro do intervalo (A0 , B0 ) seriam melhores estimadores de do Entao, que valores fora do intervalo. Agora, se (A0 , B0 ) e´ um intervalo de confianca ¸ para com um coeficiente de confianca ¸ podemos esperar encontrar, ou estar confiantes em encontrar no intervalo (A0 , B0 ) em cerca de das vezes que o experimento for realizado. Ou seja, sera´ a probabilidade de obter um intervalo que inclua o valor exato, e ^ desconhecido, do parametro. Por exemplo, se escolhermos = 95%, podemos esperar que cerca de 95% das ~ intervalos que incluem o valor de , enquanto os amostras que podemos obter fornecerao ~ incluem. Dessa maneira a afirmacao restantes 5% nao ¸~ "o intervalo inclui" sera´ correta em cerca de 475 casos dentre 500 casos, enquanto que nos restantes sera´ falsa. ~ O coeficiente de confianca ¸ e´ escolhido a priori, e dependera´ do grau de precisao com que desejamos obter a estimativa, sendo os coeficiente de confianca ¸ mais comuns os que correspondem #as probabilidades 95% e 90%. Quanto maior o coeficiente de confianca ¸ exigido para o intervalo, maior sera´ a amplitude deste.
32
3.2 Interpretacao ¸~ do IC ´ de repeticoes Imaginemos uma serie ¸~ do experimento com fixado, por exemplo, = ´ disso, imaginemos que um intervalo de confianca 0 . Alem ¸ (A , B) com coeficiente de ´ dos dados do mesmo modo para cada repeticao. confianca ¸ seja calculado atraves ¸~ Devido à variabilidade dos dados, o intervalo (A , B) variaria em cada repeticao ¸~ do experimento. A interpretacao ¸~ do que seja um intervalo de confianca ¸ para com coeficiente de confianca ¸ e´ a seguinte: - construindo 100 intervalos, correspondentes a 100 amostras de tamanho n, deles ~ conterao o valor 0 . ´ Graficamente, teriamos a situacao ¸~ da figura a seguir.
´ Um IC 95% incluiria o verdadeiro valor parametrico 0 em 95% das repeticoes ¸~ do experimento com fixado.
33
~ e´ correto concluir que um particular intervalo de NOTA: 1) Exceto em casos especiais, nao confianca ¸ 95% (A0 , B0 ) tenha uma probabilidade de 95% de conter o verdadeiro valor 0 ´ ^ do parametro. Pode acontecer que (A0 , B0 ) contenha todos os possiveis valores de com ~ contenha nenhum. O coeficiente de confianca ´ probabilidade 100% ou nao ¸ 95% e´ uma media ^ ´ figurada que refere-se a uma sequencia ´ de repeticoes teorica imaginaria ¸~ do experimento. ´ o verdadeiro Logo, poderemos dizer que em 95% das vezes, o intervalo contem ~ e´ o mesmo que afirmar que 95% e´ a probabilidade do parametro ^ valor de . Isto nao cair ~ ^ ´ dentro do intervalo, o que constituira´ um erro, pois e´ um parametro ( nao e´ uma variavel ~ ´ e ele esta´ ou nao no intervalo. aleatoria) ´ 2) Na pratica, tem-se um particular conjunto de dados observados e desejamos obter ~ ~ suficientes numa pesquisa, informacao ¸ sobre o valor de . Se os intervalos de confianca ¸ sao ´ eles devem ser construidos de modo que um u´nico intervalo observado (A0 , B0) ~ proporcione informacoes. Valores dentro do intervalo seriam de algum modo melhores ¸ estimadores de do que valores fora do intervalo. Comumente os intervalos de confianca ¸ que mais nos interessam relacionam-se ou ^ ^ ´ populacional ou com o parametro com a media p (probabilidade de ocorrencia do evento) ~ ^ na Distribuicao ¸ Binomial ou variancia populacional .
´ 3.3 Intervalo de Confianca ¸ para a media ´ do intervalo de confianca, No caso da estimativa de , atraves ¸ temos dois casos a considerar que dependem do tamanho da amostra, amostra pequena ou grande, ou do fato ~ conhecimento do valor da variancia ^ da populacao. de termos ou nao ¸~ Teorema: Seja (X , X , . ) com conhecido.
´ de uma populacao . . , Xn ) uma amostra aleatoria ¸~ Normal N( ,
~ Entao,
_ X
_ .z , X + n 2
.z
n
2
e´ um Intervalo de Confianca ¸ 100.(1 )% bicaudal para . ~ prova: Suponhamos que (A , B) seja o intervalo procurado, entao: P{A B} = 1 - Sabemos que Z = P
_ X
~
n
_ XB
n
N(0 , 1). Dai,´
_ X
n
34
_ XA
n
=1
Pela tabela da Normal, temos P z 2 Z z 2 1).
_ XB
Logo,
n
_ XA
_ Portanto, X conhecido.
n
_ B= X+
= z 2
_
= z 2
A= X
_ .z , X + n 2
.z
n
2
=1
.z .z
n
n
onde Z ~ N(0 ,
2
2
e´ um IC 100.(1 )% para , supondo
^ ´ Uma maquina enche pacotes de cafe´ com uma variancia igual a 100 g . Ela ^ ´ Agora ela se desregulou, e queremos estava regulada para enche-los com 500 g, em media. ´ . Uma amostra de 25 pacotes apresentou uma media ´ igual a 485 saber qual a nova media g. Construir um intervalo 95% de confianca ¸ para . _ Sol: = 100 n = 25 30 e X = 485 Exemplo:
_ A=X _ B=X+
.z
n
.z
n
2
2
= 485
= 485 +
.1.96 = 481 10 25
.1.96 = 489 10 25
Logo, o IC 95% bicaudal para , com conhecido, e´ (481 , 489).
35
Exerci´cio: Obter um IC 100.(1 )% unicaudal #a direita para , supondo conhecido. ~ Sol: Suponhamos que (A, +) seja o intervalo procurado, entao: P{A } = 1 Sabemos que Z =
_ X
n
P
N(0 , 1). Dai,´
~
_ X
n
_ X A
n
=1-
Pela tabela da Normal, temos P{Z z } = 1 onde Z ~ N(0 , 1). _ _ X A = z Logo, A = X n .z
n
_ Portanto, X supondo conhecido. Teorema: Seja (X , X , . . ) com desconhecio.
~ Entao,
.z
n
, + e´ um IC 100.(1 )% unicaudal para ,
´ de uma populacao . , Xn ) uma amostra aleatoria ¸~ Normal N( ,
_ X
S
_ .t , X + n 2
.t S
n
2
e´ um Intervalo de Confianca ¸ 100.(1 )% bicaudal para . prova: Neste caso precisamos calcular o estimador S = utilizando o resultado _ t = X S ~ t(n-1) .
n
i=1
_ (Xi X)
n 1
n
´ procedemos de forma analoga ao caso anterior. Exemplo:
A seguinte amostra: 9 8 12 7 9 6 11 6
36
10
9
^ do parametro e
foi extraida ¸~ Normal. Construir um IC 95% para . _ ´ de uma populacao Sol: X = 8.7 e S = 4.0 S = 2 g.l. = n 1 = 9
_ A=X _ B=X+
.t S
.t S
n
n
2
2
= 7.27
= 10.13
Logo, o IC 95% bicaudal para , com desconhecido, e´ (7.27 , 10.13). ´ ´ Selecione, segundo uma a.c.s com reposicao de N-o Aleatorios), ¸~ (use a Tabua ~ listada na tabela anexa com N = uma amostra de tamanho 35 da populacao ¸~ de quarteiroes 270. ~ i. ^ Yi = n-o de residencias alugadas no quarteirao Exerci´cio:
Sabemos que
= 16.9
= 428.07
e
´ : Construa um IC 95% para a media
a) com conhecido; b) supondo desconhecido.
NOTA: Pelo Teorema do Limite Central, independente de X ter distribuicao ¸~ Normal, temos _ Z = X a~ N(0 , 1) para n grande. n
Assim, qualquer que seja a distribuicao ¸~ de X, um intervalo de confianca ¸ 100.(1 )% para , considerando-se amostras grandes e´ dado por: i) se e´ conhecido
_ X
_ , X + .z n 2
.z
_ .z , X + n 2
.z
n
2
onde z 2 e´ dado pela tabela da Normal. ii) se e´ desconhecido
_ X
S
37
S
n
2
n
onde S =
i=1
_ (Xi X)
.
n 1
Seja X a duracao ¸~ da vida de uma peca ¸ de equipamento. ¸ _ Admita-se que 100 pecas ~ ~ ´ de X = 500 horas e desvio-padrao foram ensaiadas fornecendo uma duracao ¸ de vida media ´ . S = 5 horas. Deseja-se obter um intervalo de 95% para a media Exemplo:
~ e´ Normal, Sol: Sabemos que a distribuicao ¸~ do tempo de vida de um equipamento nao ~ utilizar o TLC. ´ n = 100. Podemos entao porem,
_ Dai,´ A = X e
_ B= X+
.z S
.z S
n
n
2
2
= 499.02
= 500.98
Portanto, 499.02 , 500.98 e´ um IC 95% para .
^ 3.4 Intervalo de Confianca ¸ para a variancia ´ de uma populacao ´ extraida Seja (X , X , . . . , Xn ) uma amostra aleatoria ¸~ com ~ distribuicao ¸~ Normal N(, ), onde e´ desconhecido. Entao Teorema:
e´ um IC 100.(1 )% para .
(n 1).S
(n 1).S
,
1
2
2
~ prova: Suponhamos que (A , B) seja o IC 100.(1 )% para . Entao, P{A B} = 1
n
Sabemos que
(n 1).S
P
~ (n-)
(n 1).S B
, onde S = (n 1).S
38
i=1
_ (Xi X) n 1
(n 1).S A
~ , entao: =1
P{1- 2 2 } = 1 onde ~ (n-1)
Logo,
(n 1).S B
= 1- 2
(n 1).S A
(n 1).S
B=
1- 2
e 2
=
(n 1).S
A=
2
Portanto,
(n 1).S
,
2
(n 1).S 1
2
e´ um IC 100.(1 )% para .
^ Supondo populacao ¸~ Normal, construir o intervalo de confianca ¸ para a variancia ´ de 90% para a amostra: populacional ao nivel Exemplo:
9
8 12 7 9 6 11 6
Sol: Temos n = 10 , S = 4 , g.l. = 9
~ A= Entao:
(n 1).S
= 2.13
e
10
9
, = 10%
B=
2
(n 1).S 1
= 10.81
2
Portanto, o IC 100(1 )% bicaudal para e´ (2.13 , 10.81).
39
~ 3.5 Intervalo de Confianca ¸ para o desvio-padrao ^ A partir do IC 100.(1 )% para a variancia , podemos obter o IC para o ~ , bastando para isto extrair a raiz quadrada do intervalo para a variancia, ^ desvio-padrao obtendo dessa maneira aproximadamente um intervalo para . Assim,
S.
n1
, S.
2
n1 1
2
e´ um IC 100.(1 )% para .
3.6 Intervalo de Confianca ¸ para a proporcao ¸~ p Seja ^p a proporcao ¸~ de "sucessos" em uma amostra de tamanho n (n:grande) ´ de uma populacao extraida ¸~ binomial em que p e´ a proporcao ¸~ populacional de sucessos. ~ Suponhamos que n.p 5 e n.(1 p) 5. Entao, Teorema:
p^ z 2 .
^ p) ^ p.(1 n
, p^ + z 2 .
^ p) ^ p.(1 n
e´ um IC 100.(1 )% bicaudal para p. prova; Suponhamos que seja (A , B) o intervalo procurado, enta~o: P{A p B} = 1 p^ p
Sabemos que Z =
p.(1 p) n
´ p) 5. Dai, P
p^ B p.(1 p) n
~
N(0 , 1) , considerando-se n grande e n.p 5 e n.(1 p^ p
p.(1 p) n
p^ A
p.(1 p) n
=1
~ conhecemos p, usamos p^ como estimador de p. Entao ~ o intervalo fica, Como nao P
p^ B ^ ^p) p.(1 n
p^ p
^p.(1 ^p) n
p^ A
^p.(1 ^p) n
=1
Pela tabela da Normal, temos P z 2 Z z 2 1).
40
= 1 onde Z ~ N(0 ,
p^ B
Logo,
e
p^ A
^p.(1 ^p) n
Portanto, p^ z 2 . )% , bicaudal, para p.
^ p) ^ p.(1 n
= z 2 B = p^ + z 2 .
^p.(1 ^p) n
= z 2 A = p^ z 2 .
^ p) ^ p.(1 n
, p^ + z 2 .
^ p) ^ p.(1 n
^ p) ^ p.(1 n
e´ um IC 100.(1
^ Entre 500 pessoas inquiridas a respeito de suas preferencias eleitorais, 260 ´ de ´ mostraram-se favoraveis ao candidato Y. Calcular um intervalo de confianca ¸ ao nivel ´ 90% para a porcentagem dos eleitores favoraveis a Y. Exemplo:
Sol: Pelos dados do problema, verificamos que n = 500 x = 260 1 = 90% e p^ =
x n
=
260 500
= 0.52
O IC 100.(1 )% para p e´ dado por
p^ - z 2 .
^ p) ^ p.(1 n
, p^ + z 2 .
^ p) ^ p.(1 n
.
Substituindo os dados do problema no intervalo acima e utilizando-se os valores da tabela da Normal.
tem-se
0.52 1.64.
0.52.(10.52) 500
, 0.52 + 1.64.
Logo, o IC 90% para p e´ dado por: (0.488 , 0.552)
41
0.52.(1 0.52) 500
.
´ 2a. Lista de Probabilidade e Estatistica ´ 1) De 50.000 valvulas fabricadas por uma companhia retira-se uma amostra de 400 ~ de 100 horas. ´ ´ ´ de 800 horas e o desvio-padrao valvulas, e obtem-se a vida media ´ da populacao? a) Qual o intervalo de confianca ¸ de 99% para a vida media ¸~ ´ e´ 800 0,98? b) Com que confianca ¸ dir-se ia que a vida media c) Que tamanho deve ter a amostra para que seja de 95% a confianca ¸ na estimativa 800 7,84? ´ de 625 donas-de-casa revela que 70% delas preferem a marca X 2) Uma amostra aleatoria de detergente. Construir um intervalo de confianca ¸ para a proporcao ¸~ populacional das donas-de-casa que preferem X com coeficiente de confianca ¸ 90%. 3) Antes de uma eleicao, ¸~ um determinado partido esta´ interessado em estimar a proporcao ¸~ ´ p de eleitores favoraveis ao seu candidato. Uma amostra piloto de tamanho 100 revelou que ~ ´ 60% dos eleitores eram favoraveis ao candidato em questao. ´ para que o erro cometido na a) Determine o tamanho da amostra necessario ~ ´ estimacao 0.01 com probabilidade de 80%. ¸ seja de, no maximo, b) Se na amostra final, com tamanho igual ao obtido em (a), observou-se que 55% ~ construa um intervalo de confianca ´ dos eleitores eram favoraveis ao candidato em questao, ¸ ~ para a proporcao ¸ p. (Utilize = 0,95.) 4) Numa linha de producao, ¸~ e´ muito importante que o tempo gasto numa determinada ~ varie muito de empregado para empregado. operacao ¸~ nao ´ ^ ^ a) Que parametro estatistico poderia ser usado para avaliar esse fato? Por que? b) Se 11 empregados apresentam os tempos abaixo para realizar essa operacao, ¸~ qual ^ seria a estimativa para o parametro acima? 125 135 115 120 150 130 125 145 125 140 130 ^ c) Determine um intervalo de confianca ¸ 90% para o parametro. ^ 5) Um pesquisador esta´ estudando a resistencia de um determinado material sob ~ ´ com desvio´ e´ normalmente distribuida determinadas condicoes. Ele sabe que essa variavel ¸ ~ de 2 unidades. padrao a) Utilizando os valores 4.9 , 7.0 , 8.1 , 4.5 , 5.6 , 6.8 , 7.2 , 5.7 , 6.2 unidades, ^ obtidos de uma amostra de tamanho 9, determine o intervalo de confianca ¸ para a resistencia ´ com um coeficiente de confianca media ¸ = 0,90. ´ para que o erro cometido, ao estimarmos b) Qual o tamanho da amostra necessario ~ seja superior a 0,01 unidades com probabilidade 0,90? ^ ´ a resistencia media, nao ~ fosse conhecido o desvio-padrao. ~ Como voce^ ´ c) Suponha que no item (a) nao procederia para determinar o intervalo de confianca, ¸ e que suposicoes ¸~ voce^ faria para isso?
42
6) Suponha que X tenha uma distribuicao ¸~ uniforme no intervalo (0 , ), onde e´ desconhecido. Uma amostra de n observacoes ¸~ e´ escolhida. Suponha que n seja suficientemente grande para _ que o Teorema do Limite Central se aplique e se possa aproximar a distribuicao ¸~ de X por uma Normal N( , /n). Obtenha um intervalo de confianca ¸ para , com coeficiente de confianca ¸ 90%.
43
Capítulo 4 Testes de hipóteses 4.1 Introducao ¸~ ~ procedimentos estatisticos ´ ´ Testes de Hipoteses sao que nos permitem aceitar ou ´ rejeitar uma hipotese H0 com base nos dados amostrais. ´ ´ matematica ´ Em testes estatisticos, copiamos a estrategia de provar por contradicao. ¸~ ´ Comecando com uma hipotese H0 que se quer rejeitar, supomos que H0 e´ verdadeira e ¸ ~ a desenvolvendo argumentos de forma correta, se chegarmos a uma contradicao, ¸~ entao ´ hipotese H0 deve ser falsa. ´ Em estatistica, copiamos este enfoque, mas em vez de atingir uma contradicao, ¸~ ´ observamos um resultado improvavel. Quando uma investigacao ¸~ e´ relacionada a um fato baseado na amostra, a negacao ¸~ ´ deste fato e´ considerado como a hipotese H0 e o fato a ser comprovado pelos dados e´ ´ considerado como a hipotese alternativa H . ^ obtida de uma ´ ´ ´ de uma estatistica O objetivo do teste de hipotese e´ dizer, atraves ~ aceitavel. ´ ´ ´ amostra, se a hipotese H0 e´ ou nao Operacionalmente, isto e´ conseguido atraves ~ critica ~ rejeitamos H0 ; ´ ´ de uma regiao RC. Caso o valor da estatistica pertenca ¸ a esta regiao, ~ rejeitamos H0 . Esta regiao ~ e´ construida ´ de modo que P{^ RC | H0 e´ ´ nao caso contrario, verdadeira} seja igual a , um n-o fixado. ´ Os testes de hipoteses podem ser de dois tipos: ´ i) Testes Parametricos ~ ^ ^ ´ ii) Testes Nao-Parametricos : Aderencia, Independencia, Homogeneidade e
´ ´ 4.2 Hipotese Nula e Hipotese Alternativa ´ ´ H0 : Hipotese Nula e´ a hipotese a ser testada. ´ H : Hipotese Alternativa.
44
etc.
A rejeicao ¸~ de H0 implica a aceitacao ¸~ de H , e a aceitacao ¸~ de H0 implica a rejeicao ¸~ de H . Exemplos:
´ Para o caso dos testes parametricos podemos ter:
1) Teste Bicaudal
H0 : = 100 H : 100
2) Teste Unicaudal #a Direita
H0 : = 0.01 H : 0.01
3) Teste Unicaudal #a Esquerda
H0 : p = 0.4 H : p 0.4
´ NOTA: 1) A informacao e´ verdadeira ou falsa e´ obtida da ¸~ para verificar se uma hipotese amostra da populacao. ¸~ ´ ´ 2) Durante o curso abordaremos a hipotese nula somente como uma hipotese ´ estatistica simples, onde a distribuicao ¸~ e´ completamente especificada. ^ Admitindo que H 0 seja verdadeira, estamos admitindo conhecidos os parametros ´ que definem a distribuicao usada no teste. ¸~ da estatistica
´ 4.3 Estatistica do Teste ~ ´ ´ A Estatistica do Teste e´ uma estatistica T cujo valor serve para determinar a decisao a ser tomada. NOTA: Assim como ocorreu para o desenvolvimento da estimacao ¸~ por intervalo, os testes ~ baseados nas distribuicoes ´ ´ sao de hipotese tambem ¸~ dos estimadores. _ ~ ^ ´ amostral X; da variancia Dessa maneira, as distribuicoes ¸ de probabilidade da media ~ utilizadas para os respectivos testes sobre a amostral S ; da proporcao ¸~ amostral ^p, serao ^ ´ , a variancia media e a proporcao ¸~ p.
4.4 Erros Tipo I e Tipo II ~ sobre a hipotese ´ Quando tomamos uma decisao proposta corremos o risco de ~ errada. tomarmos uma decisao
45
´ ´ Associado a um teste de hipoteses temos dois erros possiveis: ~ de que H0 ´ i) Erro Tipo I: a hipotese H0 e´ verdadeira mas o teste leva a conclusao deve ser rejeitada. ~ de que H0 nao ~ ´ ii) Erro Tipo II: a hipotese H0 e´ falsa mas o teste leva #a conclusao deve ser rejeitada.
A tabela a seguir apresenta as possibilidades de cometermos os erros tipo I e tipo II. -----------------------------------------------------------------Aceitar H0 Rejeitar H0 ------------------------------------------------------------------~ Correta H0 e´ verdadeira Decisao Erro Tipo I ~ Correta H0 e´ falsa Erro Tipo II Decisao -------------------------------------------------------------------Designaremos = P{cometer erro tipo I} = P{Rejeitar H0 | H0 e´ verdadeira}
e = P{cometer erro tipo II} = P{Aceitar H0
| H0 e´ falsa}
H0 : = 0 H : 0
Exemplo:
~ e´ possivel ´ calcular, NOTA: A probabilidade do erro do tipo II, , na maioria dos casos, nao ~ especifica uma u´nica possibilidade, mas uma familia ´ de possibilidades pois usualmente nao alternativas.
46
~ Critica ´ 4.5 Regiao do Teste ~ Critica ~ de rejeicao ´ (RC) do Teste e´ a regiao ´ A Regiao H0 . ¸~ da hipotese ´ ´ NOTA: 1) Normalmente, temos que determinar um valor critico Tc da estatistica T, que nos ~ critica. ´ ´ permite escolher entre H0 e H . Este valor critico Tc delimitara´ a regiao ~ critica ´ do teste. 2) Observem que determina a regiao
´ 4.6 Escolha da Hipotese Nula ´ Qual sera´ a hipotese nula H0 ? ´ _ A formulacao nula a ser testada depende de qual e´ o erro mais grave. ¸~ da hipotese ´ ´ A teoria Classica do teste de hipotese considera que o erro do tipo I e´ muito mais grave que o erro tipo II. Ou seja, e´ muito mais grave rejeitar H0 quando ela e´ verdadeira do ^ ´ quando e´ falsa. Isto significa que se deve ter muita evidencia que aceita-la de que H0 e´ falsa ´ antes de rejeita-la. ´ Consideraremos, portanto, H0 a hipotese cuja rejeicao ¸~ implicaria num erro tipo I mais grave. Suponhamos que uma vacina contra uma doenca ¸ vai ser testada em um grupo de ´ algum tempo pessoas, enquanto que um grupo de controle recebe apenas soro. Apos ~ adquiriram (nao ~ verificamos quais pessoas adquiriram a doenca ¸ (afetados) e quais nao afetados), obtendo-se a tabela abaixo: Exemplo:
~ Afetados Nao-Afetados --------------------------------------------------------------Receberam n n Vacinas --------------------------------------------------------------Receberam n n Soro ---------------------------------------------------------------
~ ficaram doentes, enquanto que n Assim, n pessoas foram vacinadas e nao pessoas receberam apenas soro e ficaram doentes, . . .
47
´ Suponhamos que queremos escolher uma das seguintes hipoteses nulas. H' : a vacina e´ eficiente. ´ H'' : a vacina e´ inocua. ´ a vacina -Se H0 = H' , o erro tipo I consiste em rejeitar H' sendo ela verdadeira, i.e, ´ e´ eficiente, mas a consideramos inocua. ´ a vacina e´ -Se H0 = H'' , o erro tipo I consiste rejeitar H'' sendo ela verdadeira, i.e, ´ inocua, mas a consideramos eficiente. ´ Tomamos H'' como hipotese nula, pois o erro tipo I decorrente nos parece ser o mais grave.
4.7 Mecanismo dos Erros Para o entendimento do relacionamento entre as probabilidades e , vamos idealizar um exemplo. ~ do tipo certo-errado. Ele Um professor aplica um teste envolvendo 10 questoes ´ quer testar a hipotese "o estudante esta´ adivinhando". Exemplo:
Sol: Designemos por p, a probabilidade do estudante responder corretamente a uma ~ questao. ´ A hipotese que iremos testar sera´ H0 : p = 21 . O teste sera´ baseado no nu´mero de sucessos nas n = 10 repeticoes ¸~ independentes do ~ experimento, i.e,´ no nu´mero de acertos nas 10 questoes. ~ Seja X: nu´mero de respostas certas em 10 questoes Portanto X ~ b 10 , 12 onde X = 0, 1, 2, 3, 4, 5, . . . , 10 .
10. 12
´ Se H0 for verdadeira, o nu´mero de acertos devera´ estar proximo de E(X) = n.p = =5
~ critica ´ do teste, i.e,´ i) Seja RC = {8, 9, 10} a regiao ~ corretas, o estudante nao ~ esta´ adivinhando, caso "Se oito ou mais respostas estao ´ diremos que o estudante esta´ adivinhando." contrario
48
H0 sera´ rejeitada se X = 8 ou X = 9 ou X = 10. Dai,´ = P{Rej. H0
=
10 8
| H0 e´ verd.} = P{X = 8 ou X = 9 ou X = 10 | p = 0.5} =
.0,58 .0,510-8 +
10 9
.0,5 9.0,5 10-9 +
10 10
.0,5 10.0,5 10-10 = 0.054 1 2
´ Suponhamos, que na realidade, a hipotese testada H0 :p = = 0.8. Calculemos o valor de . = P{Aceit. H0
=
10 0
seja falsa, ou seja que p
| H0 e´ falsa} = P{X = 0 ou X = 1 ou . . . ou X = 7 | p = 0.8} =
.0,80 .0,810-0 +
10 1
10 7
.0,8 1.0,8 10-1 + . . . +
.0,8 7.0,8 10-7 = 0.322
ii) Agora, seja RC = {9, 10}, enta~o, = P{Rej. H0
=
10 7
| H0 e´ verd.} = P{X = 9 ou X = 10 | p = 0.5} =
.0,59 .0,510-9 +
= P{Aceit. H0
=
10 0
10 7
.0,5 10 .0,5 10-10 = 0.01
| H0 e´ falsa} = P{X = 0 ou X = 1 ou . . . ou X = 8 | p = 0.8} =
.0,80 .0,810-0 +
10 1
.0,8 1.0,8 10-1 + . . . +
10 8
.0,8 8.0,8 10-8 = 0.624
~ = ? e = ? (Exercicio) ´ iii) Agora, seja RC = {7, 8, 9, 10}, entao, ~ o seguinte quadro: Obtemos, entao,
RC -----------------------------------------------------{7, 8, 9, 10} 0.17 0.121 {8, 9, 10} 0.054 0.322 {9, 10} 0.01 0.624 -----------------------------------------------------Portanto, diminuindo , aumenta.
49
´ NOTA: Um teste ideal e´ dado quando e tem os menores valores possiveis. ´ para o tamanho da amostra n fixado, vimos no exemplo acima que quanto Porem, ~ e´ possivel ´ tomar e que menor for o valor de , maior sera´ o valor de . Ou seja, nao ´ ´ sejam minimos possiveis. ´ A justificativa Como solucao, ¸~ fixa-se um valor para e toma-se o menor possivel. de fixar e´ dada pelo fato que, em geral, o erro tipo I e´ mais grave do que o erro tipo II. ´ Portanto, na construcao procuramos controlar o erro tipo I, ¸~ do teste de hipoteses, ~ critica ´ e´ ^ fixando-se a sua probabilidade de ocorrencia. Uma vez fixado esse valor, a regiao construida de modo que P{ RC | H0 e´ verdadeira} seja igual ao valor fixado .
´ de Significancia ^ 4.8 Nivel do Teste Definic¸~ ao:
´ e recebe o A probabilidade de cometer um erro tipo I e´ um valor arbitrario ´ de Significancia ^ nome de Nivel do teste. O resultado da amostra e´ cada vez mais significante para rejeitar H0 quanto menor ´ . for esse nivel ´ de significancia ^ Interpretac¸~a o: Se escolhermos um nivel de 5%, significa que em 100 ´ realizacoes H0 quando ela devesse ser aceita, ¸~ do experimento cerca de 5 vezes rejeitariamos ~ correta. ou seja podemos ter 95% de confianca ¸ de termos tomado a decisao ~ de aceitacao ´ De modo geral, a regiao H0 : = 0 vs H : ¸~ de um teste de hipoteses ´ de significancia ^ 0 , com nivel , corresponde a um intervalo de confianca ¸ bicaudal 100.(1 )% para . ´ de significancia ^ ´ Na pratica, costuma-se adotar um nivel de 0,05 ou 0,01.
´ 4.9 Procedimentos para se efetuar um Teste de Hipoteses O procedimento para a realizacao ¸~ deste teste pode ser resumido nos seguintes passos: ´ 1- Identificar as hipoteses H0 e H . ´ de significancia). ^ 2- Fixar o limite de erro (nivel ´ 3- Identificar a estatistica do teste. ´ 4- Calcular o valor da estatistica do teste a partir dos dados da amostra selecionada. ~ critica ´ do teste. 5- Determinar a regiao
50
~ de rejeicao ~ e 6- Verificar se o valor calculado em 4) esta´ incluido na regiao ¸~ ou nao, concluir pela aceitacao ¸~ ou rejeicao ¸~ de H0 . ´ Procuraremos, sempre que fizermos teste de hipoteses, distinguir bem estes passos. Exemplo: Consideremos uma amostra de 16 elementos retirada de uma populacao ¸~ Normal
N(, ), onde = 16, dada por 20 18 19 17 24 18 17 26 21 17 19 3 21 20 21 21 ´ de significancia ^ = 5%. Desejamos testar H0 : = 20 com nivel H : 20 Sol: Se fixarmos os riscos de cometer o erro tipo I, ou seja a probabilidade , obteremos ~ critica ´ para o teste sujeito a este erro. a regiao _ - ´ ´ Z = X Sabemos que a Estatistica do Teste e: ~ N(0 , 1). n
´ populacional deve ser maior do que 20, teremos um Como H indica que a media teste unicaudal #a direita, concentrando-se o risco na cauda #a direita da distribuicao. ¸~ Assim:
_ Determinemos o valor de xc da seguinte forma, _ _ P{X xc} = 0.05 P
_ X - 20 4 16
_ xc - 20
4 16
= 0.05
_ xc - 20
4 16
_ = 1.64 x c =
21.64 ~ para aceitacao Logo, a regra de decisao ¸~ ou rejeicao ¸~ de H0 : = 20, para = 0.05 ´ sera:
_ ~ ´ Regiao Critica (RC): Rejeita-se H0 quando X _ 21,64 ~ de Aceitacao Regiao ¸~ (RA): Aceita-se H0 quando X 21,64
_ ~ ´ ´ obtida da Conclusao: _ O valor observado da estatistica e´ X = 18.88, i.e,´ a media amostra. Como X = 18.88 xc = 21,64 aceitamos H 0.
51
´ ´ de NOTA: 1) A critica a este procedimento e´ que, em muitos casos, a escolha do nivel ^ ´ significancia e´ completamente arbitraria. ´ ´ disso, nos casos em que a distribuicao Alem de ¸~ sob H 0 e´ discreta, o nivel ^ significancia escolhido pode nem mesmo ser atingido. Um praticante de tiro ao alvo vai comprar um lote muito grande de municao ¸~ e o ´ em bom estado e´ 90%. vendedor garante que a porcentagem de projeteis ^ No entanto, o comprador decide fazer uma experiencia para testar a veracidade da ~ bons. ´ e vai verificar quantos sao afirmacao ¸~ do vendedor. Ele escolhe 10 projeteis ~ comprar o lote se X = nu´mero de bons na amostra for muito Ele decide nao pequeno. Exemplo:
Sol: X e´ uma v.a. t.q. X ~ b(10 , p) e X = 0, 1, 2, . . . , 10, onde p = proporcao ¸~ de bons ´ no lote. projeteis ´ A hipotese a ser testada e´ H0 : p = 0,9. ~ critica ´ ele calcula a probabilidade . Suponhamos que para cada suposta regiao Dado que p = 0.9, temos (ver tabelas): P{X = 0} = P{X = 1} = P{X = 2} = P{X = 3} = P{X = 4} =~ 0, P{X = 5} = 0.001 P{X = 6} = 0.011 P{X = 7} = 0.057 ~ Portanto, se RC = {0, 1, 2, 3, 4, 5} entao = P{Rej. H0 | H0 verd.} = P{X=0 ou X=1 ou X=2 . . . ou X=5 | p = 0.9} = 0.001, ~ Se RC = {0, 1, 2, 3, 4, 5, 6} entao = P{Rej. H0 | H0 verd.} = P{X=0 ou X=1 ou X=2 . . . ou X=6 | p=0.9} = 0.012, ~ Se RC = {0, 1, 2, 3, 4, 5, 6, 7} entao = P{Rej. H0 | H0 verd.} = P{X=0 ou X=1 ou X=2 . . . ou X=7 | p = 0.9} = 0.069, ~ haveria nenhuma regiao ~ critica ´ ´ Logo, se tivessimos fixado = 2,5% nao RC para qual = 2,5%.
52
~ pode ser tratado como ´ 2) Um teste de hipotese que empregue apenas o erro , nao ´ ^ ´ inequivoco. um teste decisorio A aceitacao ¸~ de H0 pode acarretar erro e, em decorrencia, ~ erroneas. ^ problemas de decisoes ´ Apesar de o teste de hipotese ser um instrumento de aplicacao ¸~ generalizado, esta ~ efetuadas, quando de sua aplicacao, restricao ¸~ deve sempre estar presente nas decisoes ¸~ particularmente quando a indicacao ¸~ do teste e´ a aceitacao ¸~ de H0 .
53
´ ´ 3-a Lista de Exercicios de Probabilidade e Estatistica ´ 1) Na situacao nula, H0 , aquela que para voce leva a um ¸~ abaixo, escolha como hipotese ´ mais importante. Descreva quais os dois erros em cada caso. erro de primeira especie a) O trabalho de um operador de radar e´ detectar aeronaves inimigas. Quando surge alguma ´ coisa estranha na tela, ele deve decidir entre as hipoteses: - esta´ comecando um ataque; ¸ ^ - tudo bem, apenas uma leve interferencia. ´ ´ b) Num juri, um individuo esta´ sendo julgado por um crime. As hipoteses sujeitas ao juri ~ sao: - o acusado e´ inocente; - o acusado e´ culpado. c) Um pesquisador acredita que descobriu uma vacina contra resfriado. Ele ira´ conduzir ´ para verificar a veracidade da afirmacao. uma pesquisa de laboratorio ¸~ De acordo com o ~ a vacina no mercado. As hipoteses ~ ´ resultado, ele lancara que pode testar sao: ¸ ´ ou nao - a vacina e´ boa; ~ e´ boa. - a vacina nao 2) Fazendo o teste H0 : = 155 ( = 20)
H : = 145 ( = 12),
~ critica: ´ e n = 25 , estabeleceu-se a seguinte regiao RC = {y R | y 150}. a) qual a probabilidade de rejeitar H0 quando verdadeira? b) qual a probabilidade de aceitar H0 quando H e´ verdadeira? ´ 3) Se, ao lancarmos 3 vezes uma moeda, aparecerem 3 coroas, decidimos rejeitar a hipotese ¸ de que a moeda e´ "honesta". Quais as probabilidades de erro I e erro II? ~ da seguinte informacao: 4) Suponha o leitor que dispoe ¸~ H0 : p = 35% H : p 35% a) Explique por que a probabilidade de um erro tipo II e´ zero se a proporcao ¸~ populacional e´ 35%.
54
b) Explique por que a probabilidade de um erro tipo I e´ zero se a proporcao ¸~ populacional e´ diferente de 35%. ~ descendentes da civilizacao 5) Para decidirmos se os habitantes de uma ilha sao ¸~ A ou B, iremos proceder do seguinte modo: i) selecionamos uma amostra de 100 moradores adultos da ilha, e determinamos a ´ deles; altura media ~ descendentes de B; caso ´ for superior a 176, diremos que sao ii) se essa altura media ~ descendentes de A. ´ sao contrario, ~ ^ Os parametros das alturas das duas civilizacoes ¸~ sao: A: = 175 e = 10. B: = 177 e = 10. Definamos: ~ descendentes de B quando, na realidade, Erro I - dizer que os habitantes da ilha sao ~ de A. sao ~ de A quando, na realidade, sao ~ de B. Erro II - dizer que sao a) Qual a probabilidade do erro I? E o erro II? ~ se quisermos fixar a probabilidade do erro I em b) Qual deve ser a regra de decisao 5%? Qual a probabilidade do erro II, nesse caso? c) Se A = 5, como ficariam as respostas de (b)? ~ (b), se a media ´ B = d) Quais as probabilidades do erro II, nas condicoes ¸~ da questao 178? E B = 180? E B = 181? ´ Coloque num grafico os pares B , P(erro II / B ) .
55
Capítulo 5 Testes ********** ´ 5.1 Teste para a media ~ temos um u´nico valor para a hipotese ´ Em geral nao H . Dependendo da informacao ¸~ inicial podemos realizar o teste dos seguintes modos: a)
H : = 0 H : 0
b) H : = 0 H : 0
c) H : = 0 H : 0
´ de significancia ^ com nivel onde 0 e´ um valor suposto conhecido. ´ ´ de uma Para delinear os procedimentos em um teste de hipoteses sobre a media ´ populacional populacao, ¸~ devemos nos basear na distribuicao ¸~ do estimador da media Z=
_ X N(0,1) / n ~
t=
_ X t S/ n ~ (n-)
~ ^ seja conhecida ou nao. conforme a variancia
5.1.1 CASO I:
conhecido
Suposic¸~oes: Suponhamos uma amostra X , X , . . . ,Xn da populacao ¸~ N( , ).
Estati´stica do Teste: Z =
_ X
n
~
N(0 , 1).
Procedimento: i) Calcular: Zobs =
_ X - 0
n
´ onde 0 e´ o valor dado na hipotese nula.
ii) Determinar a RA e a RC do teste
56
a)
b)
c)
~ os valores criticos ´ onde z 2 ou z sao dados pela Tabela da Normal. ~ iii) Conclusoes: ~ rejeita-se H . a) se zobs z entao ~ aceita-se H . b) se z 2 zobs z 2 entao ~ rejeita-se H . c) se zobs z entao Observac¸~oes: 1) Evidentemente, se o valor de zobs estiver fora dos intervalos indicados acima, a ~ sera´ contraria. ´ decisao ~ e´ aumentar 2) Se zobs = z , nos casos b) e c), ou zobs = z 2 , no caso a), a sugestao o tamanho da amostra. ´ informa a uma pessoa, que esta´ representante de um grupo comunitario ´ familiar na area ´ _ interessado em estabelecer um centro comercial e que a renda media e´ de ´ ´ de n = 15 familias, ´ familiar foi X = $15.000. Para uma amostra aleatoria a renda media ´ de significancia ^ ´ $14.000. Testar a hipotese nula de que = $15.000, utilizando um nivel de 5%. Supor que a renda familiar tem distribuicao ¸~ Normal com = $1500. Exemplo 1) O
~ e´ normal com = 1500 conhecido, ´ Sol: Dados do problema: n = 15, porem populacao ¸ _ = 5% e X = 14.000. Utilizaremos primeiramente um teste bicaudal, ou seja, desejamos testar: H : = 15000 H : 15000 com = 5% ´ i) Calculo de Zobs =
_ X 0
n
=
14000 15000
1500 15
= 2,582
57
ii) Determinacao ¸~ das RA e a RC do teste.
~ iii) Conclusao: ~ rejeita-se H . Como zobs = 2,582 z 2 = 1,96 entao Logo, deve-se rejeitar a afirmacao ¸~ do representante da comunidade, de que a renda ´ de significancia ^ ´ familiar da populacao media de 5%. ¸~ seja de $15000, a um nivel ^ ´ referencia ao exemplo 1, uma vez que a hipotese foi rejeitada, ou seja, que rejeitamos que = 15000 contra 15000, sera´ que podemos aceitar que ´ para isto. ´ amostral nos da´ um forte indicio 15000, pois a media Exemplo 2): Com
Sol: Desejamos testar: ii) Determinacao ¸~ das RA e a RC do teste.
H : = 15000 H : 15000
com = 5%
~ iii) Conclusao: ~ rejeita-se H . Como zobs = - 2.582 - z = - 1,64 entao ´ ´ familiar da populacao Dai,´ aceitamos a hipotese de que a renda media ¸~ deve ser ´ de significancia ^ menor do que $15000, a um nivel de 5%. ´ ´ Selecione, segundo uma a.c.s com reposicao de N-o Aleatorios), ¸~ (use a Tabua ~ listada na tabela anexa com N = uma amostra de tamanho 35 da populacao ¸~ de quarteiroes 270. ~ i. ^ Yi = n-o de residencias alugadas no quarteirao Exerci´cio:
58
Sabemos que = 16.9 e = 428.07 ´ de significancia ^ ´ Testar a hipotese de que = 16.9 para um nivel de 10%. 5.1.2 CASO II:
desconhecido
n
Neste caso precisamos calcular o estimador S = ´ utilizar a variavel, _ t = X S- ~ t(n-1)
i=1
_ (Xi - X) n - 1
^ do parametro e
n
´ como a estatistica do _ teste. ´ i) Calcular: tobs = X -S 0 onde 0 e´ o valor dado na hipotese nula.
n
ii) Determinar a RA e a RC do teste a)
b)
c)
~ valores criticos ´ onde t 2 e t sao dados pela Tabela da t de Student. ~ iii) Conclusoes: ~ rejeita-se H . a) se zobs - t entao ~ aceita-se H . b) se - t 2 zobs t 2 entao ~ rejeita-se H . c) se zobs t entao ´ atestam para os calouros admitidos Os registros dos u´ltimos anos de um colegio ´ 115. Para testar a hipotese ´ ´ de uma nova turma e´ a mesma, a nota media de que a media ~ 20. ´ 118 e desvio-padrao tirou-se, ao acaso, uma amostra de 20 notas, obtendo-se media Admitir que = 0.05 para efetuar o teste. Exemplo:
~ Sol: Entao,
´ i) Calculo de tobs =
H : = 115 H : 115 _ X - 0
S
n
=
118 - 115
20 20
= 0,67
59
com = 5%
ii) Determinacao ¸~ das RA e a RC do teste.
~ iii) Conclusao: ~ aceita-se H . Como 2,093 t obs = 0,67 2,093 entao ´ ´ da nova turma e´ a mesma da turma Dai,´ aceitamos a hipotese de que a nota media ´ de significancia ^ passada, a um nivel de 5%. ´ Exerci´cio: No exemplo 1), testar as hipotese H : = 15000 H : 15000
com = 5%
supondo desconhecido com S = $1500. NOTA: Pelo Teorema do Limite Central, independente de X ter distribuicao ¸~ Normal, ´ de significancia ^ ´ um teste de hipoteses para , com nivel , considerando-se amostras ´ grandes, por exemplo n 30, tera´ como estatistica do teste: i) se e´ conhecido Z= ii) se e´ desconhecido Z=
n
onde S =
i=1
_ (Xi - X) n - 1
_ X -
n
_ X -
S
n
a~ N(0 , 1) para n 30.
a~ N(0 , 1) para n 30,
.
^ ´ Uma indu´stria de eletricidade faz lampadas cujo tempo de vida medio e´ 800 ´ horas e = 40 horas. Testar a hipotese de que = 800 horas contra a alternativa 800 ^ ´ de 30 lampadas ´ de vida de 788 horas. horas se uma amostra aleatoria tem um tempo medio Adotar = 0,04. Exemplo:
60
~ Sol: Dados com = 40 conhecido, ¸~ nao-normal _ do problema: n = 30, para uma populacao = 5% e X = 788. Desejamos testar: H : = 800 H : 800 com = 5% ´ i) Calculo de Zobs =
_ X - 0
n
=
788 - 800
40 30
= -1,643
ii) Determinacao ¸~ das RA e a RC do teste.
~ iii) Conclusao: ~ aceita-se H . Como - z 2 = - 2,054 zobs = - 1,643 z 2 = 2,054, entao ^ ´ de vida das lampadas Logo, concluimos que o tempo medio produzidas e´mesmo de ´ de significancia ^ 800 horas, a um nivel de 5%.
5.2 Teste para a proporcao ¸~ p ´ ´ Problema: Tem-se uma populacao sobre a proporcao ¸~ e uma hipotese ¸~ p de individuos ´ ´ portadores de uma certa caracteristica. Esta hipotese afirma que essa proporcao ¸~ e´ igual a um certo nu´mero p0 . Hipo´teses: a)
H : p = p0 H : p p0
b) H : p = p0 H : p p 0
´ de significancia ^ e p0 e´ um valor suposto conhecido. com nivel
61
c) H : p = p0 H : p p 0
Suposic¸~oes: ^ ´ X , X , . . . ,Xn de uma populacao i) Suponhamos uma amostra aleatoria sendo ¸~ dicotomica, ´ X o nu´mero de unidades na amostra que possuem a dada caracteristica. ii) n.p0 5 e n.(1 p0 ) 5 para garantir uma boa aproximacao ¸~ da Binomial pela Normal. Estati´stica do Teste: ´ ´ Z= A Estatistica do Teste sera:
p^ - p
p.(1 p) n
~
N(0 , 1), onde p^ =
Procedimento do Teste: ´ i) Calculo do valor observado: Zobs =
p^ - p0
p0.(1 - p0 ) n
´ onde p0 e´ o valor dado na hipotese nula. ii) Determinar a RA e a RC do teste a)
b)
c)
~ os valores criticos ´ onde z 2 ou z sao dados pela Tabela da Normal. ~ iii) Conclusoes: ~ rejeita-se H . a) se zobs - z entao ~ aceita-se H . b) se - z 2 zobs z 2 entao ~ rejeita-se H . c) se zobs z entao
62
x n
.
~ afirma que 60% dos televisores estavam ligados no seu Uma estacao ¸~ de televisao programa especial da u´ltima 2-a feira. Uma rede competidora deseja contestar essa ´ afirmacao, ¸~ e decide, para isso, usar uma amostra de 200 familias. ´ sorteadas, Admitamos que, do trabalho de campo, entrevistando as 200 familias ´ obtivemos 104 respostas afirmativas. Testar a veracidade da afirmacao ¸~ da emissora ao nivel ^ de significancia = 0.05. Exemplo:
Sol: Desejamos testar:
H : p = 0.60 H : p 0.60
com = 5%
Observemos que n.p0 = 200.(0,60) = 120 5 e n.(1 - p 0) = 200.(0,40) = 80 5 ´ i) Calculo do valor observado: Zobs = onde p^ =
x n
=
104 200
p^ - p0
p0.(1 - p0 ) n
=
0,52 - 0,60
0,6.(1 - 0,6) 200
= -2,31
= 0.52
ii) Determinacao ¸~ das RA e a RC do teste
~ iii) Conclusao: ~ rejeita-se H . Como zobs = - 2.31 - z = - 1,64 entao ~ foi de 60% e ^ ^ Ou seja, ha´ evidencias de que a audiencia do programa de 2-a feira nao sim inferior a este nu´mero.
^ 5.3 Teste para a variancia ^ ´ da media ´ populacional, muitas vezes temos interesse em fazer inferencias Alem sobre a variabilidade populacional. ´ de qualidade Por exemplo, podemos ter interesse na uniformidade como um criterio para uma linha de producao ¸~ (controle de qualidade).
63
Suposic¸~oes : ´ X , X , . . . ,Xn de uma populacao Suponhamos uma amostra aleatoria ¸~ Normal N( , ).
Hipo´teses: a)
H : = 0 H : 0
b) H : = 0 H : 0
c) H : = 0 H : 0
´ de significancia ^ com nivel e 0 e´ um valor suposto conhecido. Estati´stica do Teste : (n -1).S Procedimento para o teste :
~ (n-1)
´ i) Calculo do valor observado: obs =
(n - 1.) S 0
´ onde 0 e´ o valor dado na hipotese nula e S =
n
i=1
_ ( Xi X ) n-1
^ variancia amostral.
ii) Determinar a RA e a RC do teste a)
b)
c)
~ os valores criticos ´ onde 2 ou sao dados pela Tabela da Qui-Quadrado. ~ iii) Conclusoes: a) Se 2obs 2- rejeita-se H b) Se 2obs - 2 ou obs 2 rejeita-se H
64
c) Se 2obs rejeita-se H
Exemplo : Uma das maneiras de manter sob controle a qualidade de um produto e´ controlar
^ ^ ´ sua variancia. Uma maquina de encher pacotes de cafe´ esta´ regulada para enche-los com ~ de 10 g e media ´ de 500 g. O peso X de cada pacote segue uma um desvio padrao ´ de 16 pacotes e observou-se distribuicao ¸~ N ( , ). Selecionou-se uma amostra aleatoria ^ ´ uma variancia S = 169 g . Com esse resultado, voce^ diria que a maquina esta´ desregulada # ^ em relacao ¸~ a variancia? ´ de significancia ^ Sol: Fixado o nivel , por exemplo = 5%, desejamos testar: H : = 100 H : 100 ´ i) Calculo do valor observado: obs =
(n - 1).S 0
=
15x169 100
= 25,35
onde n=16 , S = 169 e 0 = 100 dados no problema. ii) Determinacao ¸~ das RA e a RC do teste
Pela tabela da Qui-Quadrado, 0,975 (15) = 6,262 e 0,025 (15) = 27,448
~ iii) Conclusao: Como 0,975 (15) obs 0,025 (15) , aceita-se H . ^ ´ Ou seja, a maquina esta´ sob controle quanto #a variancia.
65
´ ´ 4-a Lista de Exercicios de Probabilidade e Estatistica ~ tem desvio padrao ~ =3.1 e media ´ ´ 1) A precipitacao anual numa certa regiao ¸~ pluviometrica desconhecida. Para os u´ltimos 9 anos foram obtidos os seguintes resultados: 30.5 34.1 27.9 35.0 26.9 30.2 28.3 31.7 25.8 ´ ´ de precipitacao a) Construir um teste de hipoteses para saber se a media ¸~ ´ de significancia ^ ´ pluviometrica anual e´ maior que 30.0. Utilize um nivel de 5%. b) Discuta o mesmo problema, considerando desconhecido. c) Supondo que, na realidade, = 33.0, qual a probabilidade de tirarmos uma ~ errada? conclusao ~ de ´ 2) Um fabricante garante que 90% dos equipamentos que fornece a uma fabrica estao acordo com as especificacoes ¸~ exigidas. O exame de uma amostra de 200 pecas ¸ desse ´ equipamento revelou 25 defeituosas. Teste a afirmativa do fabricante, aos niveis de 5% e 1%. ~ pretendem modifica-lo ´ se for assistido 3) Os produtores de um programa de televisao ~ Uma pesquisa regularmente por menos de um quarto dos possuidores de televisao. ´ entrevistadas, 80 encomendada a uma empresa especializada mostrou que, de 400 familias ~ dos assistem ao programa regularmente. Baseado nos dados, qual deve ser a decisao produtores? 4) O custo X de manutencao ¸~ de teares segue uma distribuicao ¸~ normal, X ~ N( , 400). ^ tem sido adotado como igual a 200. Suspeita-se de Durante muito tempo, o parametro ^ ^ que este parametro aumentou, e so´ nos interessa saber se o novo o parametro aumentou, e ^ so´ nos interessa saber se o novo parametro for superior a 210. Assim, queremos planejar um teste em que = 5% (quando = 200) e = 10% (quando = 210). a) Qual deve ser o tamanho da amostra? b) Qual a RC neste caso? ~ retiradas de uma formacao ´ e submetidas a# analises ´ 5) Alguns tipos de rochas sao ¸~ geologica ´ ´ de cobre. Apos´ analisar 25 rochas, a media ´ quimicas para determinar a porcentagem media ~ encontrados sao ~ iguais a# 10,2 e 3,1, respectivamente. Supor que a e o desvio-padrao ^ ´ se a porcentagem media ´ do extracao viavel ¸~ comercial deste mineral sera´ economicamente mineral e´ de pelo menos 8%. i) Os dados sugerem viabilidade da extracao ¸~ comercial? (testar com =0.05).
66