I
)t,:
Ís'l'rt
l'Rr lttAtìn,n)AI)E
l,lsllr olrr ir
rA
si<[o
('llnlir irrlrorlrtr.iru;t
[tlolrrrlrilirlirtlc c rt l,ìstlrtíslit it, It'ttrlrr llirlrot'ir<[l ;rirtir irlrrtros
rlrrs r'rrcirs
hrrmanas. Ao
rrItr'trlo Mlrgalhães lur l't'rlt'rlsrl
corrtliilio rlt'
orr(rrrs
textos e lcrlc'Ìì1iìr'('s, os ttilli<'os
Estatística l)escritivir rriro Íìlrarrr apresentados enì urìì Írnit o capítìrlo:
procurou-se
i
n
trodrrzir
csses conceil os
em paralelo corn outros tópicos mais teóricos no decorrer do livro. Desse modo,.buscou-se desenvolver ó texto de forma similar ao uso prático da Estatística, quando normalmente um
conjunto de dados é explorado descritivamente antes da modelagem e aplicação de técnicas estatísticas.
Não foi explicitado o uso de nenhum software em
particular, uma vez que
procuroÌÌ enfatrzar
se
as idéias envolvidas
e não a habilidade computacional.
Não obstante, vários exercícios
-
apresentados ao {im de cada seção e em uma seçào específica ao final
de cada capítulo
-
assumem o uso de
computadores para sua resolução
e
alguns conjuntos de dados mais extensos são disponibilizados na internet, o que estimula o
leitor
4
utilizar um programa computacional com o qual tenha famiÌiariclade panì ar
rxíl
io ttits
t'csoltr'ç<-rcs.
)''
Prefácio da 6s edição
tÌrpyrlglrt O hy Mulcos Nascinrcnlo Magalhãcs c Arrtonio Carlos l)ctltoso clc Lima l" r'rliçÍo 1999 (lMli-tJSP) ( lMll-l.JSl') .1" crliçlio 2(X) I (lMli-tJSP)
Bste texto é fruto da nossa experiência de vários anos como professores
J'' r'rlt1'rlo 2(XX)
crliçrìo 2(X)2 (lJclusp) .1" crliçrìo 2{X}2 (Ddusp) (rn ctliçlìo 2(X)4 (liclusp)
lnlct nacionais dc Catalogação na Publicaçào (CIP) (('iìnrala Ilrasileira do Livro, SP, Brasil)
Mttgrt lhilt's, Mitt cos Nascinrento
Nuçiics rlc I'robabilidade c Estatística / Marcos Nascimento Mngllhitcs, Ânlonio Carlos Pcclroso cle Liml - ó ed. - São Paulo: Jltlilurl tlu IJrtive lsichclc de São Paulo, 2004. - (Acadêmica; 40) lllhliogr';r
tstìN
li,rt
tì5-3 I 4-0ó77-3
llstuclo e Ensino 2. Matemática - Estudo e - Estudo e Ensino I. Título IL Série.
L listltísticl -
lirrsirur 3. lÌoltabiliclaclcs
cDD-5 t 9.507
tì,1 0.171
índicos para catálogo sistemático:
l, 2,
l1\lirlíslicl: Matcnriitica: Estudo e Ensino 519.507 lÌolrlhilitlrtilcs c Estatística: Maternática: lisluclo c
I)ll'cllns lcsclvltlos
Errsino
519.507
lklusp lulitrtrt tll
[Jnivclsidade de São Paulo l,rrciarto Gualbclto, Tlavcssa J,374 (Í'untlll lltl. rll Ântiga lìeitoria - Cidade Universitária 0550tl U{X) .- Siìo l'uulo - SP - Brasil I)ivisalo (lrrucrcial: tcl. (Oxxl l) 3091-4008 / 3091-4150 SA(l (0xxl l) 3091-291 I - Fax (Oxxll) 3091-4151 www,rrsp,lrr'/ctlusqr - c-mail:
[email protected]
Av,
{i
à
lÌrrl,
Coutro dç Ciêaerap Ldarcai{h a do ìì*hrreln
Iiibirotecl
ll.. í:;,gilí''rs
4658108
cr|sEra lrrslilulo rlc Mllcntítica c Estatística - IME-USP l0l0 - Cidadc Universitária 0-55()t1"9(X) - S;io I'aulo - SP - Brasil l)cplrlnnlcnt(ì tlc listatística - Tel. (Oxxl l) 3091-6129 / 3091-6130 ('uixil lÌrslIl (r(),2tÌI - 05315-970 rvww, irrx',rrsgr,lrr'/*ttoproest - c-mail:
[email protected] Ituil rkr Millikr,
lÌ irt('(l iil
llril/il
lroi leito o
rlt'1tr1silo lcgal
l(X)4
0\Íú/0s
e
clÕ
eln Departamento de Estatística do Instituto de Unìversidade de São Paulo. Nesse período, foram ministradas diversas disciplinns lrírsicas de Estatística para cursos nas áreas de Ciências Humanas, Exatns e Biológicas. Buscamos enfatizar dois aspectos neste livro. O primeiro se refere $ rcpartir a Estatística Descritiva ao longo do texto, suavizando, assim, a transiçilo pariÌ Probabilidade e Variáveis Aleatórias. Em geral, os alunos sentem o impacto
Matentática
,1"
l )utkrs
"
vrt
Estatística
Prefácio
vlu
colnborou na revisão final da redação. A estudante Tatyana Maya Okano auxiliou nn COrreção das respostas de vários exercícios. Apontamos, ainda, o recebimento CJc vírrias mensagens eletrônicas com comentários e/ou sugestões. A todos que Colnboraram, o nosso sincero muito obrigado. Agradecemos, ainda, aos alunos de vÍlrias unidades da USP, que apontaram erros e deram sugestões. Finalmente, gostaríamos de agradecer a Luís Ricardo Câmara, da ADUSP- Associação dos Docentes da USP, pela diagramação das tabelas e auxílio na arte final de algumas dns figuras apresentadas no texto.
Pedimos, desde já, desculpas pelos erros que serão eventualmente identificados nesta nova edição. As críticas e sugestões de colegas e estudantes gcrão muito bem-vindas e, certamente, auxiliarão na rnelhoria da próxima versão.
Conteúdo ì
I
Â
São Paulo, janeiro de2004
e Antonio Carlos P. Lima (marcos @ime.usp.br) (
[email protected])
Marcos N. Magalhães
ì' ' Í
t"r
Conteúdo
Lista de Defïnições
2.4
......,........ Probabilidade condicional ............. Independência de eventos....... Partição do espaço amostral
3.r
Função discreta de probabilidade ...........
3.2
4.1
probabilidade Modelo Uniforme Discreto ........;.......... Modelo Bernoulli ................... Modelo Binomial Modelo Geométrico Modelo Poisson Modelo Hipergeométrico ........... Medidas de posição para um conjunto de dados
4.2
Medidas de posição para variáveis aleatórias discretas ........................... 98
4.3
5.1
dados Variância e desvio-padrão em um conjunto de dados Variância de uma variável aleatória discreta Função de probabilidade conjunta ...............
5,2
Probabi lidade condicional para variáveis aleatórias discretas ............... 137
.5.3
Independência de variáveis
5.4
Correlação entre variáveis num conjunto de dados brutos ...........,.......,.
5.5
Covariância de duas variáveis
.5.(r
Correlaçiro entre variáveis
2.r 2.2 2.3
3.3
3.4 3.5
3.6 3.7 3.8
4.4 4.5
Probabilidade
.................... 38 ..................,,,42
.........,44 ............46
Função de distribuição de
Amplitude de uma variável em um conjunto de
aleatórias
aleatórias aleatórias ................. ..t-,
............63 ..............68 ......... 70 ................... ..........72
......78
......,,,,,,79 .....,82
.......,..,......,,94
....,.. 103 ......... 104 ....109
..,..128
..........,... 137
l4l
.........,147 ................,.149
.
Lista de Definições
xu
Lista de Figuras
6.5
........... ...... 168 Medidas de posição paravariâveis aleatórias contínuas .....I73 .....................1,73 Variância paravariâveis aleatórias contínuas ..........177 Modelo Uniforme Contínuo .....180 Modelo Exponencial .................
1.3
....'..'....... Exemplos de gráficos publicados na imprensa
6,6
Modelo Normal
t.4
DiagramacircularparaavariávelToler.....'.'. .'.....'..""""""13
7,1
Parâmetro
1.5
Gráfico de barras paÍa avariável Idade
7,2
Estimador e estimativa
.................. 208
7.3
Vício
......... Consistência ................ Eficiência
..................213
6.1
6,2 6.3
6.4
7.4 7,5
Função densidade de probabilidade
...................213 ....................216
1.1
r.2
População e amostra
Classificação de variáveis
........"'."",.,',
d
..:'....."""""" l2
5.1
......."""':"""" 14 ......'.. .'..'.......'.15 Histograma paraavariável Peso .'.'....'. ...'........""""" 18 Box-plot para o número de laranjas por caixa ....'.....".'.....18 Box-plot para a variável Peso '.....'... .'.'......'."...'..'........ 19 Box-plotda variável Peso para cada sexo ....'.,'..' 39 Regra de adição de probabilidades .'....... ....',,,,43 Regra do produto de probabilidades .'....... ,...,.,45 Árvore de probabilidades ......'.. .'....,""""" 46 Partição do espaço amostral (k : 6) ...........'.,..60 Árvore de probabilidades - alterações no subsolo ...........65 Função de distribuição - doses de vacina .'...'...'.......,..,69 Modelo Uniforme Discreto [0, 10] .'."...'..'.........75 Gráfico de freqüências - natalidade em porcos ..'.'7g Modelo Geométrico (P: 0,0t) Modelo Poisson (À : 5) "..........."'.80 Independência de variáveis aleatórias '.....'.".."137
5.2
Valor esperado da soma de variáveis aleatórias ..'.'.'.':"'......"'.......'....'. 145
5,3
Valor esperado do produto e independôncia de variáveis aleatórias ..,..146
.5.4
Correlação para conjuntos de dados (brutos)
5,.5
Covariância e correlação de variáveis
t.6 1.7 1.8
r.9 2,1
2.2 2.3
2.4 3.1.
3.2 3.3
3.4 3.5 3.6
xtu
.'.'.'....'.". aleatórias
'.'....151
..'.............
l5l
'
.qft I'islu ilct liigrtnts
rlv
5,6 6,1 6,2 6,3 6.4 6.5 7.l 7.2 8.1
Variância da soma de duas variáveis
aleatórias
Contínua Densidade Exponencial """"""""' Densidade Normal
Densidade Uniforme
""""""""" 151 ""' 178 """""""""'180 ""' 183
Binomial """"""""' 189 190 Histogramas para valores simulados da Binomial """"""""""""""""' Efeito de n na distribuição amostral de X - N(10,I6/n) """"""""""22I
Aproximação Normal para o Modelo
de Efeito do tamanho da amostra sobre a distribuição
Erros associados a testes de hipóteses
X """"" """"""224 """"""'248
8'2Representaçáográficadoserrosd'ep.,.'..... 8,4Representaçáogrâf\cadaregiãoderejeição-bilatera1 Função
Poder
""""""'254
"""""""""'
EtaPas de um teste de hiPóteses
Densidade ú-
Student
Nível descritivo unilateral
"""""""
Regiões desfavoráveis num teste bilateral
"""""""' .Ïf e Região Crítica
Nível descritivo bilateral Densidade
""""""""""'259 """""""""264 com Hoi F : Fo """"""""'265 """""""""'266 ""'27O
"""""""'
9.1
Cirsos na comparação de duas amostras
9.2
Distribuição de Fisher-
9.3
Resíduos no modelo de regressão linear simples
Snedecor
"""""'1 .l lnformações de questionário estudantil - dados brutos """""""""' 9 1.2 Tubela de freqüência para a variável Sexo """"" """"""""' 10 1,3 Tlbela de freqüência para a variável Idade ""'"" """"""""" I 1,4 Tabela de freqüência para a variável Peso """"" L5 TabeladefreqüênciaparaavariávelTV""""""' """"""""'1l """" 100 4,1 Meclidas de tendência central """""""""" 11 4,2 Medidas de dispersão """"""""" 11 4,3 Propriedades da média e da variância """""""' I l3 4,4 Modelos discretos- valor esperado e variância """"""""""""""""""" 187 e variância """"""""""""""""""' Modelos contínuos- valor esperado 6, I """''"""""211 7,l Estimadores para média' proporção e variância """"'234 p Intervalos de confianç apaÏa p e """"" 1 ,2 9,I Comparação de médias para duas populações """"""""""309 ""' 326 g,2 Tnbela de Análise de Variância (ANOVA)
l
1
1
1
S.3Representaçáogrâficadaregiãoderejeição-unilateral...,.250
8.5 8,6 8.7 8.8 8.9 8. l0 8.1 I
Lista de Tabelas
"""""""'295 """"""""""'317
""""""""':""""""""'335
Capítulo
L
Introdução à Análise Exploratôria de Dados t.1 O que é Estatística? Neste capítulo, pretendemos formalizar alguns conceitos que constitucrn tt base de técnicas desenvolvidas com a finalidade de auxiliar a responder, de I'ortrtit objetiva e segura, situações que envolvem uma grande quantidadc dc irrformações. A utilização dessas técnicas, destinadas à análise de situitçõcs complexas ou não, tem aumentado efaz parte de nosso cotidiano. Tome-sc' pof
cxemplo, as transmissões esportivas. Em jogos de futebol, o número cle cscanteios, o número de faltas cometidas e o tempo de posse de bola são daclos geralmente fornecidos ao telespectador e fazem com que as conclusões sobre qunl
time foi o melhor em campo, se tornem objetivas (não que isso impliqlle que tcnlra sido o vencedor...). O que tem levado a essa quantificação de nossas viclus no dia a dia? Um fator importante é a populatizaçáo dos computadores. No passado, tratar uma grande massa de números era uma tarefa custosa e cansativtt, que exigia horas de trabalho tedioso. Recentemente, no entanto, grnnCle quantidade de informações pode ser analisada rapidamente com um computudor
pessoal e pfogramas adequados. Desta forma, o computador contribui, positivamente, na difusão e uso de métodos estatísticos. Por outro lado, o computador possibilita uma automação que pode levar um indivíduo serÌ prepilro
específico a:utilizar técnicas inadequadas para resolver um dado problema. Assitrt, é necessário a compreensão dos conceitos básicos da Estatística, bem como 0s suposições necessárias para o seu uso de forma criteriosa. Entendemos it Estatística como um conjunto de técnicas que permite, de forma sistemátictt,
organizar, descrever, analisar e interpretat dados oriundos de estudos tltt experimentos, realizados em qualquer ârea do conhecimento- Estatrtos denominando por dados um (ou mais) conjunto de valores, numéricos ou nito. A aplicabilidade das técnicas a serem discutidas se dá nas mais variadas árels tln atividade humana. A grosso modo podemos dividir a Estatística em três áreas: o Estatística Descritiva o Probabilidade o Inferência Estatística
i
I
Capítulo 1: Introdução à Análise Exploratória de Dados
Estatística Descritiva é, em geral, utilizada na etapa inicial da análise, cprlndo tomamos contato com os dados pela primeira vez. Objetivando tirar conclusões de modo informal e direto, a maneira mais simples seria a observação tlos valores colhidos. Entretanto, ao depararmos com uma grande massa de dados, lrcrcebemos, imediatamente, que a tarefa pode não ser simples. Para tentar depreender dos dados informações a respeito do fenômeno sob estudo, é preciso irplicar alguma técnica que nos permita resumir a informação daquele particular conjunto de valores. Em outras palavras, a estatística descritiva pode ser definida cotììo urn conjunto de técnicas destinadas a descrever e resumir os dados, a fim de quc possamos tirar conclusões a respeito de características de interesse. Probabilidade pode ser pensada.como a teoria matemática utilizada para sc cstudarr a incerteza oriunda de fenômenos de caráter aleatório. Apesar de ser urrrn írrea extremamente atraente e estudada do ponto de vista matemático, abordaremos, aqui, apenas os aspectos necessários para as técnicas estatísticas irprcsentadas neste livro. Inferência Estatística é o estudo de técnicas que possibilitam a cxtrapolação, a um grande conjunto de dados, das informações e conclusões obtidas a partir de subconjuntos de valores, usualmente de dimensão muito ffìenor. Deve ser notado que, se tivermos acesso a todos os elementos que clesejamos estudar, não é necessário o uso das técnicas de inferência estatística. Entretanto, elas são indispensáveis quando existe a impossibilidade de acesso a todo o conjunto de dados, por razões de natureza econômica, ética ou física. Estudos complexos que envolvem o tratamento estatístico dos dados, tusnalrnente, incluem as três áreas mencionadas acima. Na terminologia estatística, o grande conjunto de dados que contém a característica que temos interesse reccbc o nome de população. Esse termo refere-se não somente a uma coleção de inclivícluos, mas também ao alvo sobre o qual reside nosso interesse. Assim, nossa populnçiro pode ser tanto todos os habitantes de Sorocaba, como todas as lârnpaclas produzidas por uma fátbrica em um certo período de tempo, ou todo o sarìgue no corpo de uma pessoa. Algumas vezes podemos acessar toda a po;lulação para estudarmos características de interesse, mas, em muitas situações, tal llroccciirnento não pode ser realizado. Em geral, razões econômicas são as mais clctclrninantes dessas situações. Por exemplo, uma empresa, usualmente, não dispõo clc vcrba suficiente para saber o que pensam todos os consumidores de scus proclutos. Hir ainda razões éticas, quando, por exemplo, os experimentos de lttlornttilio cnvolvem o uso de seres vivos. Além disso, existem casos em que a irnpossillilitltclc clc sc accssárr toda a população de interesse é incontomável. Na tndlisc rlo sirngr"rc cle unra pessoiÌ ou em um experimento para determinar o tempo
l.lOqueéEstatística?
cle funcionamento das lâmpadas produzidas por uma indústria, não podemOS observar toda população de interesse. Tendo em vista as dificuldades de várias naturezas para se observal todos os elementos da população, tomaremos alguns deles para formar um grupo iì Ser cstudado. Este subconjunto da população, em geral com dimensão sensivelmentC rrìenor, é denominado amostra. A Figura 1.1 ilustra as etapas da anólige cstatística.
Amostra
w
Figura 1.1: População
e amostra.
A seleção da amostra pode ser feita de várias maneiras, dependendo, entre ()lrlr'os Íhtores, do grau de conhecimento que temos da população, da quantidade rlc rccursos disponíveis e assim por diante. Devemos ressaltar que, em princípio, A sr:lcçiro da amostra tenta fornecer um subconjunto de valores o mais pareciclo possívcl com a população que lhe dá origem. A amostragem mais usada é a (rtt!o,\lru r:ustral simples, em que selecionamos ao acaso, com olt sem reposiç:âo, os ilcrrs da população que farão parte da amostra.
Eventualmente, se tivermos informações adicionais a respeito cltt lrrrlrrrlirçlio de interesse, podemos utilizar outros esquemas de amostragem muis soÍ'isticuclos. Por exemplo, se numa cidade, tivermos mais mulheres do clue 111y111çlrs, podernos selecionar um certo número de indivíduos entre as'mulheres e outl'o núnrero entre os homens. Esse procedimento é conhecido colno (tt,toslt'o!:ct"tt. astraíificada. Outras vezes, pode existir uma relação numeradl dOS
-"--qt Capítulo
I:
Introdução à Análise Exploratória de Dados
itens da populagão (uma lista de referência) que nos permitiria utilizar a chamada 1mostragem sistemática em que selecionamos os indivíduos de forma prédeterminada, por exemplo de 8 em 8 ou de 10 em 10. Outros esquemas de ilmostragem poderiam ser citados e todos fazem parte da chamada Teoria da
Amostragem, cujos detalhes não serão aprofundados neste livro. Assim sendo, terminamos esta seção mencionando que quanto mais complexa for a amostragem' maiores cuidados deverão ser tomados nas análises estatísticas utilizadas; em contrapartida, o uso de esquemas de amostragem mais elaborados pode levar a uma diminuição no tamanho de amostra necessário para uma dada precisão.
Exercícios da Seção 1.L:
valores numéricos.
c.
Sempre que estivermos trabalhando com números, deveremos utilizar a Inferência Estatística. A Estatística Descritiva fornece uma maneira adequada de tratar um conjunto de valores, numéricos ou não, com a finalidade de conhecermos o
fenômeno de interesse. d. Qualquer amostra representa, de forma adequada, uma população.
e. As técnicas
estatísticas não são adequadas para casos que envolvam
experimentos destrutivos como, por exemplo, queima de equipamentos, destruição de corpos de provas, etc.
descritas a seguir, identifique a população e a amostfa a validade do processo.de inferência estatística para Discuta correspondente. cada um dos casos. a. Para avaliar a eficá'cia de uma campanha de vacinação no Estado de São Paulo, 200 mães de recém-nascidos, durante o primeiro semestre de um dado ano e em uma dada maternidade em São Paulo, foram entrevistadas a respeito da última vez em que vacinaram seus.filhos. b. Uma amostra de sangue foi retirada de um paciente com suspeita de anemia. c. Para verificar a audiência de um programa de TV, 563 indivíduos foram entrevistados por telefone com relação ao canal em que estavam
2, Para as situações
sintonizados.
d. A fim de avaliar a intenção de voto para presidente dos brasileiros, pessoas foram entrevistadas em Brasília.
3. Discuta, para cadaum dos casos abaixo, os cuidados que precisam ser tomadOa para garantir uma boa conclusão a partir da amostra. a. Um grupo de crianças será escolhido para receber uma nova vacina contra
meningite. b. Sorteamos um certo número de donas de casa, para testar um novo
sabEO
en
pó.
c. Uma fâbrica deseja saber se sua produção de biscoitos está com o ssbof previsto. d. Aceitação popular de um certo projeto do governo.
1.2 Organização de Dados
1. Classifique em verdadeiro ou falso as seguintes afirmações: a. Estatística é um conjunto de técnicas destinadas aorganizar um conjunto de
b.
1.2 Organização de Dados
122
Nesta seção, discutiremos alguns procedimentos que podem ser utilizados
pnrt organizar e descrever um conjunto de dados, seja em uma populaçãO OU em ulìB omostra. Veremos como conceitos relacionados à Teoria das Probabilidades 11pnrecem naturalmente, levando-nos, assim, a uma exposição maiS criteriosa dO Rssullto.
A questão inicial é: dado um conjunto de dados, como "tratar" os vttlofeE, nurnéricos ou não, a fim de se extrair informações a respeito de uma ou mAlC elllctcrísticas de interesse? Basicamente, faremos uso de tabelas de freqüênclas e grc'('icos, notando que tais procedimentos devem levar em conta a natUreZ& dOÊ dnelos,
Suponha, por exemplo, que um questionário foi aplicado aos alunog do prirneiro ano de uma escola fornecendo as seguintes informações:
Id: Turma:
Scxo: Iclade:
Alt:
Peso:
lìilhos: Ílumn:
Toler:
identificação do aluno turma a que o aluno foi alocado (A ou B) F se feminino, M se masculino idade em anos altura em metros peso em quilogramas número de filhos na famíli'a hábito de fumar, sim ou não
tolerância ao cigarro:
(I) indif'erente, (P) incomoda pouco e (M) incomoda muito
. -Edl
Capítulo
Exerc: Cine: OpCine:
TV: OpTV:
I:
Introdução à Análise Exploratória de Dados
horas de atividade física, por semana número de vezes em que vai ao cinema por semana opinião a respeito das salas de cinema na cidade: (B) regular a boa e (M) muito boa horas gastas assistindo TV, por semana opinião a respeito da qualidade da programação na TV: (R) ruim, (M) média, (B) boa e (N) não sabe
O conjunto de informações disponíveis, após a tabulação do questionário ou pesquisa de campo, é denominado de tabela de dados brutos e contém os daclos da maneira que foram coletados inicialmente. Os valores obtidos para cada uma dessas informações estão apresentados na Tabela 1.1. Cada uma das Características perguntadas aos alunos, tais como o peso, a idade e a altura, entre outras, é denominada de variável. Assim, a variável Altura assume os valores (em metros) 1,60; 1,58;... e a variável Turma assume os valores Á ou B. Claramente tais variáveis têm naturezas diferentes no que tange aos possíveis valores que podem assumir. Tal fato deve ser levado em conta nas análises e, para fixar idéias, vamos considerar dois grandes tipos de'variáveis: numéricas e não numéricas. As numéricas serão denominadas quantitativas, ao passo que as não numéricas, qualitativ as.
variável é qualitativa quando os possíveis valores que assume representam atributos e/ou qualidades. Se tais variáveis têm uma ordenação natural, indicando intensidades crescentes de realizaçáo, então elas serão
A
ctassificadas como qualitativas ordinais. Caso contrário, quando não é possível estabelecer uma ordem natural entre seus valores, elas são classificadas como qualitativas nominais. Variáveis tais como Turma (A ou B), Sexo (feminino ou masculino) e Fuma (sim ou não) são variáveis qualitativas nominais. Por outro lndo, variáveis como Tamanho (pequeno, médio ou grande), Classe Social (baixa, rnódia ou alta) são variáveis qualitativas ordinais. Variáveis quantitativas, isto é, variáveis de natureza numérica, podem ser subdivididas em discretas e contínuas. A grosso modo, variáveis quantitativas discretas podem ser vistas como resultantes de contagens, assumindo assim, em geral, valores inteiros. De uma maneira mais formal, o conjunto dos valores assumidos é finito ou enumerâvel. Jâ as variáveis quantitativas contínuas assumem valores em intervalos dos números reais e, geralmente, são provenientes de uma mensuração. Por exemplo, Número de Irmãos (0, I,2, ...) e Número de Def'eitos (0, 1,2,.,.) são discretas, enquanto que Peso e Altura são quantitativas contÍnufls.
7
1.2 Organização de Dados
Tabela 1,1: Informações de questiondrio estudantil - dados brutos, .[d Turma Sexo Idade AIt Peso Filh Fuma Toler Exer Cine Opcine TV
1.AF 2AF 3AM 4AM 5AF 6AM 7\F BAF 9ÀF IOAF 11 À F 12 A F 13 A F T4AM 15AF 16AF LTAF 1g À M 19 A F 30 A F 11 A F 22ÀF 33 À F 24AF 25 A F B6 A 3'/ B F 3E B F 39 B F 30 E F 31 B F 3ã E M ã3 B F 34 ll F 1E li M 16 t! Ir 1't 11 M ãË t1 M 19 11 4r.) B M 41 t] F 4ã Fr F' 41 HM 44DF 4F F F 4€ E TI 478Iil 4E H F éS H M h0 11 M F.
1,'
19
L,60 60 ,5 1,69 55,0 L,85 12,8 l-, 85 80, 9 1", s8 55, 0
19
1_,76
1,7
18 1,8
20 l-8 t_8
T7
l-8 18 a1
I9 18 t-9 L7 1"8
20 l_8
2L 18 L8
20
)^ L9
z3 18
18 25 18 17 T7
L7 J.õ
18 77 2L 10
1A
L7 23 24 L8 18 L9 19
18
t7 1B
60,0 1,60 58.0 L,64 41,0 L,62 57,8 t,64 58,0 r,72 70,0 L,66 54,0 L,70 58,0 1, 78 68, 5 1,65 63,5 7,63 47 ,4 1.,82 66 ,0 1-,80 85,2 1,,60 54,5 L,68 52,5 1.,70 60,0 1,65 58,5 1,57 49 ,2 L,55 48,0 1.,69 57,6 L,54 51,0 L,62 63 ,0 L,62 52,0 L,57 49,0 t,65 59,0 t,6L 52,0 L,71. 73 ,0 t,65 56,0 r,67 58,0 1",73 87,0 r,60 47,0 1,70 95,0 L,85 84,0 1,70 60,0 1,73 '73 ,0 1,70 55,0 1,45 44,0 I,76 75,0 1,68 55,0 1,55 49,0 1,70 50,0 1,5s 54,5 r., 60 50, 0 L,8o 71,o 1,83 86,0
2 1 2 2 l3 1 3-
3 2
L 3 2
ll3
r
2
t
3 2 1 1 1 2 2 2
1 2
4 1-
L 3 L
r
t 1 1 1 1 1 2 2 1 1
7 2
I 1 L
NAO NAO NAO NAO
P M P P M M P
NAO NAO
M M
NAO NAO
M M
NAO NAO
M P M
NAO
P
NAO
NAO NAO
SIM I SIM I
SIM I NAO I NAO P NAO P NAO P NAO P NAO
SfM I SIM T
NAO I NAO NAO NAO NAO
NAO NAO NAO NAO NAO NAO NAO
SIM
M
P P M
P P M M M P P T
NAO P NAO M NAO f NAO M
NAO I
NAO NAO NAO NAO NAO NAO
NAO
P M
M M P P P
0101 52 52
81.6R B7R M1.5R B20R B5R
a1
13
3l22 102 02 6t 5l_ 4101 31 34 11 1)
82 03 54 01 62 82 1"1 3L 12 22 1L 21 42 7L 51 1-0 64 52 4L 54 )) 70 51 01 01 43 2L "t0 70
OpTV
2
Z
B7R MlOR M1-2R MlOR B8N BOR M 30 M2N BlOR B18R BlON BlOR B5R B14M B5R B5R BlOR M 28 M4N B5R M5R MlOR BL2R M2R M6N B 20 BL4R BlOR B25B M14R M12N B],OR BT2R B2R BlOB B 25 M1.4N B8R MlOR B8R B3R B5R M1.4R M 20
.b{
R
R
R
R
B
Capítulo
I:
Introdução à Anólise Exploraúrta de Dados
Resumimos a classificação das variáveis no esquema apresentado na Figura I.2 (atítulo de exercício, tente classificar todas as variáveis da Tabela 1.1).
I
1.2 Organízação de Dados
Apesar de conter muita informaçáo, a tabela de dados brutos pode nãO Sef prática pu.u r"rpondermos às questões de interesse. Por exemplo, da Tabela 1'1
rriro
é imediato dizer se os alunos se incomodam muito ou pouco com Os
l'umantes. Porlanto, a partir da tabela de dados brutos, vamos construir UmO nOvtl
Nominal
' Variável
-.ordinal
-a"Qualitativa
\
liSura
'Quantitativ u
1--""-Discreta
.-,contínua
1.2: Classificação de varidveis.
Vale ressaltar que, em muitas situações práticas, a classificação depende de certas particularidades. Por exemplo, a variável ldade, medida em número de anOS, pode ser vista como discreta, entretanto, Se levarmos em conta os dias, não é absurdo falar que a idade ê 2,5 ou 2,85 anos, dando assim respaldo para classificála como contínua. Por outro lado, dependendo da precisão do instrumento utilizado para se obter medidas em um objeto, podemos ter limitações no número cle casas decimais e uma variável de mensuração pode se "tornar" discreta. E importante salientar que a classificação apresentada acima se refere à natureza da variável e, em geral, devemos utilizar o bom senso na hora de decidir qual procedimento adotar para caracterizar uma variável. Para salientar tal fato, menciOnamos que podemos, inclusive, discretizar uma variável contínua para obter uma melhor representação da ocorrência de seus valores no conjunto de
t1$ela com as informações resumidas, para cada variável. Essa tabela Sefd clenominada de tabela de freqüência e, como o nome indica, conterá os valOfeg dA virriável e suas respectivas contagens, as quais são denominadas freqüênelAEq ttbsolutas ou simplesmente, freqüências. No caso de variáveis qualitativas OU tprantitativas discretas, a tabela de freqüência consiste em listar os valorog possíveis da variável, numéricos ou não e fazer a contagem na tabela de dadOg lrrutos do número de suas ocorrências. Representaremos por n; a freqüência dq vulor i e por ?? a freqüência total. Para efeito de comparação com outros grupOS ou conjunìos de dadoi, será conveniente acrescentarmos uma coluna na tabela de lì.oqüência contendo o cálculo da freqüência relativa, definida por fi = U/t\:, Convém notar que, quando estivermos comparando dois grupos com relaçãO àS freqiiências de ocorrência dos valores de uma dada variável, grupos cgm Um número total de dados maior tendem a ter maiores freqüências de ocorrência dos vtlores da variável. Desta forma, o uso da freqüência relativa vem resolver èBte problema.
A Tabela 1.2 apresenta cln
as freqüências para a variável Sexo, obtida a
p0rtir
Tubela I .1. Tabela 1.2: Tabela
de
freqüêncía para a variúvel Sexo.
Sexo
n,i
.ït
F M total
t t'7 dí
13
0,74 0,26
n:50
1
dirclos.
Outro ponto que pode trazer confusão é que, muitas vezes, na utilização Cle programas computacionais, associamos códigos numéricos a uma variável qqalitativa. Por exemplo na Tabela 1.1, pode-se associar ao sexo feminino o valor I e ao masculino 2. Apesar da variável ser representada por valores numéricos, issO não a torna uma variável quantitativa. Novamente, vemos que a natureza da vnriável deve sempre ser levada em conta na hora de se interpretar resultados obtidos na análise descritiva.
Note que, para variáveis cujos valores possuem ordenação n0tufel (eluglitltivas ordinais e quantitativas em geral), faz sentido incluirmos também urttrt coluna contendo asJreqüências acumuladas Ír,,'' Afreqüência acumulada at& un1 cefto valor é obtida pela soma das freqüências de todos os valores da variúvel, tncnorcs ou iguais ao vator considerado. Sua utilidade principal é ajudor o
estu$eleccr pontos de corte com uma determinada freqüência nos valores da vurióvel. Poi exemplo, na Tabela t .3, observamos que 907o dos alunos tôm idadcs rrté 2l unos, cle fato úé 22, umâ vez que este valor tem Í'reqiiência zero.
l0
Capítulo 1: Introdução à Análise Exploratória de Dados
L2 Organização
il
de Dados
Tabela 1.4: Tabela Tabela 1.3: Tabela
de
de
freqüêncía para a varídvel Peso.
freqüência para a varíável ldade,
Idade
TLi
.ft
.f o"
L7
9 22
0,18 0,44
0,18
18 19
I
0,L4
20
4
2L
.1
0,08 0,06
22 ôt ZJ
0
0
2
0,04 0,02 0,04
24
1
25
2
total
n:50
0,84 0,90 0,90 0,94 0,96
1
Com relação à variável Peso, lembremos que foi classificada como quantitativa contínua e assim, teoricamente, seus valores podem ser qualquer número real num certo intervalo. Aqui os valores variam entre 44,0 e 95,0 kg e foram medidos com apenas uma casa decimal. Ainda assim, existe um grande número de valores diferentes de modo que, se a tabela de freqüência fosse feita nos mesmos moldes dos casos anteriores, obteríamos praticamente os valores originais da tabela de dados brutos. A alternativa que vamos adotar consiste em construir classes ou faixas de valores e contar o número de ocorrências em cada laixa. Para a variável Peso, usamos faixas de amplitude 10, iniciando em 40 kg. Na Tabela 1.4, escolhemos incluir o extremo inferior e excluir o superior. Dessa I'orma, a freqüência da faixa 40,0 F 50,0 não incluiu os alunos 46 e 48 que tinham peso igual a 50,0 kg. A opção de qual extremo incluir pode ser arbitrátria, n"ìos o importante é indicar claramente quais são os valores que estão sendo conterdos em cada faixa. Apesar de não adotarmos nenhuma regra formal quanto ao total de faixas, utilizarnos, em geral, de 5 a 8 faixas com mesma amplitude. Entretanto, ressaltamos que faixas de tamanho desigual podem ser convenientes para representar valores nas extremidades da tabela.
fl,4
B
lt. 0,16
0,16
F
60,0
22
0,44
0,60
l--
50,0 60,0 70,0 80,0 90,0
0,62 0,76
1,00
Peso
40,01-- 50,0
fo"
70,0
8
0,16
0,76
F
80,0
6
0,L2
0,BB
t--
90,0
5
0,10
0,98
F
100,0
1
0',02
1,00
50
1
total
Vamos estudar, agora, a situação em que a variável é por natureza o conjunto de possíveis valores é muito grande. Por exemplo, a vflriável TV, definida como o número de horas assistindo televisão, tem valores inteiros entre 0 e 30 e uma tabela representando seus valores e respectivas
cliscreta, mas
Íieqüências seria muito extensa e pouco prática. O caminho adequado, nesse caso, é trotar a variável como se fosse contínua e criar faixas para representar seus vulores. Assim, passamos a tratar como contínua uma variável que seria, originnlmente, classificada como discreta. Tabela 1.5: Tabela
de
freqüência para a variável TV.
TV
ni
.ft
0F-6
fu"
L4
0,28
0,28
12
t7
0,34
0,62
18
11
0,22
0,84
24
4
0,08
0,92
24l---136 total
4
0,08
1,00
50
1
61218 t-
A organização dos dados em tabelas de freqüência proporciona um meio cl'icitz cle estudo do comportamento de características de interesse. Muitas vezes, tt irríbrnração contida nas tabelas pode ser mais faci'lmente visualizada através dc grírl'icos. Meios de comunicação apresentam, diariamente, gráficos das mais vlriiÌdils formas para auxiliar na apresentação das informações. Órgãos públicos e ('nìprcsos sc municiom de grírficos e tabelas em documentos internos e relatórios
TF
--- qFFF
t)
Cttpftulrt
l;
hilnxluçiltt à Antilise ll.rplorutórfu dt l)urlt*
de atividades e desempenho. Graças à proliferação de recufsos gráficos, cuja Cçnstrução tem sido cada vez mais simplificada em programas computacionais,
cxiste hoje uma infinidade de tipos de gráficos que podem ser utilizados' Como ilustraçãõ deste ponto, apresentamos na Figura 1.3 alguns gráficos publicados em írrgãos de imprensa.
CIìÉDIO
EVOLUÇÃO DO LUCRO tiQÜIDO U$$ MII"HÓES
1,2 Organtzação de Dados
equivocodâír, Obviamente, questões
ocorrer em qualqueí e,"7: pré-requisitos indispensáveis divulgação ética e criteriôra de dados devem ser
p,id.*
e
inegociárveis.
pizza, barras çt vamos definir três tipos básicos de gráficos: disco ou pode sef gráfica na apresentação li$t(,t4ruma. como dissemos, a criatividade de vários' entre os gráficos que discutiremos sintetizam três caminhos,
inrerrsa e representação. 'grâfico
RU|ìAT
de manipulação incorreta da informação nã: cabe culpar a Estatística' O uso e a
o
de d.isco, otr pizza, ou ainda diagrama
circular,
se adapta muito
em repartir um disco em setores hem às variáveis qualitativas nominais. consiste
RECURSOS PROPRIOS
circularescorrespondentesàsporcentagensdecadlvalor,calculadas freqüência exemplo, O,20 de rnnltiplicando-se por 100 a freqüêncìa relativã f6.Por a207o o-ã u"' que 100 x 0'20:20' AFigura 1'4 apresenta relativa "o.r"rpond" da Tabela 1.1. Note que o cliagrama de disco para avariável Tol-er, obljd^a.a .nartir fntiir correspondentè à categoria "indiferente" foi destacada.
'
LLiPLTO
8,9
t5,9
12,ç
VALO|ìES A-IUATIZADOS NOS IüOIDES DA
No
D[
C0NTRATCìS
E[/ SIR = 22'l 0Ì
COR|ìEÇAO INÏEGRAI
RECURSOS HUN/ANOS
RECURSOS HUMANOS DrsTRrBUrÇÂO POR ruívrL HtrnRRSUtCO
DISIRISUÇÂO POR ESCOLARiDADE
t
ls I t e= '
===
,= TSCR
==
Ï
CAIMS 23,891
l. GÍor ==
Figura 1.3: Exemplos
Figura 7.4: Diagrama circalar pard ü varilúvel Toler'
==GÍou == == 2Ô
SuPeÍior
de grdficos publicados na im'prensa'
Deve ser notado, entretanto, que a utilização de recursos visuais na criação de gráficos deve ser f'eita cuidadosamente; um gráfico desproporcional em suas medidãs pode dar falst impressão de desempenho e conduzir a conclusões
ográficodebarrasut\|\zaoplanocartesianocomosvaloresdavariável eixo das ordenadas' no eixo das abiissas e as freqüênciai ou porcentagens no barra com altuf8 Note que píIia cada valor ãa variável desenha-se uma de gráfico se adapta ,nrr"rptnd"rrdo à sua freqüência ou porcentagem. Esse tipo rnelhoi às variáveis discretas ou qualitativas ordinais'
t4
Capítulo
l:
Introdução à Aruilise Exploratória de Dados
t5
1.2 Organização de Dados
em cada faixa são homogeneamente distribuídas, para um mesmo retângulo, fatias de mesmo tamanho contém uma mesma porcentagem de observações. Apesar do suposição de homogeneidade não ser sempre verificada, ela é bastante razoávol em muitas situações e pode ser uma boa aproximação da realidade. 25
\r
20 .g
oc
$ru'
e15 E
L
t;
10
5
0
18 le 20 ,í1" Fígura 1.5: Gráftco de barras para a varíável ldade.
O histograma consiste em retângulos contíguos com base nas faixas de valores da variável e com área igual à freqüência relativa da respectiva faixa. Dessa forma, a altura de cada retângulo é denominada densidade de freqüência oa simplesmente densidade definida pelo quociente da âreapela amplitude da faixa. Para a variável peso, as densidades de cada faixa podem ser obtidas dividindo-se a
da Tabela 1.4 por 10, que é a amplitude de cada faixa. O histograma correspondente a essa variável é apresentado na Figura 1.6. Note que incluímos, no topo de cada retângulo, a porcentagem de observações correspondente, para fìtci I itar a interpretação. É importante ressaltar que alguns autores utilizam a freqüência absoluta porcentagem na construção do histograma. Preferimos o uso da densidade de ou Íì'eqüência, pois ela faz çom que o histograma não fique distorcido, quando amplitudes diferentes são utilizadas nas faixas. Uma outra vantagem diz respeito à relação entre histograma e gráfico da função densidade de probabilidade, que será visto mais adiante. O histograma também pode ser utilizado no cálculo da mediana (mdor,), que é o valor da variável que divide o conjunto de dados ordenados em dois subgrupos de mesmo tamanho, Isto é, das observações ordenadas, 507o estão abaixo e 507o estão acima da mediana. Assumindo que as observações da variável
coluna
fi
/-'t'
40x
I 60 70 80 90 {) .?- Peso Figura 1.6: Histograma para a variável Peso.
100
'
Exemplo 1.1.' Vamos calcular a mediana da variável Peso através do histogramÊ, Inicialmente identificamos o retângulo que deve conter a mediana. Uma simplos soma das áreas resulta que a mediana pertence ao intervalo [50,0; 60,0), uma vsz eluc até o valor 60,0 temos acumuladas 607o das observações. Dentro dessa faixa, precisamos determinar um retângulo com área igual a 34Vo, que é o que falta para rrÍingir o valor 50Vo. A situação é ilustrada na figura a seguir, cujo retângulo procurado está marcado com área mais escura. Com uso de proporções, estabelecemos a seguinte igualdade:
- 50 _ 0,34
mdor,,
f;,li4 .,t. r
),
60
- 50 lo
0,44
JJ-' i,!t rn , 1í-,
rtlt
,lr,
YÍ
-,-'ì ,I''
"r'qr Capítulo 1: Introdução à AnáIise Exploratória de Dados
t6
I7
1.2 Organização de Dados
.,,'60'--'^ú
q)
E p
0,05
6r,'6Ò í: C,t\
a
(D
o
o,o+
''
',r"r''",'4'
0,03
o,o2
0,01
0,0 60
50 mdot,
Daí segue qtte mdo6,
tr
: 57,73kg.
4' O conceito de mediana, que será considerado ern detalhes no Capítulo em dividido é dados pode ser generalizado para situações em que o conjunto de o mais do q:ue dois subgrupos' Um caso importante é aquele -em que dividimos conjunto em quatro iubg*pot. Para tanto, deveremos determinar' além da de rn"ãiunu, dois valores tais quã 25Vo das observações ordenadas estarão abaixo denominados' são um deles e 75Vo estarão abaixo do outro' Tais valores
respectivamente, primeiro quartil e terceiro quartil, Usualmente representados poi 8r e Q3. Note que a mediana, discutida anteriormerrte, representa o segundo cálculo ãos valores dos quartis também pode ser feito através do
q""ríii. O
histograma, conforme mostrado no exemplo a seguir.
Exemplo 1.2; No Exemplo 1.1, o valor da mediana (segUndo quartil) calculado atravéì do histogram u, é 57,73 kg. De forma semelhante, vemos que o valor do primeiro quartii também se encontra no intervalo [50,0; 60,0)' isto é' correrpondãrâ ao valor 8r que determinará uma âtea de 9Vo no retângulo correspondente. Assim, temos (ver figura a seguir)
: =-!o 0,09
Q^=
*=
lo + Qt:52,,05kg'
0,44 '
Peso
Qt
l)c
I'orma semelhante, obtemos para o terceiro quartil Qs
:
69,38
kg.
tr
Para o cálculo de quartis e medianas usando a tabela de dados brutos, prccisamos ordenar as observações e escolher os valores que dividem os dados nits proporções desejadas. Eventualmente, será necessário tomar médias de vulores vizinhos. No caso de tabelas de freqüências, os dadosjá estão ordenadoË Ê ru procedimento é similar. Uma representação grâfica envolvendo os quartis ê o box-plot Definimoa, ul'nn "caixa" com o nível superior dado pelo terceiro quartil e o nível inferior pelo plirneiro quartil. A mediana é representada por um traço no interior da caixa o seglÌlcntos de reta são colocados da caixa até os valores máximo e mínimo, que rrÍlo scjam observações discrepantes (o critério para decidir se uma observaçãío é tliscrcpante não será discutido aqui, mas, em geral, envolve a diferença entre o tercciro e o primeiro quartis)- O próximo exemplo ilustra a construção do box-plot pnrt uma variável quantitativa discreta utilizando-se os dados brutos.
Ilwtttplo
1.3.' Suponha que um produtor de laranjas costuma guardar as frutns cm cuixus c estír interessado em estudar o número de laranjas por caixa. Após um dia rle colhcita, 20 caixas foram contadas. Os resultados brutos, após a ordennção, silo: 22, 29, 33, 35, 35, 37, 38, 43, 43, 44y 48, 48, 52, 53, 55, 57, 61, 62, 67 e 69, lÌrrrr osses dados, temos qüe md,,6, ilfOo+ 11s) l2 : (44+48) 12 = 46, Annlogarnente, obtemos Qr : 36 e Qs :56. Também observamos que o número r(-
\,i',,
511,,\
''i
I
r(.
,
Capítulo 1: Introdução à Análise Exploratória de Dados
18
mínimo de laranjas em uma caixa é' 22
e
o número máximo, 69. O box-Plot
correspondente é apresentado na Figura 1'7'
l,.l ()rganização
t9
de Dados
Gráficos tipo box-plol também são úteis para detectar, descritivamentc, rliÍirl'crrças nos comportamentos de grupos de variáveis. Por exemplo, poclemos tturrsitlornr gráficos da variável Peso para cada sexo. O resultado é apresentado nn l'jigrrlir 1,9, em que podemos notar que os homens apresentam peso mediano atrllet'iur ito das mulheres, além de uma maior variabilidade'
100
60
90
3so e
80
E
o
En
J
Í!
40
I
60
50
30
I
40 20
I
I
F
M
Sexo
Irigura 1.9: Box'plot da variável
Figara 1.7. Box'plot para o número de laranjas por caixa' através do box-plot é bastante rica no sentido de informar, entre outras coisas, a variabilidade e simetria dos dados' Note'que na 1.7 os dados apresentam simetria acentuada (a distância da mediana para
A representaçáo grá,fica
Figura
dos os"quartis é a mesma), o mesmo podendo ser observâdo a respeito da distância Figura ponìo, de mínimo e máximo em relação à mediana. Em contraste, temos na i.A o box-ptot paraa variável Peso, que apresenta uma pecluena assimetria.
llxerr'Íclos
tll
l, tlllssil'ique
Peso
para cada sexo,
Scção 1.2: cacla uma das variáveis abaixo em qualitativa (nominal
/ ordinal) ott
rltmnl il rt i vil (cliscreta / contínua):
$. Ocorrêlrcia de hipertensão pré-natal em grávidas com mais de 35 anos (sütl i ,,r tttrttílrtsf,opossíveisrespostasparaestavariável). l' ", t;t/ìtitt( h, Inlelrçiio clo voto para presidente (possíveis respdstas são os nomes dos ( ctttttlitlitrtts,alémde não sei).''',,,t11 )1' t t'r, " C. l,r't'rhì rlc pcso de maratonistas ná Corrida de São Silvestre, em quilos. 'tl,\ttì, 1'l maratonistas na Corrida de São Silvcstre rl, lrrlr.rrsirlnrlc clt perda de peso -" de ( l1 't.\ l;rtJ' (lt'Ve, tttoclCrilCla, fOrte). ' 1t r/ ç/ ë, (lrrrrr rle satisÍ'açiro cla população brasileira com relaçãro ao trabalho cle seu presirlerrte (vnlores de 0 a 5, com 0 indicando totalmente insatisÍ'eito e 5 lrtlttltnettlc satisl'eito). i,,t tt! t (l' r/lr'l I , ,,1,','
r
'100
90 80
'
o
3to L 60
,
50
40
Figura 1.8: Box-plot para a varidvel Peso.
l,
{Jrrirrzt pncientcs clc unra ólírrica de ortopcdia foram entrevistados quânto ito nrÌnrr'r'rì rk: r'ttcscs prcvistos cle I'isiotcrapin, se haverá (S) ou niro (N) secltlelus
'.qt Capítulo
20
I:
Introdução à Análise Exploratória de Dados
após o tratamento e o grau de complexidade da cirurgia realizada: alto (A), médio (M) ou baixo (B). Os dados são apresentados na tabela abaixo: 2
Pacientes
Fisioterapia
7
8
Seqüelas
s A
S
Cirurgia
M
3
4
5
.N: ,N) A M
6
7
8
9
10
ll
t2
l3
I4
I
4
5
7
7
6
8
6
5
5
5
N
S
s
N'
S
S
rN
S
N)
M
B
A
N M
4 N
B
M
ts
ts
M
M
A
5
1.3 O Uso de Computadares em Estatística
do que em uma região industrial (Região B). Para tanto, uma
20
funcionários administrativos em uma indústria. 10,1
8,5
5,0
412
tt Jr9
10,7
1,5
8;2
10,0
4. Um grupo de
estudantes matemática resultando em:
1e
3,1
9,0
914
6,1
4,7
315
6,5
8,9
6,1
freqüência
0F-2
L4
2+4
28
4-6
27
6FB 8F10 mínima para aprovaçã,o
de
34
TOFBO
109
BOF90
111
>90
55
(,1,
319
a
um teste
de
[a ,.r'
4
será
a
nas
duas regiões? (Note que o total de observações difere em cada região). regiã0,
histogramas apresentados em
(b), obtenha as
medidas
necessárias e construa o box-plot, um para cada região. Com base nessa representação gráfica, rediscuta o item (a).
1.3 O Uso de Computadores em Estatística
11
é 5, qual
10
a. Os dados apresentados sugerem que o grau de desnutrição é diferente
c. Com base nos
a. Construa o histograma.
b. Se a nota
<60 60F70
Faça uma suposição conveniente para as faixas não delimitadas.
e o 3e quartil.
do ensino médio foi submetido Nota
ni
b. Construa, apartir dos dados das tabelas, um histograma para cada
)) - )-
a. Construa uma tabela de freqüência agrupando os dados em intervalos amplitude 2 apartir de l. Ìr. Construa o histograma e calculo o
Peso
total
de modo diferente nesse grupo?
nt ltú
foi
Região B
grâlica. Para o grupo de pacientes que não ficaram com seqüelas, faça um gráfico de c. barras para a variável Fisioterapia. Você acha que essa variável se comporta
Os dados abaixo referem-se ao salário (em salários mínimos) de
amostrâ
tomada em cada região, fornecendo a tabela de freqüências a seguir:
a. Classifique cada uma das variáveis. b. Para cadavariâvel, construa a tabela de freqüência e faça uma representação
3.
2t
porcentagem de
aprovação? c. Obtenha o box-plot. 5. Um estudo pretende verificar se o problema da,desnutrição em adultos medida pelo peso, em quilos, em uma região agrícola (denotada por Região A), é maior
Foi mencionado anteriormente que o desenvolvimento da indústrirr de computadores deu grande impulso ao uso da Estatística. Vários progrumes computacionais de uso comum contém rotinas estatísticas incorporadas às suas das planilhas eletrônicas, usualmente pié-instaladas em computadores novos. Programas especificamente desenvolvidos para efetuar análises estatísticas são conhecidos como pacotes estatísticos. Existe um número considerável desses pacotes, alguns voltados para análises mais comuns na dretl de humanidades, outros para a área de biomédicas; alguns são extremamente simples de se utilizar através de menus, outros pressupõem conhecimento de uma linguagem de programação específica. Qualquer que seja o programa a ser utilizado, três são as etapas que envolvem seu uso: funções básicas. É o caso
1 Entrada de Dados 2. Execução da Análise Estatística 3. Interpretação de Resultados
A Entrada de Dados deve assumir certas convenções. Apesar de certos programas terem rotinas desenvolvidas de forma a simplificar a criação do banco
Capítulo 1: Introdução à Análise Explqratória de Dados
22
de dados, intrinsecamente o que se temê a criação de uma matriz, em que cada linha corresponde a uma unidade experimental e cada coluna a uma variável. Por unidade experimental, entende-se o elemento da população ou amostra no qual observaremos as variáveis. Por exemplo, na Tabela 1.1,
observamos 50 unidades experimentais, os estudantes, nos quais foram observadas 14 variâveis. Assim, os dados podem ser representados por uma matriz com dimensão 50 por 14. Leitores familiares com planilhas eletrônicas não terão problema em visualizar esta situação. Assim, quando estudamos uma única variâvel, consideramos a coluna correspondente. Se estamos interessados em saber o comportamento desta variável em dois grupos diferentes (como na Figura 1.9), precisamos estudar os valores da coluna em que ela se encontra, conjuntamente com a coluna que contém a informação dos grupos' A fase da execução da análise estatística pressupõe o conhecimento de como o programa que está sendo utilizado trabalha as informações. Torna-se, assim, importante se ter acesso ao manual do programa' Após as informações terem sido trabalhadas, vem a fase da interpretação dos resultados obtidos. Nesta hora, é aconselhável consultar o manual sempre que houver dúvida, se o que foi calculado relaciona-se, de fato, à análise estatística desejada. Ao interpretar as características observadas, é importante verificar se resultados absurdos não estão ocorrendo. Em caso positivo, releia o manual e certifique-se de ter executado a análise correta para os dados em questão. Em muitos casos, a fase de interpretaçáo é a mais difícil e interessante, pois envolve o equacionamento das características apresentadas na análise com vistas a responder as questões inicialmente colocadas'
23
1.4 Exercícios
1".4
Exercícios
1. Responda certo ou errado, justificando:
a. Suponha duas amostras colhidas de uma mesma população, sendo uma de tamanho 100 e outra de tamanho 200. Então, a amostra de tamanho maior é mais representativa da população. F
b. Duas variáveis diferentes podem apresentar histogramas idênticos' I c. Duas variáveis combox-plol iguais não podem ter valores diferentes' Fj
2.
Suponha que duas empresas desejam empregá-lo e após considerar âs uuntug"n. de cada uma, você vai escôher aqoelá que lhe pãgar melhor' Após certa pesquisa, você consegue a distribuição de salário das errÍpresas, dadas segundo os gráficos abaixo. Empresa B
EmpÍesa A
5101520253035404550
Sãlários Mínimos
Com base nas informações de cada gráfico, qual seria sua decisão?
3. Uma pesquisa com usuários de transporte coletivo na cidade de São Paulo Exercícios da Seção 1.3:
l.
Utilizando alguma planilha eletrônica ou pacote estatístico disponível e com as informações da Tabela 1.1, construa um banco de dados para os 20 indivíduos iniciais e as 4 primeiras colunas. Imprima e confira os valores digitados.
2. Considerando o banco de dados criado no Exercício 1 desta seção, construa histogramas para as quatro variáveis e, baseado no gráfico, descreva os seus comportamentos.
I
desta seção, divida a idade em três categorias (menores de 18 anos, idade entre 18 e 21 inclusive, e maiores de 2l anos). Construa gráficos de barra para essa variável, incluindo toclos os indivíduos e um para cada sexo. Interprete os resultados obtidos.
3. Considerando o banco de dados criado no Exercício
indagou sobre os diferentes tipos usados nas suas locomoções diárias. Dentre ônibus, metro e trem, o número de diferentes meios de transporte utilizados foi
oseguinte:2,3,2, 1,2, 1,2, 1,2,3,I,1,1,2,2,3,1,1, 1,I,2, I, 1,2,2, 1,2, 1,2 e 3. a. Organize uma tabela de freqüência. b. Faça uma representação grâfica. c. Admitindo que essa amostra represente bem o comportamento do usuário paulistano, você acha que a porcentagem dos usuários que utilizam mais de um tipo de transporte é grande?
4. A idade dos 20 ingressantes num certo ano no curso de pós-graduação em jornalismo de uma universidade foi o seguinte: 22,22,22,22,23,23,24,24, 24, 24, 25, 25, 26, 26, 26, 26, 27, 28, 35 e 40.
Capítulo
24
l:
Introdução à Análise Exploratória de Dados
I -l li rrt t:ícios
rl, l{cpita o item (c) para a variável Salário. r,. (lonsiderando apenas os funcionários com mais de três anos clc clsn,
a. Apresente os dados em uma tabela de freqüência, incluindo a freqüência relativa.
b.
Idades atípicas parecem ter ocorrido nesse ano. Após sua retirada do conjunto de dados, refaça o item (a). Comente as diferenças encontradas.
Um novo medicamento para cicatrizaçáo está sendo testado e um experimento é feito para estudar o tempo (em dias) de completo fechamento em cortes provenientes de cirurgia. Uma amostra em trinta cobaias forneceu os valores: 15,17,16, 15, \7, 14,17, 16, 16,17,15, 18, 14,17, 15, 14,15,16,17, 18, 18, 17, 15, 16, 14,18, 18, 16, 15 e 14. a. Organize uma tabela de freqüência. b. Que porcentagem das observações estão abaixo de 16 dias? c. Classifique como rápida as cicatrizações iguais ou inferiores a 15 dias e
como lenta as demais. Faça um diagrama circular indicando
tlcscreva o comportamento da variável Salário.
ll. I lrrr gnrpo de pedagogos estuda a influência da troca de escolas no descntpcttlto tlt. llrrnos do ensino fundamental. Como parte do levantamento realizndo, lìri nrotiulo o rrúmero de escolas cursadas pelos alunos participantes do estttclo. Escolas Cursadas
freqüência
1
46
as
porcentagens para cada classificação. 6.
2.\
2
57
.)
2T
4
15
5
4
(.)rlrl ó a porcentagem dos alunos que cursaram mais de uma escola? Ir- ('onstrua o grírfico de barras. c. ('lirssil'i11r.rc os alunos em dois grupos segundo a rotatividade: a/Íc pnt'u itlulìos cclur rnais de 2 escolas e baixa para os demais. Obtenha a titbclit tlc lìr'r;iiôncin dcssa variável. ru.
O Posto de Saúde de um certo bairro mantém um arquivo com o número de crianças nas famílias que se utilizam do Posto. Os dados são os seguintes: 3, 4, 3, 4, 5, r, 6, 3, 4, 5, 3, 4, 3, 3, 4, 3, 5,5, 5, 5, 6, ll, r0, 2, l, 2, 3, r, 5 e 2. a. Organize uma tabela de freqüência. b. Faça uma representação grâfica. c. Você identifica valores nruito discrepantes? Que fazer com eles?
rr.
Alrrrros tlir Escola cle Educação Física foram submetidos a urn lcslc rkr rr.sistôrrciir rpranto ao número de quilômetros que conseguiram corrcr sertì ( lrrrrirr'. )s clirclos cstiro apresentados a seguir. (-)rr;rl rr. ó ir vtriiivcl em estudo?
Um questionário foi aplicado aos dez funcionários do setor de contabilidade de uma empresa fornecendo os dados apresentados na tabela.
b. ('orrsllrrir o ltistograma. e. ( )lrlt'rrltir o lnx-pktl.
Funcionário
Curso (completo)
Idade
Salário (R$)
Anos de Empresa
oÁ
1100,00 1450,00 960,00 960,00 600,00 600,00 600,00
5
2
supenor superior
5
12
F I6
22
450,00 450,00 450,00
2
I6
F 20
I
3
4 5
6 1 8
9 10
médio médio médio médio
médio médio fundamental fundamental
43 31 dl
24 25 27 22
2l 26
a. Classifique cada uma das variáveis. b. Faça uma representação gráfica para
zì
8
Faixas
freqüência
6
0t-4
438
8
4FB 8F12
206
2
J
J
variírvel Curso.
c. Discuta a melhor forma de construir a tabela de I'reqiiência para a vitriiivcl Idade. Construa uma representação griiÍ'ica,
I0.
125
lltrrrPo t[r rrtilizirçiio rlc citixus clctrônicos clcpcrrclc dc cada usuÍrio c rlits tl lrrrirçÕr's r'lctrrirtlirs. liorarn colctadas 2(l rncclidas dcssc tcmpo (crn rnirtutos):
l,t I ,:t
1,2
1,7
0,Í)
I
,:Ì
t.4
I
l,i
I ,l'r
l.('
|
1,2
1,2
I,0
0,Í)
,,1
.(i
lr7 l,g
1,0
1,0
0,8
1,7
[,5
I
,ll
I ,l-r
I
,
l-"r
Capítulo
26
I:
Introdução à Andlise Exploratória de Dados
,.J
I .l l';rtx:ícios
a. Organize uma tabela defreqüência sem agrupar os dados. b. Agrupe os dados em faixas de tamanho 0,2 a pattit de 0,8 e obtenha uma nova tabela de freqüência. c. Compare as tabelas obtidas em (a) e (b). Comente as diferenças' d. Se ao invés de 26 medidas tivéssemos 1000, qual procedimento, dentre agrupar ou não, você utilizaria? 11. Vinte e uma pacientes de uma clínica médica tiveram o seu nível de potássio no plasma medido. Os resultados foram os seguintes:
Nível 2,25 a 2,55 2,55 - 2,75
freqüência
-
2
2,75
F 3,15 3,15 F 3,35 3,35 F 3,65
617
615
6,9
/tó
7r7
7,6 8,2 7,5
714
712
8,3
8,1 7,4
7r5
7,7
7r5
716
rr- ( )rgnnize os dados em
716
6,3 7,2 8,1
714
7,6
7r7
ító
716
7r5
7,6 7,4
8,1
7,9
7,8
714
író
714
7r5
7,5
714
faixas de tamanho 0,4 a partir de 6.
h. ('orrstrua o histograma. c. ('irlculc o segundo quartil. marcados no último campeonato daFederação Paulistl tle participantes nos seus 38 jogos é uma variável conl os pelos 20 clubes liutclxrl :;r'1it r i tttcs veìlores:
t J
2,95
612
l.l. () lrirlcro de gols
1
2,95
6,1
Clube
4
1
2
,
4
5
6
7
8
I
10
35
79
57
dt
52
35
25
Gols
32
42
ìat td
Clube
11
72
13
t4
15
16
17
IB
19
20
Gols
55
70
42
4L
6B
66
74
29
47
53
5 6
a. Construa o histograma.
ir, ('lirssií'iquc iÌ variável. Você
b. Determine os 1e, 2e e 3e quartis. c. Qual a porcentagem dos valores que estão acima do nível 3? 12. Foram feitas medidas em operários da construção civil a respeito da taxa de hemoglobina no sangue (em gramas/cm3): 11,1
L2,2
11,3
II,7
12,6
73,4
L5,2
12,3 L3,2
13,5
L2,7
L2,3
13,5
15,4
16,3
LL,7
12,5
13,9
74,4
13,0 L5,2
13,6 16,9 72,3
!2,7 15,8 L3,7
12,6 L4,7 L4,1
a. Organize os dados em faixas de tamanho 1 a partir do 1 1. b. Construa o histograma. c. Determine o terceiro quartil e a mediana. d. Taxas abaixo de 12 ou acima de 16 são consideradas alteradas e requerem
acompanhamento médico. Obtenha a tabela de freqüência Acompanhamento Médico com duas opções sim ou não.
da variável
L3. O valor médio de comercializaçáo da saca de milho de 60 cluilos nir Bols:t clc Cereais é apresentado abaixo, em reais, para últimos 40 meses.
acha razoâvel construir uma tnbclit tle l'r'ct;iiôncia de atcordo com a classificação dada? Ir. ('orrslnrt unra tirbela de freqüência agrupando as observações em intcrvillos rlt, t:ornprirnento l0 a partir de 20 (não esqueça de indicar claráìnìclìto os irrlt't'vit los). r'. ( )lrtt'rrhir o histogranta. rt. (.)rrçr lrorccntagent dos clubes mârcaram mais de 38 gols? apresenta as freqtiências relativzts de ocorrências de lÌrixns tle illluut (r.nì cnt) para uma iìmostra de 100 criiìnçáìs de l2 anos de icladc.
lã, A t;rlrclir ir soguir ar,
('orrslt'ttit o histograma.
lr, ( )lrlcrrhrr
lxtx-ploÍ.
r'. I )r'st'ilrnclo-so sopirral' os l5o/o mâis eÌltos, qual seria o ponto de cortc'/
Capítulo
28
l:
Introdução à Análise Exploratória de Dados
Faixas
freqüência relativa
F 110 110 F 120 120 F 130 130 F 140 140 F 160
0,10
100
I 'l l',ttn'ícios
29
Ganho
freqüência
F 2,0 2,0 F 3,0 3,0 F 4,0 4,0 F 5,0 5,0 F 6,0 6,0 F 7,0
45
1,0
0,25 0,30 0,25 0,10
O índice de germinaçáo é um dos principais fatores para definir a qualidade das sementes, Ele é determinado em experimento científico conduzido pelo fabricante e regulamentado pelo órgãos fiscalizadores. Um fabricante afirma que o índice de germinação de suas sementes de milho é de 85Vo. Para verificar tal afirmação, uma cooperativa de agricultores sorteou 100 amostras com 100 sementes em cada uma e anotou a porcentagem de germinação em cada
83 52 15
4
I
1.6.
amostra. Germinação (Vo)
freqüência
60F75 75F80
B
20
BOFBS
42
85F90 90F95
18
95
F 100
tH. Nrrrrr cstudo sobre rotatividade de mão-de-obra na indústria, anotou-sc o nunr(rro de empregos nos últimos 3 anos para operários especializados e nfro tspt'r'iir Iizados.
tr, (lonstrua o diagrama de barra correspondente a cada tabela usanclo Ir:rn'irs cla rotatividade r's1 rr'c
de mão de obra na indústria (sem dif'erenciar
r'. Vocô ircha que os trabalhadores especializados trocam menos ,f
it
ilrl iz.itçiro). cle errtllrcgo'/
rrslil'it1uc.
Não Especializados ïì,; Iirnprcgos
I
10 2
a. Faça uma representação gráfica da tabela acima. b. Construa o box-plot. c. Comente a afirmação do fabricante. 17. Uma nova ração foi fornecida a suínos recém desmamados e deseja-se avaliar sua eficiência. A ração tradicional dava um ganho de peso ao redor de 3,5 kg em um mês. A seguir, apresentamos os dados referentes ao ganho, em quilos, para essa nova ração, aplicada durante um môs em 200 animais nas condições acima. a. Construa o histograma. b. Determine o 1e, 2e e3e quartis. c. Você acha que a nova ração é mais eficiente que a tradicional? Justifique.
it
porc:cntagem no eixo das ordenadas. b. ,lrrrrto as inÍormações das duas tabelas em uma só e obtenha um diagratnn tle
106
izados
Empregos
TLi
1
2lo
2
222
2
342
3
338
J
109
4
292 164
4
9l
lr
5
35
totitl
7I22
total
787
19, ('orrrtl ;lrltc do uurn avaliaçiro rnédica em uma certa universidade, fbi rneclirln n lrr'r1íiôrrciir cirrdíitca clos alunos do primeiro ano. Os dados são rprcscrttaclos elrt:ir'1',ttirlit.
it. ( )lrtrrrlrir o histograrna. ll, lirctl(lêrrciirs cnrclíacls quc cstc.ianr rbaixo de 62 ou ercima de 92 rccluercrn irlrrrrrpirnlrirrrrcrrto rnéclico, Quirl ó n porcentiÌgem de alunos rìcssits r ltttliçotrs'/ llrrur r', Íì'cr1ílôrrcil iur rcclor clc 72 baticlas por nrinuto ó considerada paclriìo,
Vor't' irt'lrir rprc dc nroclo gcral csscs alruros sc cncaixaln ncssc caso'Ì
I:
Capítulo
.to
Introdução à Análise Exploratória de Dados
Freqüência Cardíaca
freqüência
60F65 65F70
11
35
t-
75
68
75F80 80F85 85F90 90F95
20
70
95
F
I J I t,'ttít'irts
3t
o Íìrbricante vende
cada bateria por 207o acima do preço de custo, em l(XX) baterias fabricadas, descontadas as que repõe, quanto será seu lucro pol birtcria em função do preço de custo?
Slt'
L2 10 1
100
3
20. Um exame vestibular para uma faculdade tem 80 questões, sendo 40 de português e 4O de matemática. Para os 20 melhores classificados, apresentamos o número de acertos em cada disciplina, em ordem decrescente do total de pontos. a. Organize uma tabela de freqüência para cadavariâvel. b. Faça uma representação grâfica das tabelas obtidas em (a). c. Construa a tabela de freqüência da variável total de pontos. d. Comente sobre a afirmação: os aprovados são melhores em português do que em matemática.
It,
Durabilidade
freqüência relativa
0F3 3F6 6F9 I -L2 72-15
0,02
0,30
15F20
0,23
0,05 0,15 0,25
lfr.st. jir-sc comparar três técnicas ciúrgicas pata a extração de dente de siso, ('itrlir trrttir clas técnicas foi aplicada em 20 pacientes e os resultados sÍio apt r'st'rrtirrlus a seguir.
ït
10
.qo !t
ã I '8. E c)
o.
a,
o d)
aluno Português
1
2
J
4
5
6
7
8
9
10
35
35
32
31
30
26
26
24
23
s6
Matemática
31
29
34 27
28
28
26
30
28
25
23
&
F
Es c)
aluno
11
t2
t3
T4
15
T6
t7
18
I9
20
Português
23
L2
11
20
17
T2
L4
20
B
10
Matemática
27
t.\ òz
31
20
27
25
20
13
23
20
21. Vinte baterias para automóveis de uma certa marca foram testadas quanto à sua vida útil. O teste simula autilização da bateria, acelerando seu desgaste de rnodo a criar uma réplica da situação real. Os resultados da durabilidade (em mcses) são apresentados a seguir: a. Construa o histograma.
a amostra acima for considerada representativa do desempenho desszr rïiìrceì de bateria, quantas, em 1000 fabricadas, serão repostas pelo
b. Se
labricante, se ele oí'erece 6 meses de garantia?
t--"
4
Técnica cirúrgica
*r, lirrr
rrrínr virlrlrcs a1-lloximados pilráì
er
mediana de cada técnica,
b,ll
tttlrtvttltt ittlerqltdrtil. é, dcl'inido colno eÌ dil'erença entre o tcrccirc c irtrt'iro rlttiulis, Cllculc scu valor para cerda uma das técnicers e comentc. 1rr .:. llir('ulit rr vlrrilrllilidlrclc do tcnìpo dc rccupcração ern cada técnica. ri. ,'jt,
r'rrr't-' t'r otirrrisla, clual tócnica
3ì, tllr*. o
rr
cscolhcria'l
corrrPrrlirtlor') Os cllclos a scguir representam indivíduos que Íbtlrrr {r!rl'urinrr(krs llr,tlo vcrìclìo clc um ccrto tipo clc inseto e submcticlos ir Irrllrlrrí'nl() (tr'ês rliI'crcnlos Iipos). As virriiivcis são: r
Capítulo
-t2
l:
Introdução à Análise Exploratória de Dados
No.: número associado aos pacientes; Idade: idade do paciente no momento de admissão' em anos;
Diag: tempo, em horas, gasto entre
o
contato com
I
Atrlvés do computador, crie uma planilha com os dados
a
administração
:
o
inseto
e
do tratamento
e
recuperação; Tratam: tipo do tratamento administrado; Coag: presença de coágulos no momento de admissão. Pac.No.
Idade
Diag
Recup
Tratam
Coag
T9
28
7
3
nao
4
15
52
45
27
76
30
23
II I IIÌ
15
53
46
I
stm
2l
3
2
II
nao
5
11
46
42
11
16
55
47
nao nao
10
16
54
41
I I I
25
47
13
12
ilI
6
18
59
51
II
nao
l6
20
l1
J
1
ru II
slm
20
40 24
l3
32
9
J
31
9
-)
il il
nao
15 8
10
44
40
I
18
3t
9
J
il il
slm slm slm sim slm slm slm
S S
nao
T2
3l
10
24
46
t3
11
m
21
21
1
2
il
22
39
l7
B
il
-)
l5
53
46
2
9
42
39
23 26
75
30
22
54
l8
l6
III III
l7
35
t2
5
I]
S
-58
50
II
s
In
b, Strltctrrha, que ao invés de trabalhar corn a variâvel ldade, cria-se uma novÉl vuriírvcl denominada Etário, assumindo valor 0 se Idade for menor que 29 rlnos c I caso contrário. Utilizando o computador: l. lixplique como você poderia criar tal variável. ll, Construa um box-plot para a variável Recup, para cada grupo de Etário, Corn base nos gráficos, você diria que o tempo de recuperação é diferente dependendo da faixa etâria? Justifique sua resposta' €, tJmn nova variável denominada Cura é criada: Cura será rópida se Recup frrr rnenor ou igual a 10, será normal se entre 10 e 40 (inclusive) e serí lentct pnt'n lìccr.rp acima de 40. Verifique, graficamente, se pacientes em cada umit clns cntcgorias de Cura apresentam diferenças no que se refere ao tempo
m m
nao
4
9
Itotttogeneamente nos três tratamentos?
lv. l{cpita o item (iii) para a variável Coag.
slm
7
I I
corn relação à idade dos pacientes. Você diria que a idade se distribui
nao
14
eltttr! o ccltttitto com o inseto e a administração do tratamento.
Elt nttlttit',t:; ilc dutlos mencionados nos exercícios a seguir podem ser obtidas ent lflPlt" üllr, rt,y t, b r/- n rt p ro e s t
#,
(LIse o corrrputador) Os itens seguintes referem-se aos dados contidos no âf'rluivo clr.: nome cancer.txt. Esse arquivo contém os dados de uma pesquisa fOtrrr: irrcidOncia de câncer e é apresentado em 9 colunas representando ns rÊEu i nlFs vitriÍtvcis de interesse: e'eilttntt
l:
iderrt i l'icação do paciente.
e'ulumr 2i tliitgttóstico:
I = Ínlso-negativo: diagnosticados como não tendo a doença qunnclo nl verclade a tinham, 2 = ncgativo: diagrrosticados como não tendo a doença quarrdo ele
nao
Í'ato niro a tinham.
slm
-ì = llositivo: diagnosticados corretamente como tendo er doença. 4 = lulso-positivo: diagnosticados como tendo a doença quando na
nao
m ln
apresentados.
lìirsoando-se nesta planilha: l. Cltssifique cada uma das variáveis. ll. Construa uma tabela de freqüência (através do computador) para a viriável Diag. Utilize 5 classes. lll. Através de representaçáo grâfica adequada, compare os três tratameÌìtos
administração do tratamento;
Recup: tempo, em horas, entre
33
,-t l','rrn'ír:ios
verclircle niro tinham.
úilutu.li
irlnrle.
34
,
Capítulo
l:
Introdução à Análise Exploratória de Dados
35
1,4 l',ltex'ícios
coluna 4: espectro químico da análise do sangue-alkaliine phosphatose (AKp). coluna 5: concentração de fosfato no sangue (P). c o luna 6 : enzima, lactate dehydro genase (LDH). coluna 7: albumina (ALB). coluna B: nitrogênio na uréia (N). coluna 9: glicose (GL).
d. Crrlcnle a ârea útil total para cada apartamento. Armazene esta informação erìì uma variável denominada Total. Repita os itens (b) e (c) para a variável 'lÌrtal, c. Buserndo-se nos itens anteriores, você diria que existem diferenças nas áreas rkrs apartamentos dos blocos A e B? Em caso positivo, qual(is) cômodo(s)
a. Escolha 3 variáveis dentre as colunas 2 a 9. classifique-as e faça o
f.
rrplcsenta(m) o problema?
histograma e a tabela de freqüência para cada uma delas (se necessário, crie até cinco faixas).
b. unia
afirmação feita por alguns médicos é a de que o grupo dos falsopositivos é mais jovem do que o dos falso-negativos. para os dados dessa pesquisa, o que você diria a respeito? Justifique sua resposta baseando-se em gráficos e tabelas de freqüência.
25. (Use o computador) Um empreendimento imobiliário consistiu da construção de dois edifícios residenciais, com apartamentos de I dormitório e área útil de fi #. Em uma primeira fase, foi construído apenas um edifício, denominado
"'Bloco 4". Para a conclusão do Bloco B houve uma troca de empreiteiras.
Suspeita-se que seus apartamentos foram construídos com metragem diferente daquela especificada na escritura. O arquivo areas.txt contêm as seguintes variáveis, obtidas por peritos de uma firma independente:
Id: Bloco: Andar: Final: Sala:
Cozinha: Banheiro:
Dorm: '
Rachad:
Infiltr:
identificaçãoda observação no arquivo bloco a que pèrtence o apartamento andar onde o apartamento está situado
lrxplore descritivamente os dados referentes a problemas estruturais (rlchaduras e infiltrações). Com a informação contida na variável Andar clivicla os apartamentos em três categorias dependendo do andar onde se cncontra: baixo, médio e alto. Estude a ocorrência de rachaduras e inÍ'i ltrações para cada categoria.
(tJse o computador) Os itens seguintes referem-se aos dados contidos no êrquivo de nome aeusp.txt, que contém parte dos dados de uma pesquisa, reslizuda pela Associação dos Educadores da USP (AEUSP), sobre aspectos ãóeio-econômicos e culturais de comunidades de baixa renda da região do ãutuntÍi, São Paulo. O questionário foi respondido por um dos moradores dn gãËü sortcada para participar da pesquisa. Os dados estão organizados da ãêgtlinlc lbrma:
l€,
golund /: Número do questionário (Num). êalunu 2: Comunidade (Comun). êalnnu.?: Sexo (Sexo): L : masculino;
2
:
feminino.
número identificando a posição do apto. no andar áreada sala, em m2
Faixas de idade, em anos (Idade): 1 = 114,25);
ârea da cozinha, em m2 ârea do banheiro, em m2
3: 4:
área do dormitório, em m2 ocorrência de rachaduras no apto: 0 - não, 1- sim ocoÍrência de infiltrações no apto: 0 - não, I - sim
a. Explore o arquivo de dados. Qual o número total de apartamentos
no empreendimento? Quantos apartamentos existem por prédio? E por andar? b. Construa tabelas de freqüência para cada uma das variáveis quantitativas contínuas e faça gráficos adequados, c. Repita o item (b), para cada bloco, separadamente. construa gráficos clo tipo box-plot e compare as áreas para cada cômodo considerado.
2:125,35);
[35,45); [45, oo). ëHltl,d 5l Bstado civil (Ecivil), 1 : solteiro; 2 = casado;
ll
4
:
= l'r =
clivorciado;
viúvo;
outro. eetlttnu (t: llegiíio de procedência (Reproce). ttúunt 7i Tentpo de residência em São Paulo, em anos (Ternposp), è:olwtil Íli Número de residentes na casa (Resid).
Capítulo 1: Introdução à Análise Exploratória de Dados
ì6
coluna 9: Trabalho (Trab):
: 2: 3: 1
sim;
náo;
coluna l0: Tipo de trabalho, só para os que trabalham (Ttrab) 1 : emPregado com carteira; 2 : emPregado sem carteira; 3 4 5
: : :
habilidades
aposentado. :
profissional liberal; autônomo;
rural. coluna I l: Idadeque começou a trabalhar, em anos (Itrab). coluna 12: Rendafamiliar em faixas de reais (Renda): 1
-- [0,150); 2:1t50,300);
: [300,450); 4 : [450, 900); 5 - [900,1500); 6 : [1500, oo). g
coluna 13.' Acesso a computador (Acompu): 1 sim;
:
z:
nao. coluna t4: Sêrieem que parou de estudar (Serief). Branco : não parou de estudar; 1a B : séries do ensino fundamental; 9 aL2: séries do ensino médio. a. Explore o conjunto de dados e classifique as variáveis. Verifique se existem variáveis com valores incompatíveis ou inválidos e proponha alternativas para a solução do problema. Observe que existem variáveis com respostas em branco e discuta porque isso acontece. b. Estude a variável Renda em função de Comun. Você diria que os moradores da Cohab e do Jardim d'Abril têm a mesma renda? Justifique sua resposta baseando-se em gráficos e tabelas de freqüência. c, Verifique se o comportamento'da variável Temposp é influenciado pelo tipo de trabalho (variável Ttrab). d. Faça um box-plot para a variável ltrab.
Introdução No capítulo anterior, vimos como caracterizar uma massa de dados, com o
do organizar e resumir informações. Neste capítulo, apresentamos o ã nntemiltica que dá a base teôrica para o desenvolvimento de técnicas Íatlens tt $erem apresentadas no restante do livro.
Denominamos fenômeno aleatório
à
situação
ou acontecimento cujos
nõo podem ser previstos com certeza. Por exemplo, as condições clo próximo domingo não podem ser estabelecidas com total acerto, O pocle ser dito da taxa de inflação do próximo mês. Veremos que, cm como essas, modelos podem ser estabelecidos para quantificar os dus diversas ocorrências.
Aprcsentamos, a seguir, alguns conceitos de teoria dos conjuntos, que Ëãados neste capítulo. Chamamos de espaço amostral ao conjunto de todos possÍveis de um certo fenômeno aleatório. Ele será represontedo letfa gregn O (ômega). Os subconjuntos de 0 são denominados eventoge aclos pelas letras latinas maiúsculas A,8,. . . . O conjunto vazio, como jÍl lelpnnl, será denotado por 0. denotada por AUB, represento tt A união de dois eventos A e ia ele, pclo menos, um dos eventos Aou B. Aintersecção do evento á
B,
ã, denotrrcln por.rl a B,
é a ocorrência simultânea de
A e B.
Dois eventos A e B siro disjuntos ou mutuamefie exclusivos quando não êlcmcntos ern coffrurïì.Isto é, Ao B A. Dlzemos qr,re Á e B são complementares se sua união é o espaço amostral lnteraecçÍlo é vuzia. O complementarr de Á será representado por Á" e temos U á', _: fl e .zt À A,,
:
:4.
Vamos considerar probabilidade como sendo uma função
P(')
que
valores nurnéricos aos eventos do espaço amostral, conforme a defiriiçõo
37
n
Capítulo 2 : Probabilidades
38
D
efínição
2.
7
P(17)
0< P(A)< 1,VÁcQ;
i,i,)
P(A)
:
r;
iiü P(UAj) j:t
: t P(Aì, com os Á7t disjuntos. .i:r
:
0,44;
...; P(25) :
tr
0,04.
tr
l)rrs inÍbrrnações a respeito da freqüência relativa acima e da Tabela 1.2,
A primeira
delas consiste na atribuição de probabilidades, baseando-se em características teóricas da realizaçáo do fenômeno. Por exemplo, ao lançarmos um dado, temos o espaço amostral 0: {1,2,3,4,5,6}. Admitindo que o dado foi construído de forma homogênea e com medidas rigorosamente simétricas, não temos nenhuma razão para privilegiar essa ou aquela face. Assim, consideramos
P(6) :716.
Uma outra maneira de obter probabilidades é através das freqüências de ocorrências. Observando as diversas repetições do fenômeno em que ocorre a variável de interesse, podemos anotar o número de ocorrências de cada valor dessa variável. Para um número grande de realizações, a freqüência relativa poderia ser usada como probabilidade. For exemplo, desejando estabelecer as probabilidades de cada face de um dado sem fazer nenhuma suposição inicial sobre sua construção, usamos a experiência de sucessivas ocorrências. O ponto delicado é decidir quanta experiência é necessária para se fazer a atribuição de probabilidades, com alguma garantia de não se estar muito distante do verdadeiro valor. Questões dessa natureza não serão discutidas aqui e fazem parte doS capítulos de inferência estatística. Por ora, vamos assumir que, à medida que O número de repetições vai aumentando, as freqüências relativas se estabilizam em um número que chamaremos de probabilidade. Em ciências biológicas e humanas, essa é a forma mais comum de atribuir probabilidades. De modo geral, diremos que estamos fazendo um sorteio aleatório ou ao acaso em uma população, se a escolha desse ou daquele elemento só depende da probabilidade a ele atribuída, seja através da freqüência relativa ou de algumit
/'(/") : 0,74, P(M) :0,26, P(A) :0,52, P(B):
0,48.
trilidrrdc que precisamos determinar pode ser representada por P(F U B), guLl se sirnplesmente somarmos P(.F') com P(B), obtemos uma somn
Flor l
,
E,videntemente isso não pode acontecer, pois o valor clu llidnde poclc ser, no máximo, igual a 1. Não é difícil perceber que estamos n trlg,rrns elcmentos duas vezes, pois ao considerarmos apenas estudantcs t€Xo l'errrinino, temos estudantes da turma A bem como da turma B e ao los upotìeìs iÌ turn'ìa B, temos estudantes do sexo feminino e masculino, on r:sluclnntcs do sexo feminino e da turma B, isto é, o evento F O B, estd Ito rlvcnlo ,Í;' c também no evento B.Logo, precisamos subtrair umiì vez n IJ) ;turn obter a probabilidade correta. Desta forma, temos qllc il ilitlrrtle rlit uniÍo FU B é igual àsomadas probabilidades de ,F' e B menos lirlnrlc rlu intersccção f' O B. tr I
A plohnbilidaclc da união de eventos é calculada através da regru dct tltt ltnilnhilitlutlcs apresentada niì Figura 2.1. Não faremos unlu àlf ÍrçÍio lìrrrnul, pois ncreditamos que o resultado é bastante sirnples c itivo,
suposição teórica.
Exemplo 2.1: Para a variável ldade, ver Tabela 1.3 clo Capítulo l, o cspitço amostral será f) : {17,18, .. . ,25}. Supondo que um aluno é escolhiclo ao iÌcoso
a
r tlirs Íì'cqiiências da variável Sexo. Sabendo que 52Vo dos alunos estão na A e 48Vo niÌ turma B, suponha que escolhemos um estudante ao acaso da lnçno, Quirl seria a probabilidade de escolhermos um estudante do sexo r ott itlguérn da turma B?
questão.
:. '. :
0,18; P(18)
2.2; Considere a Tabela L2 do Capítulo 1, contendo informações
pergunta que poderia surgir seria: como atribuir probabilidades aos elementos do espaço amostral? Há duas maneiras principais de responder essa
P(2)
:
No 1lróximo exemplo, obtemos a probabilidade da união de eventos.
A
:
pela
fuqttêrre irr rclativa associada à respectiva idade. Assim,
uma função P(.) é denominada probabilidade se satisfaz as condições:
P(1)
39
flËl:n popullção, definimos a probabilidade dele ter uma certa idade
: Probabilidade
?)
?,1 ltitit,tlttl'ãtt
ltignra 2.1: Ilegru de adição dc probahiliclaclcs.
Capítulo 2 : Probabilidades
40
2.2
P
4T
robab ilidade Condic ional e Indep endêncía
2. Sendo A e B dois eventos em um mesmo espaço amostral, "tÍadrtza" pafa Observe qu€o, se A e B forem disjuntos, a expressão acima se reduz à sorna das probabilicdades dos eventos A e B, pois a intersecção é vazia e a correspondente probabilidade é nula. A regra de adição de probabilidades pode ainda ser expandidan para mais de dois eventos. Jente, por exemplo' escrever a expressão para P('$UBUC) considerando D: Bl)C e aplicando a regra de adiçãro de probabilid,lades duas vezes.
Comq cons€eqüência da regra da adição, obtemos que, para qualquer evcnto A c {1,
P(A):I-P(A'), que pode ser verifiúcada aplicando a regra da adição com Ac no lugar de B. Tctnos,
tr(Art
Como P(Au A) :
A')
P(Cl) :
: : :
P(A) + P(A") p(A) + P(A') p(A) + P(Á")
-
P(AÀ A") P(A) 0.
A
linguagem da Teoria dos Conjuntos, as seguintes situações:' a. Pelo menos um dos eventos ocorre. b. O evento Á ocorre mas B não. c. Nenhum deles ocorre. cl. Exatamente um dos eventos ocorre.
3. Uma universidade tem l0 mil alunos dos quais 4 mil são
considerados csportistas. Temos, ainda, que 500 alunos são do curso de biologia diurno, 700
cla biologia noturno, 100 são esportistas e da biologia diurno e 200 são csportistas e da biologia noturno. Um aluno é escolhido, ao acaso, e perguntasc a probabilidade de: a. Ser esportista. b. Ser esportista e aluno da biologia noturno.,-:l c. Não ser da biologia. d. Ser esportista ou aluno da biologia. c. Não ser esportista, nem aluno da biologia.
À ,--(,,,-/ :9,2, tais que P(A)
A e B dois eventos em um dado espaço amostral, P(B) : p, P(AU B) : 0,5 e P(A n B) : 0,1. Determine o valor de p. 5. l)ois processadores tipos A e B são colocados em teste por 50 mil horas. A
4. Sejam 1, segue imediatamente a igualdade desejada'
Ilxercícios da Seçãco 2.L: 1. Para cada um dors casos abaixo, escreva o espaço amostral correspondente e conte seus elementos' a. Uma moeda é Íançada duas veze,s, e observam-se as faces obtidas' b. Um dado é lrançado duas vezes e a ocorrência de face par ou ímpar é
probabilidade de que um erro de cálculo aconteça em um processador do tipo A é de 1/30, no tipo B, 1/80 e, em ambos, 1/1000. Qual a probabilidade de que: ri. Pelo menos um dos processadores tenha apre.sentado
b. Nenhum processador tenha apresentado erro? c. Apenas o processador A tenha apresentado erro?
"rrorc---.-u--\
observada.
c. Uma urna contém 10 bolas azuis e 10 vermelhas com dimensões rigorosamento iguais. Três bolas são selecionadas ao acaso com reposição e as cores são arnotadas.
na soma çL Dois dados sãio lançados simultaneamente e estamos interessados
'-
clas faces observadas.
g( Em uma cid;ade, famílias com 3 crianças são selecionadas ao ' anotando-se o sexo de cada uma.
acaso,
peças por hora, escolhe-se um instante qualquer . f.'Urna máquina produz 20
g. Uma moeda é lançada consecutivamênte até o aparecimento da primeira cafiÌ.
Em muitas situações práticas, o fenômeno .aleatório com o
qual
Irrrbalhamos pode ser separado em etapas. A informação do que ocorreu em uma rletr-:rrninada etapa pode influenciar nas probabilidades de ocorrências das etapas srrccssivas.
Nestes casos, dizemos que ganhamos informação e podemos "recalcular" e
observa-se o número de defeituosas na próxima hora.
'
2.2 P r obabilidade Condicional e Independência
rrs probabilidades de interesse. EsSas probabilidades "recalculadas" recebem o Irrrrrrc cle probabilidade condicional; cuja definição apresentamos a seguir.
Capítulo 2 : Probabilidades
42
Dados dois eventos A e B, a probabilidade condicional de ocorreu .B é representada por P(A I B) e dada por
: '
J l' t r il x
t
It i I i
Á
dado que
: H e entáo, P(H n B) : P(H):
0,02.
Ettln,t,
P(Htrl:r#ã?:
P(!,1,8). PíB) \ /' > 0. P(B)
'| Caso P(B) : g, P(Al B) pode ser definido usaremos P(Al B): P(A).
43
datle Condicional e Independência
P€les srrposições iniciais, 1/ í) B
Definíção 2.2 : Probabilidade c ondicional
P(Al \ B\
?.
â
ffi:0,025
ftgur rr, n scguir, apresenta o efeito da informação
l
no espaço amostral'
arbitrariamente; neste texto
tr
Exemplo2.3.' Considere a seguinte situação hipotética. Uma grande região de 100 km2 contém um aqüífero (reservatório de água) subterrâneo com ârea igual a 2 km2, cuja localização é_ desconhecida (ver figura a seguir). A fim de determinar a posição do aqüífero, perfurações são feitas ao acaso. Vamos representar por If o evento de encontrar água. Temos P(H): 0,02, obtido pelo quociente da área do aqüífero pela área total, onde usamos que o espaço amostral é f) : {região de 100
O = Região (100 km2)
k*tÌ.
C)'= Nova Região (80 km2)
Ç2
= Região (100 km2)
@ e:ptrç,, rrtttostral perdeu
Suponha agora que, após uma ano de pesquisas, uma área de cerca de 20 foi amplamente perfurada sem encontrar água e pode ser descartada para
jâ novos furos. Representamos essa informação por km2
1. Qual seria, agora,
fr
20 kmz , que é a área descartada para novos
furos, tr
l)rr tlcÍ'iniçiro de probabilidade condicional, deduzimos a regra do produto Stnilultililrulcs, uma relação bastante útil que é apresentadanaFigura2'2,
a,
probabilidade de um furo, feito ao acaso, atingir o aqüífero? Vamos representar por P(H I 1) u probabilidade desejada. Com a mesma argumentação utilizada acima, a nova região de procura terâírea B0 km2 e portanto P(H I I):0,025, Isto é, como esperávamos, a probabilidade de obter água aumentou devido iì informação recebida. Vamos refazer esse cálculo utilizando agora a fórmula de probabilidade condicional. Para tal, seja B a nova região de procurir correspondendo a área total inicial menos a parte que foi descartada para novas tentirtivits. Temos que P(B) : 0,8. O evento H a B representa a ocorrôncin dc, scrn ncnhuma informação etuxiliar, çncontrarmos água num Í'uro f'eito na regiiro .R.
Itigura 2.2: Regra do produto I lrrr
de probabilidades.
corrceito nruito inrportante em probabilidade é o da irulependênciu
etêrrl.t,\', rllrL1 rict'ii utiliznclo rcpeticlitntcntc ao lottgo de toclo o texto'
cle
Capítulo 2 : Probabilidades
44
P rt tl t
il ti I i r k u I c
Co
ndic ional e Indep endê nc ia
45
Deftnição 2.3: Independência de eventos não de
Dois eventos A e B sáo independentes, se a informação da ocorrência ou não altera a probabilidade da ocorrência de ,4. Isto é,
B
P(Al
ol
B): P(A), P(B) > o,
0.9
5
ou ainda a seguinte forma equivalente:
P(A
.
B)
:
P(A) P(B).
o.;
tr
o2
Não é difícil verificar que se A é, independente de B, então B é independente de A. O uso da expressão acima permite, ainda, verificar que o evento vazio é independente de qualquer evento. As demonstrações são deixadas a cargo do leitor. E muito comum, à primeira vista, confundir eventos independentes e eyentos disjuntos. O próximo exemplo ajuda a esclarecer essa questão. Exemplo 2.4: lJnaempresa produz peças em duas máquinas 1e f f , quepodem apresentar desajustes com probabilidade 0,05 e 0,10; respectivamente. No início do dia de operação um teste é realizado e, caso a máquina esteja fora de ajuste, ela ficará sem operar nesse dia passando por revisão técnica. Para cumprir o nível mínimo de produção pelo menos uma.das máquinas deve operar. Você diria que a empresa corre o risco de não cumprir com suas metas de produção? Seja O; o evento da máquina i estar operando, ,i : 7,2. Pelas informações disponíveis temos P(Ot): 0,95 e P(O2): 0,90. Na Figura 2.3, apresentamos um diagrama conhecido como árvore de probabilidades, qu'e consiste em representar os eventos e as probabilidades condicionais associadas às realizações. Cada um dos caminhos da árvore indica uma possível ocorrência.
0,0
5
oi o; Figura 23: Árvore
de
probabilidades.
A tabeln u seguir resume as ocorrências e suas respectivas probabilidades, Eventos
Probabilidade
oro,
0,95x0,90:0,855 0,95x0,1,0:0,095 0,05x0,90:0,045 0,05x0,10:0,005
OrOí'
ol'o, oí'o;'
Parn otrter o nível mínimo de produção dií'ria, precisamos ter pelo menos
nilleluinn opcrando. U (, t( )i'
t
J
Isto
corresponde
à
ocorrência
do
evento
Oj'0r.Ternos,
No preenchimento dos valores de probabilidades na árvore, observe que assumimos a independência entre 01 e 02, pois acreditamos que a eventual falta de ajuste em uma máquina não interfere no comportamento da outra. Note que, no caso de independência, o segundo ramo da árvore não é afetado pela ocorrência
ãr ll'êe renlizflçõcs são disjuntas. Por exemplo, não é possível as duns
dos eventos que aparecem no primeiro ramo. Portanto, pela definição de independência, segue que P(O2l Ot) : P(Or): 0,90. Para facilitar a notação, vamos escrever O1O2 para o evento OtÀOz.
trfninro dc procluçiio é 0,995, Portanto, a empresa tem alta probabilidade de
sua probabilidade da ocorrôncia é dada pelo produto dos ramos que levam nesse evento. Isto correspondendo à aplicação da regra do produto de probabilidades:
P(Ap2)
=
P(Oz I 01) P(Ol).
t1(()(),,Q OLOI u Oí'O2)
:
P(OQz) + P(OLO;') + P(Oí'O),
Op)
e ao mesmo tempo só a máquinn .I lncs estnrenr operunclo (evento (evento O()ú').Dessn Íbrma, concluímos que a probabilidade dè manter o Êr1nì Huns rnetus cle produção.
tr
No exernplo anterior, os eventos representados pelas intersecções Ëg,f,l1(J,j', ()i02 c Oi'Oi'lonnnrn novos cventos que têm a propriedacle de ltlulrlnnrente exclusivos
e cuja
uniflo contenrplt toclas as possíveis
Capítulo 2 : Probabilidades
46
F tt
il t
t I t
iI
il h ul c Co
ndicional
47
e Independência
combinações. Eventos que satisfaçam essas duas características têm importante papel no cálculo de probabilidades e, assim, merecem destaque.
Definição 2.4: Partíçã.o do espaço amostrsl Os eventos Cr,Cz,... ,Ct, formam uma partição do espaço amostral, se eles não têm intersecção entre si e se sua união é igual ao espaço amostral. Isto é,
Ca)Ci:Q
Para
i'+i
1,
e
U Ci:9. .i:t
tr
A=
A Figura 2.4 apresenta um exemplo de uma partição com 6 eventos.
(A
nFr) u
(A.F) u (Ánq)
uittcln,estar interessados em saber qual a probabilidade de que a amostra tenlrir siclo obtida do leite fornecido pela fazenda F1, isto é,, P(4lA), lmpllen erìì se inverter a probabilidade condicional conheciOa P(ÁlF'1). conro cssa são típicas para o uso do resultado apresentado a seguir, tr
dc llnycs: Suponha que os eventos Ct,Cz, ... ,Cn formem
íl e que suas probabilidades EFl evr:ttlo A, se conheçam as çle
Figura 2.4: Partição do espaço amostral (k=6). Exemplo 2.5.' Suponha que um fabricante de sorvetes recebe 20Vo de todo o leite que utiliza de uma fazenda F1, 307o de urìa outra fazenda F2 e 50Vo de -F's. Um órgão de fiscalizaçáo inspecionou as fazendas de surpresa e observou que20Vo do leite produzido por .F'1 estava adulterado por adição de água, enquanto que para F2 e Fs, essa proporção era de 57o e 2Vo, respectivamente. Na indústria de sorvetes os galões de leite são armazenados em um refrigerador sem identificação das fazendas. Para um galão escolhido ao acaso, vamos analisar o leite para decidir sobre sua adulteração ou não.
Se denotarmos por Á o evento "o leite está adulterado", temos que P(Al.p'r) : 0,20, P(Al Fz):0,05 e P(Al rs):0,02. Além disso, .F'1, F'2 e ,F3 formam uma partição do espaço amostral pois uma dada amostra de leite vem, necessariamente, de uma e apenas uma das três fazendas. Desta forma, o evento Á pode ser escrito em termos de intersecções de Ácom os eventos F1, F2 e F3, conforme ilustra a figura a seguir.
11
3,
,,
. , ft,
lintão, para qualquer
j,
uma sejam conhecidas. Suponha, ainda, que probabilidades P(AlCt) para todo
P(A I cò P(c j)
I'(C,il A) :
D p(A I cr) p(cr)
i:l
rãção: t)r clcl'inição de probabilidade condicional temos
P(ci I A) : ãËEtettdor lgnedo
rì
dcssl expressão pode f,'i, isto
P(C1n A)
P($ ser reescrito
'pela regra do produto,
é,
P(A;1n A)
: P(AÀCì : P(Al C,:j)P(C.j).
EEttlFletnr u clentonstraçiro note quê
l;
r,,(A) :Dnra.ìci) :Do(1l i=l
À:
i=L
I
c,) P(c).
tr
48 '"
?
-- T ((trn.r1')
( t,' u \")
rr(È,.
^\ . s')
-Ì lC-0" v-w d"t- J'lv'ng.r.,rzn
i,
( àÒ a) b'\ - P (
('*t'r',-,ll'
)
Capítulo 2: P
p[n'', -? (al@)
49
Exemplo 2.6: Yoltando à situação do fabricante de sorvetes (exemplo anterior), podemos agora calcular facilmente a probabilidade desejada, isto é,
P(.il)
P(FrlA):--i(A)-A)
l
l/
I
rt ttÍ'irttritção: se dois eventos são mutuamente exclusivos então eles'
lnrlelrcttclcntes.
Pgulo llutebol Clube ganha com probabilidade 0,7 se chove
;e com 0,8 se chuva é de 0,3. O São Paulo probabilidade de a Sctcrnbro Éeve, l'inr probabilidade ter chovido nesse qual de a ull1n l)nrticln em Setembro,
P(A I F'l)P(rl)
,
que sc
AeB
são independentes entáo
A e B"
também ião
les.
e, então
P(Frlrl:
:0,615.
reíelos
Portanto, a probabilidade de que a amostra de leite em questão tenha si produzida pela fazenda F1é, de 0,615 em contraste com as probabilidades 0,231 0,154 para as fazendas F2e F3, respectivamente. Exercícios da Seçáo 2.22
L. Considere dois eventos A e B, mrtuâmente exclusivos, com P(Á)
:0,3
P(B) :0,5. Calcule: a. P(An B). b.P(Au B). /-t c.P(Al B). (-" d. P(A.). e. P((A u B)").
2. Se P(AU B)
:
p@btthiliduclc de sair somente uma cara. pbchiliclnde dc sair pelo menos uma cara. ffebntrllidurle de dois resultados iguais. urrr conjunto de 4 números dos quais nenhum deles é zero, dois são c dois sÍio negativos. Sorteamos ao acaso, com reposição, 2 números €enjunto, l)eterrnine a probabilidade de: deler r,rer negntivo.
/
0,8;P(Á)
fuedn é vicitclu de modo que a probabilidade de sair cara é 4 vezes maior I de urir coloiì. Para 2 lançamentos independentes dessa moeda,
:
0,5 e
P(B)
:
qune ietrle set negativo. dclr núrrrerc)s terem o mesmo sinal.
r, determine o valor de rno
caso
He
I
afirmações:
e
P(A lB)
Lf2 então
An'/ao pode estar
€€f,tldn ettt /J.
3. Uma escola do ensino médio do interior de São Paulo tem 40Va de estudanteg do sexo masculino. Entre estes, 207a n]unca viram o mar, ao passo q\Ìe, entre AÕ meninas, essa porcentagem é de 50Vo. Qual a probabilidade de que um aluno selecionado ao acaso seja: a. Do sexo masculino e nunca tenha visto o mar? b. Do sexo feminino ou nunca tenha visto o mar?
nr)
ats
& ntá) -- 12,l'(Dl A):r
a. Ae -B serem mutuamente exclusivos., b. Áe B serem independentes. U'
a.SeP(f) :0,4;P(A) =0,7e P(A
sf,o vrlliclas
á) - lllaf'@ lÁ) :3/5então AeB nãopodemserdisjtrntos' :
de:
'/
= 0,3;calculc P(AI D"),
€lÉrce dr, estuíística tcve a seguinte distribuição das notas finais: 4 do sexg
lnu c fi clo Í'crnirrino íbram reprovados, 8 do sexo masculino e 14 do ãlno frtrurn ttprovndos, Para um atluno sorteado dessa classe, denote por M Ëlutto eseollrirlo íbr do scxo masculino e por Á se o aluno foi aprovado.
F1d
t=t
ltl";,
rr ilI"),
F(é' F(d | /1/).
Capítulo
50
2
:
P
robabilidades
d.P(M'I
ttttr l)uirrg existem três empresas de TV a cabo e 20 mil residôncias. A 'l'A lcrn 2100 assinantes, a TB tem 1850 e a empresa TC tem 2600 Ë:in1ttl,,s, scttclo que algumas residências em condomínios subscrevem aos lçr'u tlc: urais de uma empfesa. Assim, temos 420 residências que sito Irlr:s tlo TA e TB, 120 de TA e TC, 180 de TB e TC e 30 que sito rrtrs tlns trôs empresas. Se uma residência desse bairro é sorteada ao ruu, quttl é l probabilidade de:
€F
A). e,P(M I A). ?eças produzidas por uma máquina são classificadas como defeituosas, ,"c,rpe.ãveis ou perfeitas com probabilidade de 0, 1 ; 0,2 e 0,7 ; respectivamente. De um grande lote, foram sorteadas duas peças com reposição. Calcule:
a. P(duas serem defeituosas) b. P(pelo menos uma ser Perfeita). c. P(uma ser recuperável e uma perfeita). E se o ,,@)t"Oiqu. as suposições utilizadas para resolver os itens anteriores. vsorteio for sem rePosição? 6.Paradois evento s A e B,num mesmo espaço amostral, verifique, através ile um diagrama, que é sempre possível escrever o evento A como sendO : P(An B) + P(AÀ B")' çe"o A1U (Á n B") e que, portanto, vale P(Á)
7.
ËFr nssirrlrrtc somente da empresa TA? A$lttnr 1rclo tncnos uma delas?
!ÍEe t.'r''l'V n cabo?
I
tle runs bolus, citlcule a probabilidade dela ser:
fu buE,lrrcte, Fgclctrtcs clc uma Clínica de Ginecologia com idade acima de 40 anos, tõrr rrrr lìrtrn casadas e 407o são solteiras. Sendo solteira, a probabilidnde ëf tlrlo urn rlistúrbio hormonal no último ano é de I07o , enquanto que poftl ftnrn I r e sstt probnb i I idade aumenta para 30Va' Pergunta-se : QU*rl tr prtoltnbiliclade de uma paciente escolhida ao acaso ter tido um dlrlúr'trirt ltortttottal ? ãe A pncierrte sortcada tiver distúrbio hormonal, qual a probabilidade de ser
a. Não praticar esporte. ' ', b. Ser alérgico dado que não pratica esportes.
8. As preferências de homens e mulheres por cada gênero de filme alugado em uma locadora de vídeos, estão apresentadas na próxima tabela'
Mulheres
Comédia
Romance
136
92 195
r02
Policial 248
,f,Ooit dados equilibrados são lançados' Calcule a probabilidade de: a. Obter o par (3,4), sabendo-se que ocorreu face ímpar no prirneiro dado. ,,'i' ' ll. Ocorrcr face ímpar no segundo ditdo, sabenclo-se quc ocorrcu íacc par pritttciro dado.
:sltëit'u'/
Ë€ excullr!'rnus cluits pacientes ao acaso e com reposição, qual
62
Sorteando-se, ao acaso, uma dessas locações de vídeo, pergunta-Se probabilidade de: a. Uma mulher ter alugado um filme policial? b. O filme alugado ser uma comédia? c. Um homem ter alugado ou o filme ser um romance? d. O filme ser policial dado que foi alugado por um homem?
de basquete, enquanto o armário 2 tem 3 bolas de I r' ? clc basquete. Escolhendo-se, ao acaso, um armário e, em seguida'
eI
p€ vok ibol, sitbcndo-se que o armário 1 foi escolhido' ãà burq,,.,*, sitbcnclo-se que o armário 2 foi escolhido.0
"r"olhido
Sexo \ Filme Homens
gttrrrit'ios guardam as bolas de voleibol e basqüete. O armário 1 tem 3
de vrrleibol
Numa cidade do interior de São Paulo, estima-se que cerca de 20Va doS habitantes têm algum tipo de alergia. Sabe-se qne 50Vo dos alérgicos praticam esporte, enquanto que essa porcentagem entre os não alérgicos é de 407o'PatA aleatoriamente nessa cidade, obtenha a probabilidade um indivíduo de:
5t
Ëfét'r't{'ií,,f
é
a
pfolruhilirlittlc clc pclo lrenos uma ter o distúrbio? elttr,'g.tt il s!:tl amigo uma cartáì, destinada à sua namorada, parat sgt :4111 tro crtrrcio. Entrcttnto, ele pode se esquecer com probabilidade 0,1 . llãu Er. i,sr.lltec:cl', l probltrilidacle de que o correio extravie a carta é de 0'1, êlSetttr:, st: liri cnviacla pclo correio a probabilidade de que a namorada nlio
A
Yt*ê
*
tscehrr rt tL: 0, I . Efu trrrrturt'urlit ttíio rcccbctt o carta, qual a probabilidade de seu amigo tel prquecirto tlc crtlocít-la no corrcio'l
1
br nO
Avrrltr, rrs llossillilidnclcs clcsse rlanìoro cotttinuar, se aÌ comunicaçiio Ètepett,l,,r rltts ctrtits ottviitdas.
Capítulo 2 : Probabilidade
52
14. Numa certa regiáo, a probabilidade de chuva em um dia qualquer de primavera é de 0,1. Um meteorologista da TV acerta suas previsões em 807o
Flnr'rtttlt'ttt' ígua em até duas tentativas.
Eneottlt'rtr iigtta.
dos dias em que chove e em907o dos dias em que não chove. a. Qual é a probabilidade do meteorologista acertar sua previsão? b. Se houve acerto na previsão feita, qual a probabilidade de ter sido um dia de chuva?
UFt ttrrurlico closconfia que um paciente tem tumor no abdômen, pois isto nn 70(k' clos casos similares que tratou. Se o paciente de fato tivcr o , u rxnnìo rrltra-som o detectará com probabilidade 0,9. Entretanto, se ele
o lurÌror, o exame pode, erroneamente, indicar que tem com lirlirrle 0,1. Se o exame detectou um tumor, qual é a probabilidade clo lcnte tô lo tlu ílto? tlvr.r
15. A tabela a seguir apresenta informações de alunos de uma universidade quanto às variáveis: Período, Sexo e Opinião sobre a Reforma Agrá'ria, Determine a probabilidade de escolhermos: a. Uma pessoa do sexo masculino e sem opinião sobre a reforma agrâria? b. Uma mulher contrária a reforma agr6,ria? c. Dentre os estudantes do noturno, um que seja a favor da reforma agrâria? d. Uma pessoa sem opinião, sabendo-se que ela é do sexo feminino? Período
Diurno Noturno
dos 1000 ingressantes de uma universidade, e classe sócio econômica. de estudo sobre área lnfolrrrrrçt'ics
t*helu
Reforma Agrária
Sexo
53
Ëtçtr t,',,,.r
rt segttir itpresenta dados
Area \ Classe
Alta
Média
Baixa
Exatas
L20
156
68
Humanas
72 169
B5
LL2
I45
Biológicas
-q ÍL)
Contra
A Favor
Sem opinião
Feminino
2
8
2
Masculino
8
9
8
Feminino
4
8
2
&tg,l,tt'ttu rit'cit clc exatas. &tu,lgr t,,, 1il'r:iì dc humanas, sendo de classe média.
Masculino
T2
10
I
ãgf du r'lrsstr bitixit, clado que estuda na ârea de biológicas.
16. Três candidatos disputam as eleições para o Governo do Estado. O candidato do partido de direita tem30Vo da preferência eleitoral, o de centro tem307o e o da esquerda 40Vo. Em sendo eleito, a probabilidade de dar, efetivamente, prioridade para Educação e Saúde é de 0,4; 0,6 e 0,9 para os candidatos de direita, centro e esquerda, respectivamente. a. Qual é a probabilidade de não ser dada prioridade a essas áreas no próximo governo? b. Se a área teve prioridade, qual a probabilidade do candidato de direita ter ganho a eleição? ,.
,.,,.
lf:.Uma companhia
que fura poços artesianos trabalha numa região escolhendo, "âleatoriamente, o ponto de furo. Não encontrando água nessa tentativa, sorteio outro local e, caso também não tenha sucesso, faz uma terceira e últirnn tentativa. Admita probabilidade 0,7 de encontrar água em qualquer ponto dcssn regiãro. Calcule a probabilidade de: a. Encontrar írguir na seguncla tcntativa.
BFI ttltttur ittplt'cssiutte é escolhido ao acaso, determine a probabilidade dc:
&r
du clussc cconôtrrica mais alta.
it probabilidade de gostar de teatro é, Il3, enquiìnto gostlr rlc cinerna é 112. Determine a probabilidade de gostar de tcatro Ë tlc t'r:r'lrr poprrlitçiro,
:lc citrt'rttir, rtos scguintes casos:
€grlnl'rlt, lerrtnr o gostilr cle cinema são eventos disjuntos. €lnrttu'rh' lntltrr o gostar de cinema são eventos independentes.
t
Fgd,,r rlllr' ÈloslnrÌì clc teatro gostáìm de cinema. A Frrihirlrilirlrtrlo clc gostitr de teittro e de cinema é Ll8. flenlre os (lueì niÍo gostam de cinema, a probabilidade de
nãro gostar de
tcitlro
É ;l/.1,
ecluipamcntos de precisão para o laboratório tle Apesar cle serem aparelhos de precisão, cxiste ttttivct'siditcle, lpflnlr.rt rlr' untit
I TÉr hilrrir'ns lìrrnccctn
EFa p€rlut'nl clrirrrco clo subcstirnirçÍo ou superestimação clas rnecliclns *lttit,lrrq A tlbcln it scgttit' aprcscnta o collportamcnto do equiparncnto Fdttrl,l,, t'!!t t'iltlll I'iillricl:
Capítulo 2: Probabi
54
Fábrica I Probabilidade
Subestima 0,01
Exata 0,98
Superestima 0,01
Fábrica II Probabilidade
Subestima 0,005
Exata 0,98
Superestima 0,015
Fábrica III Probabilidade
Subestima 0,00
Exata 0,99
Superestima 0,01
ãUporrhl que X represente o número de horas de atividade física por semana. €cnriirlcrc a tabela a seguir: Sexo \ Atividade
ãr
II e III fornecem, respectivamente, 20Vo, 30Vo e 50Vo dos aparelhos utilizados. Escolhemos, ao acaso, um desses aparelhos e
perguntamos a probabilidade de: a. Haver superestimação de medidas? b. Não haver subestimação das medidas efetuadas? c. Dando medidas exatas, ter sido fabricado em III? d. Ter sido produzido por I, dado que não subestima as medidas?
ó a probabilidade de sortear aleatoriamente uma menina com atividade físicit scrnanal na faixa de [3, 5) horas?
ptrrtlrtrilidade de encontrar gás numa certa região é,
2393
762
Você diria que o fato do motorista estar ou não alcoolizado interfere ocorrência de vítimas fatais? 24. Sejam A e B dois eventos de f), tal que P(B) ) 0. Mostre que: a. Se P(Á I B) : P(Á) então P(Aí18) : P(A)P(B)' b. Se P(Á n B) : P(A)P(B) entito Á e D siro independcntes'
ll
c C pertencentes a um mesmo espaço amostral. Mostre que:
F(a U B I c) : P(Al c) + P(B lc)-P(A)Blc). te Jt /'' cntito P(Au B I C) : 1. F(,4 t t 11U C) : P(A) + P(B) + P(c) - P(A. B) - P(A. c) = t'(/t íì íl) + P(An B nC).
alcoolizado.
Alcoolizado
A,
AltJ) :1-P(AlB).
23. Estatísticas dos últimos anos do departamento estadual de estradas são apresentadas na tabela a seguir, contendo o número de acidentes incluindo vítimas fatais e as condições do principal motorista envolvido, sóbrio ou
275
llrc. Três sondas
i!'ns estito perfurando de modo independente. ãgbertrlo-se que uma delas (qualquer) não achou gás, qual a probabilidade dHg ottlt'its duets encontrarem? ã$bcttrltt-so que uma delas (qualquer) não achou gás, qual a probabilidade dê etteorttrar gás na região através dessas perfurações? ãtllrc:nrkr-sc que não mais de uma delas (qualquer) achou gás, qual a prohrrbiliducle de nenhuma encontrar gás? I
L22B
4
7 6
Qull
A
!
Sim
B
t d
P(X > 5). a probabilidade de que um rapaz escolhido aleatoriamente dedique €*rlcrrlc Cr pelo rncnos 5 horas à atividade física. Idem para uma moça. Ë, €utttltitt'c iìs respostas dadas nos itens (b) e (c)'
pública. Sendo alérgico, a probabilidade de ter reação a um certo antibiótico é de 0,5. Para os não alérgicos essa probabilidade é de apenas 0,05. Uma pessoa dessa população teve reação ao ingerir o antibiótico, qual a probabilidade de:
Não
22
Èr enlculc
22. Acredita-se que numa certa população, 207o de seus habitantes sofrem algum tipo de alergia e são classificados como alérgicos para fins de saúde
Motorista \ Vítimas fatais Sóbrio
0
5
Feminino Masculino
As fábricas I,
a. Ser do grupo não alérgico? b. Ser do grupo alérgico?
55
E.ttt't'it'irts
Éjlntr fnrrrÍlil
ft
vilja ao litoral para
euttgr.slirtttittnento net estrada
passar um
fim de semana. A probabilidade
é de 0,6. Havendo
congestionamento, a
Sbttlrilirlrrrkr clos seus dois filhos brigarem no carro é de 0,8 e,
na
$€ngesti.rrrnnrenlo, a
sem bríga pode aparecer com probabilidade 0,4. Quando há
or.l scln congestionamento, â probabilidade do pai perder a p€iêIe in r'(ìnì os Í'ilhos é de 0,7. E claro que havendo congestionamento o pai p€de per,l,.r'tt pitciênciil com os filhos mesmo sem brigas, o que aconteceria É€Ft ptohlhilirlndo 0,5. Quando niro hír nem congestionamento, nem briga, o pi eltrtgr. trnrtqiiilo c níto 1:crdc a puciôncia, Determine a probabilidade de: * Nnrr kt'ltitvirkl congestiottittrtcnto se o pai não percleu a paciência com seus
biëtl, ,,.,",
flllrrtF
56
Capítulo 2: Probabi
b. Ter havido briga, dado que perdeu a paciência.
ultt.ì
29.Um candidato
a motorista treina na auto-escola e acredita que passa no exame com probabilidade 0,7. se não passar, fará mais treinamento, o que ele estima que lhe aumentará em lj%o a probabilidade de passar, isto é, no segundo exame passará com0,77 de probabilidade. a. Supondo que ele continue acreditando nesse aumento de possibilidade, em
que exame será aprovado com certeza?
b. Qual é a probabilidade de serem necessários mais de 2 exames? Os arquivos de dqdos mencionados nos exercícios a seguir podem ser obtidos em www. i me. us p. b r/- no p ro e s t
30. (Use o computador) Considere os dados do arquivo areas.txt descrito no Exercício 25, capítulo 1. Suponha que você ganhe um apartamento em uma promoção feita por uma cadeia de lojas. utilizando o computador, construa tabelas de freqüência necessárias para responder às seguintes questões. a. Qual a probabilidade do apartamento estar situado entre os andares 4 e7? b. Qual a probabilidade do apartamento estar situado no bloco B?
c. Qual seria a probabilidade de você ganhar um apartamento com algum problema de construção? (Isto é, com rachaduras ou infiltrações). d. Repita os itens anteriores, dado que o apartamento esta situado no bloco B. 3L. (Use o computador) Considerando o arquivo cancer.txt calcule:
a. As
probabilidades de que um paciente selecionado, ao acaso, seja
classificado em cada uma das quatro categorias da variável Diagnóstico. b. utilizando apenas o item (a), qual a probabilidade de um paciente, selecionado ao acaso, ser diagnosticado como não tendo a doença?
32. (use o computador) considere os dados do arquivo aeusp.txt descrito no Exercício 26, Capínlo 1. Suponha que escolhemos, ao acaso, um dos moradores entrevistados. a. Qual a probabilidade da idade do entrevistado ser inferior a 35 anos? b. Dado que o morador tem menos do que 35 anos, qual é a probabiridade dele ser do sexo feminino? c. Qual seria a probabilidade de escolher um morador do Jardim Raposo quo tenha acesso a computador? d. Determine a probabilidade de escolher um entrevistado qr"re tcnha vinclo clo nordeste, seja do sexo feminino e estír trabalhando. Se esse rnoraclor Íbi escolhido, qual é a probabilidaclc delc tor cartcira assinacla?
rklvcis Aleatórias Discretas IRtrorluçiro Nr.rlc c'irpítulo, incorporamos o conceito de probabilidade no estudo de l: Êtsrociirclls a características em uma população. No Capítulo 1, vimos Hllllrrrrrrlo rrrtlr tabela de freqüência, podemos apresentar os valores oossíveis glua rlrtrlir vnriírvel e suas respectivas freqüências. Evitamos, dessa forma, $endr, ltet'tlir clc informação, a repetição, às vezes muito grande, dos valores dvc.l, l)tr Íornra irnáloga, vamos formalizar, com a ajuda da Teoria das llrlnrk's, o conrportamento de variáveis na população, associando a cada vllor sua probabilidade de ocorrência. Como já mencionamos no iilrtrli()r', irlónr da probabilidade poder ser obtida a partir do estudo das Irts, clrr tirrnbém pode ser deduzida a partir de suposições feitas a respeito llrtç;t,r rlo í'r:nômeno. Na formalizaçáo que faremos com a introdução de llklnrlr's, nos ocrìparemos apenas das variáveis quantitativas. Vamos It'etrlrr os casos discreto e contínuo, pois a atribuição de probabilidades h' r'trt ciulrt situação. As variáveis qualitativas podem ser, em algumas ! E corrl o ctovido cuidado, tratadas como discretas na atribuição de hliirlt's,
Utnir rilrirrrticlaclc X, associada a cada possível resultado do espaço , é tlt'rrrrrrrirtirdn dc veviável aleatória discreta, se assume valores num r etttttrrel'iivol, corn certa probabilidade. Por outro lado, será denominada ctle'ttltit'itt t:rtttlítuta, se seu conjunto de valores é qualquer intervalo dos iFntH. o tltrc scria um conjunto não enumerável.
rnlrì i'i rrtcrrcionamos arnteriormente, existem variáveis que são çrrlr rlrl'irritlls courcl discretas ou contínuas, porém essa atribuição não é
(
!r
e rlt';rt.trth-r tkr irrstrumento de medida e do estudo que está sendo feito. Életttlrlrr, rr virliiivol tninrero dc,filltos em.famílias é discreta, enquanto o
clr
te'tt1'titt
u utn t:erlo
mulicdnrcnÍ.o
ó contínua. A
discussão sobre
iflr.ttç;to rh' vrrliiivcis, lbitn lro Capítulo l, serír utilizada em todo o texto e a fEl rtl:.'tttrrt'itt ir itcrcscicln itqui pttt'it inclicar qtle, áÌ cada possível valor, r!1 unut prohullilidnclc clc ocorrôlrciu. No caso discreto, a atribuição é
57
Capítulo 3: Varidveis Aleatórias Disc
58
à
similar
tabela
de freqüência;
no caso contínuo,
jáL
utilizaremos
generalizaçáo da idéia de histograma. Neste capítllo apresentamos os resultados e modelos mais comuns variáveis aleatórias discretas, deixando para o Capítulo 6 a discussão do
contínuo.
Seja
X
uml variável aleatória discreta e
11,12,ryt...,
seus dife
59
folr,t,lrt1,t,,
1) : 0,30 e a catacterização probabilística a variável =: '=l ) 0,1ì5. Para completar lrt N. Íjrltn obter as probabilidades P(lí : 3), P(l/ :4) e P(N : 5). r rrs irrÍìlrmações fomecidas, elas são iguais e, digamos, têm valor p. r rr rlcl'irtição de função discreta de probabilidade, temos que:
= (l) 0,20. De forma semelhante, temos que P(l'r
valores.
/)(N
:
Definição 3.1: Função dìscreta de probabilidade
0,20
+
A função que atribui a cada valor da variável aleatória sua probabr é denominada de função discreta de probabilidade ou, simplesmente, função probabilidade. Anotaçáo a ser utilizada é: P(X =
r;) :
p(r1)
: pi,'i : I,2,...
:
*
1) ... + P(,^f 0) + P(.^'r r 0,30 +0,35 + p+ p + P 0,85 + 3p: I
:
-
5)
:
:
0,15 èp:ï:0,05. ê Ftttrçiìo rlc probabilidade para
l/
é dada pela tabela a seguir:
tr
ou ainda,
.1,): Nir construção de um certo prédio, as fundações devem atingir 15 de prolìrnrliclade e, para cada 5 metros de estacas colocadas, o operador lé lrorrvt. ;rltcração no ritmo de perfuração previamente estabelecido. Essa É icsrrltlulo de mudanças para mais ou para menos, na resistência do Nps rlçis c1sos, medidas corretivas serão necessárias, encarecendo o dÊ pltru, ('otrì lrase em avaliações geológicas, admite-se que a probabilidade tliit rltr irltcrações é de 0,1 para cada 5 metros. O custo básico inicial é tlf'('s (rrrrirllrlc padrão de construção) e será acrescido de 50k, com k rtirhr o rrtirncto de alterações observadas. Como Se comporta a variável \1
Uma função de probabilidade satisfaz 0
1 p, <
1
pt : "I
L.
Note que, na maioria dos casos, X terâ apenas um número finito valores possíveis e, assim, a verificação de qge a soma de probabilidades é igunl I será feita através deuma soma finita. As variáveis aleatórias são complet caracterizadas pela sua função de probabilidade e uma parte importantg Estatística é, justamente, obter, para uma dada variável de interesse, a funçÍlo probabilidade que melhor represente seu comportamento na população. Exemplo 3.1.' Com
do último censo, a assistente social de um Centro Saúde constatou que para as famílias da região, 20Vo não têm filhos, 30o/o tê,m filho, 35Vo têm dois e as restantes se dividem iryglgrglf" entre três, quatro cinco filhos. Suponha que uma família será es'colhida, aleatoriamente, ne região e o número de filhos averiguado. Definimos N como sendo a vari aleatória ntimero deftlhos e consideramos que a escolha é feita entre as cli opções de valores parn N. Isto é, náo importa qual a família escolhida, mas qual é a resposta dada quanto ao número de filhos. Desse mocJo, est sorteando um valor deNdentre 0,7,2,3, 4 ou 5. A função de probabilidaclo variável segue das informações disponíveis, isto ó, como 20ok das l'amílius têm filhos, então a ptobabilidade de uma ftrrrríliir sortcacla ao iÌcaso niro ter I'ilhoË dados
ÉÉr rilrtrrs tkr lìtndaçito?
Assrrrrrirrros cluc as alterações ocorrem independentemente entre cada um ltrt,,rvitlos tlc -5 metros e representamos por A a ocorrência de alteração ê*lç, lrrlr,rrzlo, scltclo Á'' seu complementar. A Figura 3.1 apresenta as trôs !,r!u (ìs possívcis resultados da perfuração. Cada etapa tem duas
$r
llrlri,l,'s (lu(:, (lr.riurclo combinadas com as outras duas etapas, originam 8 là ç-vlrrlos. lÌlr cxcmplo, o evento AA"A representa que, na primeira e na ClÍllill,, it(.()tìloccriÌl-n alterações, enquanto que na segunda nada se alterou. letfrr ri ll ('lirl)irs, coltt 2 possibilidades emcadauma, temos no total 23 :B I I r-r,|nço itrttoslt'itl cclnsistc na união de todos os caminhos que levam de pHltlrlr {riil!o (llr iirvorc clc probabiliclacles,
Capítulo 3: Variáveis Aleatórias Discretas
60
61
lllln,ilrrç'ïro
P(C :150)
-----_----^0,t4 0,9
o'
o"
A" on,
: P(AA"A') + P(A'AA") :3 x 0,1 x 0,92 :0,243.
+ P(A'A'A)
ptrrlrlbilidades para os outros valores de C podem ser obtidas de modo r, r'csultando na seguinte função de probabilidade:
0,9
lìrrrna, o comportamento da variável de interesse pode ser estudado através
ãtsoc:iação
de cada custo com sua probabilidade de ocorrência. Essa
tçiio pode auxiliar na previsão de gastos e na elaboração de orçamentos.
Figura 3.1: Árvore Sendo
de
probabilidades- alterações no subsolo.
C a varilrvel aleatória custo da obra,
obtemos a seguinte tabela:
Eventos
Probabilidade
Ú' (em UPCs)
AAA AAA"
0,1" 0,12 x 0,9 0,12 x 0,9
250 200 200
AA.A AA"A" A.AA
A.AA. A" AcA
AcAcAc
0,1
x
0,92
150
x 0,9 0,1 x 0,92 0,1 x 0,9' 0,9 t
200
0,12
150 150 100
Vlmos considerar agora exemplos em que as probabilidades associadas ê[:rucrrtos do espaço amostral são obtidas a partir de uma suposição teórica. 3.3r Considere o experimento de lançar uma certa moeda é observar se eilnr ou coroa. Descreva o comportamento da variável número de caras em lilnçt mentos dessa moeda. Sc denotamos por ly' a variável de interesse, segue imediatamente que l/ nssrrrrrir os valores 0, 1 ou 2.Para atribuir probabilidades a cada um desses ó rrecessário fazu alguma suposição a respeito da probabilidade de rciir de cara ou coroa. Admitindo que a moeda é equilibrada, as lrilitlrrcles de cada face serão iguais, isto é, P(cara): P(coroa) : Ll2. ttos ainda a independência entre lançamentos, de modo que a ocorrência de rlclclnrinada face no primeiro lançamento não altere a probabilidade de cara €proír n0 segundo lançamento. l)oclemos considerar como espaço amostral o seguinte conjunto:
g Note que associamos a cada evento do espaço amostral um valor para a variável aleatória C. Os distintos possíveis valores são c1 - 100, cz: L50, cs : 200 a c4 :250. Além disso, podemos ter um mesmo valor da variável associado a mais de um elemento do espaço amostral, por exemplo,
P(C :
cz)
: P(C:
150)
: P(AAA'l) AAA'U A"A"A).
Tendo em vista que os eventos são disjuntos, a probabilidade da união fica sendo simplesmente a soma das probabilidades de cada evento. Então,
I
: {cc ,c R, RC , RR},
c /Ì rcpresentando a ocorrôncia de cara e coroa, respectivamente. l'lra deduzir a função de probabilidade de -ôy', observe que o valor 1 ã€rrttr. rros cventos CR e ÃC, enquanto que os valores 0 e 2 têm apenas um Éïetttrr ir cles associado, respectivamente, -Rà e CC. Segue então que as (I
pfehnlrilitlucles associadas aos valores de Iy' são as seguintes:
tr
Capítulo 3: Variáveis Aleatórias Disc
62
Exemplo 3.4: tJmjogador paga 5 fichas para participar de um jogo de disputando com a banca quem tem o ponto maior. O jogador e a banca cada um o seu dado e a seguinte regra de premiação é estabelecida: é maior, ele ganha 2 vezes a diferença entre o - se o Ponto do jogador Joga ponto e o obtido pela banca; se o ponto do jogador é menor ou igual ao da banca, ele não ganha O que você acha desse jogo? Vamos admitir que os dados utilizados são perfeitamente homogêneos, tal forma que não há preferência na ocorrência de qualquer uma das seis f Assim, podemos considerar que os pares de valores (b, i) representt
o resultado obtido pela banca e pelo jogador, têm a met probabilidade de ocorrência. Isto é, qualquer par tem probabilidade 1136
63
(1, 1)
(2,L) (3,1) (4,1) (5,1) (6,1)
Para cada par (b,7) sorteado, a premiação é baseada nos seus va Definimos a variável aleatória discreta G como sendo o ganho bruto do io em uma jogada, isto é, o valor arrecadado sem descontar as fichas iniciais para participar do jogo. Pela regra de premiação' segue que:
t:l
o,
se
O espaço amostral, correspondente a uma jogada, é apresentado a
j):
ê futtçiio clc probabilidade:
(;l
2 4 6 B 10 0 7t, I ztlze 5lJ6 4lJ6 Jls6 2186 Llz6
(5, 1)
(6,1) O valor G
:
fiubrc o jogo fica, então, evidente. Tendo em vista as 5 fichas pagas o .jogirclor só não terâ prejuízo nos casos em que obtiver 6, 8 ou 10
€rint nruitl sorte (1/36), o jogador ganharâ o dobro do que
<
(2,2) (3,
2)
(4,2) (5,2) (6,2)
(1,3) (2,3) (3,3) (4,3) (5,3) (6,3)
(r,4)
(2,4) (3,4) (4,4) (5,4) (6,4)
(1,5) (2,5) (3, 5)
(4,5) (5,5) (6,5)
apostou. tr
ã,2: Itunção de distribuição de probabilídade
$ Jiutr;iltt dc tlistribuição ãlerrlririrr cliscretzr
ou
(1,6 (2,6 (3,6 (4,6 (5,6 (6,6
0 acontecerá quando o ponto do jogador for menor ou
ao da banca. Esse caso corresponde ao seguinte subconjunto do espaço
função acuru.ulada de probabilidade de uma real r, pela
X é definida, para qualquer número
€xpl'rsstìo: !
(\,2)
(6,6)
de, rctorno, o que acontece com probabilidade !/aC t lf 36:6/36. Portanto, o jogo é altamente favorável à banca e,
i
serâG:2x(3-1):4. (1,1) (2,1) (3,1) (4,1)
(4,3) (4,4) (5,3) (5,4) (5,5) (6,3) (6,4) (6,5)
Ent vriliirs situações é útil calcular a probabilidade acumulada até um , A tlel'inição a seguir apresenta esse conceito.
Dessa forma, se o jogador obtém 5 e a banca 6, temos G : 0 pois j < b (5 Por outro lado, se o jogador tira 3 e a bancaJ, o valor do ganho bruto do j
através dos pares (b,
(3,3)
3l 1r,t'.r tôrn todos a mesma probabilidade de ocorrência e, portanto, Jtlf'l 0) :21136. De modo análogo, calculamos os demais valores e
respectivamente, ocorrer.
(2,2) (3,2) (4,2) (5,2) (6,2)
F(r):
n
P(X < r)
llrrt população de 1.000 crianças foi analisada num estudo para cl'ctiviclnclc de uma vacina contra um tipo de alergia. No estudo, as n fer.t:lrirrnr r.rrna dose de vacina e, após um mês, passavam por um novo r rritrrlir livcsscm tido alguma reação alérgica, recebiam outra dose da Ao lirrr rlc.5 closcs todas as crianças foram consideradas imunizadas. Os unrrr;rletos cstÍo na tabela a seguir. J,.f,'
l)oses í'r'ccy.
245
2 28tì
3
4
5
256
t45
66
Capítulo 3: Variáveis Aleatórias Discre
64
Supondo que uma criança dessa populaçáo ê sorteada ao acaso, qual será probabilidade dela ter recebido 2 doses? Utilizando a idéia de atribui probabilidade através da freqüência de ocorrência, a probabilidade desejada é 288/1000:0,288. A função de probabilidade da variável aleatíria número doses recebidas fica sendo:
65
I(.r) l,Õoo 9,954 Õ,7fltl
0,145 €,É113
Suponha, agoÍa, que desejamos calcular a probabilidade da criança ter recebi até duas vacinas. O que precisamos obter é a função de distribuição no ponto ou seja, calculamos a probabilidade acumulada de ocorrência de valores men ou iguais a 2. Assim,
F(2)
:
P(X < 2) : P(X
:
1)
* P(X :2) :
0,533.
Note que, tendo em vista que avariánel só assume valores inteiros, esse valor inalterado no intervalo 12,3).Isto é, F(2,L);F(2,45) ou F(2,99) têm todos mesmo valor acirn*a. Por essa razão escrevemos:
F(r):P(X
012s45 I,'lgura 3.2: Função de distribuição - doses de vacina. 3,6.' Nurn cstudo sobre a incidência de câncer foi registrado, para cada
eonr essc diagnóstico, o número de casos de câncer em parentes (pais, ilrniros, tios, filhos, primos e sobrinhos). Os dados de 26 pacientes irttes:
0
",r,
0,245 0,533
:
0,789
0,934
{
1
.ser<1; se 1( r 12; se 2( r13; se 3(r14; se 4( r15; se r)5.
notação utilizada para escrever a função de distribuição pode, primeira vista, parecer confusa, mas como as contas efetuadas são simp acreditamos que com um pouco de treino o leitor ficará familiarizado com função. A Figura 3.2 apresenta um diagrama dessa função.
5
Èllltcliorcs irssurnem que a incidência de câncer em parentes próximos teut'icrrrrrcrrto nrodelada pela seguinte função discreta de probabilidade:
A
frh*ir,t'vitrlos concordam com o modelo teórico?
Fg tnlrcln rlc dados brutos com as 26 observações, coletamos para cada dê vtrt'liivel, o númcro de suas ocorrências. Por outro lado, seguindo o tcót'ico, o rrrirrrcro cle observações que seria esperado em cada incidência
Capítulo 3: Variáveis Aleatórias Discre
66
(freqüência esperada) é calculado coÍno €i:26x pi. Note que os valores esperados não precisam ser números inteiros, pois representam uma freqüência teórica caso o modelo fosse adequado. A tabela a seguir apresenta os resultados: Incidência
n; (observados)
ei (esperados)
0
4 4
216
6 6
7,8 7,9
4
2
216
5
4
216
total
26
26
1
2
3
216
Representando em um mesmo diagrama as duas freqüências obtemos:
67
tlc Scçõo 3.1:
fltu*rlii viciada tem probabilidade de cara igual a 0,4. Para
dois
nlos itttlcpcndentes dessa moeda, estude o comportamento da variável rlet rttnlr c lìrça um gráfico de sua função de distribuição. bgcu ltrt itrlìlrrnação que você conhece, crie os valores e as respectivas lirlrrrlcs f)ura a variável número de filhos em famílias, no caso da lsçõn eonsiclcrada ser: €lgx*e rtrr"ídil paulistana. hehitntrtcs clo interior do Maranhão.
ëgtttittlro lturit chcgar a uma festa pode ser dividido em três etapas. Sem o tlrr.jeto ó I'cito em t hora. Se enganos acontecem na primeira etapa, [e l0 rninutos ao tempo do trajeto. Para enganos na segunda etapa, o tÌtn É 20 o, pilra er terceira, 30 minutos. Admita que a probabilidade de
é
0, I ;
0,2 e 0,3 para a primeira, segunda e terceira etapas,
vênlenÍc. I'i provável haver atraso na chegada à festa? Determine a Irlurk tlc ltavcr atraso, e o atraso não passar de 40 minutos.
iãátttetn de iuros prestando vestibular para conseguir uma vaga na lttlc. esíÍr scttdo estudado. As carreiras têm procura diferentes e, em delux, o col-r'ullrì pode ser prestar vestibular mais de um ano. Suponha €ttiolltr'tttos, ito acaso, um dos ingressantes da sua carreira. Que Itlirtle vocô atribuiria (invente!) à necessidade de 1, 2,3, ...anos de I
filho vai plltll e onre r pipocu com probabilidade 0,'l e, além disso, pode pedir bala pnrbnbilidnrlc 0,9. Esses pedidos são atendidos pelo pai com illtllrlc 0,.5; inclcpendentemente um do outro. Se a pipoca custa R$ 2. e a levrt tt í'illro
to cinema
e vai gastar nas duas entradas R$ 15. O
fl$.1, r,strrrlc o gusto eletuado com a ida ao cinema.
Vntl:lvrl rrh:lttirin X tcrn a seguinte função de distribuição:
Notamos que os dados observados seguem a mesma tendência do teórico, porém seus valores são dis-crepantes. É uma amostra pequena, mas não haver boa adaptação entre os dois conjuntos de números.
P(r)
: {ü
se r<10; se 10(r1I2; se 12(r<13; se 1"3 ( r 125; se r)25.
r,'l',1 ,t v
I Capítulo 3: Variáveis Aleatórias Disc
68
Determine: a. A função de probabilidade de
b. P(x c. P(X
< L2). < L2).
e.P(x
t rs). (t
I
t
lt't t n la lr ts D
69
iscretos
€i êrdl'icrr tln densidade é apresentado na Figura 3.3 para o caso k
:
L0.
X.
í-
Fl,r
d.P12
=.r )
E,l0 B,tlH
3.2 Principais Modelos Discretos
E,Ofi
Os exemplos da seção anterior ajudam a esclarecer a relação entre variável e a realização do experimento aleatório que a origina. Cada possí elemento do espaço amostral é uma realizaçáo do experimento e corresponde
g,Õ4
€,sa
um valor da variável, nem sempre distinto. Algumas variáveis aleatórias aparecem com bastante freqüêncra situações práticas e justificam um estudo mais aprofundado. Em geral casos, a distribuição de probabilidade pode ser escrita de uma maneira compacta, isto é, existe uma lei para atribuir as probabilidades. Por exemplo, se uma variável aleatória W tem função de probabili dada por
wl r
2
3
4
5
6
então, escrevemos essas probabilidades como P(W : k) :
k
2 3 4 5 6 7 I
Definição 3.3: Modelo Uniforme Discreto
por
Jü1 ,
Seja X uma variável aleatória cujos possíveis valores são represe t2,r."1,...,tt. Dizemos que X segue o modelo Uniforme Discreto
atribui a mesma probabilidade de probabilidade é dada por
P(X
:
llk
a cada um desses
k valores, isto é, sua fu
Clhrelve (ple it cxpressão na definição anterior, de fato, representa umn dhet'etn rlc llrubabilidade, uma vez que seus valores estão no intervitlcl Ë Fntilr tle loclits as probabilidades é igual a 1. O modelo Uniforrne tem i pofrlue loclos os seus valores ocorrem com a mesma probabilidade e, pedetnus tlizer quc a probabilidade se distribui uniformemente entre os 1[hrres,
J,7,' llrrrn rilìr
:
Ilk: ,V.:i
:
L,2,... ,k.
tcrl
100 billretes numerados de 1 a 100. Tenho 5 bilhetes
2l 'd 25 e meu colega tem outros 5 bilhetes, col'ì1 os l, I l, .l(), (rtJ c 93. Quem tem maior possibilidade de ser sorteado? Ã prlrìreill vistn tcnr-se a impressão de que "espalhar" os números é tt lvrrr nrtnre'rrulrts dc
I
llìtllleill ([. giltìlìitr o $orteio. Entretanto,
assumindo a honestidade da ritìt, Ël tttintr:rus lettt it ttrcsma probabilidade de ôcorrência, com l/100 para cnclit $ Yntlrivel ttletttór'ia cm questão, o nú,mero sorteado, segue o rnodelo
Fr prrllrrrrlu, !:u c mcu colcgit com 5 bilhetes temos et fiìesll1lt
t['
gnttltitr l riÍÌr. Ncstc sorteio, como no modelo Unilorme cttt É lltllnr ou tncllot'probabiliclade clc garrhar clcpcndc dc quantos bilhetes'sc tr ããn rlrt pirrlit'rtlrtr escolltu tlo núntcro, llrhirlo
x.ì
x
ú'ittura 3,3: Modelo Uniforme Discreto [0, 10].
k:L,2,...,6.
Dessa maneira, temos uma forma abreviada de apresentar variável e sua função de probabilidade. Vamos apresentar os principais mode de variáveis aleatórias discretas, começando pelo mais simples a seguir, quo aquele que atribui igual probabilidade a todos os possíveis valores da variável,
9 l0
70
Capítulo 3: Varidveis Aleatórias Disc
Em muitas situações práticas a variável de interesse assume somente
valores. Por exemplo,
â
peça
é
classificada como boa ou defeituosa; entrevistado concorda ou não com a afirmação feita; a vacina imunizou ou criança. Estas situações têm alternativas dicotômicas, que genericamente ser representadas por respostas do tipo sucesso-fracasso. A atribuição de qual respostas será referida como sucesso é feita de modo arbitrário, mas deve definida claramente para evitar ambigüidades. Esses experimentos recebem nome de Ensaios de Bernoulli e dã,o origem a uma variável aleatória com
tl.t
A
l,
n I t'
I
o^t
I)iscretos
s
..l
\
ir""\ - {-'r '^ J - '
.,
'-''
7t
{F
r'nrrsllrril a /rrvore de probabilidades, consideramos que a escolha dos or loi I'cilir a partir de uma população muito grande. Dessa forma, cadit ebuullritkr torn probabilidade 0,80 de estar imunizado, independente dos vírlrros rllr população. Se classificamos como sucesso a ocorrência dc r, lururs ir repetição independente de três ensaios de Bernoulli. {Lle rlt'srrjirnros estudar o comportamento da variável X: número dc llrrrrrrizrrrkls nesse grupo. Ela assume os valores 0, 1,2 e 3 cont le,ri t'ir['rrlirclas com o auxílio da árvore e apresentadas na tabela:
mesmo nome.
Dffinição 3.4: Modelo Bernoullí Dizemos que uma variável X segue o modelo Bernoulli se atribui Õ ou ocorrência de fracasso ou sucesso, respectivamente. Com p representando probabilidade de sucesso, 0 ( p 1 7, sua função discreta de probabilidade é por
P(X - r) : p'' (7 -
Probabilidade
X
TTT
0,8'
J
ITI'' I T,'I T
I,'1,'
rII
[(
p ou, de modo resumido,
Eventos
O1L-:r: , r :0,L
J J(:
T,'1,,
I
[( I(
J(l
x 0,2 x 0,2
2
0,8 x 0,22 0,8" x 0,2 0,8 x 0,2"
I 2
0,8 x
1
0,Bz 0,82
2
1
0,22
0,2"
0
A
repetição de ensaios de Bernoulli independentes dá origem à importante variável aleatória discreta denominada modelo Binomial. Exemplo 3.8.' Sabe-se que a eficiência de ume vacina é de 80Vo. Um grupo de indivíduos é sorteado, dentre a população vacinada, e submetido a testes averiguar se a imunização foi efetiva, evento representado por .I. A árvore probabilidades é apresen tada a seguir.
0,8
/
0,2
I
. --_-_--_-_-.----..
,"
o'' 0,2 0,8
',, t
nrcnle, ir Íìrnçiro de probabilidade de X fica sendo 0
2
o,2ir ll x o,B x 0,22 3 x 0,82 x 0,2 0,8' f,l çrrnrpurturrre:nlo tlc X ó completamente determinado pela função acima, lirlrrrlrs lirrrrbótl podem ser escritas através da expressão
I'(,ï
Â')
: (i) x
o,gÀ'
x or23-k" k :0,7,2,3.
lrrohllliliclirclcs correspondem aos temos do desenvolvimcnto Irr rlr. Newl91 rlo (0,8 + 0,2):Ì, o qr-re justifica o nome escolhiclo pala
:lue
Ê?rlirti
ú
Capítulo 3: Variáveis Aleatórias Discretas
72
Definíção 3.5: Modelo Binomial Considere a repetição de n ensaios de Bernoulli independentes e todos com a mesma probabilidade de sucesso p. A variâvel aleatória que conta o núrmero total de sucessos é denominada Binomial com parâmetros n e p e sua função de probabilidade é dada por
$
: rl :
P(X
(i,)ru (i - p)''-k,
k
:
.ì,2 Principais Modelos Discretos
Em muitas situações práticas, a variável Binomial aparece a partir de outras variáveis, através da criação de duas categorias excludentes, como no excmplo a seguir.
Ilxemplo 3.9: O escore em um teste internacional de proficiência na língua itrglesa varia de 0 a 700 pontos, com mais pontos indicando um melhor rlcscmpenho. Informações, coletadas durante vários anos, permitem estabelecer o scgr.rinte modelo para o desempenho no teste:
0,L,2,...,n,
Pontos
lo,200)
n;
0,06.
com (ii) representando o coeficiente binomial calculado por
(n\
Usaremos a notação X -U1,",p) paraindicar que a variável aleatória modelo Binomial com parâmetros n e p.
importante notar que
as
X
segue o
tr
probabilidades são completamente
caracterizadas pela informação dos parâmetros. Por exemplo, desejando calcular a probtrbilidade de 3 sucessos numa b(12;0,4) temos
P(x
- : 3)
(lj;o,n'0,6n
-
200,300) 0,15
1300,400)
1400,500)
1500,600)
1600,7001
0,16
0r25
0,28
0,10
VÍrits
nt.
\n) -- kG-4.
É
73
-1{e,4s
o,6e
:
0,142
nprcsentar menos de 200 pontos é 0,06. Admitimos ainda que os estudantes lunsileiros têm comportamento similar aos demais e portanto a tabela também
.
De modo similar, obtemos os outros valores da função discreta de probabilidade:
X
0
Pt'
0,002
I 0,017
X
l
8
9
10
11
12
Pt
0,101
0,042
0,012
0,002
0+
0+
2
-t
4
5
6
0,064
0,142
0,2r3
0,227
0,777
universidades americanas, exigem um escore mínimo de 600 pontos para ruccitar candidatos de países de língua não inglesa. De um grande grupo de estudantes brasileiros que prestaram o último exame, escolhemos ao acaso 20 tlclcs. Qual seria a probabilidade de no máximo 3 atenderem ao requisito mínimo ttrcncionado? Vamos admitir que a tabela acima representa o escore dos estudantes que estÍio prestando esse último exame. Essa é uma suposiçáo razoixel tendo em vista clrc a tabela foi feita a partir de um conjunto muito grande de dados. Isto quer rliz,cr que um aluno selecionado ao acaso apresentará um dos vários escores de ttcordo com as probabilidades apresentadas na tabela. Por exemplo, a chance de
porlc ser usada para representar esse desempenho. Pelo critério das universidades, o estudante é classificado como apto, se neu cscore é de 600 pontos ou mais, caso contrário, será considerado não apto. l)cssa fbrma, para cada indivíduo, teremos a classificação de apto ou não, feita de ttrotlo independente e com as seguintes probabilidades
P(aPto)
:
0,10 e P(não apto)
:
6,99
.
Definindo uma nova variável X como o número de estudantes aptos tlrttlrc os 20, temos que X - b(20;0,10). A probabilidade de no máximo 3 serem nptos ó calculada pela função de distribuição no ponto 3, ou seja,
O valor 0+ indica uma probabilidade muito pequena que, na aproximação
de
F(3)
rnilésimos (3 casas após a vírgula), não teve casa decimal diferente de zero.
Diversos programas computacionais contêm rotinas que calculam as probabilidades da distribuição Binomial e alguns livros-texto incluem tabelas dessa clistribuiçiro, para vários valores dos parâmetros.
I)ç'ssr Íbrma, temos:
:P(x<3).
! Capítulo 3: Varidveis Aleatórias Discretas
74
r1x 3ly
:
ã (ï)
.ì.2 Principais Modelos Discretos
75
e, cntão, podemos concluir por uma expectativa de ll,7 nascimentos com 7 I'ilhotes dentre as 100 inseminações. Observe que os valores esperados não prccisam ser números inteiros, pois representam uma freqüôncia teórica de
0,1È o,e2o-È
A tabela a seguir contém os valores observados Binomial fosse utilizado. nxrclelo
ocorrência.
: (ï)0,100,e20. (ï)0,11 0,e1e. (ï)0,120,e18. (ï)0,130,e17
:
0,r22 + 0,270 + 0,285 + 0,190
:
Filhotes lrrccl. Observada Iì'cq. Esperada
0,867.
Esse valor reflete as altas probabilidades atribuídas aos escores menores de 600, conforme o modelo de desempenho no tr
teste.
Exemplo 3.10: Um veterinário está estudando o índice de natalidade em porcos sujeitos à inseminação artificial. Para tal, coletou informações sobre a variável número de fllhotes nascidos vivos em cada uma das 100 inseminações re'alizadas com o mesmo reprodutor. A tabela a seguir apresenta os resultados. Número Freq. Observada
)
2
J
4
5
6
7
8
1
6
7
9a
26
2L
L2
t)
t
9
0
t0
2
3
4
5
6
7
8
9
1
6
7
23
26
2t
,)
I
0
0,1
I
4,4
tr,7
20,5
24,6
20,5
t2 I,7
4,4
1
0,1
O modelo proposto parece se ajustar bem aos dados observados (veja a F'igtrra 3.4) e tendemos a acreditar que o modelo Binomial é uma escolhn ttdccluada. A representação gráfica torna-se assim, um importante passo inicial purt auxiliar na escolha de um modelo probabilístico. A verificação aqui foi flpcnas visual, mas é possível estabelecer procedimentos estatísticos que testam o ajustc do modelo proposto de forma objetiva. Procedimentos mais rigorosos
devcrn ser utilizados para a decisão final e podem se basear em um teste estirtístico conhecido como Teste de Aderência. tr
1
a o
7
:7) : (ï;o,t'0,53: o,rr.;
os esperados, se o
0
É muito comum buscar estabelecer um modelo para a variável de interesse, o que nesse caso possibilitaria, por exemplo, p comparação entre diferentes reprodutores. O veterinário informa que 11 ou mais filhotes nascidos vivos é uma ocorrência muito rara e pode ser desprezada em termos de modelÒ. Nestes termos, ele sugeriu considerar que a variável N: número de filhotes nascidos vivos, poderia ser ajustada pelo modelo Binomial com parâmetros n : 10 e p: 0,5. O que você acha da sugestão do veterinário? Note que, mesmo não tendo havido nenhuma observação do valor 0 ou 10, o veterinário sugeriu o modelo de uma variável que contém esses valores, pois apesar de não serem comuns eles podem acontecer. Com o modelo sugerido, calculamos as probabilidades de cada um dos valores de 0 a 10 e, a partir deles, os resultados que seriam esperados em 100 inseminações realizadas. Por exemplo,
P(N
e
I
Observada Esperada
I
10
Filhotês
Fígura 3.4: Gráfico
de
freqüências- natalidade em porcos.
Capítulo 3: Variáveis Aleatórias Discretas
76
Ao finalizar
é oportuno
mencionar as diferentes formas utilizadas para referenciar os modelos teóricos das variáveis aleatórias. Por exemplo, alguns autores referem-se a uma variável aleatória com distribuição Binomial enquanto outros enfatizam uma variável aleatória seguindo o modelo Binomial. Neste livro, vamos utilizar indistintamente essas duas formas que essa seção,
consideramos equivalentes.
.ì,.1 Outros
corretamente.
1. Discuta a validade do modelo Uniforme Discreto nos seguintes casos: a. O número sorteado numa rifa com 100 números. b. A escolha de um aluno que vai representar a classe junto à direção da escola. c. O dia da semana em que ocorrem mais acidentes de trabalho numa indústria. d. O mês do ano com maior número de enchentes na cidade de São Paulo.
2. Sendo X uma variável seguindo o modelo Uniforme Discreto, com valores no conjunto {L,2,3,.. . , 10}, pergunta-se: a. P(X > 7\. /
b.P(3
c.
8).i
d..P(X)5ouX>B)) X<6). ',1çf.e.P(X)3e P(x < e lx 2 o;.r
77
b. Escolhemos 20 lâmpadas ao acaso na prateleira de um supermercado, sendo 10 de uma fábrica e 10 de outra. Contamos o número total de defeituosas. c. Quinze automóveis 0 km de uma mesma marca e tipo são submetidos a um teste anti-poluição e contamos o número deles que passaram no teste. d. Um motorista é submetido a um teste em que deve estacionar seu veículo num pequeno espaço (isto é popularmente chamado defazer baliza). Em l0 tentativas, contamos o número de vezes em que o motorista estacionou
Bxercícios da Seção 3.2:
'
Modelos Discretos
\,
3. Um usuário de transporte coletivo chega pontualmente às 8 horas para pegar o seu ônibus. Devido ao trânsito caótico, a demora pode ser qualquer tempo entre 1 e 20 minutos (admita que o relógio "pule" de minuto em minuto). Pergunta-se: a. Qual a probabilidade de demorar mais de 10 minutos? b. Qual a probabilidade de demorar pelo menos 5 mas não mais de 10 minutos? c. Qual a probabilidade da demora não chegar a 5 minutos? q._ d. Se um amigo chegou 10 minutos atrasado e vai pegar o mesmo ônibus (que /n ainda não passou), qual a probabilidade do amigo atrasado esperar até 3
e
minutos? L 4. Discuta a validade do modelo Binomial nos seguintes casos: a. Dos alunos de uma grande universidade, sorteamos 5 e contamos quantos se declaram usuários de drogas.
5. Sendo
X
P:0,4; a.
uma variável seguindo o modelo Binomial com parâmetros n
:
15 e
Pergunta-se: 14).
P(X >
lr.P(8 11).
P(X ) tL ou X > 13). a.P(X)3eX<6). d. r.
P(x < 13lx > 11).
6. Urna certa doença pode ser curada atravós de procedimento cinirgi co em 80Vo dos casos. Dentre os que têm essa doença, sorteamos 15 pacientes que serão submetidos à cirurgia. Fazendo alguma suposição adicional que julgar nccessária, responda qual é_a probabilidade de: ru. Todos serem curados? L-ll. Pelo menos dois rìão serem curados? c. Ao menos l0 ficarem livres da doença? 7. Calcule a função de distribuição da variável
t. X éBernoulli b. X - b(4;0,20). c. X - b(B;O,10).
com p :
X
nos casos:
0,6.
3.3 Outros Modelos Discretos Apresentamos, nesta seção, os modelos Geométrico, Poisson lliptrgcométrico, que têm várias aplicações práticas, conforme ilustram
c
os
e'xcrnrplos desta seção. Na seção anterior, os modelos definidos assumiram apenas
rrrrr número finito de varlores distintos. Foi assim com o modelo Unifbrme l)iscrcto com valores L,2,,..,À;, Bernoulli com 0 e L e Binomial com os valores
Iüf,t Capítulo 3: Variáveis Aleatórias Discretas
78
.1.-l Outros
79
P(Q=
1,...,n,
Como veremos a seguir, os modelos Geométrico e Poisson podem ter um número infinito de valores dentre os inteiros positivos. 0,
Modelos Discretos
0,010
Definição 3.6: Modelo Geométrico 0,008
Dizemos que uma variável aleatória X tem distribuição Geométrica de parâmetro p, se sua função de probabilidade tem a forma
P(X: k): p(L- p)o', Nesse caso, usaremos a notação
0
1le k:0,1,2,....
0,004
X- G(p).
tr
Interpretando p como a probabilidade de sucesso, a distribuição Geométrica pode ser pensada como o número de ensaios de Bernoulli que precedem o primeiro sucesso. Note que a expressão apresentada na Definição 3.6 é de fato uma função de probabilidade, pois é positiva e sua soma é igual a 1, conforme pode ser verificado através da fórmula da soma de progressão geométrica (PG) infinita:
t p)Ã :et k): 8"," - [of @mm
(1
- p)^ :
r_fr1:
r
Exemplo 3,11: lJma linha de produção está sendo analisada para efeito de controle da qualidade das pêças produzidad. Tendo em vista o alto padrão requerido, a produção é interrompida para regulagem toda vez que uma peça defeituosa é observada. Se 0,01 é a probabilidade da peça ser defeituosa, estude o comportamento da variável Q, quantidade de peças boas produzidas antes da la. defeituosa. Vamos admitir que cada peça processada tem a mesma probabilidade de ser defeituosa, independentemente da qualidade das demais. Sendo a ocorrência de peça defeituosa um sucesso, podemos aplicar o modelo Geomótrico. Observe que o número de peças boas produzidas é exatamente o quanto se "espera" para a ocorrência do primeiro sucesso. Temos,
P(Q
:k) :0,01 x 0,99À', k:0,L,2,"',
cuja representação grâfica está na Figura 3.5.
0,006
0,002
0 4 I 12 16 20 24 28 32 36 40 44 48
tc
Figura 3.5: Modelo Geométrico (n:0,01). Clorno podemos verificar através da figura, a probabilidade vai ficando muito llc(luena para valores grandes de k. Em tese, a produção nunca seria interrompida se rriro houvesse o aparecimento de uma peça defeituosa. tr
Detïnição 3.7: Modelo Poisson
Uma variável aleatória X tem distribuigão de Poisson com parâmetro À
> 0, se sua função de probabilidade
é dada por
e-]'Àk P(X , \/kl=/c) :
k
:
0,1,2, ...
corìì o parâmetro À sendo usualmente referido como notução utilizadaserâ X- Po(\).
,
a taxa de ocorrência, A tr
O modelo Poisson tem sido muito utilizado em experimentos físicos e lriológicos e, nesses casos, À é a freqüência média ou esperada de ocorrêncins trtrrn determinado intervalo de tempo, Vamos verificar que a expressão rrprcsentada realmente representa uma função de probabilidade. Não é difícil rrlrscrvar que, para qualquer k, ela é um número positivo. Resta mostrar que tls prrrllabilidades somam 1. Temos,
Capítulo 3: Variáveis Aleatórias Discretas
80
=1,.1
Ëtt" : 4=Ë# : "-^Ë# :
Se o intervalo de tempo é alterado, a variável aleatória mantém a mesma
e-\eÀ : r'
Á:ll
k:U
l':0
No cálculo acima, usamos que a série \R' 1kt , somada para valores de k entre 0 e oo, produz eÀ. Esse resultado é bastante conhecido e segue do desenvolvimento em série de Taylor do termo el. O leitor interessado poderá consultar, para outros detalhes, textos básicos de Cálculo Diferencial e Integral. Exemplo 3.12: A emissão de partículas radioativas tem sido modelada através de uma distribuição de Poisson, com o valor do parâmetro dependendo da fonte utilizada. Suponha que o número de partículas alfa, emitidas por minuto, seja uma variável aleatória seguindo o modelo Poisson com parâmetro 5, isto é, a taxa média de ocorrência é de 5 emissões a cada minuto. Calculemos a probabilidade de haver mais de 2 emissões em um minuto. Seja Á o ntimero de partículas alfa emitidas por minuto. Pelas suposições feitas, temos A - Po(5) e a probabilidade desejada será
P(A> 2) :t
6
P(A:a) :1-t
Após os cálculos n":"lrrur,or, obtemos
,
P(A:0) :1- $e-s,n 4 o,l
ir'o 12) :
0,875.
**r"r"t,"*os
81
Otrtros Modelos Discretos
dlrtritruição de Poisson, mas com o valor do parâmetro ajustado de forma Ggrrvcniente. Assim, se o período de tempo considerado for de dois minutos, tglepros que o número de partículas emitidas em dois minutos terá distribuição
tr
Po( l 0),
Eyemplo 3./3; Engenheiros da companhia telefônica estudam se o modelo de Poisson pode ser ajustado ao número N de chamadas interestaduais que chegam, durante o período notumo. Os dados coletadOS, FÕr [ora, a uma central telefônica, Efl:r'cntes a 650 períodos de uma hora, estão apresentados a seguir: Chamadas
Freq. Observada
0
1
2
t
4
5
I
38
7t
115
r25
106
6 79
7
>8
50
57
Da tabela temos que, por exemplo, em 125 períodos de uma
hora
€€orrcram 4 chamadas. Os engenheiros sugerem rttilizar uma taxa de ocorrência de 4-5-chamadas pet lrora no período estudado. Seguindo o modelo indicado, a freqüência esperada
ocorrências com k chamadas é obtida multiplicando 650 (o total das ãbnr-t'vações) pela probabilidade de k chamadas. Assim, para k : 2, temos
{g na
Freq. esperadapara 2 chamadas
Figura 3.6, alguns valores da função discreta de probabilidade da Po(5).
:
650 x
P(N
:650x
"-4's
:73,13.
P(N=n)
:2) 4152
2l
0,1 8
Ee rrurclo análogo obtemos os demais valores.
0,16
0,14
Flr'! utrlas rvadn
o,12
LOhsc
0,1 0
fllsl'1
0;08
iì
0
I
2
a
38 32,50
71
115
125
73,13
109,66
123,37
7,22
3
4
6
7
>8
106
79
111,02
83,27
50 53,56
57 56,36
5
0,0 6
0,04
tabela acima parece indicar que o modelo Poisson, com À : 4,5 ftl'rrr..c,c unr bom ajuste para a variável aleatóiia de interesse. O leitor pode e'otrslnrir um gráfico de freqüência'para visualizar melhor essa aderência. A cxh.nsiro clessas conclusões aos diferentes períodos de tempo e/ou outros tipos de G:hirrrrncla deve ser feita com cuidado, porém o ajuste já obtido é uma "boa pista" Flt'n il cscolha do modelo. Como mencionamos anteriormente, a conclusão obtida
A
0,02
4
6
I
10
12
14
16
18
Figura 3.6: Modelo Poisson (),: 5).
20
Capítulo 3: Variáveis ,Aleatórias Discretas
82
aqui poderia ser feita de modo mais objetivo através de Testes Estatísticos de
Aderência.
tr
Encerramos esta seção, definindo
o
modelo Hipergeométrico. Este
moclelo surge da contagem de objetos de certo tipo, retirados ao acaso e sem reposição, de um conjunto contendo dois tipos de objetos. Por exemplo, num grupo de jovens com 5 meninas e 5 meninos, sorteamos 3 deles ao acaso, para íazer uma comissão. O sorteio será feito sem reposiçáo, para evitar a escolha de utrìiì mesma pessoa, o que inviabilizaria a formação da comissão. Na primeira escolha cada um dos 10 jovens tem 1/10 de probabilidade de ser sorteado. Na segunda, cada um dos 9 restantes, será sorteado com probabilidade I/9 e, na terceira, 1/8. A variável aleatória número de meninas na comissão segue o modelo Hipergeométrico, conforme definido abaixo.
Definição
3.8
A
caixa pode ter peças boas ou defeituosas e vamos sortear algumas pcças, sem reposição. Baseado no número de peças defeituosas encontradas rlccidimos por aceitar ou rejeitar o lote. Seja D a variável que conta o número de pcrças defeituosas neste sorteio. Ela segue o modelo Hipergeométrico e vamos itlcrrtilicar os diversos parâmetros. O total de peças é n:25, o número de elel'cituosas
P(X:*)-,^., _
(T)
(",--T
/n,\ ("/
) ,k:A,I,...,min(r,rn). _ ., , ^;^t_ ,-
tr
Note que os valores possíveis de X vão de 0 a min(r,rn), uma vez que podemos ter mais do que o número de objetos existentes do tipo I, nem não tillnpouco mais que o total de sorteados. Utilizando resultados de análise combirratória, pode-se verificar que a expressão de P(X : k) é um número não negativo entre 0 e 1 e a soma, para todos os valores de k, éigual a l. Assim estão cumpridos os requisitos necessários para ser uma função de probabilidade. Exentplo 3.14: Uma fátbrica produz peças que são embaladas em caixas com 25 unidades. Para aceitar o lote enviado por essa fábrica, o controle de qualidade de uma empresa procede da seguinte forma. Sorteia uma caixa do lote e, em seguida, sorteia cinco peças, sem reposição, dessa mesma caixa. Se constatar no máximo dr"ras defeituosas, aceita o lote fornecido pela fábrica. Se a caixa sorteada tivesse 4 pcças defeituosas, qual seria a probabilidade de rejeitar o lote?
ém
:
4 e o número de retiradas é
P(aceitar o lote)
:
r:
5.
P(no máximo 2 peças defeituosas)
: P(D < 2).
lintiio,
p(D
: Modelo Hipergeométríco
Considere um conjunto de n objetos dos quais msáo do tipo I e n - m são do tipo II. Para um sorteio de r objetos (r < n), feito ao acaso e sem reposição, defina X como o número de objetos de tipo I selecionados. Diremos que a variável aleatória X segue o modelo Hipergeométrico e sua função de probabilidade é dada pela expressão
83
,ì..ì Outros Modelos Discretos
) . (Í)=!'il -0,e84 : (á).(';) . (ï)=('i (',J) (',J)
('J)
C-oncluímos que, mesmo havendo quatro defeituosas na caixa inspecionada, a probabilidade de aceitar o Iote é 0,984 ou, equivalentemente, para rejeitar o lote a
prolrabilidade é 0,016. Claro que, na prâtica, não saberemos quantas peças rlcÍcituosas existem em cada caixa. Entretanto, a probabilidade calculada acima purlcria ser um indicativo para avaliar se o critério do controle de qualidade está t'rrzoiivel ou não e, neste caso, parece que não! Poderíamos também criar uma tobcla contendo os valores da probabilidade de rejeição do lote, em função de tr Irrrvcr certo número de peças defeituosas na caixa sorteada. l,lxcrcícios da Seção 3.3:
l.
Scndo X(DG(0,4), calcule: n. P(X:3).
b.P(2
P(X > LIX < rl. P(X > 1). c.
2).
2. IJrrrir moeda equilibrada élançada sucessivamente, de modo independente, até (f ue ocorra a primeira cara. Seja X avariâvel aleatória que conta o número de lirnçamentos anteriores à ocorrência de cara. Determine: u. P(X < 2). b. P(X > 1).
c.P(3
Quantas vezes deve, no mínimo, ser lançada a moeda para garantir a ocorrência de cara com pelo menos 0,8 de probabilidade.
8{
3.
Capítulo 3: Variáveis Aleatórias Discretas
A variírvel aleatória Y temdensidade poisson com parâmetro À : 2. obtenha:
P(Y <
2),
P(Y >
0).
a.
b.P(2
d.
P(Y: 1l]'<
3).
4. A aplicação de fundo anti-corosivo em chapas de aço de 1 m2 é feita mecanicamente e pode produzir defeitos (pequenas boihas na pintura), de ncordo com uma variável aleatória poisson de parâmetro À : t pã, *2. ú-a chapa é sorteada ao acaso para ser inspecionadã, pergunta-se a probabilidade
de:
n. Encontrarmos pelo menos I defeito. b. No máximo 2 defeitos serem encontrados. c. Encontrarmos de 2 a 4 defeitos. d. Não mais de 1 defeito ser encontrado.
5. A variável 11 segue o modelo Hipergeométrico com parâmetros a r' : 4. Determine: a, P(H :2). b. P(H < L). c. P(f/ > 0).
n:
r0,m
:
5
or'çamento é a escolha de estadia. Existem quatro opções de hotéis que custam 2; 2,5; 3 e 3,5 mil reais e são escolhidos pelos clientes com a mesma
prcferência, independentemente da companhia aérea. Seja x a variável irlcatória orçamento da viagem. Calcule a função de probabilidade e a função rlc distribuição da variável X .
Urn equipamento consiste de duas peças A e B que têm 0,10 e 0,15 de ;lrobabilidade de serem de qualidade inferior. um operário escolhe ao acaso utniÌ peça tipo A e uma tipo B para construir o equipamento. Na passagem pelo controle de qualidade o equipamento vai ser classificado. Será considerado como nível I, se as peças A e B forem de qualidade inferior. será nível II, se trrna delas for de qualidade inferior e, nível III, no outro caso. o lucro na venda ó dc R$ 10, R$ 20 ou R$ 30 para os níveis I, II ou III, respectivamente. Como se cornporta a variável lucro? Para dois equipamentos vendidos, obtenha a função rrìonos R$ 30 de lucro?
t
3.4 Exercícios
l.
LJrna agência de turismo apresenta aos clientes o orçamento de uma certa viagem em duas partes. A primeira é o transporte aéreo que têm três opções com preços 3;3,5 e 4 mil reais e preferências de escolha de 0,5; O,3 e 0,2 para ;rs companhias TWA, TWB e TWC, respectivamente. A segunda parte do
tlo probabilidade do lucro. Nesse caso, qual seria a probabilidade de pelo
6. Por engano 3 peças defeituosas foram misturadas com boas formando um lote corn l2 peças no total. Escolhendo ao acaso.,4 dessas peças, determine a probabi lidade de encontrar: n. Pelo menos 2 defeituosas. b. No rnírximo I defeituosa. c. No mírrimo I boa.
3,4 [ixercícios
urn agricultor cultiva laranjas e também produz mudas para vender. Após irlguns meses a muda pode ser atacada por fungos p.ôbubilidade 0,0j e, nesse cASo, ela é escolhida para ser recuperada com "oprobabilidade 0,5. Admita que o processo de recuperaçáo é infalível. o custo áe cada muda produzida é lì$ 1,00; acrescido de mais R$ 0,50 se precisar ser recuperada. Cada muda é vorrdida a R$ 3,00 e são descartadas as mudas não recuperadas de ataque de lïngos. Estude como se comporta o ganho por muda produzida.
Na verificação de máquinas, observam-se as partes elétrica, mecânica e estrutural. A probabilidade de aparecer uma falha em cada uma das partes é 0,01; independente das demais. ocorrendo falha, o tempo de conserto é ro,z0 orr 50 minutos para falha elétrica, mecânica ou estrutural, respectivamente. Se rr Íalha elétrica aparece junto com a falha mecânica, teremos ainda um ircróscimo de 20 minutos. Para uma máquina escolhida ao acaso, qual a lrrobabilidade do tempo de interrupção (se não há falha, esse tempo ê, zero): tt. Durar menos de 25 minutos? b. Ultrapassar 40 minutos?
llrna empresa paga a seus estagiários de engenharia de acordo com o ano de ctrrso do estudante. Para se obter o salário mensal pago por 30 horas semanais, rnrrltiplica-se o salário mínimo pelo ano de curso do estagiário. Dessa forma, o trstudante {o primeiro ano ganha um salário mínimo, o do segundo recebe dois r' itssim por diante até o quinto ano. A empresa vai empregar 2 novos
cstngiírrios e admitimos que todos os anos têm igual número de estudantes intcressados no estágio (considere a população de candidatos muito grande de trulclo a não haver diferença entre escolher com ou sem reposição). pergunta-se ;r protrabilidade de:
86
Capítulo 3: Variíweis Aleatórias Discretas
a. Os dois serem do primeiro ano? b. A empresa gastar no máximo 3 salários míninos com os estágios? c. Sabendo que gastou pelo menos 4, gastar menos de 7 salários mínimos? 6. Uma variável aleatória
X
tem a seguinte função de distribuição:
.1.4
Exercícios
9. Num certo restaurante, paga-se pelo almoço uma quantia fixa dependendo da escolha feita de prato e bebida. A carne de peixe tem I}Vo de preferência, enquanto frango tem 40Vo e carne bovina 50Vo. As três escolhas de bebida estão condicionadas à opção do prato, segundo a tabela abaixo:
se r<-1; 0,2 se -1 1 r 12; 0,5 se 2(r15; 0,7 se 5(r16;
0,9 se6(r115; { 1 se r)15.
Determine: a.
A função
b. P(x c. P(X
de probabilidade de
< -2).
<
X.
P(X >
Pedido Preço
14).
7. Estatísticas de acidentes, num trecho da rodovia SP330, indicam probabilidade de 0,05 de haver um acidente durante a madrugada (24 às 6 horas). Em ocorrendo um acidente nesse período, a chance de gerar vítimas é de 0,5. Ainda considerando o período acima, se acontece um acidente com vítima, ela será fatal com probabilidade 0,1. o serviço de ajuda aos usuáriqs :utiliza 2 veículos na inspeção do tráfego naquela ârea. A esse número, acrescentamos mais 2 se houver acidente. Se o acidente tem vítimas, acrescente aos anteriores mais 2 veículos e, finalmente, acrescente mais 1 se a vítima for fatal. Encontre a lunção de probabilidade da variável aleatória ntimero de veículos em serviço de auxílio nessa estrada durante a madrugada.
8. Em treinamento de
Agua
0,4
0,3
Opcão: Frango P(Bebida I Frango)
Cerveia
Azua
Vinho
0,3
0,5
012
Opção:Bovina P(Bebida I Bovina)
Cerveja 0,6
Agua
Vinho
0'3
0,1
Admita os seguintes preços:
2).
d.P(3
Vinho 0,3
Cerveia
Opção:Peixe P(Bebida Peixe)
0
",rr:
87
animais, usa-se
a
repetição como estratégia de
aprendizagem. Num experimento, um macaco realiza certa tarefa corretamente,
pela primeita vez, com probabilidade 0,5. Caso falhe, a probabilidade de realizar corretamente na segunda tentativa cresce I\Vo, ou seja, a probabilidade é, agora 0,55 e assim sucessivamente. Admita que o experimento termina em quatro tentativas ou antes, na primeira vez que o macaco acertar. Descreva o comportamento probabilístico do número de tentativas.
Peixe
Frango
Bovina
Cerveja
Agua
Vinho
T2
l5
t8
6
J
9
ru. Dado que alguém escolhe peixe, qual a probabilidade de que escolha cerveja? ll. Se escolhe carne bovina, qual a probabilidade de tomar vinho? c. Sabendo que tomou água, qual a chance de ter escolhido frango? tl. Determine a função de probabilidade para cada uma das variáveis X: preço do almoço e Y: preço do almoço para aqueles que preferem cerveja.
l(1. Supondo igualdade de probabilidade entre nascimentos de cada sexo, para rrrrra família com três filhos, calcule a probabilidade de que: a. Exatamente dois sejam do sexo masculino. ll. Pelo menos um deles ser do sexo masculino. c. Todos serem do sexo feminino.
lf . tJrn time paulista de futebol tem probabilidade 0,92 de vitória sempre que ioga. Se o time a\uar 4 vezes, determine a probabilidade de que vença n. Toctas as 4 partidas.
b. Exatamente 2 partidas c. Pelo menos uma partida. tl. No rnáximo 3 partidas.
Capítulo 3: Variáveis Aleatórias Discretas
88
e. Mais da metade das partidas.
12.tJm certo equipamento é expedido em lotes de 500 unidades. Antes que uma remessa seja aprovada, um inspetor escolhe 5 desses equipamentos e os inspeciona. Se nenhum dos equipamentos inspecionados for defeituoso, o lote é aprovado. Se um ou mais equipamentos forem defeituosos, todos as unidades são inspecionadas. Suponha que existam, de fato, dez equipamentos defeituosos no lote. Utilizando uma suposição conveniente, qual é, a probabilidade de que seja necessário testar todos os equipamentos? 13. Suponha que um modelo teórico para a variável notas em um teste de história
(X),
ê dado por:
P(X: Para
2l
i1
:
lj -
111
66
, j:0,7,2,...,10.
alunos submetidos a esse teste, apresentamos um resumo de suas
notas:
.1,,1
89
lixercícios
lS.Considere uma variável aleatória Xassumindo os valores 0,1,2,...,5 e tal clLre P(X : j) :/c x 0,8 x 0,2i, i : 0,L,2,...,5. ir. Para qual valor de k a expressão acima é uma função de probabilidade? lr. Calcule P(X :3 I X < 5).
lír. Uma vacina contra a gripe é eficiente em707o dos casos. Sorteamos, ao acaso, 20 dos pacientes vacinados e pergunta-se a probabilidade de obter: ru. Pelo menos 18 imunizados. b. No máximo 4 imunizados. c. Não mais do que 3 não imunizados, 17. 25Vo dos universitários de São Paulo praticam esporte. Escolhendo-se, ao ilcilso, 15 desses estudantes determine a probabilidade de: a. Pelo menos 2 deles serem esportistas. b. No mínimo 12 deles não serem esportistas: c. Havendo mais de 5 esportistas no grupo, obtermos menos de 7 que praticam esporte.
Notas
Freqüência
0-2 2-4 4-6
10
6F8
5
8 Ft10
1
Itl. As pacientes diagnosticadas com câncer de mama precocemente têm
5
c. Não mais de 2 permanecerem com a doença.
19. A resistência (em toneladas) de vigas de concreto produzidas por uma clrpresa, comporta-se conforme a função de probabilidade abaixo:
Um professor desconfia que o modelo não é adequado. O que você acha?
14. Um laboratório estuda a emissão de partículas de certo material radioativo. Seja l/; número de partícula; emitidas em I minuto. O laboratório admite que l/ tem função de probabilidade Poisson com parâmetro 5, isto é,
P(.^/
:
k)
:;, --5 ^A
k:0,7,2,....
a. Calcule a probabilidade de que em um minuto não haja emissões
80Vo de
probabilidade de serem completamente curadas. Para um grupo de 12 pacientes lìessas condições, calcule a probabilidade de: :r. Oito ficarem completamente curadas. ll. Não serem curadas de 3 a 5 pacientes.
6
de
partículas.
b. Determine a probabilidade de que pelo menos uma partícula seja emitida em um minuto. c. Qual a probabilidade que, em um minuto, o número de partículas emitidas esteja entre 2 e 5 (inclusive)?
Resistência
Admita que essas vigas são aprovadas para uso em construções se suportarem pclo menos 3 toneladas. De um grande lote fabricado pela empresa, cscolhemos 15 vigas ao acaso. Qual será a probabilidade de: a. Todas serem aptas para construções?
ll. No mínimo 13 serem aptas? 2{). Ern momentos de pico, a chegada de aviões a um aeroporto se dá segundo o rnodelo Poisson com taxa de 1 por minuto. ru. Determine a probabilidade de 3 chegadas em um minuto qualquer do horário de pico.
90
Capítulo 3: Variáveis Aleatórias Discretas
b. se o aeroporto pode atender 2 aviões por rninuto, qual a probabilidade de haver aviões sem atendimento imediato? c. Previsões para os próximos anos indicam que o tráfego deve dobrar nesse aeroporto, enquanto que a capacidade de atendimento poderá ser no
máximo ampliada em 50vo. como ficaút a probabilidade de espera por atendimento?
21. IJma indústria de tintas recebe pedidos de seus vendedores através de fax, telefone e Internet. o número de pedidos que chegam por qualquer meio (no horário comercial) é uma variável aleatória discreta com distribuição Poisson com taxa de 5 pedidos por hora. a. Calcule a probabilidade de mais de 2 pedidos por hora. b. Em um dia de trabalho (8 horas), qual seria a probabilidade de haver 50 pedidos? c. Não haver nenhum pedido, em um dia de trabalho, é um evento raro?
22. No estudo do desempenho de uma central de computação, o acesso à unidade central de Processamento (cPU) é assumido ser poisson com 4 requisições por segundo. Essas requisições podem ser de várias naturezas tais como: imprimir um arquivo, efetuar um certo cálculo ou enviar uma mensagem pela Internet, entre outras. a. Escolhendo-se ao acaso um intervalo de 1 segundo, qual é a probabilidade de haver mais de 2 acessos à cPU? E do número de acessos não ultrapassar 5?
b. considerando agora o intervalo de 10 segundos, também escolhido ao acaso, qual é a probabilidade de haver 50 acessos?
23. Toda manhã, antes de iniciar a produção, o setor de manutenção de uma indústria faz a verificação de todo o equipamento. A experiência indica que em 95vo dos dias tudo está bem e a produção se inicia. caso haja algum problema, uma revisão completa será feita e a indústria só começarâ a trabalhar após o almoço. Faça alguma suposição adicional que julgar necessária e respondá: a. Qual é a probabilidade de demorar 10 dias para aprimeira revisão completa? b. E de demorar pelo menos l5 dias? c. um esquema de manutenção, com revisão preventiva, está sendo montado de modo a evitar a revisão completa num dia aleatório. Deterrïrine um dia d,
tal que probabilidade de quebra além de d seja pelo menos igual a 0,6.
Revisando conr intervalos de d dias, o que estaremos garantindo?
3,4 Ii.rercícios
91
24, Considere uma variável aleatória X - G (0,8). Construa uma nova variável )/ tal que Y : X para os valores 0,1,2,...,5 e Y : 6 para X ) 6. Dessa Íìrrma, Y corresponde ao truncamento de X a valores menores ou iguais a 6. ( )btenha a função de probabilidade de Y e calcule:
r. P(Y
:2).
b. O valor da função de distribuição (acumulada) no ponto 2,5. 3lY < 5). c. P(Y
:
d.P(Y>3eX<8).
25. A duração (em centenas de horas) de'uma lâmpada especial segue o modelo Ceométrico com parâmetro çt :0,7. Determine a probabilidade da lâmpada: rr. Durar menos de 500 horas. b. Durar mais de 200 e menos de 400 horas. c. Sabendo-se que vai durar mais de 300 horas, durar mais de 800 horas. rl. O item anterior é uma aplicação de um resultado geral válido para o modelo
Geométrico. Assim, mostre que para X inteiros positivos rn e n,vale P(X > m *
- G (p) e quaisquer números nlX > m) = P(X > n).
l}n um estudo sobre o crescimento de jacarés, uma pequena lagoa contém 4 cxemplares de espécie A e 5 da espécie B. A evolução de peso e tamanho dos 9 .iacarés da lagoa é acompanhada pelos pesquisadores através de capturas pcriódicas. Determine a probabilidade de, em três jacarés capturados de uma vcz, obtermos:
2ír.
ru.
Todos da espécie A.
b. Nem todos serem da espécie B. c. A maioria ser da espécie A. descuidado mistura 4 exemplares defeituosos junto com outros 16 pcrfeitos de um certo livro didático. Quatro amigas vão a essa livraria para cornprar seus livros escolares. ir. Calcule a probabilidade de 3 levarem livros defeituosos. ll. Qual a probabilidade de, após a visita dessas meninas, restarem o mesmo número de defeituosos na livraria? E de não restar nenhum?
27,
Un livreiro
2ll. (Use o computador) Para os dados apresentados na Tabela l.l no Capítulo l. l. Construa a tabela de freqüências para a variável Exer, horas de atividade i'ísica por semana. b. Suponha que 5 pessoas são selecionadas ao acaso. Qual a probabilidade de que 3 delas pratiquem, pelo menos, 6 horas de atividade física por semana?
Capítulo 3: Variáveis Aleatórias Discretas
92
c. Repita o item (b) calculando a probabilidade de todas as pessoas escolhidas praticarem pelo menos 6 horas de atividade física.
29. (Use o computador) Considere a variável altura apresentada na Tabela 1.1, Capítulo 1. a. Crie uma variável lj assumindo o valor 1 se a altura do indivíduo e for maior que a média de altura da população (indivídu os altos) e 0 caso contrário (indivíduos baixos). Apresente a distribuição de freqüência para esta variável e uma representação grâfica adequada.
b. Suponha que
13 alunos vão ser sorteados com reposição e a cada
um deles será associada uma variável V, ,i:1, ..., 13. Defina X: número de alunos altos. Como você expressaria X em termos das variáveisY, i,: 1, ..., 13? c. Obtenhauma amostra de 100 valores da variável X, isto é, repita 100 vezes o sorteio de 13 alunos nas condições do item (b). Construa uma tabela de freqüências. adequado para as variâveis Y;, 'i : L,...,73? O modelo Binomial se aplica para X? Em caso afirmativo, quais seriam os parâmetros? Justifique suas resposta. (Uma boa idéia é calcular valores esperados e observados e colocá-los em um mesmo
gráfico).
i. Calcule P(X
:7), P(X < 9)
"
Medidas Resumo 4.1 Introdução Neste capítulo, vamos apresentar algumas medidas que buscam sumarizar âs informações disponíveis sobre o comlortamento de uma variável. podemos del'inir essas medidas nos casos de ur.t còìilnto de dados ôu de uma função de prrrbabilidade de variável aleatória. Apesar danatureza diferente de cada caso, as itcrtlidas terão a mesma interpretação, variando apenas na forma de serem çtrlcu ladas.
Lembremos que, no Capítulo 1, tivemos
d. Qual seria o modelo de probabilidades
e. Assumindo que o modelo Binomial é adequado para
Capítulo 4
X:
P(0 S X < 13).
ir'. Qual é a probabilidade de pelo menos 4 alunos serem baixosT E de mais de 7 e menos do que 12 alunos serem altos?
30. (Use o computador) Considere os dados do arquivo aeusp.txt descrito no
a oportunidade de discutir
Illg,ttrnas técnicas para estudar e apresentar descritivamente quantidades na peipulação, seja por tabelas de freqüências ou por gráficos adequados. o conjunto tle dados com que trabalhamos poderia ser toda a população ou apenas uma parte
delir. Já estudamos, no capítulo anterior, que a representação de eventos de lnlcrcsse pode ser feita através de variáveis aleatórias discretas e definimos alguns ntotlclos cuja ocorrência na vida prática é mais comum. Nosso interesse é caracterizar o conjunto de dados através de medidas que fsstllìliìm a informação, por exemplo, representando a tendência central dos dados gu ir rnaneira pela qual estes dados estão dispersos. Tais medidas também podem FL'r' tlcfinidas para variáveis aleatórias, permitindo caracterizâ-las de forma ãetrrclhante ao que é feito para um conjunto de dados qualquer.
Exercício 26, Capítulo L a. Para a variável Temposp, construa uma tabela de freqüência com faixas de tamanho 10, a partir dq zero. Obtenha o histograma correspondente e
4.2 Medidas de Posição
discuta a adequação de algum modelo discreto a esses dados. b. Faça um histograma da variável Resid. Verifique se o modelo Binomial com
Se estamos numa parada de ônibus urbano e nos pedem alguma llrÍ'orrnação sobre a demora em passar um determinado ônibus, que diremos?
parâmetros
n: l0 e
p
: 0,5
seria adequado para representar
comportamento dessa variável na população.
o
Nirrgtrórn imagina que poderíamos dar como resposta uma tabela de freqüências rltr(' l)acientemente coletamos no último mês, ou ano! Tampouco, seria adequado ttllt1'sclìtar um modelo teórico pelo qual teríamos ajustado o comportamento da
virrirívcl aleatória de interesse. Quem perguntou deseja uma resposta breve e t,tllrirla que sintetize a informação que dispomos e não uma completa descrição dos tlltrlos colctados ou da modelagem que porventura fizemos.
e3
Capítulo 4: Medidas Resumo
94
Nesta seção, definiremos medidas de posição ot medidas de tendência central para um conjunto de dados qualquer (população ou amostra) e, então, consideraremos as correspondentes definições para variáveis aleatórias.
Definição 4./: Medidas de posição para um conjunto de dados
Considere uma variável X com observações representadas por ï1,t2,... ,tn,. A média desse conjunto é a soma dos valores dividida pelo número total de observações. Isto
1,) Madidas de Posição
95
o número de parafusos, em cada caixa, ó um valor inteiro, porém, a Ftérlirr não precisa ser necessariamente um número inteiro, Para este exemplo, Notcr que
tclrros que, em média, as caixas contém 98,6 parafusos.
Colocando os dados em ordem crescente, obtemos: 95,96,97,98,99,99, 100 e 102. Neste caso, como o número de elementos no conjunto de 100, 100, datlos ó 10, um número par, tomamos a mediana como sendo a média dos dois Yãhrrcs que ocupam a posição central. Temos
é,
ftrdrh,
n
Iohs:
D*u
rL+ir2*..,*rI,
i:T n
dos dados ordenados. A moda é dada pelo valor mais freqüente e será denotada poÍ moobs.
Se houver possibilidade de confusão, faremos menção à variável
mo,,6r(X)
X tr
Note que as definições acima também podem ser aplicadas quando o conjunto de dados jâ estâ organizado numa tabela de freqüência. Por exemplo, para a média temos A:
rohs:
ntrt * n2r2 * "' I nt*"'lnk,
Dr,.ru f-?'ài i:l n - 4n*" À;
TTÀ'íxAt
:
99.
E imediato que o valor mais freqüente ó 100 e assim, mo,,1,.
A mediana, representad a pot rnd,,6r, é o valor que ocupa a posição central
representando a mediana e a moda por md,,6r(X) e
: 99+99
k diferentes valores, ponderada pelas respectivas freqüências relativas de ocorrência. De modo análogo também e, assim, 7n6, pode ser pensada como a média dos
podemos obter, através da tabelabe freqüência, a mediana e a moda.
Exemplo 4.1.. Suponha que parafusos a serem utilizados em tomadas elétricas são embalados em caixas rotuladas como contendo 100 unidades. Em uma construção,
10 caixas de um lote tiveram o número de parafusos contados, fornecendo os valores 98, 102, 100, 100, 99,97,96,95,99, 100. Para essas caixas, o número médio de parafusos será dado por
- L00. tr
As medidas de posição podem ser utilizadas em conjunto para auxiliar a dos dados ou, em determinadas situações, uma pode ser mais conveniente êndliso a outra. Por exemplo, se um ou mais valores são muito discrepantes do que rpr,: 6o € gerirl das observações, a média será muito influenciad.a por este valor, tornandoã1 nssirn, inadequada
para representar aquele conjunto de dados. Se uma das
€êlxirs ao invés de 95 tivesse 45 parafusos, a média passaria de 98,6 para 93,6. NcFl('' cilso, como a mediana não é afetada por valores discrepantes, seu uso seri0 ffiêis irclcquado para representar os dados. Por outro lado, para conjuntos de dados €Õttr rrruitas observações, a mediana é difícil de ser calculada, uma vez que o pfoccsso de ordenação é custoso, mesmo com o uso de computadores. É nindn
o aparecimento de distribuições multimodais, isto é, conjuntos de dados possuem mais de uma, moda. Como regra geral, .precisamos usar essfls QE:-r ffieclitlirs com o cuidado de não distorcer informações e características dos dados Egtttrrrrr
quË rlril iunos analisando.
llm muitos casos, a variável de iqteresse não é observada diretamente e é Íìlrìção do conjunto original de dados. Assim, pode ser necessário considerar Unln originais multiplicados ou acrescidos de constantes para produzir.um ãs vrrlorcs lltivo corrjunto de valores. Nos próximos exemplos, estudamos como as medidas de grosiçiro se alteram e veremos como podem ser obtidas a partir das respectivas flterlirlirs do conjunto original. El'entplo y'.2.. Nas caixas de parafusos do Exemplo 4.1, vamos admitir um custo de ,' p,rr paraÍìso e de e pela embalagem da caixa. Desejamos calcular as medidas ele lrtrsição clo custo total (T), definido como a soma dos custos dos parafusos c dtt t'rrrlrirhgcm. Iniciamos, calculando as novas medidas de posição apenas piÌra o ëulttt líqttido por caixa (.L), isto é, o custo dos parafusos contidos na caixa sem it
9()
Capítulo 4: Medidas Resumo
4,2 Merlidas de Posição
embalagem. Temos,
,,!0/l' 9Bc
MédiadeL:lnbs:
f
I02c
*.'. * 100c
986 c
10
10
:
: 99c*99c
:99c,
e, sern maiores dificuldades, moo65(L) : 100 c. Concluímos que a multiplicação ;rcla constante c resultou em que as novas medidas de posição são as antigas nrultiplicadas por c.
Vamosincluiragoraocustodaembalagem.Ascaixascustarão
1.
*
e,
L02c*e,...,
100
+ e) +... + (100c + e) _ 10
* 10e 10
QUnrrlirladc temos
50x --
LCgt,, clo cálculo que fizemos, vem imediatamente que
c+e.
9B6c
associado com as despesas do
ï€stilrular. Para simplificar um pouco a situação, vamos supor que se atribui, para €êdu irluno, uma despesa fixa de R$ 1300, relativa à preparação e mais R$ 50 para Eãeltr vcstibular prestado. De posse dessas informações, vamos calcular as medldas €e posição da variável D: despesa com vestibular. Pela definição desta nova
t!
ãoh.,:50 x
Entãro,
(9Bc
:
n"ff\P.To,,,(x) Potlt scr de inteúse estudar o gasto dos alunos
mdr,6r(L)
í,,hs:
I+2
75" + 76"
:
md'o1,"(X)
/'
98,6 c.
Para a mediana segue que,
98c
t' .jÊ'',
:98,6c *
1,73
*
x
md,o1,r(D) e.
Il fácil ver que para a mediana md"6,(T) : 99c * e e que para a moda, tno,1,"(T): 100c * e. Dessa forma, o acréscimo por uma quantidade e teve o eí'eito de somar essa mesma constante às medidas de po.sição. n Iixemplo 4.3: Foram coletadas 150 observações da variável x, representando o ttúnlaro de vestibulares FUVEST (um por ano) que um mesmo estudante prestou, Assim, foi observado que 75 estudantes prestaram vestibular FUVEST, uma única vcz, e assim por diante. Os dados estão na tabela abaixo:
mo"1,"(D)
:
50
1300
1,5
:
* 1300 :
x 1+
1300
:
1375;
fI
1350.
fuenplo 4.4: l-lm estudante está procurando um estágio para o próximo ano. As €Btttltrurlrias A e B têm programas de estágios e oferecem uma remuneração por ãÕ lr,,r',,* semanais com as seguintes características (em salários
Companhia média mediana moda
A
B
)5
2,0
T,7
1.9
1,5
l,g
mínimos):
QUttl c.rrnpanhia é mais adequada?
Calculando as medidas de posição de
I $#t'l''' \'
X,
obtemos
Ix75t_2x47-t3x2I+4x7 : 150
Lr73;
lrricialmente vamos discutir as informações fornecidas, supondo que o ëlttttlirrrtc terít seu salário "escolhido" de acordo com uma política salarial FcErrrrritlir na tabela anterior. A companhia Á tem 50vo dos seus estagiários @r'elrrtttltl ú(: l,'7 salários mínimos e o valor com maior freqüência de ocorrência ,é f ,t, ('rrrÌìo a média é2,5 deve haver alguns poucos estagiáiios com salário bem llìtris irlío, isto ó, valor alto de salário com freqüência pequena de ocorrência. A €Elrtlrttttltiit R tem as três medidas bem próximas indicando umaíazoâvel simetria êltttr: sllítrios altos e baixos. A opção do estudante dependerá de sua qualificação.
9,ï
Capítulo 4: Medidas Resumo
Se ele for bem qualificado, deve preferir a companhia ,4, pois terá mais chance de
obter um dos altos salários. Se tiver qualificação próxima ou abaixo dos outros cstudantes, deve preferir a B que parece ter uma política mais homogênea de
tr
salários.
vamos, agora, descrever algumas medidas associadas às variáveis aleatórias eue, como já mencionamos, serão correspondentes às medidas
irlgurnas situações, as desigualdades são satisfeitas por qualquer valor num o intervalo e, nesse caso, tomamos a mediana como o ponto médio do
A moda é o valor (ou valores) da variável que tem maior probabilidade de Egrt'êttcia, representando-a por Mo, temos
P(X : Mo) :
apresentadas para um conjunto de dados.
sabemos que a descrição completa do comportamento da variável aleatória discreta é, feita através da sua função de probabilidade. Assim sendo, é razoável pensar que, qualquer que seja a quantidade destinada a resumir esse comportamento, sua definição deverá envolver, de alguma forma, essa função de probabilidade. A medida mais popular é o valor esperado, ou simplesmente média, el representa o ponto de equilíbrio da distribuição de seus valores. Da mesma forma, como mencionado no caso de um conjunto qualquer de valores, o uso do valor
esperado como síntese de toda a informação pode levar a distorções e interpretações equivocadas. Em especial, é possível construir uma função de probabilidade, com valores da variável muito diferentes uns dos outros, em que a rnódia não caracteriza o real comportamento da variável aleatória. A média junto com a moda e a mediana são medidas de posição ou de tendência central e são
De.finição 4.2: Medidas
A
de posição
média, valor esperado
para varídveis aleatórias discretas
ol
esperança de uma variável
X
é dada pela
cxprcssão:
: Dr, À
E(X) '
ou
P(x > Md)>Ll2 e P(x < Md) > 1/2.
X
tr
com a seguinte função discreta de
Enttts.
/Í,.=
t i ïipi: (-
5) x 0,3 * 10 x 0,2 * 15 x 0,4+20 x 0,1 :8,5.
A mrrrll ó o valor com maior probabilidade e, portanto, segue q1ae Mo: 15. Por ËÈltnr lnclo, a mediana poderá ser qualquer número entre 10 e 15, pois, para P e I ttt, J.5], temos
P(X0,5 e P(X >b) >0,5. ftln
c'orrvenção adotada, tomamos
Md:12,5
(ponto médio do intervalo).
tr
O$serve que nem a mediana, nem a média precisam ser valores assumidos peln vrrriÍrvel aleatória. No exemplo anterior, a média de X foi 8,5 e a mediana 13,õi tpro são valores não assumidos pela variável aleatória' l)c modo similar ao ocorrido com as medidas de posição num conjunto de dcrl,rs, ir rnultiplicação ou a adição de constantes a uma variável aleatíriafaz com gue suiÌs medidas de posição fiquem multiplibadas ou acrescidas pelas mesmas €Elllslitttlcs.
.
i:L
umer notação alternativa é representar E(x) por px ou simplesmente Itouver possibilidade de confusão. A mediana é o valor Md que satisfaz às seguintes condições
max (P1, Pz,' ' ', Pn)'
4.5: Considbre a variável aleatória
clefinidas a seguir.
Suponha que os possíveis valores da variável aleatória sejam rcpresentados por tt, 12, . . . , tÃ., com correspondentes probabilidades 'l)t,'l)2,',. ,Pk.
99
1,2 Al*lidas de Posição
Eremplo 4.ó.. Considere uma v. a. X com função densidade discreta dada por
p,
se não
Nnrr rl tlil'ícil verificar que f/ : 10,3; Md : 8 e Mo : 5. Se uma nova variáxelY é rrlrlitlir it partir de X através de Y : 5 X - 10, sua função de probabilidade será
100
Capítulo 4: Medidas Resumo 4,2 Medidas de Posição
o cálculo Fv
:
Ressaltamos que, no caso de conjunto de dados, usamos letras minúsculas pnrit denotar as referidas medidas, eniluanto, no caso de variáveis aleatórias, Ulilizamos letras maiúsculas. Como mencionamos, a interpretação é feita de modo das suas medidas de posição pode ser feito pela definição. Temos
g x 0,1 * 15 x
Md(Y) : Mo(Y)
101
:
0,3+... +90 x 0,2 :
30, pois é oúnico valorcom
girnilar nos dois casos.
4L,5)
p(y > 30) > 0,5 e p(y < B0) )
Fxcrcícios da Seção 4.2: 0,5;
Estes mesmos resultados poderiam ser obtidos a partir das medidas de posição de X multiplicadas por 5 e subtraídas de 10. Isto é,
Esta propriedade
tr
Na Tabela 4.1, apresentamos as expressões para as medidas de posição para as duas situações estudadas: conjunto de dados e variável aleatória. Tabela 4.1: Medidas de tendência càntral.
l)iscuta quais medidas de posição seriam mais adequadas para os conjuntos de dados abaixo. Comente suas escolhas.
15, pois é o valor com maior probabilidade.
Fv:5x10,3-10:41,5; Md(Y):5xB-10:30; Mo(Y):5x5-10:15. facilita cálculos e pode ser bastante útil.
l.
disponíveis dados mensais sobre a incidência de envenenamento por picada de cobra. Deseja-se planejar a compra mensal de antídoto. lr. O número diário de usuários, entre 17 e 19 horas, de determinada linha de ônibus foi anotado. Pretende-se utilizar essa informação para dimensionar a frota em circulação c. Um fabricante de baterias deseja divulgar a durabilidade do seu produto e coleta a informação sobre a duração de 100 de suas baterias. tl. Num vôo internacional uma companhia serve dois tipos de pratos no jantar: peixe ou frango. Um banco de dados contém os pedidos feitos nos últimos 200 vôos. Pretende-se planejar o número de cada tipo a ser colocado à disposição dos passageiros. tu. Estão
0
i
2, Vinte e cinco residências de um certo bairro foram sorteadas e visitadas por um cntrevistador que, entre outras questões, perguntou sobre o número de tclcvisores. Os dados foram os seguintes:
2,2,2,3,7,2,1,
1, 1, 1, 0, 1,
2,2,2,2,3,r,1,
3, 1, 2,7,0 e
2.
Orgirnize os dados numa tabela de freqüência e determine as divers as rlc posição.
l
//
l
^eai# I
.1. Ntrrn experimento, l5 coelhos foram alimentados com uma nova ração e seu pcso avaliado ao fim de um mês. Os dados referentes ao ganho de peso (em r;uilogramas) foram os seguintes: I
1,5; 1,6; 2,3;\7,7;
!;5;2,0; L,g; I,8;2,7;2,L; L;9i \,8;i.!,7;2,5
n. Utilizando os dados brutos, determine média, moda e
e 2,2.
f
mediana desse
conjunto. lr. Organize uma tabela de freqüência com faixas de amplitude 0,2 a partir de 1,5'
I
t02
Capítulo 4: Medidas Resumo
c. calcule, a partir da tabela de freqüência e com o ponto 'krédio como d.
representante de cada faixa, a média, a moda e a mediana. comente as diferenças encontradas com o item (a). se ao invés de 15, fossem 500 coelhos, qual seria o procedimento mais conveniente: o de (a) ou o de (c)? Ter acesso a computador faz diferença?
4. Sendo
x
uma variável aleatória com função de probabilidade dada a seguir, obtenha as medidas de posição 1t, Md e Mo.
a-.'' 5. Para cada item abaixo, construa uma_variável aleatória que atenda as condições indicadas. à. p: Md : Mo.
> Md.: Mo. Md < Mo. < t-L 6. um atacadista recebe b.
pr,
( -"
c.
de vários fornecedores uma certa peça para revenda. A peça ê produzida com material de qualidade diferente e, portanto, tem custo
diferenciado. Levando em conta a proporção fornecida e o preço apresentado por cada fabricante, pode-se admitir que o custo de uma peça em reais, escolhida ao acaso, é uma variável aleatória (C). Admita a seguinte função de probabilidade para C:
103
4,.ì Medidas de DisPersãtt
rtumente os altos rendimentos de alguns residentes serão suficientes para fazer mundo, porém ê trróclia atingir um patamar comparável às melhores economias do grande. O que podemos e rliscrepâncìa entre os diversos valores deve ser muito cntrrr.esquecendo é a variabilidade dos valores da variável e isto não é captado
Ee
pelrr rnéãia e sim pelas medidas de dispersão' Por exemplo, para o conjunto de Vnl.,,'cs 0, 20 e 40 a média é igual a 20. O mesmo acontece com o conjunto 20, 30 c 20. Os dois conjuntos têm valores bem diferentes, apesar de terem a mesma
fltérliir. De fato, éfâctl construir exemplos onde dois conjuntos de dados distintos possuem medidas de posição idênticas. Em muitas dessas situações existe
ãli'.r"nço em relação à dispersão dos dados, isto é, quanto à maneira como os Valer.cs de cada conjunto se espalham. A fim de quantificar tal çaracterística, vtliuos definir algumas medidas de dispersão' Dc,f'ittição 4.3: Amplitude de uma varidvel em utn coniunto de dados
A amplitude, referente a uma certa variável, é definida como a diferença n por A. €lltr.c o maror e o menor valor do conjunto de dados. Será denotada
A amplitude só leva em conta dois valores de todo o conjunto e, assim, as ãer.iir mais cónveniente considerarmos uma medida que utilizasse todas em observação Ëltscrvações. Uma idéia inicial é considerar o desvio de cada
seja felrrçiro a um ponto de referência e então tomar sua média. caso a observação seria negativo, caso seja maior, positivo' A de sinais diferentes se compensem, que termos Fqrrur cle tais desvios fará com p6tlcrrclo ocultar o efeito da variabilidade. Esta dificuldade é discutida no exemplo
nttrilr do que a referência, o desvio ê üegtlir.
a. Determine as medidas de posição davariâvgl C. b. Suponha que o atacadista revenda cada uma dessas peças acrescentando 50% sobre o custo da peça, além de um adicional de R$0,10 pelo frete. Calcule as medidas de posição davariâvel preço de revenda.
E,rttttplo 4.7: Numa classe com 12 alunos de um curso de inglês, os alunos llrlir:itt'am o número de outras línguas (além do português e inglês) que tinham 1, 1, Hlg,rrrla familiaridade. Os resultados ordenados foramos seguintes: 0;0,0,0, obtemos e mediana a e a média dificuldade sem f , l, I ,2,2 e 4. Calculamos iT,,/,r
.
13f 12 e md,,6*
Apesar das medidas de tendência central fornecerem uma idéia do comportamento das variáveis, elas podem esconder valiosas informações. Essas medidas podem não ser suficientes para descrever e discriminar diferentes conjuntos de dados. Por exemplo, um bairro nobre da capital paulista inclui umir das maiores favelas de São Paulo. o que podemos dizer da renda média do bairro?
L.
O desvio de cada observação em relação à
ex;rlcssito
4.3 Medidas de Dispersão
:
ri -
m(1o65.
[], 0, 0, 0, ]-, 1
Para o conjunto de dados acima temos:
e 3.
é obtido pela -1, -1' -1, -1, 0,
mediana
Se calculamos a média desses desvios obtemos 1/12'
Nultrrrr
impressão de pequena variação. Um caminho que é trlÍcr.nirtivo seria tomar a média dos valores absolutos dos desvios acima, o rllrrrrtttitttdo tlesvio mediano e definido por
rlrs rlcsviós e dando a falsa
104
Capítulo 4: Medidas Resumo
relação à média. Isto é,
"12
Exemplo 4.8: No Exemplo 4.1, foram fomecidas as quantidades de parafusos em l0 caixas de um lote. Pelos valores observados, o maior número de parafusos foi 102, ao passo que o menor foi 95. Logo, a amplitude será dada por
A--102-95:7. Para calcular a variância, utilizamos o valor da média, 98,6; já,obtido no teÍ'crido exemplo. Para auxiliar nos cálculos, podemos construir as tabelas abaixo.
tJlilizando a expressão da Definição 4.4, é necessário criar colunas com os (*o - Tnt r)2, enquanto que a expressão alternativa requer vrrlrrres ri - Tohs
"
b(
L24lri-T"n''l: 6 '
D
llpcnas uma coluna com os valores
os
desvios mediano e médio utilizam a função módulo que, por suas características matemáticas, torna mais difícil o estudo de suas propriedades. Definimos a seguir uúa nova medida de dispersão que úiliza o quaãrado dos desvios em relação à média.
Definição 4.4: Variâ,ncia e desvio-padrão etn um conjunto de dados
x
de um conjunto de dados, é definida
por aTl
lÍ-.-
ver(,hs:: /-' ) .(", -T,,t r)2 n,
.
Para manter a mesma unidade dos dados originqis, é conveniente definirmos o
desvio-padrão como sendo dpob,: var,n . f confusão, faremos menção à variável X, utilizando
se houver a notação
1:;
ri'-
I
98
r02
-
2
,L
Tob,
.
/ \ri
Alternativa:
-
-I,'hs)'\.,
L
0,36
1
98
11,56
2
102
da variância como uma medida de variabilidade. Entretanto, é possível obter uma
100
r14
1,96
.)
100.
100
L,4
1,96
4
100
10000 10000
5
99
0,4
6
97
I
96
8 Í)
95 99
- 2,6 - 3,6 0,4
0,16 2,56 6,76 L2,96 0,16
I
l0
100
L,4
1,96
10
40,40
total
1,6
total
5
99
9801
6
97
9409
7
96
8
95
9276 9025
99 100
10000
Scp,rrc da
Definição 4.4 e da tabela correspondente que:
vlr(,hs:
1.\. ; L\",X:I
\, :
t1,6*)'
ff : n,on'
lrt:lir cxpressão alternativa, temos Vgfobs
t
- v \--, Q-t
_u
*obs'
9604 70404
L)
expressão alternativa que facilita os cálculos. Fica como exercício ao leitor 4'ILl
ri'
4
possibilidade de
var,,6_(X). tr
lLi
0,6 3,4
A expressão apresentada na Definição 4.4 auxilia o leitor na interpretação mostrar que:
rf
i,,)lsiò$
I)efinição 4.4:
A variôncia, referente à variável
105
qrrc em muitos casos envolve decimais e torna-se muito trabalhosa.
uma outra maneira de calcular os desvios é em relação à média e, neste caso, a expressão a ser usada é r,; - rotr. A soma desses desvios sempre dá zero se o cálculo for feito sem arredondamento e, portanto, a média deles também é sempre zero. Dessa maneira, essa medida não seria nada informativa sobre a dispersão das observações. Entretanto, podemos tomar os valores absolutos obtendo o desvio m,édio, que é definido como a média dos valores absolutos dos desvios em
médio: - a \-
Medidas de Dispersão
A vantagem de usar essa expressão alternativa é evitar a operação de subtração,
desvio mediano : iElni - md.o6,l : *
desvio
4,.1
1.\ -1 vctt'(il).\:- > .rí" -ri,t^ n,-' z=l
:- 97260 -:1nu,u;): n,on. 10
9801
97264
t0(t
Capítulo 4: Medidas Resumo
Naturalmente, qualquer que seja a expressão utilizada, o desvio padrão é dado por
dpohr:
n
JT,04:2,AI.
Para o caso em que o conjunto de dados está organizado numa tabela de freqüência, o cálculo da variância será modificado de forma conveniente com a
ponderação dos desvios pelas respectivas freqüências. Aproveitamos o próximo exemplo para ilustrar essa situação, além de discutir o efeito, sobre a variância, da multiplicação ou adição de constantes aos valores da variável de interesse.
Exemplo 4.9; No Exemplo 4.3, definimos a quantidade D, despesa no vestibular, obtida a partir de x pela expressão D:50 x x*1800, com x indicando o número de vestibulares prestados. Para efeitos didáticos, antes de obter a variância de D, vamos calcular a variância de X e da quantidade auxiliar Y:50 x x. Iniciamos por ampliar a tabela de freqüência de x, para incluir também os valores deY e D. Temos,
X
Y
D
Tri
1
50
1350
75
2
100
1400
47
J
150
r450
2L
4
200
1500
7
14
# -- " D",(*, i:l
107
Dispersão
Ee trtorlo análogo, escrevemos
var,,6,(Y):
rttr,6,(D):
I #
#
(7b
x
502
(75 x 13502
+.'. + 7 x200\ -86,52 :1917,5i +...+7 x 15002) -
1386,52
:rgr7,5.
Note que a variável D nada mais é do que Y acréscido de 1300. Não €bãliyì(e, suas variâncias são iguais, isto é, o acréscimo de constante não alterou a ïCrilìrrcia. Esse resultado é de certa forma previsível, pois a adição ou subtração $g çorrstante corresponde a uma translação dos valores dessas quantidades, não êltet'ntrclo sua variabilidade relativa. Por outro lado, Y é igual a 50 vezes a yât'irívcl X e sua variância é 502 vezes a variância de X. Esse resultado se explica, pgls l multiplicação por constante altera a distância entre os valores da variável àflgirrll e, pela fórmula da variância, o efeito será pelo quadrado da constante. E E*emplo 4.10: O salário de professores do ensino fundamental da rede privada €Flri scrrclo estudado. A tabela abaixo apresenta os valores, em salários mínimos, €btitlos em um levantamento numa certa cidade. Desejamos calcular a média e a Vât'iÍìncia desse conjunto de dados.
As médias de X e D jâforam calculadas no Exemplo 4.3 e a de Y segue sem dificuldade. Assim, Ír,hs : I,73; y,,6-: 86,5 e ã,,h, L 1386,5. Para calcular a variância de X, via tabela de freqüência, adaptamos as expressões apresentadas anteriormente obtendo:
var,,6.(X):
1,.1 Ã4uliclas de
r,,0,)'
,
Salário
freqüência
1F3 3F5
L4
5-7 7-9
25 1B
I
9F11
4
total
70
ou, na forma alternativa,
Vafr,6r(X)
:
hD",",
_c nohs'
Optando por utilizar essa última expressão temos o seguinte cálculo:
var,,1,,,(X):
1
r,o
(Tsxt2 *4T x22 +2r x 32 + r x +2)-r,TJ2 :0,767.
f-o1lo ir variável está apresentada em faixas de valores, não temos os valores elï.livirnrente observados e, portanto, não podemos aplicar as fórmulas da média e rlrr virriârrcia. Para contomar essa situação e obter resultados aproximados para as ttrt,rlirlas clesejadas, tomamos como representante de cada faixa seu ponto médio. ['orrr cssit alternativa, o cálculo é feito nos mesmos moldes das variáveis
t08
Capítulo 4: Medidas Resumo
14x2+25 x 4+ ". *4 x
10
70
-
:
4,97.
Para a variânpia: VQfohs
:h'"*r -77,u":29,7I - 24',72:
4,99.
109
Medidas de Dispersão
a informação dos valores esperados, medianas e modas concluiríamos por uma perfeita harmonia de desempenho disponível, ctitivesse elttrc os vários métodos. Entretanto, como podemos observar pelas distribuições de probabilidade, esse não é o caso. Por serem medidas de tendência central, as trÊs rnedidas acima não captaram a variabilidade existente em cada método. D
,
quantitativas discretas. Assim,
.5 ln : : Iohs '(0 ) Tli.:xi -
4,.1
Se apenas
Como mencionamos para as variáveis em um conjunto de dados, podemos ter várias maneiras de medir a dispersão. Para o caso de variáveis aleatórias vnrlìos definir apenas a variância, que é a medida mais utilizada. De.linição 4.5: Vartância de uma varidvel aleatória discreta
Para um salário mínimo de R$ 180, a média e a variância dos salários em reais seriam, respectivamente, 180 x 4,g7: 894,60 e 1802 x 4,gg: 161.676,00. tr
Vamos, agora, apresentar as medidas de dispersão para variáveis já mencionamos no início da séção, as medidas de posição não "explicam tudo" que está acontecendo, seja num conjunto de dados ou com variáveis aleatórias. O próximo expmplo reforça essa idéia para o caso de
Seja X uma variável aleatória com P(Xi - *n) : P,i,'i : L,2,... ,k e Itrédia p. A variância de X é a ponderação pelas respectivas probabilidades, dos tlesvios relativos à média, elevados ao quadrado, isto é,
aleatórias. Como
variáveis aleatórias.
Exemplo 4.11: llma pequena cirurgia dentária pode ser realizada por três métodos diferentes cujos tempos de recuperação (em dias) são modelados pelas variáveis Xr, Xz e Xs. Admita que suas funções de probabilidade são dadas por
0,2
10
0,2
0,2 .
x, I 1 5 9 Pi I tls 113 rl3
k
Var(X): '
t
(*,
i:I'
-
p)'
pu
.
Muitas vezes, denotamos a variância por o2 e, se houver possibilidade de €otìÍusão, usamos o2r.Exttaindo araiz quadrada da variância obtemos o desviotr pulrtÍo que é representado por d ou ox.
Exctnplo 4.12: Retomando o exemplo anterior, calculamos as variâncias dos tenrpos de recuperação para cada método. Temos,
Wtr(X): (0-
5)2
x0,2+(4-5)2 x0,2 + "'+ (10-b)2 x0,2:10,40.
l)e rrrodo análogo, obtemos:
O valor 0 na variável X1 pode ser interpretado como recuperação no mesmo dia da cirurgia. Na tabela abaixo, apresentamos o valor esperado, a mediana e a moda para cada uma das três variáveis. Vale ressaltar que a moda nem sempre é única e para construir a tabela a seguir, escolhemos o valor 5 como representante dos valores modais de X1e X2. X1
X2
X3
valor esperado
5
5
5
mediana moda
5
5
5
5
5
5
Var(X2)
:
L0,67
e Var(X3): 0,60.
l)cssa Íbrma, utilizando-se os métodos 1 e 2 (variáveis X1 vrrrinbilidade
no tempo de recuperação.
e X2),teremos
A variância definida
maior
n
anteriormente pode ainda ser considerada como o vrrlor csperado de uma nova variável aleatória, o desvio ao quadrado. Isto é,
Var(X):E[(X-p)2], it rltrirl pode ser convenientemente reescrita na seguinte forma
u0
Capítulo 4: Medidas Resumo
Tabela 4.2: Medidas de dispersão.
k
Var(X)
: E(X\ - P2 : la,"? - ut' i:L
Esta última expressão é bastante útil e, para não criar confusão, explicitamos os seus termos. O termo E(Xt) é o valor esperado da variável ãleatória X2, ao passo que p2 indica o quadrado do valor esperado de X. O próximo exemplo recalcula as variâncias do exemplo anterior, através da expressão acima.
Exemplo 4.13:
A partir das funções de probabilidade de X1,X2 e
Xs
apresentadas no Exemplo 4.11, obtemos
',:ri;,iií
I
llìlìÌ
'
u"lsf#'"!'üli
:.
i
:,'i;i;iiir,-:u^€2,;t tl'.:li!;!.?.ì
::. Variânciá-,.Ì;= *:
:::
::::::::::-r:.,,
: r:l
::.:!;:::..:!..í:l/a;U
llllllltlììÌffi j :
x3
25 81
I r
w"@
x?l 16 2b 36
: P(Xt -- 4 ou Xt :
4)
: P(Xt :
0,2
$Jr
r-r,ip',í.Ít,i;
+
16
x 0,2 t"' +
rlf;\ -:i.'
"4,::r
conjünió oe nàaos
4),
uma vez que X1 não assume valores negativos. Temos então que
E(x?) : 0 x
(nltcrhâti.v,a),[
t
como por exempÌo,
16)
un',;6;f1[rÍi:=
Tabela 4.3: Propriedades da média e da variância.
As funções de probabilidade acima foram obtidas a partir de operações simples,
P(X?:
IlI
1,,ì Medidas de Dispersão
i::i;
100
x 0,2 :35,40.
#,,
,
,
Ë*íY,ÍÍ ,Ïi.fiffi
Então,
Var(X):35,4-* - 10,40. De modo análogo, obtemos E(Xï :35,67 e n(X'zr) :25,60; resultando emVar(X2) = 70,67 e Var(X3): 0,60. tr A Tabela 4.2 auxilia o estabelecimento da correspondência entre as medidas de dispersão obtidas a partir de um conjunto de dados e aquelas calculadas para variáveis aleatórias. Em seguida, na Tabela 4.3, apresentamos um resumo das propriedades da média e da variância discutidas até agora.
Vamos concluir esta seção apresentando, através de exemplos, os cálculos
do vlrlor esperado e da variância de alguns dos modelos teóricos que foram del'irr itlos no capítulo anterior.
Et'ttttpltt 4.14: SejaX com distribuição Bernoulli de parâmetro p. Temos
E(X):0x(1 -p)+Lxp:p 6\: 02 x Q - p) * L2 x p: Lrrg,,, ir variância ""rf Var(X)-p-p2:p(t-p).
e
p
'
tr
Capítulo 4: Medidas Resumo
1t2
Exemplo 4.75: Para uma variável aleatória parâmetrosnep,temos
X
j:r
:iD,r- (+)' .:J: L
_L k(k+r)(zk+7) k6 :- k2-L
6-#@='Pk(1-P)'-k
(n - 1)! L)t . nk_r (7\ - p)-' ''' 2 @-\r,k)t(k 1)!' À:1 n,
k-L
por
j
e, em seguida
n-I
pot r
obtemos
- "e'F_(,) r, e - p)' -i :
np,
a somatória é igual a 1, pois corresponde a somar todas
probabilidades de uma variável Binomial com parâmetros r e p' A variância será calculada mais facilmente no próximo capítulo, qua apresentaremos propriedades da variância da soma de variáveis independentes. Por ora, só informamos que seu valor é nplL - p)'
k:k
E(Y):Lipv : ì:Di j:1 j:1
L
k
ï>,t: '"
a
k+7
,
.:i=t
Para calcular a variância usaremos o seguinte resultado de soma de séries: k
D/: .:i:r
então,
k (k
+ L)(zk +
L)
+ t)2
(tç
ú
Para se calcular o valor esperado e a variância, no caso dos modelos de Pglss
Tabela 4.4: Modelos discretos- valor esperado e variâncía. tffiëi1,///,//rÈij"l;,.?.ï*.-tF.
Variável Diicietá'; : ;; /ji;..!. ... .........:.:;....-. -
wffi"',
Exemplo 4.16: Considere a variável aleatória Y com modelo Uniforme entre os valores I e k. Aplicando a definição de esperança matemática utilizando a conhecida expressão para a soma de uma progressão aritméti temos
_
12
sì
uma vez que
(ry)'
: Ë i2P(Y : i)-
n' :ik, (r- P)"-* (n-úub* ?'" A:I
E(x)
E'(Y)
-
k
À;:0
Substituindo nesta última expressão,
113
Dispersão
Var(Y): E(Y\
com distribuição
E(x):IkP(x:k)
:Ë
1,.1 l+4cdidas de
;-. r:
Ì)(
r! !.!ìl$nìN!
_:::h6 t
x||
!i:!1
b)ii Èiii:l:::
:
I
LLtìt\\\riìti
Ésffi\è,wqryì lìsì,::l:ì;;,:: :I
Ws'..14)! 'W"{"/"Kí,2/'r'*?tí:;i-z7:titi
r.É
"riltii;it
il4
Capítulo 4: Medidas Re
Exercícios da Seção 4.3:
l.
Você está indeciso em comprar uma televisão e decide avaliar a informações estatísticas, fornecidas pelo fabricante, sobre a duração (e lroras) do tubo de imagem. Marca da TV Média Mediana Desvio Padrão
2.
GA 8000 8000 600
EB 8200 9000
8000
1500
2500
HW
.jogador ganhou menos o pagamento inicial (prejuízo 'é lucro negativ.o). l)ctermine média, moda, mediana e variância dessa variável. 6. Nrrma certa cidade, o número de crianças em idade escolar, em famílias com 4 f ilhos, é uma variável aleatória modelada pela Binomial com parâmetros n : 4 c 1r: 0,6. Para cada filho em idade escolai, um projeto de apoio à educação prrga 1 salário mínimo para a família. Calcule a média e a variância do custo rlcsse projeto por família.
7000
e
Com que marca você ficaria? Justifique.
4.4 Exercícios
A
l,
pulsação de 10 estudantes no início de uma prova de estatística?úam
)86. Calcule a média
"
a uuriân"iu
O"rr"
"âÈ".âì
3. Num estudo sobre consumo de combustível, 200 automóveis do mesmo ano modelo tiveram seu consumo observado durante 1000 quilômetros. infbrmação obtida é apresentada na tabela abaixo em km/litro. Faixas
29
9F10
46
10
F 11
43
11
F
55
12
rrcsse local.
l. listudando uma nova técnica
de sutura, loram contados os dias necessários para ir completa cicatrizaçáo de determinada cirurgia. Os resultados de 25 pacientes
lìrlam os seguintes: 6, 8,9, 7,8,6,6,7,8,9,10,7,8, 10,9, 9,9,7,6,5,7,7,8, l0 e I 1. Organize os dados numa tabela de freqüência e calcule a mêdia e a
Freqüência
7F8 8F9
27
(-_:,.
virriância.
ã, IJrna amostra de vinte empresas, de porte médio, foi escolhidapata um estudo sobre o nível educacional dos funcionários do setor de vendas. Os dados coletados, quanto ao número de empregados com curso superior completo, são rrpresentados abaixo.
Empresa
No. Funcionários
Nurn certo bairro da cidade de São pauro, as companhias de seguro cstabeleceram o seguinte modelo para o número de veículos furtados por sclnaniì:
purtosl_o.
_1_
2 J n
---'t'
,-
tlrrr certo cruzamento tem alto índice de acidentes de trânsito, conforme pode scr constatado em uma amostra dos últimos 12 meses: 5,4,7, B, 5, 6, 4,7, g, 7, 6 e B. Determine a média e a variância do número de acidentes mensais
Detennine o desvio padrão do consumo.
4.
t15
4,4 li.rtrcícios
t" \.
1
2
t d
4
5
6
7
8
I
10
11
1
0
0
r)
t
0
L
I
2
2
2
0
Empresa
72
13
14
15
16
t7
1B
No. Funcionários
2
0
2
0
1
1
2
19
20
t
2
L)
Organize uma tabela de freqüência e calcule média, moda e mediana.' b. Determine o desvio padrão.
ru.
calcule a média e a variância do número de furtos semanais desse bairro. 5. Nunr jogo de dados, umjogador paga R$ S puralançar um dado equilibrado e ganha R$ 10 se der face g, ganha R$5 se der face 5 e não ganha nãda as outras faces. Defina a variável luçro por jogadacomo sendo o saldo do"o* que o
e
c. As empresas pretendem
incentivar
o
estudo dos seus funcionários
oÍ'erecendo um adicional de 2 salários mínimos para cada funcionário com curso superior. Qual será a despesa média adicional nessas empresas? .1.
As notas finais de estatística para alunos de um curso de Administração foram irs scguintes: 7, 5, 4, 5, 6, 3, 8, 4, 5, 4, 6, 4, 5,6, 4,6,6,3, 8, 4, 5, 4, 5, 5 e 6.
ilô
Capítulo 4: Medidas R
a. Determine a mediana e a média. b. Separe o conjunto de dados em dois grupos denominado s aprovados, nota pelo menos igual a 5, e reprovados para os demais. Compare variância desses dois grupos. 5.
n.
ã,
a. Construa uma tabela de freqüência. b. Calcule a média e o desvio padrão.
ç
c. Admitindo que cada telefonema acarreta serviços sob a garantia avali em R$ 50 por chamada, calcule a média e o des.rio padrão das oriundas do atendimento ao consumidor. 7. lioram anotados os níveis de colesterol (em mg/l00m1) para trinta pacientes urna clínica cardíaca. As medidas se referem a homens entre 40 e 60 anos idade que foram à clínica fazer um check-up. .)
Paciente
1
2
d
4
5
6
I
8
I
10
Colesterol
160
160
161
163
167
170
172
172
173
177
Paciente
11
T2
13
74
15
16
T7
1B
19
20
Colesterol
178
181
181
782
185
186
194
797
199
203
22
23
24
25
26
27
28
29
30
205
206
206
208
209
217
214
2IB
225
(lllcule
a média, a moda, a mediana e a variância a partir da tabela de dados
o
tcrnpo, em horas, necessário para um certo medicarnento fazer efeiÍo é
0,2r 2,71 2,12 2,81 3,30 0,15 0,54 3,r2 0,80 1,76 1,I4 0;16 0,31 0,91 0,18 0,04 l,16 2,16 I,48 0,63 H. ( lllcLrle a média e a variância para o
conjunto de dados. b. (bnstrua uma tabela de freqüência para classes com amplitude de 0,5 hora, corneçando do zero. f. Suponha que o conjunto original de dados foi perdido e só dispomos da
encontradas.
o departamento de atendimento ao consumidor de um concessionária veículos recebe, via telefone, as reclamações dos clientes. o número clramadas dos últimos 30 dias foram anotados e os resultados foram: 3,4,5, 4, 5, 6, g, 4, 4, 5, 6, 4, 3, 6, 7, 4, 5, 4, 5, 7, g, g, 5, 7, 5, 4, 5, 7 e 6.
27
203
Itplcscntado abaixo:
c. você identifica algum valor excepcional dentre os que foram observados, Se sim, remova-o e recalcule os itens (a) e (b). Comente as difr
6.
l)aciente
Colesterol
llrutos. b. ( )r'ganize os dados em uma tabela de freqüência com faixas de tamanho de l0 a partir de 160. l{cÍìrça o item (a) usando a tabela de freqüência obtida em (b). e, (lomente as diferenças encontradas entre os valores das medidas calculadas al. crn (a) e (c).
um lrospital maternidade
está planejando a ampliação dos leitos para recé nascidos. Para tal, fez um levantamento dos últimos 50 nascimentos, obtendo informação sobre o número de dias que os bebes permaneceram no h antes de terem alta. os dados, já ordenados, são apresentados a seguir: 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4,4,4,4,5,5,5, 5, 5, 5,6,7,7, g e 15. n. Organize uma tabela de freqüência. b. Calcule média, moda e mediana. c. Determine o desvio padrão. d. Dentre as medidas de posição calculadas em (b), discuta quais delas seri mais adequadas para resumir esse conjunto de dados.
t17
4.4 li.rarcícios
tirbcla construída em (b). Utilizando alguma suposição conveniente, rcrculcule a média e a variância e comente as possíveis diferenças
cncontradas.
1
Ertrrrlirnclo-se o número de acertos em 100 lances-livre de bola ao cesto, uma $uros(r'a com 20 jogadores forneceu os seguintes resultados: 68,73, 61, 66,96,
ft), (t5,86, 84, 79,65,78,78,62,80,67,75,88, 75 e 82. Agrupe
as
obsr:r'vações em intervalos de comprimento 5 a partir de 60 e, usando alguma Irrgrosiçiro adicional, determine a média e a variância do número de acertos em l(10 irllcmessos.
10.
t
I Sindicato
dos Engenheiros do Estado de São Paulo está estudando o
irrrgrircto do estágio na obtenção de bons empregos. Dentre os engenheiros a'r'r'd'ru Í'ormaclos e com empregos considerados bons, foi sorteada uma aúostra c' olrscrrvado o número de anos de estágio anteriores à formatura. $, ('irlculc a média e a variância.
It- l'irnr cl'eito de análise, decidiu-se desprezar os valores que se distanciassem tlir rnódia amostral por mais de dois desvios-padrão, isto é, só serão crrrrsiclcrados os valores no intervalo fronr* 2 dponr. Recalcule o item (a) e corncntc os resultitdos.
il8
Capítulo 4: Medidas Resumo
1,.1
119
Exercícios
Anos de estágio
freqüência
Interrupções
freqüência
0
25
0
1
5B
2
t47 i05
t2 t4
,
r)
4
1
I
2 .)
I
4
t d
5
3
5
72 45
6
10
6
2
total
462
total
50
11. Na linha de produção de uma grande montadora de veículos, existem 7 verificações do controle de qualidade. Sorteamos alguns dias do mês e anotamos o número de "OKs" recebidos pelos veículos produzidos nesses dias, isto é, em quantos dos controles mencionados o automóvel foi aprovado. Aprovações 4
freqüência
5
359
L26,
6
1685
7
4764
total
6934
a. Determine média, moda e mediana do número de aprovações por automóvel
produzido. tr. Calcule a variância.
c. crie uma nova variável Reprovações, indicando o número de verificações não "OKs" no veículo. Determine média, moda, mediana e variância dessa
Determine a média e a variância do número de interrupções semanais. b. O Governo Federal aplica uma multa de 10 mil reais por semana, se há pelo menos uma interrupção no fornecimento. Calcule a média e a variância do valor das multas aplicadas por semana. c. A Prefeitura dessa cidade fez um levantamento dos prejuízos, nos vários setores, decorrentes da falta de energia e atribuiu um valor total de 900 mil reais para ser ressarcido pela companhia responsável pelo fornecimento de eletricidade, referente ao período de 50 semanas. Qual seria o prejuízo médio por semana? rl. Nesse período, qual será a média e a variância do desembolso semanal da companhia, incluindo multa e ressarcimento de prejuízo? ru.
de uma faculdade pretende iniciar uma campanha junto à direção da escola com vistas à melhoria das salas de informática. Para tal, fez número de uma enquete com todos os alunos perguntou sobre
l.l. O Centro Acadêmico
Computadores
freqüência
0
156
1
135
2
47
t
t)
25
4
B
total
37L
variável.
d. Cada reprovação implica em custos adicionais para amontadora, tendo em vista a necessidade de corrigir o defeito apontado. Admitindo um valor básico de R$ 200 por cada item reprovado num veículo, calcule a média e a variância da despesa adicional por automóvel produzido.
12. O órgão do Governo Federal encanegado de fiscalizar a distribuição de energia elétrica tem acompanhado o núméro semanal de intemrpçáes de fornecimento numa certa cidade. Os dados, referentes às últimas 50 semanas, consideraram apenas as interrupções que ultrapassaram 3 horas e são apresentados na tabela abaixo.
o
e
computadores que cada um tinha na sua residência.
a. Obtenha a média e a variância. b. O Centro Acadêmico argumenta qüe
cornputador por tluno,
o ideal é ter uma
média de
1
.iuntando os 20 da sala de informática da faculdade
H8
Capítulo 4: Medidas Re
Anos de estágio
freqüência
0
25
1
5B
2
747
t
105
e)
4 5
72 45
6
10
total
462
Na linha de produção de uma grande montadora de veículos, existem, verificações do controle de qualidade. Sorteamos alguns dias do mês anotamos o número de "oKs" recebidos pelos veículos produzidos nesses d
1L.
isto é, em quantos dos controles mencionados o automóvel foi aprovado. Aprovações
freqüência
4
726
5
359
6
1685
I
4764
total
6934
a. Determine média, moda e mediana do número de aprovações por au produzido. b. Calcule a variância. c. Crie uma nova variável 'Reprovações, indicando o número de veri não "OKs" no veículo. Determine média, moda, mediana e varrancla variável. d. Cada reprovação implica em custos adicionais para a montadora, tendo vista a necessidade de corrigir o defeito apontado. Admitindo um básico de R$ 200 por cada item reprovado num veículo, calcule a média variância da despesa adicional por automóvel produzido.
O órgáo do Governo Federal encarregado de fiscalizar a distribuição energia elétrica tem acompanhado o número semanal de interrupçõec fomecimento numa certa cidade. Os dados, referentes às últimas 50 consideraram apenas as interrupções que ultrapasszrram 3 horas I
lixercícios
119
freqüência
0
12
I
T4
2
I
t
5
I t J t r)
6
2
total
50
t)
4
tt. l)etermine amédia e a variância do número de interrupções semanais. It. O Govemo Federal aplica uma multa de 10 mil reais por semana, se há pelo rìlenos uma interrupção no fornecimento. Calcule a média e a variância do valor das multas aplicadas por semana. e. A Prefeitura dessa cidade fez um levantamento dos prejuízos, nos vários sctores, decorrentes da falta de energia e atribuiu um valor total de 900 mil rcais para ser ressarcido pela companhia responsável pelo fornecimento de clctricidade, referente ao período de 50 semanas. Qual seria o prejuízo rrródio por semana?
d. Ncsse período, qual será a média e a variância do desembolso semanal da companhia, incluindo multa e ressarcimento de prejuízo? () (-lentro Acadêmico de uma faculdade pretende iniciar uma campanha junto â rlircção da escola com vistas à melhoria das salas de informática.Parata\ fez ullìir enquete com todos os alunos e perguntou sobre o número de €ornllutadores que cada um tinha na sua residência. Computadores
freqüência
0
156
12.
apresentados na tabela abaixo.
Interrupções
1
135
2
47
3
25
4
B
total
37r
n, ( )lrtcnha a média e a variância,
b. ( ) Centro Acadêmico
argumenta qüe o ideal é ter uma média de 1 c'onrputador por aluno, juntando os 20 da sala de informática da faculdade
t20
Capítulo 4: Medidas Resumo
com os que os alunos têm em casa. Quantos computadores precisariam ser
lixercícios
4.,1
121
10. Uma peça produzida por uma máquina pode receber do controle de qualidade
lrôs classificações: boa, defeituosa ou recuperável, com as
acrescentados à sala para atender o Centro Acadêmico?
14. Duas moedas estão sobre a mesa, uma delas tem duas caras e a outra tem probabilidade igual de cara e coroa. Sorteamos, ao acaso, uma dessas moedas e a lançamos duas vezes. Seja X a variâvel aleatória que conta o número de caras nesses dois lançamentos. Qual é a média de X? 15. Num teste de digitação, o tempo em minutos (7) que os candidatos le para digitar um texto é modelado, de forma aproximada, pela seguinte funç de probabilidade:
O tempo de duração em horas de uma lâmpada especial foi modelado por uma vlriável aleatória X com a seguinte função de probabilidade:
2(1.
xl5
pi O candidato recebe 4 pontos se terminar a digitação em 9 minutos,
5
terminar em 8 minutos e assim por diante. Determine amédia e a variância número de pontos obtidos no teste.
16. A função de probabilidade da variável X k :7,2,"',5.Calcule E(X) e E(X') e, usando E[(X + 3)2] evar(3x - 2).
é P(X:.
k)
: r/5
esses resultados, determi
17. Estatísticas obtidas junto às assistências técnicas indicam que a bomba água de uma certa lavadora só pode apresentar defeitos após 4 anos de Admita que nos próximos 6 meses, após esse tempo, um mal funcioname tem probabilidade 0,10 de ocorrer e, caso ocorra, terá 0,5 de probabilidade ser recuperável. O reparo, que só pode ser feito uma vez, tem o preço de R$ I enquanto uma bomba nova custa R$ 30. Determine a média e a variância gasto com essa peça em 4,5 anos de uso.
Itì. Os alunos do curso de estatística têm um time de futebol que não é melhores. O cartola que administra o time paga um prêmio de vitória partida de um sorvete porjogador, acrescentando mais um sorvete por saldo gols maior que I (saldo de gols é a diferença entre gols feitos e sofri Admita que a função de probabilidade dos diversos saldos é a seguinte: Saldo de gols Qu"rl é a despesa média do cartola com cada jogador por partida? E corn os I "c rilques" ?
seguintes
probabilidades, 0,5; 0,2 e O,3, respectivamente. Suponha que sejam vendidas a lì$ 100, R$ l0 ou R$50 conforme forem boas, defeituosas ou recuperáveis, rcspectivamente. Se duas peças, escolhidas ao acaso, são vendidas, qual é o vtlor médio da venda?
6
l0,L 0,1
7
0,2
8910
0,4 0,1
0,1
(lacla lâmpada custa ao fabricante R$ 10, mas se sua duração for inferior a 6 Iroras ele se compromete a indenizar o comprador com R$ 15. Qual deve ser o prcço de cada lâmpada para o fabricante obter um lucro médio por lâmpada de lì.$ 20?
11. tlrna concessionária tem disponível, para um certo automóvel, os modelos S, ('1, c GL com duas versões de combustível, álcool ou gasolina. Com motor a rilcool os preços são 30, 35 e 40 mil reais para os modelos S, CL e GL, rrspcctivamente. Esses preços são 107o superiores se o combu3tível for g,rrsolina. A procura por carros a álcool é, de 307o e a gasolina 707o. Qualquer
tlnc seja o combustível escolhido há igual preferência entre os modelos. ('irlcule a função de probabilidade do preço desse automóvel e obtenha sua Irrúrlia e variância.
,2, Nurn cassino, um jogador lança dois dados, cujas probabilidades
são
lrroporcionais aos valores das faces. Se sair soma 7, ganha R$50, se sair soma I l, ganha R$ 100 e se sair soma 2, ganha R$ 200. Qualquer outro resultado ele rriio garrha nada. Qual é o ganho médio do jogador? l-1. I lrrra indústria pretende comprar 3 lotes de peças que são produzidas por dois lìrlrrcccdores, A e B. Ela inicia, comprando de um dos fornecedores escolhido n(l ilciìso e, se ficar satisfeita com o material entregue, compra o próximo lote rhr nrcsmo fornecedor. Se não ficar satisfeita, troca o fornecedor. Admita que lrirlir cacla lote o índice de satisfação é de 80Vo e de 707o para A e B, rrspcctivamente. Calcule a média e a variância do número de lotes fornecidos por A.
Capítulo 4: Medidas Resumo
122
24. A experiência de diversas companhias de resgate de navios naufragados indica que a probabilidade de um resgate ser bem sucedido na primeira tentativa é de 0,6; caindo para a metade a cada nova tentativa. Uma empresa de resgate tem
como norma não realizar mais de três tentativas e cobra 50 mil reais para iniciar os trabalhos e mais 10.000 x (k - 1) reais, com k sendo o número de tentativas. a. Qual o custo médio dos serviços dessa empresa?
b. Se um navio resgatado
pode render ao proprietário 65 mil
interessante para ele contratar essa empresa? Justifique.
25. Suponha que a demanda por certa peça, numa loja de
4,4 lixercícios
t23
c
o
1. Qual a probabilidade da equipe completar 8 corridas? E de participar de
B
vcz. se o ganho acumulado da equipe (em milhares de reais) é, 50c , sendo rrrimero de corridas completadas por esse motor antes de quebrar, calcule:
[.
corridas? Quanto receberá em média essa equipe durante sua "vida" em corridas?
19. tlrn vendedor de cachorro quente trabalha na porta do Estádio do Morumbi errr clias de jogo. Ele pode deixar preparado 5, 6 ou 7 dúzias de sanduíches que (:lstam a ete R$ 5 adúzia,. Sabe-se que a procura do cachorro quente (X), no s!ìu ponto, é uma variável aleatória com a seguinte função de probabilidade:
autopeças, siga o
seguinte modelo:
:
P(X:
k,):+, tt:r,2,J,4.
a. Encontre o valor de a. b. Calcule a demanda esperada. c. Qual é a variabilidade da demanda?
26. Numa indústria farmacêutica, uma máquina produz 100 cápsulas por minuto, A máquina está regulada de modo que no máximo 5Vo das cápsulas n contenham remédio e, assim, sejam consideradas defeituosas. a. Se as cápsulas são acondicionadas em vidros com 20 unidades, qual probabilidade de um vidro apresentar no máximo 2 cápsulas com defeito? b. Qual o número esperado de cápsulas com defeito, por vidro? c. Qual o número esperado de cápsulas com defeito por minuto de produção?
27. Um fotógrafo negocia com o jornal o seguinte trato: ele submete al fotos semanalmente e por cada foto publicada, ganha R$ 50. Se a foto não publicada, não ganha nada. Nesta semana 4 fotos são submetidas com uma tendo probabilidade 0,60 de ser publicada, independentemente da demais,
probabilidade que o fotógrafo tenha pelo menos duas f, publicadas esta semana? b. Calcule a distribuição de probabilidade de Y: montante que o fotó
a. Qual a
recebe esta semana; c. Calcule o ganho médio do fotógrafo nesta semana.
28. Admita que, em cada corrida de Fórmula l, o motor tem 0,4 de probabi de quebrar, independentemente das corridits anteriores. Suponha que a encerrará sua participação no torneio quanclo o motor quebrar pcla pri
Sirbo-se que cada dúzia de sanduíche é vendida a R$ 12 e os sanduíches não Vcrrrlidos vão para um canil que paga R$ 2 pela dízia. Qual é o número de eltiz,ias de sanduíches que devem ser preparadas de modo a maximizar o lucro
nrúrlio do vendedor?
floricultura vende rosas, cravos e jasmins com lucrO de, respectivamente, R$ ltl, R$ 12 e R$ 15 por dezena. Observa-se que a procura é igual para as três flolcs. Se o estoque do dia não for vendido, a floricultura tem um prejuízo (lrrcro negativo) de, respectivamente, R$ 5, R$7 ou R$ 10 com cada'dezena de fosils, cravos ou jasmins. Se a floricultura dispõe de duas dezenas de cada flor € tr'ôs clientes visitam a floricultura sucessivamente e compram uma dezena €nrlir um. Fazendo alguma suposição adicional que seja conveniente, determine s lrrcro esperado da loja. t.lrrra
t{t pita o problema anterior, se a procura por rosas e cravos forem iguais e çorrcsponderem ao dobro da procura porjasmins
,
ãjl, l,rrlir 1tn exame com 25 questões do tipo certo-errado, um estudante sabe
a
l'r,slroslrÌ correta de 17 questões e responde as demais "chutando". gQVo das respostas. n. ('rrlcule a probabilidade dele acertar pelo menos It. l)ctcrrnine a média e a variância do número de acertos. f. Srrpottlra que nesse mesmo exame, um outro estudante saiba a resposta col'rolit para l5 questões e tenha probabilidade de acerto nas demais de 0,7. (.)rrlrl clo.s estudantes você espera que tenha melhor desempenho? tl, Nirs lncsmas condições do item (c), qual dos estudantes terá desempenho
rrriris Irornogêneo?
Capítulo 4: Medidas Resumo
124
33. (Use o computador) Usando a Tabela 1.1 do Capítulo 1: a. Obtenha as medidas de posição e de variabilidade para o Peso e a Altura. b. Compare, através de medidas de posição e de variabilidade, o peso e a altura dos alunos das turmas A e B. Comente as diferenças em relação ao item (a). c. Com respeito à variável TV, alunos e alunas tôm o mesmo comportamento? Justifique sua resposta com o uso de medidas resumo.
34. (Use o computador) Considere as observações contidas no arquivo cancerlxt (ver Exercício 24, Capítulo 1). ì a. Obtenha as medidas de posição e de variabilidade para as variáveis Idade e Glicose (GL). b. Repita o item (a) para cada tipo de diagnóstico. Compare as respostas obtidas. 35. (Use o computador) Com os dados do Exercício 25, Capítulo 1:
a. Para cada bloco, determine medidas de posição e de variabilidade pãra a área total do apartamento e para a ârea de cada cômodo. Você diria que existem diferenças nos apartamentos, dependendo do bloco? b. Construa uma tabela de freqüência para a ârea total dos apartamentos do bloco I, utilizando faixas de valores convenientemente definidas. Suponha que um apartamento é escolhido ao acaso. Defina por X a variável aleatória área total do apartamento selecionado. Baseando-se na tabela de freqüência construída, qual é o valor esperado de X? Como este valor se compara com aquele observado no item (a) para a área total? Porquê deveriam ser iguais e se não são, qual é arazáo?
36. (Use o computador) As variáveis desse exercício fazem parte do arquivo aeusp.txt (ver Exercício 26, Capítulo 1).
a. Obtenha as medidas de posição e de variabilidade para as variáveis Itrab
e
Renda.
b. Repita o item (a) para cada uma das comunidades
estudadas. Existem
diferenças entre elas?
c. Utilizando os valores da variável Serief, divida os moradores em três categorias: os que não pararam de estudar, aqueles que pararam até a 8Â série e os demais. Para cada uma das categorias, obtenha as medidas de posição e a variância da variável Itrab. d. Baseado nas variáveis Sexo e Itrab, você diria que os homens começam a trabalhar mais cedo?
Capítulo 5
Variáveis Bidimensionais 5.L Introdução
É muito comum estarmos interessados no comportamento conjunto
de
viirias variáveis. Neste capítulo, vamos tratar de duas vâriáveis. Todavia, os conceitos discutidos aqui podem ser, em geral, expandidos para situações em que lrôs ou mais variáveis são estudadas. Nesta primeira seção apresentamos, para variáveis em um conjunto de dados, a tabela de freqüência conjunta e, para o caso tlc variáveis aleatórias, a função de probabilidade conjunta. A tabela de lì'cqüência conjunta também pode ser utilizada com variáveis qualitativas, conforme veremos nos exemplos. Nas seções subseqüentes, estudamos a russociação entre variáveis e a obtenção de funções de variáveis aleatórias. As informações em um conjunto de dados, sejam elas referentes ao todo ou parte de uma população, quase sempre contêm observações multidimensionais, isto é, observações relacionadas a várias v4riáveis. Por exemplo, num rprestionário aplicado a alunos de uma universidade, podemos obter a idade, o llmanho da família e o número de disciplinas já cursadas, entre outras tluantidades que podem ser de interesse para cada aluno. Considerando duas variáveis, digamos idade e tamanho da família, podemos listar todos os pares que ocorrem. Como pode haver repetição de valores, os resultados podem ser organizados em uma tabela, com os possíveis pares associados às suas respectivas Íì'cqüências.
Ilxemplo 5.1.. Uma amostra de 20 alunos do primeiro ano de uma faculdade foi cscolhida. Perguntou-se aos alunos se trabalhevam, variável que foi representada ;ror X, e o número de vestibulares prestados, variável representada por Y' Os tlados obtidos estão na tabela abaixo.
X
nao
slm
nao
nao
nao
slm
slm
nao
slm
stm
D
Y
1
1
2
1
I
2
t)
1
1
1
X
nao
nao
slm
nâo
slm
nao
nao
nao
slm
nao
D
2
2
2
1
.)
2
Y
2
2
1
J
t25
I2()
Capítulo
5
: Variáveis Bidimensionais
variável x é qualitativa com dois valores: sim ou não. por outro lado, a variável Y é quantitativa discreta com valores inteiros I,2 ou 3. Podemos coletar as freqüências de ocorrência dos possíveis pares, construindo uma tabela de freqüência conjunta de X eY.
A
Ilxcmplo 5.2: Um estudo envolveu 345 pacientes HfV positivos, acompanhados, dttrante um ano, pelo setor de doenças infecciosas de um grande hospital público. Os dados apresentados contêm as ocorrências relacionadas às variáveis número de itttt:rnações (I) e número de crises com infecções oportunistas (C).
freqüência
0
1
(sim,1 (sim,2) (sim,3)
1\c
4
0
B4
27
2
1
20
59
2
2
6
11
43
(não,
5
1
rJ
D
4
8
2
0
35
T4
2
28
12
2
l)irra obter as marginais dessas variáveis, acrescentamos mais uma linha e uma coluna na tabela anterior, contendo os respectivos totais de ocorrência. Assim,
6 1
20
O par (não,1) tem freqüência de ocorrência igual a 5, pois, na amostra coletada, foi esse o número de alunos que não trabalhavam e prestaram o vestibular apenas uma vez. Os outros valores são obtidos de forma semelhante. Esta mesma tabela pode ser apresentada de modo mais conveniente através da tabela de dupla entrada, mosfada a seguir.
1\c
0
1
2
q O
4
total
0
B4
27
8
2
0
115
1
20
59
2
130
6
11
35 43
t4
2
2B
72
100
total
110
91
B6
44
L4
345
Cbnro já mencionamos, a última coluna da tabela acima fornece as freqüências eorrcspondentes aos valores da variável -I, enquanto que a última linha fornece as
x\v
1
2
.)
total
slm
4
2
2
8
nao
5
6
1
12
I
I
total
B
a)
t
20
lì'ct1i.iências para C. Logo,
Note que a última linha e a última coluna contêm os totais de ocorrências de cada variável, separadamente. Dessa forma, fica facilitad a a tarefa de obter a tabela de ÍÌ'eqtiência individual para cada "variável que, pela posição em que seus valores aparecem na tabela de dupla entrada, é chamada de tabela marginal de freqíiência du vuridvel x (ou Y), ou simplesmente marginal de x (ou y). Temos então para as seguintes tabelas de freqüência:
freqüência
C
freqüência
0
115
0
110
1
130
1
91
2
100
2
B6
total
345
3
44
4
I4
total
345
D
X
freqüência
Y
freqüência
slm
8
1
I
nao
L2
2
8
20
t
total
127
(X,Y)
(náo,2) (não,3) total
X eY
5.1 Introdução
t
t)
r)
total
20
Ii:ccrnplo 5.3.' Numa amostra de 195 empregados de uma grande indústria, rrlrscrvou-se o Salário recebido (em salários mínimos) e o Tempo de Serviço na l')rrprcsa (em anos). Tendo em vista que a variável Salário é quantitativa contínua,
lìrrirrn escolhidas algumas faixas para representâ-la. Por outro lado, apesar da vrrt'iírvel Tempo ser discreta, ela apresentou valores tão diferentes que se achou rrlris conveniente organizâ-latambém em faixas. Assim,
l2tì
Capítulo
Salário \Tempo
<4 4t--B
8-72 >12 total Segue então
que
5
: Variáveis Bidimensionais
<5
5F10
36
21
4
2
63
16
2B
2T
12
77
5
6
74
10
35
1
2
72
5
20
5B
57
51
29
195
t--
10
15
>15
Note que, pela notação utilizada na Definição 5.1, o termo
total
freqüência
Tempo
<4
63
<5
4F8
77
5
t--
freqüência
10
58 57
8F12
35
10F15
>12
51
20
>15
29
total
195
total
195
tììcsmo que com atraso.
Q
tr
Definíção 5.1: Função de probabílidade conjunta Sejam X e Y duas variáveis aleatórias discretas originárias do mesmo fenômeno aleatório, com valores atribuídos apartir do mesmoãspaço amostral.
A
íunção de probabilidade conjunta é definida, para todos os possiveis pares de valores de (X, Y), da seguinte forma:
isto é,
p(r,A)
: P[(X: u) n (Y : Ò]:
representa a probabilidade
p(X : r,y : a), de (X,y) ser igual a (r,A).
É comum nos referirmos, sempre que não houver ambiguidades e o contexto permitir, à ftnção de probabilidade conjunta como distribuição conjunta ou simplesmente
t:otti unta das variáveis.
O
espaço amostral, associado ao atendimento da
encomenda, ficará sendo:
Pelos exemplos anteriores, podemos perceber que variáveis de qualquer natüreza podem ter seu comportamento conjunto representado através do tabãlas de freqüência. Dessa forma, variáveis qualitativas ãu quantitativas, discretas ou contínuas, têm seu comportamento estudado com tabelãs de dupla entrada, para dados oriundos de toda a população ou de uma amostra. veremos a seguir como tratar essa questão no caso de variáveis aleatórias discretas, definidas a partir das suas funções de probabilidade. Iniciamos estendendo a definição de função de probabilidade para o caso de duas variáveis.
p(r,a)
(X: r)
rcpresenta o conjunto de eventos que levam a variável X a assumir o valor r. No próximo exemplo, ilustramos esse ponto. Ilxemplo 5.4: Uma empresa atende encomendas de supermercados dividindo os pcclidos em duas partes de modo a serem atendidos, de forma independente, pelas suas duas fábricas. Devido à grande demanda, pode haver atraso no cronograma rlc entrega, sendo que afátbrica I atrasa com probabilidade 0,1 e a II com 0,2. Scjam A1 e All os eventos correspondentes a ocorrência de atraso nas fábricas I e ll, respectivamente. Vamos admitir que as encomendas sempre serão entregues,
as marginais são:
Salário
5.1 Introdução
tr
:
{A1A1r, AïArr, ArAïr,
AïAïr}.
Pirra aliviar a notação, os eventos serão representados sem os respectivos xubscritos mantendo, entretanto, a ordem das fábricas. Dessa forma, o evento /"Á significa que a fátbrica I entregou sem atraso e afâbrica II com atraso. Suponha que para um certo pedido, a indústria recebe 200 unidades tnonetárias (u.m.) pela encomenda total entregue, mas paga uma multa de 20 u.m. pirra cada fábrica que atrasar sua parte. Considere que o supermercado, que fez a cncomenda, criou um índice relacionado à pontualidade da entrega. Este ihdice, trllibui 10 pontos pata cada parte da encomenda entregue dentro do cronograma prcvisto. Vamos denotar por X o valor recebido pelo pedido eY o índice obtido. Para cada evento do espaço amostral, podemos obter os valores das virriírveis. Assim, se ocorre o evento AA', avariâvel X tem valor 180, pois de ?(X) subtraimos a multa de 20, decorrente de um atraso. Por outro lado, a variável )' assinala 10 pontos provenientes de uma entrega dentro do cronograma. A
lirbcla
a
seguir, apresenta os eventos, as respectivas probabilidades
crrrrcspondentes valores de
X eY.
Eventos
Probabilidade
X
Y
AA AA' A'A
0,1 X 012
160
0
0,1-x 0,&
180
10
0,9 X 012
180
10
x
200
20
A.
A.
0,9
0,8
Ap(rs coletarmos os pares idênticos, obtemos a conjunta das variáveis:
e
os
Capítulo 5 : Variáveis Bidimensionais
130
(X,Y)
p(r,y)
(160, 0)
0,02 0,26 0,72
(180, 10)
(200,20) Dessa forma,
r3I
5.1 Introdução
Note que pares idênticos foram agrupados
x\),
a distribuição conjunta de (X, Y)
contém todas as possíveis (r, g), com suas correspondentes probabilidades. tr
0
Da função de probabilidade conjunta p(r,E) é possível obter as funções X ou de Y, através da soma de uma dàb coordenadas. Assim,
2
combinações dos valores
de probabilidade marginal de
P(X
:
")
: t p(r,a) e P(Y : u:D
a)
:\n@,Ò
com a somatória percorrendo todos os valores possíveis de
X
ou
Y, conforme
o
0
Y
0 I
2
J
4
5
6
7
8
9
10
0
0
0
2
I
2
2
0
2
1
0
I I
0
0
1
2
2
Considerando que escolhemos uma das sub-regiões ao acaso, isto é, cada subregião têm mesma probabilidade 1/10 de ser escolhida, podemos construir a distribuição conjunta de (X,Y):
(X,Y)
probab.
(0,0) (0,1) (0,2) (1,0) (1,1) (2,0) (2,1 (2,2)
L/70 2/70
total
1
2lr0 r/10
r/rc rlL0
rlrc r/t0
respectivas
2110 0
As distribuições marginais também podem aparecer na tabela, bastando efetuar a soma nas linhas para obter a marginal de X e, nas colunas, paÍa a marginal de Y. Por exemplo, para calcular a probabilidade de X ser igual a zero, temos 0)
r225 :10-10-10:10
x\v
* P(X :0,Y :1) + P(X :0,Y :2) X
e
Y, obtemos a tabela
1
2
0
rlt0
2170
2lr0
1
7/70
rl70
2/r0
r/L0
r/n
0
2
r/t0
3l70
3/L0
4lro
3lr0
1
P(Y
:
u)
a seguir:
P(X : r) 5lr0
0
tabela a seguir:
X
as
L/n rlL0 rl10
Iìepetindo os cálculos para outros valores de
Exemplo 5.5.' Uma região foi subdividida em 10 sub-regiões. Em cada uma delas, foram observadas duas variáveis: nítmero de poços artesianos (X) e número de riachos ou rios presentes na sub-região (y). Os resultados são apresentados na
1
somamos
2
1
r/rc 2lLj L/n r/rc
1
P(X :0) : P(X :0,Y:
,
caso.
Sub-região
e
probabilidades. Uma forma equivalente de apresentar a distribuição conjunta, porém com maior apelo visual, é através da tabela de dupla entrada.
Portanto, as funções de probabilidade marginais são as seguintes:
xl o 1 2 e Yl o 1 p I slro 4lro n I slto 2lro sllo
2
slro tr
Em muitas situações há interesse em estudar o comportamento de uma tal como soma, produto ou alguma outra relação entre elas. Vamos nos restringir ao caso de variáveis aleatórias, mas o tratamento é similar para conjunto de dados referentes à população ou à amostra. Se conhecemos a clistribuição conjunta de X e Y, o comportamento de outras variáveis, tais como X +Y, X2 + 5Y ou X Y, pode ser determinado como ilustramos a seguir. í'Lrnção das variáveis
Ilxemplo 5.6: Emuma cidade do Estado de São Paulo, admite-se que o número de unos para completar o ensino fundamental (variável F) e o número de anos para cornpletar o ensino médio (variável M) tê,m função de probabilidade conjunta:
t32
Capítulo
(F, M) (8,3 (8,4 (8,5 (9,3) (9,4 (9,5 (10,4
5
: Variáveis Bidimensionais
p(.f ,m)
lìxercícios da Seção 5.1:
3/L0
l. O setor de emergência de um Pronto Socorro Infantil anotou o numero de crianças atendidas (C), de médicos (M) de auxiliares (Á) de plantão em 15
r/rc r/70 2/r0 r/20 r/10 r/70 r/20
(10, 5)
"
clias de atividades. Os dados são apresentados na tabela abaixo.
F+M e FxM.
Acrescentando, à tabela anterior, colunas correspondendo aos valores dessa novas variáveis temos
(8,3 (8,4) (8,5) (9,3) 9,4) 9,5) (10,4) (10,5
:
13)
:
P(F
:
1
2
t J
4
5
6
I
8
5
7
5
6
5
5
7
5- 6
M
1
1
2
2
2
1
2
1
6
È7
4
4
5
I
6
I
1
5
5
10
11
12
13
L4
15
6
I
5
5
6
6
2
2
2
2
2
2
6
È7
I
6
6
7
I
a. Determine as tabelas de freqüência marginais de C, M e A. b. Obtenha a tabela de freqüência conjunta entre (C, M), (C, A) e (M, A). c. Represente a tabela de freqüência conjunta de M e A, atravês de uma tabela de dupla entrada.
d. Calcule amédiadas variáveis
M e A.
3/10 L/70 7/L0 2/L0 L/20
L2,
27
0
1
2
total
13
7/r0
0
110
235
t20
465
74
36 45
L/70
1
51
r22
178
351
L4
40
r/20
2
15
84
267
15
50
total
176
44r
L62 460
8,M
:
5)
11
24
L2
32 40
13
Para obter a função de probabilidade de tr. valores comuns. Por exemplo,
P(F + M
FxM
I
Dia C
A
Suponha que exista interesse em estudar as variáveis
(F,M) pU,m) F+M
5.1 Introdução
2.Paru famílias de um certo bairro de São Paulo, apresentamos abaixo a tabela de f'reqüência conjunta das variáveis: número de automóveis (A) e de Ws (T).
Á\"
* M, somamos as probabilidades nos
* P(F : 9,M
.. 1 '1020
A\ -
_
1
ó
n'
Procedendo de modo similar com os outros valores, obtemos as funções de probabilidade de.F * M e de F x M:
?t'
3. Uma moeda equilibrada é lançada 2 vezes de forma independente. Ao final dos lançamentos, duas variáveis aleatórias são anotadas: o número total de caras (C) c o número de coroas no 2o. lançamento (K). a. Construa uma tabela com os possíveis eventos, as respectivas probabilidades e os valores de
r+twl tt
L2 13 1.4 15 prob. | 3/10 3lL0 3120 2lI0 Il20 ' FxMl Z+ 27 32 36 40 45 prob. l B/10 2lL0
a. Calcule as marginais de A e T. b. Determine as médias dessas variáveis.
L077
C e K.
b. Apresente a tabela de dupla entrada com a função de probabilidade conjunta das variáveis aleatórias C e K. c. Determine o valor esperado de C. 50 '
tr
4. Num estudo sobre o tratamento de crises asmáticas, estabeleceu-se a seguinte Íunção conjunta de probabilidades entre o número de crises de asma (Á) e o ttíi,mero de internilções hospitalares (H).
Capítulo 5 : Variáv eis Bidimensionais
134
Á\H
0
1
2
0
r/8
I/16
0
1
3/16 r/L6
L/8 3lL6
r/16
2
foi construída (l), português (P) e matemática (M):
3/L6
5. A função conjunta de probabilidade entre as variáveis abaixo (com algumas entradas faltando):
-1
,14't
-2 -1
L/16
7/at
1
2
P(Y
:
5
y1
/64
,^
0
2
3/64 7/16 77/64 0 /'r .
Ll32
5/16
4
X eY
P(X
%6ü
0
\lt ("
Ji
1/6tt
L/64 7t32
5/76
3t64
r/4
Ar/H.
a próxima tabela com as notas de inglês
5
6
I
8
I
10
11
T2
13
L4
15
I
8
8
B
8
8
8
9
I
B
9
8
6
I
7
6
7
B^
I
I
10
I
8
8
8
7
5
t)
5
6
4
7
6
5
5
6
5
5
Aluno
1
2
3
I
(
7
7
P
8
6
M
5
6
4 F7
ì7
A tabela de freqüência conjunta de (.I, P) é dada por:
é apresentada
1\
tto
ì/n(^ 1
P
7 8
: r)
5lL6
311ìÇ
135
inglôs. Para esses alunos,
a. Determine as funções de probabilidade marginal das var,{eis b. Calcule o valor esperado dessas variáveis. c. Obtenha a função de probabilidade da variável A + H. '-/
x\v
5,2 Associação entre Variaveis
6
I
8
I
1
0
2
1
2
J
1
1 1
0
I
0
0
2
10
0
0
1
tlrn gráfico contendo as informações dessa tabela é apresentado, a seguir, com
P
a. Complete a tabela. b. Obtenha as marginais de X e Y. c. Calcule afunção de probabilidade da variável
10
X x Y.
5.2 Associação entre Variáveis Uma pergunta freqüente de pesquisadores e usuários de Estatística é sobre a associação entre uma ou mais variáveis. Buôcar explicar como se comporta uma variável em função do desempenho de outras têm sido o objetivo de vários estudos que utilizam a Estatística como ferramenta auxiliar. Nesta
,l
seção, começamos a responder a essa questão. Uma resposta mais completa será dada na parte referente à Inferência Estatística. Com dados de duas variáveis, em uma população ou amostra, podemos
construir um gráfico no plano cartesiano com a freqüência de ocorrência dos diversos pares de valores. Esse diagrama pode auxiliar a identificação de tendências de associação entre as variáveis, conforme veremos no próximo exemplo.
Exemplo 5.7: Dentre os alunos do 1o. ano do ensino médio de uma certa escola, selecionou-se os quinze alunos com melhor desempenho (nota acima de 7) em
as
lì'oqüências ao lado de cada ponto. Note que há uma tendência das notas altas em irrglês, serem acompanhadas por notas altas em português.
Considere agora as variáveis scguinte:
I e M. A tabela de freqüência conjunta é
IJô
Capítulo
I\M
4
5
6
7
I
0
2
1
1
8
I
1
t J
2
I
0
2
1
10
0
1
0
0 0
5
:
Variáveis Bidimensionais
5,2 Associaçdo entre Variaveis
Deftnição 5.2: Probabilidade condicional para variáveis aleatórias discretas
Dadas duas variáveis aleatórias discretas definidas no mesmo espaço urnostral, a probabilidade condicional de X : :L,dado que Y : a ocorreu, é dada pcla expressão:
P(X:rlY:g): Caso P(Y
:
A)
:0,
a
rtrbitrariamente e adotaremos
P(X:r,Y:y) P(Y
:
a)
, se
P(Y:
g) >
0.
probabilidade condicional pode ser P(X : r lY : A) : P(X : r).
definida
D
Definição 5.3: Independência de varidveis aleatórías Duas variáveis aleatórias discretas são independentes, se a ocorrência de rlualquer valor de uma delas não altera a probabilidade de ocorrência de valores tla outra. Em termos matemáticos,
P(X:rlY:y): prra todos os possíveis valores
(r,g)
P(X das variáveis
(X,Y).
Como definição
irlternativa e equivalente podemos usar que:
P(X : n,Y : A) : P(X : n) P(Y : A), para quaisquer (*,A). 8
I
10
Observe que o bom desempenho em inglês parece, neste caso, não implicar num bom desempenho em matemática.
D
Apesar de ser um instrumento útil para identificar tendências, os difícit interpreração, ;;;;;.;", exempro, se o conjunto de dados tem muitas observãções "rïigun. pou.os valores diferentes, freqüências serão altas atrapahándo "oà a visualização de uma eventual 'lgumas tcndência' Dessa forma, é importanie ampliar o estudo da associação entre variáveis, para buscar.uma caracterização que não dependa só da interpretação visual' com este objetivo, definimos piobabilidad" e independência para variáveis aleatórias, estendendo os conceitos "ondi"ional apresentados no capítul o 2 para cventos aleatórios. Aqui, o condicionamento, na ocorrência de um valor da variável rliagramas rornam-se de
aleatíria, é equivalente ao condicionamento na ocorrência de um evento.
,
O
A verificação da equivalência entre as duas expressões, acima, pode ser lbita de modo análogo ao realizado no Capítulo 2. Deixamos ao leitor essa tarefa. Note, ainda, que a definição de independência exige que a igualdade seja vcrdadeira para todas as escolhas dos pares (r,A). Assim, basta encontrarmos um l)rÌr em que a igualdade não se verifique para concluirmos que as variáveis irleatórias não são independentes. A Figura 5.1 resume esses comentários.
Figura
5.
1
: Indep endêncin de variáv eis aleatórias
.
Ilxemplo 5.8r O Centro Acadômico de uma faculdade de administração fez um lovantamento da remuneraçiro dos estírgios dos alunos, em salários mínimos, com
/.ftï
Capítulo
5
: Variáveis Bidimensionais
relação ao ano que estão cursando. As probabilidades de cada caso
são
apresentadas na próxima tabela, incluindo as distribuições marginais.
Salário
\ Ano
2 .)
4
P(Ano:
y)
2
,)
4
5
2/25 2/25 7/25 5 /25
2/25 5/25 2/25 s/25
r/25
0
2/25 2/25 5/25
2/25 4/25
P(Sal. : z) 5/25 Lr/25 I /25
6125
1
Pclas informações apresentadas, as variáveis salário e Ano de curso não inclcpendentes pois, por exemplo,
P[(Sal.
:
3)
n (Ano
: 4]:2lzs I p(Sat.:
B)p(Ano
-
4)
sãil
: rr/r2s.
Unra maneira bem prá'tica de verificar independência consiste em usar a tabela de clupla entrada, checando se o produto da última linha e última coluna (as rnargirrais) reproduz o corpo da tabela. se a tabela contiver um zero no seu corpo, brsta verificar se uma das marginais correspondentes é zero. caso nenhuma marginal seja zero, concluímos imediatamente a não independência, uma vez que o produto de dois números não nulos nunca é zero. tr
A verificação da independência, no caso de duas variáveis em um conjunto de dados, será discutida com maior profundidade no capítulo g que trata cle Testes de Hipóteses. Entretanto, podemos utilizar as idéias de indepeìdência cle variáveis aleatórias para estudar a relação de duas variáveis observadas numa população ou amostra. Uma das formas utilizadas é construir a tabela de dupla cntrada com porcentagens em relação ao total de colunas ou linhas. Ilxcntplo 5.9.' Em uma clínica médica foram coletados dados em 150 pacientes, relbrcntes ao último ano. observou-se a ocorrência de infecções urindriàs (J) eo tttítncru tle parceiros sexuais (,n/). Deseja-se verificar se essas variáveis estão russociadas. os dados são apresentados a seguir, com as respectivas marginais.
u\r/
0
7
2 ou mais
total
Sim
t2
2L
47
BO
7 54
70 150
Não
45
1B
total
57
39
Cottstruindo uma nova tabela com as porcentagens em relação ao total de coluna, otrtcmos a proporção relativa da variável (J em relação i cada subconjunto de valores de
N.
139
5.2 Associação entre Variáveìs
u\r'r
0
1
2 ou mals
total
Sim
2r,lvo
53,8%io
Não
7B,9Vo
46,2Vq
87,l%o L3,}Vo
53,SVo
total
I00Vo
l0OVo
L00Vo
L00Vo
46,7Vo
(lgnsiderando os valores de [/ no conjunto total de dados, temos 53,3Vo de rcspostas positivas e 46,7V0 de negativas. Caso não haja associação dessa variável eoln o número de parceiros, devemos esperar porcentagens similares em cada virlor da variável ,fí, indicando que esses valores não interferem com as respostas tlo [/. Assim, por exemplo, para ly' : 0 seria esperado ter, aproximadamente, lil,3%o de respostas positivas, que é a mesma ocorrência verificada no total da linha. Como se pode observar da tabela acima, as porcentagens são próximas lpenas no caso l/: 1, sendo bem diferentes nos outros casos. Dessa forma, os rludos sugerem que as variáveis não são
independentes'
n
Continuando o estudo da associação entre variáveis num conjunto de tllctos, construímos, no próximo exemplo, uma tabela de dupla entrada contendo rrs freqüências que seriam esperadas, caso houvesse independência entre as vlriáveis. Precisamos decidir se as duas tabelas, a de freqüências observadas e a tlc esperadas, estão suficientemente próximas uma da outra. Ilxemplo 5.-f 0.. Apresentamos os dados relativos a uma amostra de 80 famílias, de lun certo bairro, com as informações sobre o número de pessoas que trabalham nufamília (") e o número de adolescentes entre 12 e 1B anos (A).
r\Á
0
1
2
0
5
4
I
2
B
2
4 4
.1
total
,
15
rJ
t
4
2
3
1
15
6
4
I
2t
8
B
5
2
27
2
2
5
4
I7
T7
B,
80
22
1B
total
A rnarginal deT e as freqüências de seus valores, restritas ao grupo Á- 0, serão irpresentadas em seguida. Note que as freqüências de ocorrência, restritas a cada grr.rpo de valor de A, nada mais são do que as colunas da tabela de dupla entrada rlo início do exemplo.
t40
Capítulo 5 : Variáv eis Bidimensionais
T
T
freq.
/A:0
freq. observ.
0
15
0
5
1
1
2
2
2L 27
2
4
3
L7
J
4
total
80
total
15
i,i
freq. observ.
freq. esperada
0
5
2,87
2
4
3
4
3,94 5,06 3,19
total
15
15
De modo análogo ao feito para o grupo
e eii
proximidade nas tabelas. Não é difícil perceber que isto significa valores pe(luenos da medida Q2 e,no Capítulo 8, desenvolveremos um critério estatístico, piìriÌ tomar a decisão de aceitar a independôncia de duas variáveis. Para este excrnplo, vamos nos contentar em apresentar o cálculo da medida Q2 que, pelo tlr:rr valor, consideraremos uma indicação de não independência:
Q,:
(5-2,81)2
2,81
:12.63. +...+ (4-r,70)2 L,70 D
Á: 0, calculamos as freqüências
esperadas para todas as colunas da tabela de dupla entrada (valores aproximados):
7 \.4
0
1
2
ò
4
total
0
2,Bl
3,19 4,46 5,74
15
2,r0
27
2,70
27
t t)
3,94 5,06 3,19
3,37 4,73 6,08 3,83
1,50
I
4,13 5,77 7,42 4,67
3,61
I,70
17
total
15
22
1B
77
B
80
2
"11
repfesentando, respectivamente, as freqüências observadas e csl)cradas na linha 'i e coluna j. A medida Q2 usa a diferença entre oi.j e ei.j elcvada ao quadrado para evitar o cancelamento de termos positivos por flL:gativos. A divisão pot ei.i objetiva padronizar a medida, relativizando o tnrrranho da diferença encontrada. Como estamos tratando de observações de vrrriÍrveis, podem ocorrer flutuações devido à natureza aleatóúa da amostragem e €rrrrcluiremos pela independência entre essas variáveis, se houver razoáxel
Eonl o,;.i
7 mantivessem a mesma proporcionalidade encontrada na ilmostra como um todo. Em outras palavras, as duas tabelas acima precisariam ser parecidas quanto à freqüência relativa. Acrescentamos, na tabela restrita ao grupo A.:0, uma nova coluna com a freqüência esperada caso a independência se verifique. Essa coluna foi calculada multiplicando a freqüência relativa do valor cle ? (em toda a amostra) pela freqüência do grupo. Por exemplo, a freqüência esperada do valor T:7, no grupo dos Á:0, seria 21180 x 15:3,94. Note que esta freqüência não precisa ser um número inteiro.
1
eube agora quantificar se essa tabela está ou não "muito" distante da tabela
Q':D4,
de cada valor de
2
141
ohscrvada. Uma medida usualmente calculada é a seguinte:
Se houvesse independência entre T e A, o comportamento da variâvel ? em cada grupo deveria ser o mesmo e, portanto, esperaríamos que as freqüênci
T\Á:0
5,2 Associação entre Variáveis
No caso de dependência linear e de variáveis quantitativas, existe uma prrtla medida que é freqüentemente utilizada e será definida, a seguir, para um corr.junto de dados brutos.
I)t1[iníção 5.4: Correlação entre variáveis num conjunto de dados brutos Considere um conjunto de dados com n pares de valores para as variáveis
por (ru,g),'í:I,2,...,fr.O coeficiente de correlação entre as variáveis e é calculado da seguinte forma: linear rrrcrlc a dependência
.\ c Y, representados
'n
Px,Y
D@o i,:l
=
- r,,r,,)(ar. -
a,*,)
Capítulo 5: Variáveis
142
5.2 Associação entre Variáveis
Scgue que r o6, : l-35, 63 currelação vem que:
ou, em uma forma mais conveniente para cálculo, n,
LrtAt.-TLIohsAobs
i:l
PX,Y:
e
143
y
oo,
:
38, 75. Utilizando a expressão de cálculo da
43245-8x135,63x38,75
PX,Y:
lÌrrtanto, a correlação entre índice pluviométrico e produção é positiva e bastante titzoável. Desta forma, locais com maior intensidade de chuva tenderiam a ter
As expressões anteriores podem ser adaptadas para o caso em que dados estão agrupados em uma tabela de freqüência. As expressões não apresentadas aqui, mas acreditamos que podem ser obtidas sem dificuldade. É possível verificar que o coeficiente de correlação é sempre um nú entre -1 e 1. Um ponto a ser ressaltado, que muitas vezes causa confusão, é correlação igual a zero não indica independência. Se a correlação é zero, o podemos dizer é que não existe dependência linear entre as variáveis. interpretação para os termos presentes no seu cálculo será dada mais adian quando definiremos coeficiente de correlação para variáveis aleatórias. Exemplo 5.11: A quantidade de chuva é um fator importante na produtivi agrícola. Para medir esse efeito foram anotados, para 8 diferentes regi produtoras de soja, o índice pluviométrico em milímetros (X) e a produção
,tí'ítt(.
produtividade.
tr
Vamos voltar nossa atenção agora paravariâveis aleatórias discretas. Para elcí'inir medidas de dependência entre elas, precisamos estudar, inicialmente, as propriedades do valor esperado. Sejam X e Y duas variáveis aleatórias discretas com distribuição conjunta p(r,y). As marginais de X e )z serão representadas, repectivamente, por
p(t:) e p(y). Vamos determinar o valor esperado da variável
E(x-+Y):
tIt" r.u
:I
X +Y:
+üp@,a)
D,p@,Ò +L,\un@,u)
TU:E'!J
Tfutuúll>
çr"ned'u,tt7-D
'
tttlior
"o-'o
:
-,1,
>
auxílio o"
,
rr-uofrín[ilf"
.
o,
út
10Bb
,D"?:
151533;
i:l
Dru:310, tú:12640; i:L i:t D*oro: i:l
43245.
: I"
(t
p@,a))+t,
(f
p(*,Ò)
:trp@)+tap@)
88 8
rtÌ''ú'UtA
rUUT
ìlca o uma
88
D"o: i--L
| ,,\J-
X;U
:
E(x) + E(Y).
Notc que obtemos essa importante propriedade do valor esperado, sem necessitar
tlc rtcnhuma hipótese adicional sobre as variáveis. Dessa forma, esse resultado lcrn ampla aplicação e também é válido para mais de duas variáveis. Considere agora o produto XY. O valor esperado do produto será o pt'oduto dos valores esperados, sempre que as variáveis forem independentes. Para X eY variâveis aleatórias discretas independentes, temos:
t44
Capítulo 5 : Variáveis
B
idimensionais
E(xY): tL"yp@,a) r
: I D,*aP@)P@) r lt
-$
Segue então que
/t
o par de variáveis f*,h
Exemplo 5.12.' No Exemplo 5.5,
vl o t
pi |
ít \ ,nf
.
com suas probabilidades.
(
(0,0) (0,1) (0,2) (1,0 (1,1) (2,0) (2,
1
(2,2)
X+Y XY 0
L
2
0 0
2/r0 2/r0
1
0
L/n
2
I
1170
2
0
L/10
t r)
2
4
4
0
L
2
S/10 e E(Y)
:
L'
+Y)
: ISlto: E(X) + E(Y):
B/10
+
1,
'
isto é, o valor esperado da soma é igual à soma dos valores esperados. Entretanto, para o produto temos R
/10
ou seja, o valor esperado do produto de duas variáveis não é igual ao produto de seus valores esperados. Note que, conforme já havíamos mencionado, as variáveis aleatórias
X eY
não são independentes.
tr
Na Figura 5.2, apresentamos a expressão do valor esperado da sorra de variáveis aleatórias.
L/rc r/70
3
:
z
3lt0
E(xY):7lLo+E(x)E(Y): õ * t,
Utilizando a tabela acima, a função de probabilidade de X obtidas sem dificuldade:
x+rl
E(X
p(r,a)
0
I
E(X)
3lt0 4lr0
Podemos agora verificar que represenr
respectivamente, a quantidade de poços artesianos e de riachos em sub-regiões uma certa ârea. A próxima tabela contém os valores das variáveis X f Y e X
(X,Y)
2
p | 5/10 2/70 slto
'.ü*
: (T 'p@)) (Duna) E(x) E(Y)
1
xl o
'!l
:
145
5.2 Associação entre Variáveis
+Y
e a de
XY
4
Fígura 5.2: Valor esperado da soma de vuriáveis aleatórias. Para os valores esperados temos:
E(X+Y):18/ro
É importante salientar a relação unidirecional de implicação entre a e E(XY)
:7lto.
As distribuições marginais de X e Y jâ foram calculadas no Exemplo 5.5 e são reapresentadas em seguida:
independência e a fatoração da esperança do produto. O resultado váfido afirma que a independência de X e Y implica no valor esperado do produto XY set igual ao produto do valor esperado de X pelo valor esperado de Y. Todavia, se o valor esperado do produto de duas variáveis é o produto dos valores esperados,
Capítulo 5: Variáveis Bidimensionais
t4(,
niio necessariamente é verdade que
X
e
Y
são independentes.
A
Figura
resume esse comentário, que é ilustrado no próximo exemplo.
t47
5.2 Associação entre Variáveis
c, desde que temos um par em que a probabilidade da conjunta não é igual ao ;rroduto das probabilidades marginais, concluimos que as variáveis aleatórias W e
Z
não são
tr
independentes.
Se as variáveis são dependentes, a relação entre elas pode ser de vários tiflcs e, no caso de ser linear, vamos definir uma medida dessa dependência.
Definição 5,5: Covaríância de duas varidveis aleatórias Uma medida de dependência linear entre
Cov(X,Y) Itigura 5.3: Valor esperado
do
produto e independêncía de varióveis aleatórias.
:
ox,Y
:
E[(X
-
X eY LLx)
(Y
pela covariância:
ê, dada
- P")]'
Iirn palavras, a covariância é o valor esperado do produto dos desvios de cada
tr
variável em relação à sua média.
IÌxemplo 5.13.' Considere as variáveis
WeZ
com a seguinte distribuição
conjunta:
W\Z
2
-1
2/72
0
0
0
r/L2
1
I/L2
2/12 3/12
P(Z :
3/L2
z)
t
4
L)
P(W
3/12 L/T2 2/12 6/12
:
clas variáveis.
w)
5l12 2/12
Ilxemplo 5.14: As variáveis U eV têm a seguinte distribuição conjunta:
5/r2
(u,v)
(2,2)
(3,4)
(3, B)
(4,6)
(5,4)
(5,8)
(6, 10)
1
P(u,u)
0,1
012
0,1
012
0,1
012
0,1
A variável W Z tem função de probabilidade dada por:
wzl-4 prob. |
-2
No próximo exemplo ilustramos o cálculo da covariância e, para auxiliar ir interpretação de sua expressão, faremos uma representação gráfica dos valores
l{epresentamos a seguir essa distribuição através de uma tabela de dupla entrada, i ncluindo as marginais.
0
3lL2 2/L2 2/L2 7/72 2
Temos então,
E(W Z)
:
(-4) x 3lL2+ .'. + 4 x 2lLz
-0. Por outro lado, utilizando as distribuições marginais de
W e Z, podemoscalcular
Vale portanto a relação E(WZ):E(W)E(Z).Nesse caso, seriam independentes? A resposta é não, uma vez que, por exemplo, 2)
: 2lI2 + P(W : -L)P(Z -
4
6
2
0,1
0
D
t)
0
4
0
5
0
P(V
E(W) : (-1) x 5lI2 + 0 x 2lI2 * L x 5fL2 : 0 ; E(Z) : 2 x 3lI2 + 3 x 3112 + 4 x 6lL2 : 391L2
: -I,Z -
2
6
seus valores esperados. Assim,
P(W
u\v
2)
:
WeZ
L5/L44,
:
u)
P(U
:
B
10
0
0
0
012
0
0
0,1 0,3
0
012
0,1 0
0
012
0 0
0,3
0
0,1 0
0
0
0,1
0,1
0,1
0,3
012
0,3
0,1
I
u)
012
Utilizando as probabilidades marginais, obtemos imediatamente que E(t/) : 4 e Ii(V) :6. Nosso interesse é verificar a existência de uma relação linear entre U e |/. No diagrama a seguir, apresentamos a função de probabilidade conjunta das cluas variáveis.
148
Capítulo 5: Variáveis
5,2 A,r,vtciação entre Variáveis
r49
os pontos localizados no 1" e 3" quadrantes têm suas coordenadas com o ffiênnro sinal, Iogo o produto delas é positivo. No 2" e 4o, o produto e n"guii;o.
Sonr'ndo esses produtos, ponderados ielas respectivas probabilidades, temos:
tf
@
- n(u))x
(u
- E(v)) x p(u,u),
€ essc número inai"u'ï t"naon"iu de alinhamento no sentido dos quadrantes Ímp'res ou pares, de acordo com o sinal positivo ou negativo, respectivamente. A €r;trcssão acima nada mais é do que a fórmula da covariância entre x e y, Êprcsentada aqui em uma forma mais detarhada do que na Definição 5.5. calculos, obtemos Cov(U €rçu.rirnoo os cálculos, Etbtuando : 2, inOi"ãnao Cov(U,V) indicando u rV) :2, a tendência das variÍrveis moverem-se na mesma direção, isto é, quando uma variável cresce na
€UÍru também cresce.
tr
A covariância pode ser calculada mais facilmente pela seguinte expressão
ãlternativa:
Fazemos agora uma translação de eixos para colocar a origem respectivas médias, isto é, no ponto (4,6).Dessa forma, os pontos anteri transformam-se em (u - 4,a - 6), com cada coordenada representando o desvi em relação à sua média.
: o*,, : E(Xlí) - E(X) E(y). Õbserve que' no caso em que xe y serem independentes, temos cov(x,y) : Cov(X,Y)
utì1il vez que
ffJl*'.for' lllìcilr.
0,
o valor esperado do produto se torna igual ao produto do, uâIo.", A partir da covariância, definimos uma nova medid" d" d;;"dêï;;;
Derfinição 5.6: Correlação entre vatríáveis aleatórías
O coeficiente de correlação entre as variáveis aleatórias discretas
é r:irlculado pela seguinte expressão:
4'.,- :
X ey
Cov(X,Y) OX OY
E Pela definição acima, o coeficiente de correla ção ê o quociente entre a crviuiância e o produto dos desvios-padrão de x e )2. A divisão pelo produto dos rlcsvios-padrão tem a função de padronizar a medida e torná-la possível de ser ,tilizada para comparações com outras variáveis. Não é difícil u"rifi.u, gue px,v é rrrrr número adimensional e limitado por 1, isto é, < lpx,vl 1. A interpretação de suir cxpressão segue os mesmos passos da covariância, sendo que valores de 1t,y,y próximos de Í 1 indicam correlação forte.
t50
Capítulo 5: Variáveis
5,2 Associação entre Variaveis
151
Vamos, agora, deduzir a expressão da variância da soma de duas variá aleatórias. Desenvolvendo a partir da definição de variância temos:
Var(X
+Y): E16 +Y) - (trt + t"y)l' : El(x - px) + (Y - pt)l' 16 - px)z + (v - pv)2 + 2(x - px)(Y - p")l E(x - px)2 + E(Y - ttv)2 +2El(X - px)(Y - p")]. E
Figura 5.4: Correlação para conjuntos de dados (brutos).
Então,
Var(X +
y) :
Var(X) + Var(Y)
i
2
Cov(X,Y)
que, se rcdtzirâ à soma das variâncias, no caso de independência entre
X eY.
Exemplo 5.15.' Nos Exemplos 5 .5 e 5 .I2, o par de variáveis (X ,Y) representa respectivamente, o número de poços e de riachos em sub-regiões de uma
Figura 5.5: Covariância
6trea.
Já calculamos .E(X
cov(x,Y)
:
Y)
:
E(xY)
7
ltO, E(X) :8/10
E(Y)
:
1, portanto,
- E(x) E(Y) :+t0- *10t t :
Usando as distribuições marginais, podemos obter Para avariância de X i Y temos
Var(X
e
+n: ''100 2 # "
2x :76/100 ozr:
+2(-#) :
e correlação de varidveis aleatórias.
-*. 10 : ï :60/1
e o2u
116 100
Figura 5.6: Variância da soma de duas variáveis aleatórins.
O coeficiente de correlação será
Cov(X,Y) ox oY
-Llt0
ffi@
:
-0,15.
Vamos encerrar essa seção, aplicando as propriedades do valor esperado e rlu variância na obtenção dessas quantidades para o modelo Binomial. Il"rctnplo 5.1ó.' Considere uma sequência de variáveis aleatórias independentes Bernoulli de parâmetro p. Como se comporta a soma de n dessas virliiiveis?
eorrr distribuição
Nas figuras a seguir, resumimos algumas fórmulas dessa seção.
Representemos por Xr, Xz, .. ., X,,, a sequência de variáveis de Bernoulli. lisíirrnos interessados em X : Xr t Xz * '.' * Xn, e, pela definição do modelo Ilirrornial, já sabemos que X - b(n,p). Lembrando que E(Xa) : p e Var(X6) : p(l - p) para 'i:1,2,..., D,
virrrìos calcular
a
média
ea
variância de
X,
utilizando as propriedades
Capítulo 5 : Varidv eis Bidimensionais
t52
5.2 Associação entre Variáveis
t53
apresentadas anteriormente. Temos,
r\c
E(X):E(Xt+Xz.-"'+X,)
: :
E(xt) + E(x2) + ... + E(x") p+ p+...+ p
-
np.
3.
H M
F
(M)
2
J
4
5
6
7
8
9
10
11
C
C'
'c
C
b.
h
b
b
C
d
c
b
c
a
c
b c
b
c
b c
l2 a,
c
c
d
c
b
C
b
c
c
b
b
c
c
b
aos funcionários de um pequeno escritório; busca relacionar as variáveis: anos de estudo (X) número de diftrentes " empregos nos últimos 5 anos (y). O que você pode dizer com os dados fornecidos?
3.
I
10
11
l2
Y
4
2
I
2
I
10 38
o
T2
16
31
Uma amostra de 220 clientes de uma clínica dentária foi selecionada' As variáveis tempo, em anos, decorridos desde a última visita ao dentista (V) eo número de córies encontradas (C) é apresentado na próxima tabela'
X
eY
x\y
-2
0
2
4
-1
0,1
0,2
012
1
012
0
0,1 0,1
ê,
0,1
a. Obtenha as funções de probabilidade marginais das variáveis. X e Y são independentes? c. Calcule a covariância e a correlação entre X eY.
,
I existem duas bolas numeradas 0 e 1, enquanto que a caixa II contêm duas bolas numeradas 1 e 0. Uma bola é retirada aleatoriamente de cada caixa, de forma independente uma da outra. A esse experimento, associamos as variáveis aleatórias: número da bola retirada na caixa I (X), soma dos valores das duas bolas retiradas (Y) e a difurença, em módulo, desses valores (Z). a. Determine a função de probabilidade conjunta entre X eY e entre Y e Z. b. Verifique se X e Y são independentes. Idem paraY e Z. c. Calcule a covariância entre X eY. d. Obtenha Var(X +Y).
5. Na caixa
2. rJm levantamento obtido, junto
8
16
45
b.
a. Construa as tabelas de freqüência conjunta para H e M e para H e F. b. Calcule a proporção de alunos com ó em física, dentre os com pelo menos c em matemática.
X
1B
34
apresentada na próxima tabela.
tl
1. Na tabela a seguir encontram-se os conceitos de história (H), matemótica efísica (F ) de alguns alunos do 3o. ano do ensino médio de uma escola.
I
1
4. A função de probabilidade conjunta entre as variáveis aleatórias
Exercícios da Seção 5.2:
Aluno
2
a. Obtenha as tabelas marginais de freqüência. b. Construa a tabela de freqüências esperadas, caso houvesse independência entre as variáveis. c. Determine o índice Q2.
: Var(Xr t Xz + "' 1 X,,) : Var(Xt) * var(X2) + ... + var(X") : p(l - p) + p(I - p) + ... + p(L - p) : np(I- p).
Esses resultados coincidem com aqueles apresentados no Capítulo
1
2 J
Para obter a variância, usaremos a independência dos X;,r:
Var(X)
0
6.
A variável X é,Bernoulli com p : 0,4 eY Admita que X e Y são independentes. a. Determine P(X :\lY :2).
é Binomial com p
:
0,5 e n
:
b. Obtenha a função de probabilidade conjunta de X e Y e do produto XY. c. Calcule E(X),8(Y) e E(XY) e verifique que: E(X) x E(Y) : E(XY). d. Determine o valor de Cov(X,Y) e de py,y.
3.
Capítulo 5 : Variáv eis Bidimensionais
t54
5.3 Exercícios
155
5.3 Exercícios 1.
A
tabela a seguir apresenta os valores observados em uma amostra de 130 empregados do ramo do comércio. Sexo \ Fumante
Masculino Feminino
Sim
18
25
63
a. Construa as tabelas marginais de freqüência para as variáveis Sexo
e
Fumante. b. Se usássemos a amostra para tirar uma conclusão sobre toda população, você diria que, proporcionalmente, mais homens fumam do que mulheres? c. Calcule o índice de associação Q2 entre as variáveis. ,,
freq.
(0,0)
L2
(0,
25
1
(0,2) (1,1) (2,1 (3,1 (3,2)
Não
24
(F,C)
8
t4 57 40 45
(4,r
27
(4,2)
22
5. Os dados a seguir referem-se a uma amostra de início do curso, seu peso e idade.
5 alunos que informaram, no
Em uma amostra de 8 funcionários de uma empresa, observou-se duas variáveis: anos de empresa (A) e número de promoções recebidas (P). Com
Aluno
I
2
J
4
5
Peso
7L
65
70
57
66
os resultados apresentados a seguir você diria que, para essa empresa, essas variáveis estão associadas?
Idade
L7
L7
18
17
19
A P
5
6
6
7
I
2
2
1
2
0
B t J
B
8
1
0
3. Está sendo estudado o efeito do teor de ferro na capacidade ile car p de vigas de concreto. Os dados abaixo apresentam os resultados de medidas btidas em
5,4 2rL
6,8
,)
6,9
2r9
7,3 2r9
7,7 3,0
8,1 3,1
8,2 3,1
4. A tabela de freqüência conjunta entre número de filhos
8,5 3,1
(f')
8,6 314
Tempo (min.)
3,5
Temperatura
número de
cusamentos urïáì certa empresa.
a. Determine as tabelas de freqüência marginais, correspondentes a cada uma das variáveis, isoladamente, e calcule as médias de F e C. b. Construa um gráfico com a distribuição de freqüência das variáveis. Você
c.
conclusão?
r
coeficiente de correlação entre F e C. Note que será necessário adaptar a expressão apresentada na Definição 5.4. Determine
o
anos.
ír. Para cinco volumes de uma mesma solução foram medidos os tempos aquecimento, em um mesmo bico de gás, e as respectivas temperaturas
8,9
" oficiais (C) é apresentada, a seguir, para os 250 funcionários de
chega a alguma
l7
de de
ebulição:
uma amostra. Obtenha a correlação entre as variáveis. Ferro (7o peso) Carga (ton./m2)
a. Encontre a média e o desvio padrão do peso dos alunos c"om b. Construa o diagrama de Peso por ldade. c. Obtenha o coeficiente de correlação entre peso e idade.
('C)
20
22
19
23
17
75
BO
75
82
78
a. Obtenha o gráfico do Tempo pela Temperatura e calcule a correlação. b. Você acha que existe associação entre as variáveis? 7. Alguns cientistas sociais acreditam que a opinião sobre o aborto independe da situação familiar. O que você diria, após estudar a amostra?
Situação \ Opinião
Favoráveis
Contrários
Casados
56
2:4
Solteiros Divorciados
15
25
24
16
Viúvos
13
27
t56
8.
Capítulo 5 : Variáveis Bidimensionais
5.3 Exercícios
A tabela a seguir consiste de 16 valores de três variáveis observadas em alunos do curso de ciências sociaisr sexo (S), nota de estatística (E) nota de " antropologio (A).
s
M
F
M
F
M
M
F
F
F
M
M
F
M
F
F
t
M
E
r)
6
4
iJ
o
6
5
5
I
4
5
5
6
5
4
r)
t
6
A
e)
t
4
3
5
5
5
4
6
5
5
4
4
5
5
6
5
a. construa a
tabela de dupla entrada para as notas de estatística
9. Num certo distrito de saúde, o comportamento conjunto dos
Pac. No.
t
C
I
1
2
s F
2
2
t)
0
Pac. No.
I4
15
t6
2
I
I
C
er
antropologia. b. Repita o item (a), considerando apenas os homens. c. calcule, para os alunos do sexo masculino, o coeficiente de correlação entre as notas de estatística e de antropologia. d. Com o uso da tabela obtida em (a), calcule a porcentagem de cada freqüência conjunta em relação ao total de alunos. de
sarampo (S) e difteria (D) foi o seguinte:
r57
,9
2
4
D
4
2
D
,f t d
F
J
5
6
7
8
I
t
a)
2
2
t d
2
J
0
D
L)
1
2
1
1
1
2
0
t L)
1
1
ï7
t
1
2
1
18 a)
9
10
ll
12
I3
1
1
2
1
2
I
0
1
2
23
24
1
r)
t9
20
2I
22
1
2
1
1
t
t
D
()
2
1
2
2
1
1
2
!)
t)
,)
0
0
1
0
0
1
1
2
4
a. Construa a tabela de dupla entrada com as variáveis C e S. b. Estude a associação entre as variáveis C e S, através das porcentagens em relação ao total de coluna. c. Repita os itens (a) e (b) para C e F. d. Repita os itens (a) e (b) para S e F.
O
departamento de vendas de certa companhia ofereceu um curso de atualizaçáo a seus funcionários e, para estudar a eficâcia do curso, resolveu comparar a noto de teste no curso (7) com o volume de vendas, em rhilhares de unidades, nos seis meses seguintes ao curso (V). Os resultados estão na
11.
tabela abaixo.
t6
I7
18
t9
20
2t
22
23
24
25
26
27
28
29
30
1
I
2
ó
1
0
1
2
1
0
0
0
1
L
2
2
2
I
t .)
2
2
2
2
I
2
1
I
1
t
i)
t ()
a. Obtenha a tabela de dupla entrada. b. Calcule a porcentagem de cada ocorrência conjunta em relação ao total de casos.
c. Repita o item (b), fazendo a porcentagem em relação ao total de colunas.
d. Que conclusão
se pode tirar da relação entre a incidência de sarampo e
difteria? 10. As informações da tabela a seguir foram coletadas de 24 pacientes da ârea de cardiologia de um grande hospital público. A variável C indica o número de
intervenções cirúrgicas sofridas pelo paciente, ,9 representa o número de pontes safena colocadas pelo paciente em uma ou mais cirurgias e a variável F indica o número de.familiares próximos com problemas cardíacos.
,1,
V
R
9
7
8
6
8
É .J
5
6
7
4
7
q d
5
3
74
13
T2
13
10
I2
11
11
10
T2
10
13
10
T2
11
a. A variável ? serve para explicar a variável b. Calcule a correlação entre as variáveis.
I/? Justifique.
12. Um total de 1000 passageiros de vôos domósticos foram entrevistados no Aeroporto de Guarulhos. Duas variáveis foram observadas: número de viagens mensais (V) número de automóveis na família (Á). O resultado está na próxima tabela"que, por descuido, está incompleta.
V\A 1
ì/0
2 õ
150 /t0
total
300
J
2
r)
t
total
BO
60
-zt)O
1
:.{.,t
L20 Ì
C
450
,l4a
300
200
'i i Ì.. ),
Capítulo 5 : Variáveis Bidimensionais
/51J
5.3 Exercícios
A função de probabilidade conjunta das variáveis tabela de dupla entrada.
16.
! a. Complete a tabela. b. Calcule as porcentagens em relação ao total de coluna. c. As variáveis são independentes? Justifique.
x\y
13. A tabela de freqüência apresentada em seguida está incompleta e contêm observações das variáveis: vida útil do equipamento (t/) garantia do " fabricante (G), ambas medidas em anos.
U\G
2
4
6
B
8
t)
t
3
o
0
10
4
I
6
t2
1
total
5
í)
5
'.,Ú
1t
6
X eY
são independentes. d. Calcule o coeficiente de correlação entre
15. Considere a função conjunta: 0
1
2
0
t/78
rls I/I8
rl6
1
2
a. Calcule
7/9 L/6
r/6
P(l < X 12,y > 1) e P(X:
b. Determine E(X), E(Y) e Cov(X,Y). c. X e Y são independentes? Justifique.
1,
U9 r/18
Y
)
1/8
r/8
0
1/8 L/8
0
1/B
I/B
L/8
eT.rJmabola é sorteada ao devolvida à caixa. uma segunda bola é " escolhida, também ao acaso, e seu número denotado por X2. a. Determine a conjunta de X1e X2. b. Calcule as marginais de X1 e X2. Elas são independentes? c. Encontre o valor esperado e a variância de X1, X2 eX : e+Ãt.
igual a 0 se a
(xr)
18. Uma moeda equilibrada é lançada três vezes e são definidas as variáveis aleatórias: número de caras nos dois primeiros resultados (x), número de caras no último lançamento (Y) e número total de caras (S). a. Construa a tabela conjunta de (X,Y). b. Verifique se X e Y são independentes. ' , c. Calcule E(X), E(Y) e Cov(X,Y). d. Expresse ,5 em função de X e Y e determine E(.9) e Var(S). 19. considere a frase: "Para mais saúde pratique mais esporte,,. Escolha ao acaso uma palavra dessa frase e considere as variáveis aleatórias número de vogais
(V) e número de consoantes (C). a. Determine a conjunta deV e C. b. Obtenha as funções de probabilidade marginais. c. Calcule os valores esperados dessas variáveis. d. As variáveis são independentes? Justifique. e. se a escolha acima resultou em v : 2,, qual é a probabilidade da palavra "mais" ter sido a escolhida.
X eY.
x\v
-1
acaso, seu número anotado
/
L4. Para o lançamento de dois dados equilibrados, defina duas variáveis
eY
1
17. Numa caixa existem 4 bolas numeradas 3, 5, 5
a. Complete tabe Construa o gráfico de [/ por G e verifique se há associação entre as variáveis. c. Calcule a vida útil média para cada subgrupo de valor da garantia. Comente os resultados.
aleatórias. Seja X o número de vezes que aparece aface 2 soma for par e 1, caso contrário. a. Determine a função de probabilidade conjunta de X eY. b. Calcule E(X), E(Y) e E(X +Y).
ê dadapela seguinte
:
10\ <,O
0
x ey
a. Verifique se E(XY) E(X)E(Y). b. X e Y são independentes? Comente.
+4. 4
-1
I/B
1
total
b.
c. Verifique se
t59
1).
A tabela a seguir representa a função de probabilidade conjunta de duas variáveis aleatórias independentes.
20.
160
Capítulo
x\
), -1
2
1
P(X
3
P(Y
:
: r)
r/5
y1
:,Y';E(Y) "
3/5
L/5
25.
variáveis que representam, respectivamente, o número de /ezes em que o 2 e o {
\
b. calcule a covariância e o coeficiente de correlação entre as variáveis. 22. As variáveis F e M representam, respectivamente, o número de anos para complêtar o ensino fundamental e o ensino médio. Numa certa cidade , a tabela a seguir é adotada pafa a função de probabilidade conjunta dessas variáveis. Determine o valor esperado e a variância da variâvel F + M que representa o total de anos ató completar o ensino médio. 3
4
5
6
8
e 160
/60 3/60
/60 5/60 3/60
r/60
9
I /60 7 /60
10
4160
3/60 2/60
23. Sejam X -b(5;0,5) e Y -b(3;0,2) independentes. Determine o valor esperado e a variância da
variável2X
-
BY.
24. A rabela a seguir representa a função de probabilidade conjunta entre o número de empregos desde que começou a trabalhar (E) e a idade do primeiro enlprego (1), de jovens em uma pequena cidade do Estado de são paulo.
E\r b 6 I
8
A
13
14
15
16
0,02 0,07 0,10 0,10
0,02 0,09 0,08 0,06
0,02 0,L2 0,03 0,04
0,03 0,13 0,05 0,04
X eY.
conjunta das variáveis aleatórias independentes
x\v
I
F\M
18.
X
e
Y
é' parcialmente
apresentada a seguir:
1
3 aparecem na decomposição. a. Obtenha a conjunta entre D e T.
X :1-
b.IdemparaY:E-l.tp.
21. sorteia-se ao acaso um dentre os números g, 12,À e zz e é feita a decomposição do número sorteado em fatores primos. $ejam D e T, as
7
r61
c. Obtenha a conjunta entre
cov(x'Y)
7
\..Ì lÌxercícios
a. Determine o valor esperado e a variânciadavariâvel
L/6
a. Complete a tabela.
i:3i,iïil'ïl
: Variáveis Bidimensionais
2/6 3/6
0 1
5
-2
0
2
P(X
: r)
1
0,3
2
0r7
P(Y
:
u)
0,3
012
a. Complete a tabela.
b. Calcule o valor esperado e a variância de 2X
-
Y.
26. Sendo Xr,Xz e X3 variáveis aleatórias independentes, seguindo o modelo Bernoulli de parâmetro p, pergunta-se: a. Qual é a função de probabilidade de Xt t Xz * Xs? Você reconhece essa variável? b. Qual é o valor aeVar(È$h)t
X e Y são independentes e assumem, respectivamente, os valores 7,2 e 3 e-0, I e2. Admita conhecidas as probabilidades P(Y:0):1/3, P(X :3) : Ll3, P(X : L,Y :0) : 1/9 e P(X :3,Y :2) : Llq, a. Construa atabela de dupla entrada para X eY. b. Calcule E(X x Y) e Var(X + Y).
27. Sabe-se que
28. Um paleontólogo acredita que o número de minerais presentes em certo tipo de rocha pode influir na chance de se encontrar fósseis perto de uma indústria calcâria. Através de amostras de rocha obtidas em levantamentos de campo, elc
obteve
a
presentes
distribuição conjunta para as variáveis Z:número de minerctis variâvel que assume 1, se for observada a presença de fóssil e 0
eW:
caso contrário.
w\z a. Calcule
P(W
t
1
2
r)
0
r/8
r/8
r/4
I
L/8
L/4
1/B
:0, Z > L).
b. Encontre as distribuições marginais para Z e W c. Qual a esperança de Z?
.
I ()2
Capítulo 5 : Variáveis Bidimensionais
d. A
suspeita do paleontólogo é confirmada pelos valores apresentados na
tabela? Justifique sua resposta quantitativamente.
29. Sejam (J
X eY
:Y2 eV : X +Y, com a função de probabilidade -1 1
0
7
2
L/12 7/6
Ll6 7/4
r/3
a. Obtenha a conjunta de U e V. b. Calcule P(U L). c. Determine Cov(U,V).
: 4lV :
somente os valores ay, a2 e oJ, enquanto
P(A: P(A :
B
" os valore
a/l,aoota sl6
que
Á
assume e b2. Sabemos que:
:0,2; P(A - or) : 0,,5 ; P(B: br) : a1,B :bt) : 0,,L2 e P(B : bz I A : as): ot)
a.S: X+Y. b.D:X-Y.
32. Baseando-se nas projeções de preço de duas matérias primas, M1 e M2, pretende-se estudar a viabilidade econômica do lançamento de um certo produto. A função conjunta de probabilidade com os preços (em reais) é apresentada a seguir.
I
5
I
13
0,1 0,1
0
0
I r)
0,2
012
5
0
012
012
a. Determine o preço médio e a variância das matérias primas. b. O produto usa 2 unidades de M1e 3 de M2. Qual é seu custo médio?
X
eY
.
34. Considere duas variáveis aleatórias independentes U-Po(2) e V-G(0,3). A partir dessas variáveis definimos outras duas da seguinte forma:
seU:0;
-_í0l1 sel/)1: \-
0,b,
31. sejam x e Y independentes com função de probabilidade G(0,5). Determine o valor esperado e a variância de:
Mz
A caixa I
contém uma bola vermelha e uma azul, enquanto que a caixa II contém duas vermelhas e uma azul. Um experimento consiste em escolher uma bola ao acaso da caixa I e passar para a caixa II e, em seguida, escolher uma bola da II e passar paraa I. Sejam X eY os números de bolas vermelhas nas
33.
0,6;
a. Construa a tabela de dupla entrada entre A e B. b. As variáveis são independentes? Justifique. c. Calcule P(A: or l B: br).
Mt\
c. Se o produto deverá ser vendido poi 50 reais, qual será o lucro médio por
caixas Ie II, respectivamente. a. Calcule a conjunta de X e Y. Elas são independentes? b. Comente o que ocorre com a variável X +Y. c. Determine a média e a variância para cada uma das variável
0
30. considere duas ua.iáveis aleatórias discretas ,1,
163
unidade?
conjuntaentre
dada na tabeia a seguir:
x\v
.\.-l Exercícios
e Y: {Í'
seI/:0; seI/:1; seV ) 2.
a. Construa a conjunta de X e Y e determine Cov(X,Y). b. Determine o valor esperado e a variância de 2X - 3Y .
35. Duas moedas são lançadas simultaneamente. Uma delas é equilibrada e a outra tem probabilidade 213 de sair face cara. Considere as variáveis U: total de caras observadas eV éuma Bernoulli que assume valor I se as duas faces são iguais. a. Determine a conjunta de U e V e verifique se são independentes. b. Calcule a média e a variância de 2U - V .
36. (Use o computador) Com os dados das variáveis altura e peso da Tabela 1.1 do Capítulo l: a. Verifique o grau de associação através do cálculo do coeficiente de correlação.
b. Obtenha a média e o desvio padrão para cada uma das variáveis.
c.
Calcule
o
coeficiente de correlação entre as variáveis peso
e
altura
padronizadas. Os valores da variável padronizada são obtidos subtraindo-se a média e dividindo-se pelo correspondente desvio padrão. Compare com o resultado encontrado no item (a).
o computador) Considere os dados apresentados no Exercício 23 do Capítulo 1, onde, no item (b) foi definida a variável Etário.
.17. (Use
IÕ.1
Capítulo 5 : Variáveis Bidimensionais
n. crie uma tabela de dupla entracla, contendo Etário nas linhas e Coag nas colunas. Com base em tal tabela, reavalie se a presença de coágulos é
diferente dependendo da faixa etária. b. Suponha que um paciente é escolhido ao acaso. Qual a probabilidade de que a pessoa apresentasse coágulos no momento de admissãol E uma pessoa de faixa etária mais alta? c. Você diria que Coag e Etário são independentes? por quô? 38. (Use o computador) Novamente com os dados do Exercício 23 do Capítulo
Capítulo 6
Variáveis Aleatórias Contínuas (r.1
1.
considere agotaavariávelCuracriadanoitem(c). \ a. Crie uma tabela de dupla entrada com Cura nas linhas e Tratjm nas colunas. b. com base na tabela do item (a), você diria que neste caso,/rapidezda cura depende do tipo de tratamento considerado? Justifique. / c. Qual a probabilidade de que uma pessoa selecionada áo u"uro tenha cura rápida, dado que recebeu tratamento do tipo I ? d. Qual a probabilidade de uma pessoa ter recebido tratamento do tipo I, dado que teve cura normal?
39. (use o computador) Responda os itens a seguir, baseado nos dados de incidência de câncer apresentados no Exercíc io 24, capítulo l. a. utilizando a mediana da variâvel GL, classifique os pacientes em dois grupos, de alta e de baixa taxa de glicose. Denote essa nova variável por Clagl e construa uma tabela de dupla entrada entre Clagl e ALB. Você diria que as duas variáveis estão relacionadas de alguma forma? b. considere os valores da variável Idade em três grupos: jovem com até,25 anos (inclusive), meia idade para indivíduos com idades entre 25 e 55 anos (inclusive) e senior para maiores de 55 anos. construa uma tabela de dupla entrada para estudar o comportamento desses grupos em relação à concentração de fosfato, tirando as conclusões pertinentes. c. Escolhendo-se um paciente ao acaso, qual a probabilidade de que ele seja do grupo .falso-negativo, dado que tem mais de 50 anos? E ter acima de 50 irnos, dado que não é do grupo falso-negativo?
40. (use o computador) utilize as informações do arquivo aeusp.txt, introduzido no Exercício 26 do Capítulo 1. a. crie uma tabela de dupla entrada com as variáveis comun e Renda. Você diria que existe associação entre elas? b. Repita o item (a) para as variáveis Reproce e Trab. c. O que pode ser dito da associação entre número de residentes (variável Resid) e idade que começou a traballrar (variírvel Itrab),?
Introdução
Neste capítulo, discutiremos a çVracteriz4ção de variáveis cujos possíveis valores ocorrem aleatoriamente e pertencem a um intervalo dos númerd's reais: virriáveis aleatórias contínuas. Renda, salário, tempo de uso de um equipamento, comprimento de uma peça e área atingida por certa praga agríeola são exemplos dc quantidades que podem ser modeladas por variáveis aleatórias contínuas. De lìrrma semelhante àquela desenvolvida. para variáveis aleatórias discretas, prccisamos estabelecer, para as contínuas, a atribuição de probabilidades às suas
cliversas realizações que, neste caso, podem assumir um número vtlores diferentes. Abordamos esta questão no prgximo exemplo.
infinito
de
Iixemplo ó.1.' Estudos anteriores revelam a existência de um grande lençol de ígua no subsolo de uma região. No entanto, sua profundidade ainda não foi tlcterminada, sabendo-se apenas que o lençol pode estar situado em qualquer ponto entre 20 e 100 metros.
Vamos supor que escolhemos, ao acaso, um ponto nessa região e tlispomos de uma sonda que, ao fazer a perfuração, detecta com precisão a lrlofundidade do reservatório de água. Denotamos por X a variâvel aleaÍória rcpresentand o a p rofundidade. Notemos que, apesar de X poder ser qualquer número entre 20 e 100 nìctros, o instrumento, com que trabalhamos, pode não ser tão preciso como liostaríamos. Por exemplo, uma profundidade de 32,571 metros poderia ser rrrcdida por 32,6 metros. Vamos assumir, entretanto, que temos um instrumento itlcal que náo faz aproximações. Nessas condições, podemos supor a sonda ;rcoplada a um instrumento indicador da profundidade e um dispositivo que, tlrrnndo a sonda encontrar água, provoque a imediata interrupção da perfuração. Uma vez que não temos informações adicionais a respeito da lrroÍnndidade do lençol, é razoâvel assumirmos que a sonda pode parar em rprnlquer ponto entre 20 e 100 metros, sem que tenhamos motivos para privilegiar cssn oll aquela profundidade. Assim, consideraremos todos os pontos como igrralmcnte prováveis. Se utilizarmos a mesma idéia de atribuir a cada possível
l6(t
Capítulo 6: Variáveis Aleatórias
ponto uma probabilidade, teremos uma dificuldade extra, pois eles pertencem intervalo [20, 100], em que existem infinitos números reais. Assim, se cada
cleles tiver, individualmente, probabilidade maior que zero, a soma probabilidades será igual a infinito e não 1, como requer a definição da função probabilidade. Em geral, em situações como esta, não é de intEresse conside um único valor para a variá..vel aleatória, mas intervalos de valores na atribui dc probabilidades. Neste caso, sabemos que o espaço amostral corresponde intervalo [20, 100] e as profundidades são igualmente prováveis. suponhã, por nìomento, que dividimos o espaço amostral em 8 intervalos de comorimento 1 Logo, é razoâvel atribuir aos intervalos a probabilidade l/g, us, corre$ondend, corres\ondendo relação entre o comprimento de cada um deles e o compri-"ntoldo nmostral. Isto é, 10 para 80 ou 1/8. Assim, com a divisão ém s fzías de".p, is comprimento e sem intersecção entre elas, teremos os intervalo d po, 30), Ï 40),..., [90, 100] todos com a mesma probabilidade l/g, pois todós tem o mes termanho.
Para construir um histograma, nos mesmos moldes do capítulo podemos supor que l/8 é, a freqüência relativa da ocorrência de cada um irrtervalos. As ordenadas do gráfico são as densidades, calculadas de modo que úrea de cada retângulo seja a freqüência relativa (probabilidade) do intervalo.
167
6,1 Introduçõo
Densidade
20
30
40
O histograma mostra que,
50
ô0
apesar
70
80
90
100
de termos diferentes intervalos,
a
clcnsidade permanece com o mesmo valor, igual a 1/80.
taumentando cada vez mais o Podemos continuar esse procedimento, rrúrnero de faixas, com a conseqüente diminuição das suas amplitudes de tal forma
(ple, em uma situação teórica com infinitos intervalos, temos
o
seguinte
Iristograma:
Densidade
Densidade de Probabilidade
1/8
1/8
lta
1t8
1/8
'v8
1lA
118
Note que, dada as características do problema, a divisão em g intervalos produziu o mesmo valor de densidade de l/80 para todos eles. Se dividirmos o intcrvalo [20, 100] em l6 faixas iguais, utilizando o mesmo argumento anterior, tcrnos que os intervalos [20, 25), [25, 30), [30, 35), .. . , [95, 100] terão todos a rììosma probabilidade l/16. O histograma correspondente será:
100
Estamos agora em condições de caracterizar, completamente, a atribuição rlc probabilidades para o caso contínuo. Ela será definida pela fuea abaixo de uma
I'unção positiva, denominada densidade de probabilidade. Observe que a clcnsidade em si não é uma probabilidade, mas uma função matemática que nos