As vantagens de amostrar são: Economiza mão-de-obra, tempo e dinheiro. Possibilita rapidez na obtenção dos resultados. Coleta de dados mais precisos. É a única opção quando o estudo resulta em destruição ou contaminação dos elementos pesquisados. c) Parâmetro: é a descrição numérica de uma característica populacional. Exemplo: Média (µ), variância (σ²), coeficiente de correlação (ρ).
̅
d) Estimador: também denominado Estatística. É a descrição numérica de uma característica amostral. Exemplo: Média amostral ( ), variância amostral (s²), coeficiente de correlação amostral (r ). e) Estimativa: é o valor numérico obtido para o estimador numa certa amostra.
1.4 – VARIÁVEIS Em Estatística, variável é cada característica que pode ser observada (ou medida) em cada elemento da população, sob as mesmas condições. Dados estatísticos são observações da realidade que nos cerca, podem ser fatos ou números. A característica de interesse de estudo (variável) pode ser dividida em duas categorias: qualitativas e quantitativas.
1.4.1 – Variáveis Qualitativas: são aqueles nos quais as características de um elemento são fornecidas por um nome ou por um rótulo. São classificadas como: Qualitativas Nominais: os dados que podem ser separados em categorias não mensuráveis. Ex.: Estado civil, sexo, cor da pele, grupo sanguíneo, tipo de transporte. Qualitativas Ordinais: envolvem dados que podem ser dispostos em alguma ordem. O nível ordinal dá informação sobre comparações relativas, mas os graus de diferença não servem para cálculos. Ex.: Grau de instrução (Nível fundamental, Nível médio, Nível superior). Aparência (Péssima, ruim, regular, boa e ótima) Classe social (Baixa, média baixa, média e alta) 1.4.2 - Variáveis Quantitativas: são aquelas nos quais as características do elemento observado é uma quantidade. São classificadas como: Quantitativas Discretas: Assumem valores inteiros. Os dados discretos são resultados da contagem de um número de itens. 3
Ex.: idade em anos completos, nº de carros que circulam em Vila Velha, nº de pessoas atendidas em um caixa de banco. Quantitativas Contínuas: Assumem qualquer valor num intervalo de valores. São dados resultantes de medições. Resultam em um número infinito de valores possíveis. Ex.: Temperatura da cidade de Vila Velha, Quantidade de água gasta por dia na cidade de Vitória, peso dos alunos da turma de estatística. RESUMO DOS TIPOS DE VARIÁVEIS
EXERCÍCIOS (resolvidos na aula)
1. Determine se o conjunto de dados é uma população ou uma amostra. Explique. a)
A idade de cada governador de Estado.
b)
A velocidade de cada quinto carro que passa por um medidor de velocidade da polícia.
c)
Um levantamento de 500 estudantes e uma universidade que tenha 2000 estudantes.
d)
Os salários anuais de cada advogado em um escritório.
2. Determine se o valor numérico descreve um parâmetro populacional ou uma estatística amostral. Explique. a) Uma pesquisa com 1.000 adultos nos Estados Unidos descobriu que 12% preferem tirar férias nos meses de inverno. b) Uma pesquisa recente de uma amostra de MBAs reportou que o salário médio para um MBA é mais do que $82.000. 4
c) Os salários iniciais para 667 MBAs graduados na Escola de Negócios da Universidade de Chicago aumentaram 8,5% em comparação ao ano anterior. d) Em janeiro de 2007, 44% dos governadores dos 50 estados norte-americanos eram republicanos. e) Em uma checagem aleatória de uma amostra de logistas, o FDA(Food and Drug Administration) descobriu que 34% das lojas não estavam estocando peixes na temperatura apropriada.
3. Classifique o tipo de variável para os itens abaixo.
a) Grau de satisfação com um produto alimentício; b) Marca de antitérmico preferida; c) Peso de grãos exportados; d) Grau de escolaridade; e) Número de computadores em um laboratório de informática; f) O número de pétalas de uma rosa; g) A velocidade em km/h de um avião à jato;
4. Para as situações descritas a seguir, identifique a população e a amostra correspondente. a) Para avaliar a eficácia de uma campanha de vacinação no Estado do Espirito Santo, mães de recémnascidos durante o primeiro semestre de 2005, foram perguntadas a respeito da última vez que vacinaram seus filhos; População: Amostra:
b) Para verificar a audiência de um programa de TV no Brasil, indivíduos foram entrevistados com relação ao canal em que estavam sintonizados; População: Amostra: c) A fim de avaliar a intenção de voto para presidente do Brasil, pessoas foram entrevistadas em cidades brasileiras. População: Amostra: 5
1.5 - FORMAS DE ORGANIZAÇÃO E APRESENTAÇÃO DE DADOS: TABELAS E GRÁFICOS
Os requisitos de uma boa apresentação de dados são: •
Clareza (até os leigos compreendem o que está sendo apresentado)
•
Objetividade (atinge o fim que se quer atingir)
•
Concisão (é resumido, mas é também preciso, exato)
Os dados podem ser apresentação das seguintes formas: Brutos, Rol, Tabelas e gráficos.
DADOS BRUTOS: quando os dados originais (coletados) ainda não se encontram prontos para análise, por não estarem numericamente organizados. Ex.: Foi coletada uma amostra de Idades dos alunos do último período do curso de Engenharia Civil da UVV, no ano de 2013. 24 25
23 27
23 24
27 28
26 25
23 25
28 23
26 26
24 24
23 25
ROL: é uma lista em que os valores estão dispostos em uma determinada ordem, crescente ou decrescente. Ex.: Utilizando os mesmos dados anteriores (idade dos alunos). 23 25
23 25
23 25
23 26
23 26
24 26
24 27
24 27
24 28
25 28
Como pode-se observar a simples organização dos dados em um Rol, aumenta muito a capacidade de informação destes. Ela torna possível visualizar, de forma bem ampla, as variações dos dados, uma vez que os valores extremos são percebidos de imediato. Mas a análise com este tipo de disposição começa a se complicar quando o número de observações tende a crescer. Ao estudarmos grandes conjuntos de dados, é conveniente organizá-los e resumi-los de forma clara e objetiva. Os dados qualitativos ou quantitativos discretos podem ser apresentados ou organizados das seguintes maneiras:
Tabela de Frequências Gráfico de Barras/Colunas Gráfico de Setores Os dados quantitativos contínuos ou amostra grande de dados discretos podem ser apresentados ou organizados das seguintes maneiras:
Tabela de Frequências em classes (agrupada) Histogramas 6
Polígono de frequências Curvas de frequências e outros 1.5.1 - Tabela de Frequências (Distribuição de frequências) São representações nas quais os valores se apresentam em correspondência com suas repetições, evitandose, assim, que eles apareçam mais de uma vez na tabela, como ocorre com o rol. Este tipo de tabela não é aconselhável quando estamos trabalhando com amostragens grandes, pois pode ficar muito extensa, dificultando, além de sua elaboração, as análises e conclusões dos dados pesquisados. Contudo, neste tipo de tabela não há perda de informação. Uma tabela de frequências pode representar e caracterizar um dos seguintes tipos de frequências:
Frequência absoluta Frequência relativa Frequência Percentual Frequência acumulada (absoluta, relativa e percentual)
Frequência Simples Absoluta (fi ou fai): é o número de repetições de um valor individual ou de uma classe de valores da variável. Frequência Relativa (fr ou fri): é a relação entre a frequência de uma classe e a frequência total (soma das frequências de todas as classes).
f ri
f i k
f i
f i N
k
f ri
1,00
i 1
i 1
Frequência Percentual (fr(%) ou p i): é a frequência relativa de uma classe multiplicada por 100.
Exemplo: Suponha que foi realizado uma pesquisa com os funcionários da empresa X e verificado o grau de satisfação em relação ao salário. Satisfeito Satisfeito Muito Satisfeito Satisfeito
Muito Satisfeito Satisfeito Insatisfeito Muito Satisfeito
Insatisfeito Satisfeito Insatisfeito Satisfeito
Satisfeito Satisfeito Insatisfeito Muito Satisfeito
Satisfeito Satisfeito Satisfeito Satisfeito
A tabela de distribuição de frequências ficará assim: Grau de satisfação Insatisfeito Satisfeito Muito satisfeito Total
Frequência absoluta 4 12 4 20
Frequência Percentual (%) 20,0 60,0 20,0 100,0
7
Frequência Acumulada: Contabiliza as observações até o valor considerado. Pode ser calculada apenas para variáveis numéricas. Pode ser: frequência acumulada (F i), frequência relativa acumulada (Fri), ou frequência acumulada percentual (Pi). Exemplo: Tabela de distribuição de frequências utilizando os dados de Idades dos alunos do último período do curso de Engenharia Civil. 23 25
23 25
23 25
23 26
23 26
24 26
24 27
24 27
24 28
25 28
No caso as frequências acumuladas são as seguintes:
Idade
Frequência absoluta
Cálculo
Frequência acumulada
23 24 25 26 27 28 Total
5 4 4 3 2 2 20
5 5+4 9+4 13 + 3 16 + 2 18 + 2 -
5 9 13 16 18 20 -
Frequência relativa acumulada (F ri): Fornece a relação entre a frequência acumulada e o nº total de observações realizadas. Idade
Frequência absoluta
Frequência acumulada
Frequência relativa
Cálculo
Frequência relativa acumulada
23 24 25 26 27 28 Total
5 4 4 3 2 2 20
5 9 13 16 18 20 -
0,25 0,20 0,20 0,15 0,10 0,10 1,00
5/20 9/20 13/20 16/20 18/20 20/20 -
0,25 0,45 0,65 0,80 0,90 1,00 -
1.5.2 – Gráfico de Colunas/Barras
No eixo horizontal deve ser colocada a variável sob estudo No eixo vertical a frequência (absoluta, acumulada ou relativa) É traçada, para cada valor (atributo) da variável, uma barra com comprimento proporcional à frequência. O eixo vertical e horizontal pode ser invertido, ou seja, a variável pode ser colocada no eixo vertical e a frequência no eixo horizontal (gráfico de barras). 8
14 12 a i c n ê u q e r F
10 8 6 4 2 0 Insatisfeito
Satisfeito
Muito satisfeito
Grau de satisfação
Figura 1 . Título da figura
1.5.3 – Gráfico de Setores (Pizza)
Consta de um círculo dividido em setores, cada setor relacionado a um valor da variável a
ser representada. A abertura angular de cada setor é proporcional à frequência observada para cada valor.
Exemplo:
20%
20%
60%
Insatisfeito Satisfeito Muito satisfeito
Figura 2. Título da figura
1.5.4
Tabela de Frequências para dados agrupados em classes
É constituída da mesma forma que para os dados não agrupados, com a diferença de que agora os valores da variável a ser organizados por classes. Ao agrupar-se os valores das variáveis em classes, se ganha em simplicidade, mas se perde em detalhes (informações). Neste tipo de tabela se destaca o que há de essencial nos dados. Normalmente sugere-se o uso de 5 a 15 classes com a mesma amplitude. Menos que cinco classes pode ocultar detalhes importantes dos dados, e mais que quinze torna a apresentação demasiado detalhada. 9
Exemplo de dados agrupados em classes para os salários dos 36 empregados da seção de orçamento da Companhia XX por faixa de salários. Classe de salários 4,0 |-- 8,0 8,0 |-- 12,0 12,0 |-- 16,0 16,0 |-- 20,0 20,0 |-- 24,0 Total
Frequência (f i) 10 12 8 5 1 36
Porcentagem (%) 27,78 33,33 22,22 13,89 2,78 100,00
Dada a sequência: 1, 2, 3, 4, 5, 6. Podem-se representar intervalos das seguintes formas: •
Intervalo aberto: 1 --- 6 => 2, 3, 4, 5
•
Intervalo fechado: 1|---|6 => 1, 2, 3, 4, 5, 6
•
Intervalo fechado à esquerda: 1|--- 6 => 1, 2, 3, 4, 5
•
Intervalo fechado à direita: 1 ---|6 => 2, 3, 4, 5, 6
Os principais estágios na construção de uma distribuição de frequência para dados agrupados em classes são: 1. Organizar os dados brutos em um rol de ordem crescente ou decrescente. 2. Determinar a amplitude total dos dados que é a diferença entre o maior e menor dos dados.
√ ,
3. Determinar quanto ao número de classes a usar (k).
4. Determinar a amplitude de cada classe (c).
Em que: c é amplitude de classe; AT é a amplitude total; k é o número de classes. OBS: Se necessário o valor encontrado deve ser aproximado para cima com o mesmo número ou mais casas decimais que os valores das variáveis. 5. Estabelecer os intervalos das classes começando com um inteiro logo abaixo do menor valor observado ou com o menor valor observado e somando a amplitude das classes. Os intervalos de classe devem ser escritos, de acordo com a Resolução 866/66 do IBGE em termos de “ desta quantidade até menos aquela ”, empregando, para isso, o símbolo |-- (inclusão por limite inferior e exclusão do limite superior).
10
6. Relacionar os intervalos e fazer a contagem dos pontos por classe. A contagem total deve ser igual a n. 7. Construir uma tabela de frequência ou um gráfico de frequência.
Exemplo: Num determinado processo de fabricação foram feitas 50 observações de uma característica de qualidade de um tipo de peça, resultando nas seguintes medidas de diâmetro em milímetros.
√ √ , ≅
1.
Determinar a amplitude total:
2.
Determinar o número de classes:
3.
Determinar a amplitude de cada classe:
≅ 9,14
OBS.: A amplitude da classe foi arredondada para cima, pois o número de classes já havia sido arredondado para baixo.
Para se formar as classes tomam-se o menor valor do conjunto de dados, 60, e soma à ele amplitude, 10, obtendo assim o limite superior da classe (l s), 70, os outros limites são obtidos sempre somando-se a amplitude, 10, até formar 7 classes. A frequência absoluta (observada) é obtida contando-se a quantidade de elementos no intervalo, ou seja, de 60 a 70 (não incluindo esse extremo) existem 5 valores, e assim sucessivamente. As outras frequências são obtidas da mesma forma que para dados não agrupados em classes.
60 |--- 70 70 |--- 80 80 |--- 90 90 |--- 100 100 |--- 110 110 |--- 120 120 |--- 130
5 6 8 13 10 6 2
Frequência relativa (f r)
Frequência absoluta acumulada (Fi)
Frequência relativa acumulada (Fr)
5/50 = 0,10 6/50 = 0,12 8/50 = 0,16 13/50 = 0,26 10/50 = 0,20 6/50 = 0,12 2/50 = 0,04
5 11 19 32 42 48 50
0,10 0,22 0,38 0,64 0,84 0,96 1,00
11
1.5.5
Histograma • • • •
Cada classe é representada por um retângulo. A base do retângulo é o intervalo de classe. A altura do retângulo é proporcional à frequência da classe. A área do histograma é proporcional à soma das frequências, se usarmos a frequência relativa a área sob a curva vale 1. Exemplos de histogramas:
14
30,0%
12
l a 25,0% u t n e 20,0% c r e P s 15,0% a i c n ê 10,0% u q e r 5,0% F
26,0%
10
s a i c n ê u q e r F
8 6 4 2
20,0% 16,0% 12,0%
4,0%
0,0%
0 4
8
12
16
20
60
24
70
80
90
100
110
120
130
Diâmetro (mm)
Nº de Salários
1.5.6
12,0%
10,0%
Polígono de frequências
Neste gráfico as classes são representadas pelos seus pontos médios. O Polígono é formado pela união, por retas, dos pontos médios das partes superiores de cada retângulo do histograma. As figuras abaixo mostram exemplos de polígonos de frequências. 30,0%
14
l a25,0% u t n e20,0% c r e P s15,0% a i c n ê10,0% u q e r 5,0% F
12 s10 a i c n 8 ê u q 6 e r F 4
2 0 4
8
12
16
20
24
0,0%
Nº de Salários
1.5.7
60
70
80
90 100 110 120 130
Diâmetro (mm)
Ogiva de Galton ou Polígono de frequências Acumuladas
Neste gráfico as classes são representadas pelos seus limites superiores, utilizando a frequência acumulada. 12
A Ogiva de Galton é formada pela união, por retas, dos pontos que interceptam os limites superiores de cada classe da tabela e a frequência acumulada. O ponto inicial é o limite inferior da 1 ª classe.
EXERCÍCIOS (resolvidos na aula)
Tabela 01 - Informações sobre sexo, idade (anos), altura (metro e centímetro), peso (kg), estado civil, número de irmãos, transporte, procedência, relação do trabalho com o curso de Estatística, meio de informação e número de disciplinas reprovadas dos alunos da disciplina Inferência Estatística do curso de Estatística da UFES - 13/02/2013.
A partir do banco de dados acima construa tabelas e gráficos para os seguintes tipos de variáveis: a) Variável qualitativa (tabela simples e gráfico). b) Variável discreta (tabela de frequências e gráfico de barras). c) Variável contínua (tabela de frequências agrupada em classes). 13
d) Histograma. e) Polígono de frequências.
1.6 - NOÇÕES DE SOMATÓRIO No cálculo de várias medidas estatísticas, vamos utilizar somas de um grande número de parcelas. Para facilitar a representação destas somas, introduziremos o co nceito de somatório. Para simplificar a representação da operação de adição nas expressões algébricos, utiliza-se a notação ∑ , letra grega sigma maiúsculo.
As Principais representações são:
Apesar de ser apenas um código e não uma operação, a notação Sigma tem algumas propriedades que podem simplificar operações. Entre elas destacamos: i.
O somatório de uma soma é a soma dos somatórios.
14
ii.
O somatório de uma diferença é a diferença dos somatórios.
iii.
O somatório do produto de uma constante por uma variável é o produto da constante pelo somatório da variável.
iv.
O somatório da divisão de uma variável por uma constante é a divisão do somatório da variável pela constante.
Somatório Duplo
•
1
2
1
...
X 11
2
X 12
X 21
...
j
...
...
X 22
X 1j
...
...
X 2j
...
s
...
X 1s
...
X 2s
1
=1
2
=1
...
i
X i1
...
X i2
...
..
X ij
...
...
X is
=1
...
...
...
r
X r1
X r2
=1
...
1
=1
X rj
2
=1
X rs
=1
G
=1
→ 1, 2, 3, … ,í ℎ 1,2, 3,… , í
Onde:
Xij
15
, = = ⋯= . . = = ==
Nas aplicações estatísticas estaremos sempre interessados na soma de todos os valores da série. Portanto, i varia sempre de 1 a n e consequentemente não precisaremos indicar na notação sigma a variação de i. Desta forma, identificaremos:
EXERCÍCIOS (resolvidos na aula)
1) Escreva na notação Sigma, as somas:
a) X1+ X2 + X3 + X4 + X5 b) X3 + X4 + X5 + X6 c) (X1 + 2) + (X 2 + 2) + (X 3 + 2) d) (X3- 10) + (X4 - 10) + (X5 - 10) + (X6 - 10) e) (X1 - 3)² + (X2 – 3)² + (X 3 - 3)² f) ((X1 - 15)f 1 + (X2 - 15)f 2 + (X3 -15)f 3
2) Considerando os seguintes valores:
X1 = 2
X2 = 6
Y1 = 1
Y2 = 4
Calcular: a)
X3 = 7 Y3 = 5
X4 = 9 Y4 = 11
∑=Y 2 16
b)
∑=X 4Y
3) Calcule X1 e X3, dado que:
X 42 = ≠,= X 34
364 = 324 ≠,=
4) Utilizando a tabela abaixo, calcule:
17
LISTA DE EXERCÍCIOS 01
1. Calcule para a tabela abaixo, o valor numérico das somas indicadas: i 1
Xi 3
fi 2
2
4
5
3
6
3
4
8
2
4
a)
X
i
i 1
4
b)
f i i 1 4
c)
X i f i i 1 4
d)
X i
2
f i
i 1 4
e)
( X
i
10)
2
i 1
4
f)
X i
i f i
i 1 4
g)
(2 X i
2
10) f i
i 1
2. Classifique as seguintes variáveis em: Quantitativas (Discretas ou Contínuas) ou Qualitativas (Nominais ou Ordinais). a) A cor da pele de pessoas (ex.: branca, negra, amarela). Variável do tipo _______________________ b) O número de acessos diários em um blog. Variável do tipo _______________________ c) Número de horas de estudo para uma prova de estatística. Variável do tipo _______________________ d) O tipo de droga que os participantes de certo estudo tomaram, registrados como: Droga A, Droga B e placebo. Variável do tipo _______________________ 18
e) Níveis de calorias consumidos diariamente, registrados como: Alto, moderado e baixo. Variável do tipo _______________________
3. O corpo administrativo de uma indústria estudou o tempo de espera dos produtos que chegavam no setor de despache com uma solicitação de emergência. Os seguintes dados foram coletados no período de um mês (os tempos de espera estão em minutos): 2 21
5 6
10 8
12 7
4 13
4 18
5 3.
17
11
8
9
8
12
(a) Montar uma distribuição de frequência em uma tabela em classes, com amplitudes de classes c=4. (b) Mostre as frequências relativas, acumuladas e relativas acumuladas. (c) Que proporção destes produtos enfrentam um tempo de espera de 9 minutos ou mais no setor?
4. Uma indústria multinacional faz um levantamento das seguintes variáveis com seus gerentes: hobby; quantas vezes praticam esporte por semana; categoria de hotel em que se hospedam quando em viajem e tempo gasto (por semana) na leitura de jornais e revistas. a) Identifique e classifique cada uma das variáveis consideradas? b) Os resultados do tempo de leitura, em horas, para 25 funcionários foi:
1.7 1.3
3.6 1.3 1.5 1.6 1.2 2.0 2.1 2.5 2.3 2.5 2.2
2.9 11.2 1.3
4.3 5.5 4.7 4.8 4.8 4.5 5.7 10.7 3.6
i) Organize os dados em rol. ii) Construa uma tabela de frequência com k = 5 classes. iii) Construa um histograma.
5. Faça uma tabela para mostrar que de um total de 850 homens entrevistados sobre a venda da Vale do Rio Doce, 51 não tinham opinião, 425 eram favoráveis e os demais eram contrários. Das 725 mulheres entrevistadas, 87 não tinham opinião, 522 eram favoráveis e as demais eram contrárias. 6. A tabela seguinte representa as alturas (em cm) de 40 alunos de uma classe. 157
178
148
176
169
154
170
158
164
164
159
175
155
163
171
172
163
157
166
162
157
165
156
166
160
154
163
165
164
177
150
168
166
169
152
164
172
165
162
170 19
a) Calcular a amplitude total. b) Admitindo-se 6 classes, qual a amplitude do intervalo de classe? c) Construir uma tabela de frequências simples absoluta e relativa das alturas dos alunos admitindo que o limite inferior da 1 a classe seja 148 cm. d) Determinar os pontos médios das classes. e) Construir um polígono de frequências.
7. A distribuição abaixo indica o número de acidentes ocorridos com 70 motoristas de uma empresa de ônibus: Nº de 0 acidentes Nº de 20 motoristas
1
2
3
4
5
6
7
10
16
9
6
5
3
1
Determine: a) b) c) d) e) f)
O número de motoristas que não sofreram nenhum acidente. O número de motoristas que sofreram pelo menos 4 acidentes. O número de motoristas que sofreram pelo menos 3 acidentes. O número de motoristas que sofreram no mínimo 3 e no máximo 5 acidentes. A porcentagem dos motoristas que sofreram no máximo 2 acidentes. Construa um gráfico de colunas.
8. A tabela abaixo apresenta uma distribuição de frequência das áreas de 400 lotes de terra; utilize-a para responder as questões. Áreas (m²) 300 |-- 400 400 |-- 500 500 |-- 600 600 |-- 700 700 |-- 800 800 |-- 900 900 |-- 1000 1000 |-- 1100 1100 |-- 1200 Total
Nº de lotes 14 46 58 76 68 62 48 22 6 400
Com referência essa tabela, determine: a) A amplitude total dos dados b) O limite superior da quinta classe c) O limite inferior da oitava classe d) O ponto médio da sétima classe. Como você interpreta este valor? e) A amplitude do intervalo da segunda classe f)
Monte uma tabela com todas as frequências. 20
g) A frequência relativa simples da quarta classe h) A frequência absoluta simples da oitava classe. Como você interpreta este valor? i) A frequência absoluta acumulada da quinta classe. Como você interpreta este
valor? j)
O número de lotes cuja área não atinge 700m²
k) O número de lotes com área igual ou superior a 800m² l) A percentagem de lotes cuja área não atinge 600m² m) A percentagem de lotes cuja área seja maior ou igual a 900m² n) A percentagem dos lotes cuja área é de 500m², no mínimo, mas inferior a 1000m² o) A classe do 72º lote. p) Até que classe estão incluídos 60% dos lotes?
9. Complete os dados que faltam na distribuição de frequências: a) xi 0 1 2 3 4 5 6 7
f i 1
fr i 0,05 0,15
Fi
0,25 0,15
13
4
4 3 2
18 19
∑ = 20
∑ = 1,00
b) Classes 0 |-- 2 2 |-- 4 4 |-- 6 |-8 |-- 10 10 |-- 12 |-14|-- 16
xi 1 5 7 13
f i 4 8 27 15
Fi
fr i 0,04
30
0,18 0,27
72 83
10
0,10 0,07
∑=
∑=
21
GABARITO – 1ª LISTA DE EXERCÍCIOS Questão 01 a) 21 b) 12 c) 60 d) 334 e) 105 f) 31 g) 136 Questão 02 a) Qualitativa Nominal b) Quantitativa discreta c) Quantitativa contínua d) Qualitativa nominal e) Qualitativa ordinal Questão 03
Questão 04 a) Hobby – Qualitativa nominal Vezes que pratica esporte – Quantitativa Discreta Categoria de hotel – Qualitativa Ordinal Tempo gasto - Quantitativa contínua b)
Questão 05
Questão 06 a) AT = 30 b) c = 5 c)
22
d) Tempo
Ponto Médio (P.M) 150,5 155,5 160,5 165,5 170,5 175,5
148 |-- 153 153 |-- 158 158 |-- 163 163 |-- 168 168 |-- 173 173 |-- 178
e)
Questão 07 a) 20 b) 15 c) 24 d) 20 e) 65,7% f) 25 s 20 a t s i r o 15 t o m e 10 d º N 5
0
0
1
2
3
4
5
6
7
Nº de acidentes
Questão 08 a) Amplitude da tabela ( AT=1200 – 300 = 900). Amplitude dos dados não é p ossível b) Limite superior = 800 c) Limite inferior = 1000 d) xi = 950. 48 lotes têm áreas medindo em torno de 950 metros quadrados. e) h=500 – 400 = 100
23
f) f r =76/400 = 0,19 ou 19,0%. g) f 8=22. Em 22 lotes as áreas estão entre 1000 m² (inclusive) e 1100 m² (exclusive).
h)
i) f 5=262. Em 262 lotes as áreas são inferiores a 800 m2. j) 194 k) 138 l) 29,5% m) 19,0% n) 78,0% o) 500 |-- 600 3ª classe p) 700 |--800 5ª classe Questão 09
a) f i : 1; 3; 4; 5; 3; 2; 1;1 fr i: 0,05; 0,15; 0,2; 0,25; 0,15; 0,1; 0,05; 0,05 Fi: 1; 4; 8; 13; 16; 18; 19; 20 b) Classes: 6 |-- 8; 12 |-- 14 xi : 3; 9; 11; 15 f i : 18; 11; 7 Fi: 4; 12; 57; 100 fr i: 0,08; 0,15; 0,11
24
UNIDADE II – MEDIDAS DE POSIÇÃO
Na análise descritiva de dados as medidas estatísticas são instrumentos de avaliação e tomada de decisões. Entre essas medidas estão as Medidas de Resumo, também conhecidas c omo Medidas de Posição. O objetivo dessas medidas é de resumir um conjunto de dados ou uma distribuição de frequência através de uma medida central, em torno da qual os dados tendem a se concentrar; por isso, também são conhecidas como Medidas de Tendência Central. As medidas de tendência central são: Média, mediana, moda.
2.1 - MÉDIA Definimos a média aritmética simples (ou média, apenas) de uma população de tamanho N como sendo o quociente da soma de todos os dados da população pelo tamanho da mesma. Seja o seguinte conjunto de dados de uma variável X:
, , , , … , , , , … ,
Estes dados podem ser provenientes de uma amostra ou de uma população (normalmente o tamanho da amostra é simbolizado por “n” – minúsculo -, e o tamanho da população por N – maiúsculo). Média de uma amostra
Média de uma população
2.1.1 Média para dados não agrupados (Média Simples)
∑ .
Quando desejamos conhecer a média dos dados não agrupados, determinamos a média aritmética simples. Calculada por
Exemplo: Sabendo-se que a produção leiteira diária da vaca A, durante uma semana, foi de 10, 14, 13, 15, 16, 18, 12 litros, temos, para produção mediada semana:
Logo,
∑ 14 litros
25
2.1.2
Média para dados agrupados (Média Ponderada)
Quando desejamos conhecer a média dos dados agrupados numa distribuição de frequências, determinamos a média ponderada. A fórmula para calcular a média ponderada de uma amostra é:
∑. ∑. ou
Quando os dados estiverem em uma distribuição de frequência em classes, as observações são estimadas pelos pontos médios x i, obtidos da seguinte maneira:
2
Onde: Liminf é o limite inferior do intervalo Limsup é o limite superior do intervalo Exemplo (sem intervalo de classe)
Considere a variável X como o número de faltas de 25 funcionários de uma empresa computadas em um período qualquer e apresentada na distribuição de frequência abaixo: Nº de faltas (xi) 0 1 2 3 Total
f i 8 10 4 3 25
f r 0,32 0,40 0,16 0,12 1,00
O número médio de faltas por funcionários pode ser obtido por
∑. ∗ +∗+∗+∗ , ∑. ∗ ∗ ∗ ∗ , ou
Exemplo (com intervalo de classe) Consideremos a tabela de distribuição da estatura(cm) de uma amostra de funcionários, a média de estatura é calculada da seguinte maneira: Estatura cm
Nº de funcionários f i
xi
150 -- 154
4
152
154 -- 158
9
156
158 -- 162
11
160
162 -- 166
8
164
166 -- 170
5
168
170 -- 158
3
172
Soma
40
--
26
Neste caso, convencionamos que todos os valores incluídos em um determinado intervalo de classe coincidem com o seu ponto médio, onde no cálculo o x i é o ponto médio.
∑ ∗∗∗∗∗∗
A altura média dos funcionários é de 161cm.
2.2 - MEDIANA (Md) É uma medida de posição definida como o número que se encontra no centro de uma série de números, estando estes dispostos seguindo uma ordem. É o valor situado de tal forma no conjunto que o separa em dois subconjuntos de mesmo número de elementos. É frequentemente usada para a renda anual e para dados de valores de bens, porque algumas rendas ou valores de bens extremamente elevados podem inflacionar a média, nesses casos a mediana é melhor medida de posição. 2.2.1 - Mediana para dados não agrupados •
Com “n” impar
Para um número impar de observações a mediana será o termo de ordem:
•
Com “n” par
12
Para um número impar de observações a mediana será a média aritmética dos termos de ordem:
2 2 1
Após a ordenação dos valores, do menor para o maior, a mediana dividirá a série de observações em 2 partes iguais, ou seja, 50% menores valores se encontram abaixo da mediana e 50% maiores valores se encontram acima da mediana. Exemplos: Dadas a série de valores: 5, 13, 10, 2, 18, 15, 6, 16, 9, a mediana será: n= 9 (impar) Valores ordenados: 2, 5, 6, 9, 10, 13, 15, 16, 18
10,
Conclusão: 50% menores valores se encontram abaixo de 10.
Dadas a série de valores: 12, 18, 7, 10, 2, 13, 6, 21 n= 8 (par) Valores ordenados: 2, 6, 7, 10, 12, 13, 18, 21. 27
+ + + 11
=11
Conclusão: 50% menores valores se encontram abaixo de 11.
2.2.2 - Mediana para dados agrupados em intervalos de classe Para calcularmos a mediana numa distribuição de dados agrupados devemos seguir alguns passos até chegarmos ao valor que representa a mediana.
Passo 1- Na distribuição de frequência, devemos localizar a classe que contém o valor estimado da mediana. Para isso devemos localizar a classe que contém o termo de ordem , ou seja, a classe que contém a observação
é a mesma classe que contém a mediana.
Passo 2 – Localizada a classe da mediana, utiliza-se a formula:
∑ .
Onde: li = limite inferior da classe F(ant.) = frequência acumulada anterior a da classe mediana c = amplitude da classe da mediana f i = frequência absoluta simples da classe mediana EXEMPLO:
Calcular o salário mediano a partir da distribuição de frequência dos 40 funcionários de uma empresa. Salários (xi) 400 |-- 600 600 |-- 800 800 |-- 1000 1000 | -- 1200 1200 |-- 1400 Total
20º ,
Nº de Funcionários (f i) 2 8 16 10 4 40
Fi 2 10 26 36 40 -
a classe de Md é a classe que contém x 20, está na 3ª classe (800 |- -1000).
∑ . .
Localizada a classe mediana, devemos utilizar a fórmula seguinte para o cálculo do valor mediano:
O que significa que 50% dos funcionários recebem até 925,00.
28
Emprego da média e da mediana: De uma maneira geral, prefere-se empregar a média aritmética quando a distribuição dos dados é simétrica, ou nos casos em que se faz necessário o cálculo de outras estatísticas. Por outro lado, a mediana é preferida quando se deseja o ponto que divide a distribuição em duas partes iguais ou nos casos em que na distribuição dos dados existam valores muito distanciados dos demais, comumente chamados de valores extremos.
2.3 - MODA (Mo) Denominamos moda (Mo) ao valor que mais se repete num conjunto de dados simples ou isolado, ou o valor de maior frequência num conjunto de dados agrupados numa tabela de frequência. Quanto ao valor que se destaca num conjunto de dados podemos ter várias definições. Distribuição Unimodal: Quando somente um valor se destaca no conjunto de dados Distribuição Bimodal: Quando dois valores se destacam no conjunto de dados Distribuição Trimodal: Quando três valores se destacam no conjunto de dados Distribuição Multimodal: Quando mais três valores se destacam no conjunto de dados Distribuição Amodal: Quando nenhum valor se destaca no conjunto de dados 2.3.1 - Moda para dados brutos ou não agrupados em classes Quando lidamos com dados brutos ou agrupados a moda é o valor de maior frequência (maior número de repetições). EXEMPLO: Indique a moda para cada conjunto de dados. a) 8; 10;13; 17; 25; 10 -> Moda = 10 b) 1; 3; 6; 7; 20; 12; 5 -> Amodal c) 2; 1; 9; 7; 15; 2; 9; 4 -> Moda = 2 e 9 d) Nº de faltas/Serviço (xi)
e)
Nº de Funcionários (f i)
1 2 3 4 5 6 Moda = 2
2 15 3 2 2 3
Nº de faltas/Serviço (xi)
1 2 3 4 5 6 Moda1 = 2 , Moda 2 = 4
Nº de Funcionários (f i)
2 15 3 15 2 3
2.3.2 - Moda para dados agrupados em intervalos de classe Para o cálculo da moda nas distribuições de frequência com intervalo de classe, precisamos primeiro identificar a classe modal (classe com maior frequência) para depois calcular o valor da moda. Fórmula para cálculo da moda:
∆ ∆ ∆ .
29
Onde:
l∆ dilimferiteençainfeentriorredaa frcelaquênci sse modala da classe modal e a frequência da classe anterior. ∆campl e a frequênci a da cl a sse modal e a f r e quênci a da cl a sse post e r i o r . difeitruedençaouenttarmanho da classe modal EXEMPLO: Calcular o salário modal a partir da distribuição de frequência dos 40 funcionários de uma empresa. Salários (xi) 400 |-- 600 600 |-- 800 800 |-- 1000 1000 | -- 1200 Total
Nº de Funcionários (f i) 3 8 20 9 40
O intervalo de salários de 800 a 1000 reais é considerado a classe modal, pois é o intervalo que tem a maior frequência de funcionários com estes salários. Utilizando a fórmula para cálculo da moda temos:
12 . 200 904,35 → 904,35 ∆ ∆ ∆ . 800 1211
O salário que mais se repete entre os funcionários é de R$904,35.
Exercícios (Resolvidos em sala)
1 - Em uma classe de 50 alunos, as notas obtidas formaram a seguinte distribuição: Notas Nº de alunos
2 1
3 3
4 6
5 10
6 13
7 8
8 5
9 3
10 1
Calcule: a) A nota média b) A nota mediana c) A nota modal
30
2
- Dada a seguinte distribuição de frequência calcule a média aritmética, mediana e moda. Notas Nº de alunos
3
0 |-- 2
2|-- 4
4 |-- 6
6|-- 8
8|--10
Total
6
11
8
15
5
45
- Num determinado processo de fabricação foram feitas 50 observações de uma característica de qualidade de um tipo de peça, resultando nas seguintes medidas de diâmetro em milímetros.
Calcule o diâmetro médio e o mediano das peças.
2.4 – Medidas Separatrizes As medidas de separatrizes têm o objetivo de auxiliar na interpretação dos dados tornando possível a interpretação de uma distribuição de frequência de forma fracionada. São as medidas que separam o rol ou a distribuição de frequências em partes iguais. Vimos que a mediana divide a distribuição em duas partes iguais quanto ao número de elementos de cada parte. Agora vamos estudar outras medidas que dividem a distribuição em partes iguais, de forma fracionada, que serão as chamadas separatrizes. São elas: 31
2.4.1 Quartis (Qi) Os quartis dividem um conjunto de dados em quatro partes iguais. Assim:
Q 1: 1º quartil. Deixa 25% dos elementos antes do seu valor Q 2: 2º quartil. Deixa 50% dos elementos antes do seu valor. Coincide com a mediana Q 3: 3º quartil. Deixa 75% dos elementos antes do seu valor. Genericamente, para determinar a ordem ou posição do quartil a ser calculado, usaremos a seguinte expressão:
onde: i = número do quartil a ser calculado n = número de observações.
.4
Para dados agrupados em classes, encontraremos os quartis de maneira semelhante à usada para o cálculo da mediana:
Onde:
. .
li = limite inferior da classe que contém o quartil desejado c = amplitude do intervalo de classe F(ant) = frequência acumulada até a classe anterior à classe quartílica. f i = frequência absoluta simples da classe quartílica. 2.4.1.1 Diagrama de Caixa ou BOX-PLOT
O boxplot (gráfico de caixa) é um gráfico utilizado para avaliar a distribuição empírica do dados. O boxplot é formado pelo primeiro e terceiro quartil e pela mediana. As hastes inferiores e superiores se estendem, respectivamente, do quartil inferior até o menor valor não inferior ao limite inferior e do quartil superior até o maior valor não superior ao limite superior. Para este caso, os pontos fora destes limites são considerados valores discrepantes (outliers) e são denotados por asterisco (*).
32
A escala de medida da variável encontra-se na linha horizontal do quadro onde está inserida a
figura. Observe que 50% da distribuição têm valores dentro da caixa. As linhas horizontais que saem da caixa terminam nos limites inferior (LI) e superior (LS) da distribuição. Entre esses limites encontram-se os valores considerados como típicos da distribuição. Esses limites são determinados em função da distância entre os dois quartis (Q3 e Q1), isto é, do desvio inter-quartílico: DQ = Q3 – Q1.
2.4.2 Centil ou Percentil(Ci): São as medidas que dividem a amostra em 100 partes iguais. Assim:
O elemento que definirá a ordem do centil será encontrado pelo emprego da expressão:
onde: i = número identificador do centil n = número total de observações
100.
Para dados agrupados em classes, encontraremos os centis de maneira semelhante à utilizada para cálculo da mediana, dos quartis.
. .
Onde: li = limite inferior da classe que contém o centil desejado c = amplitude do intervalo de classe F(ant) = frequência acumulada até a classe anterior à classe centílica. f i = frequência absoluta simples da classe centílica.
33
Exemplo: A tabela abaixo refere-se a quantidade de negócios efetuados diariamente por uma instituição financeira. Calcular o 3º quartil e o 40º centil. Quantidade de neg/dia 11 12 13 14 15 16
f i 2 5 6 8 3 2
Fi 2 7 13 21 24 26
Calculando o terceiro quartil do exemplo acima: Passo 1) Identificar a posição do terceiro quartil
∗4 3∗264 19,5 ≅20
Portanto, a posição do quartil de ordem 3 é = 20.
∗ , ≅ 14
Passo 2) Encontrando o valor do quartil
O valor 14 está na posição 20 da tabela de distribuição de frequência. Interpretação: 75% das quantidades negociadas são menores ou igual a 14.
Exemplo: Com base na tabela de distribuição do consumo médio de eletricidade (kw/hora) entre usuários em uma cidade X. Encontre o: a) Terceiro quartil; b) vigésimo quinto centil; Consumo (Kwh) 5 |-- 25 25 |-- 45 45 |-- 65 65 |-- 85 85 |-- 105 105 |-- 125 125 |-- 145 145 |-- 165 Resolução: a) Q 3 Encontrar a posição do terceiro quartil:
Nº de usuários (fi) 6 4 14 26 14 7 6 3
Fi 6 10 24 50 64 71 77 80
∗ 60 34
O Q 3 está localizado na 60ª posição, logo encontra-se na 5ª classe. Com base nesses dados, calcularemos Q 3 da seguinte forma:
. 3∗80 . 4 50∗20 ,,
Interpretação: 75% dos usuários consomem até 99,29 kwh. De maneira análoga, 25% dos usuários consomem mais de 99,29 kwh.
b) C25 Encontrar a posição do centil 25:
∗ 20
O C25 está localizado na 20ª posição, logo se encontra na 3ª classe. Com base nesses dados, calcularemos C25 da seguinte forma:
. ∗ . ∗ ,,.
Interpretação: 25% dos usuários consomem até 59,29 kwh. De maneira análoga, 75% dos usuários consomem mais de 59,29 kwh.
EXERCÍCIOS (Resolvidos em sala)
1 - Calcular os valores do Q1, Q2 e Q3 da tabela seguinte: Tabela – Números de acidentes /mês no Cruzamento X em Vila Velha - ES N° de acidentes / mês
f i
Fi
0
4
4
1
6
10
2
9
19
3
5
24
4
4
28
Fonte: Dados Hipotéticos
35
2 - Dada as seguinte distribuição de frequência calcule Q 1, Q 3 , C93. Salários (R$) 500 700 700 900 900 1.100 1.100 1.300 1.300 1.500 1.500 1.700 1.700 1.900 Total
f i 18 31 15 3 1 1 1 = 70
36
LISTA DE EXERCÍCIOS 02
1- Calcule a média aritmética, mediana e moda para cada uma das distribuições abaixo: a) Pesos de recém-nascidos (em kg): 2.7; 3.9; 4.1; 4.3; 5.4 b) Taxas sanguíneas de uréia (mg/dl): 27; 31; 32; 34; 46; 61 c) Estatura de 140 alunos (em cm):
2- Qual o número médio, mediano e o 3º quartil do número de atendimentos em serviço médico por funcionários de uma empresa, distribuídos na tabela abaixo: Nº de atendimentos Nº de funcionários
0
1
2
3
4
TOTAL
24
21
3
1
1
50
3- O salário-hora de cinco funcionários de uma companhia, são: R$ 75,00; R$ 90,00; R$ 83,00; R$ 142 ,00 e R$88,00. Determine: a) a média dos salários-hora; b) o salário-hora mediano. 4- Calcule a média aritmética, mediana, moda e o C 80 das distribuições de frequência abaixo: a) b)
5- Você fez dois trabalhos num semestre e obteve as notas 8,5 e 5,5. Qual deve ser a nota que você deve tirar no 3º trabalho para que a média dos três seja 7? 6- Numa empresa, vinte operários têm salário de R$ 4.000,00 mensais; dez operários têm salário de R$ 3.000,00 mensais e trinta têm salário de R$ 2.000,00 mensais. Qual é o salário médio desses operários? 7- Qual a percentagem de valores que se localiza entre o ultimo quartil e o C 81? 8- Dados dois grupos de pessoas, o grupo A com 10 elementos e o grupo B com 40 elementos. Se o peso médio do grupo A for e 80kg e o grupo B for de 70kg então é verdade que o peso médio dos dois grupos considerados em conjunto é de 75kg? Justifique. 9- Um concurso realizado simultaneamente nos locais A, B e C, apresentou médias: 70, 65 e 45, obtidos por 30, 40 e 30 candidatos, nessa ordem. Qual a média geral do concurso? 37
10- Para um dado concurso, 60% dos candidatos eram do sexo masculino e obtiveram uma média de 70 pontos em determinada prova. Sabendo-se que a média geral dos candidatos (independente do sexo) foi de 64 pontos, qual foi a média dos candidatos do sexo feminino? 11- Dado o histograma abaixo, calcular a média, moda, mediana e o centil 70.
12- O histograma abaixo representa os salários, em reais (R$) dos 100 empregados de uma empresa:
a) b) c) d) e) f) g)
Que percentual de empregados recebem 8 salários ou mais? Quantos empregados recebem de 4 a 16 salários? Quantos empregados recebem menos que 4 salários ou mais que 12 salários? Qual o salário médio dos empregados? Qual o valor da mediana, e como você interpreta esse valor? Acima de que valor estão os 15 salários mais altos? Qual o maior salário entre os 14% mais baixos?
38
GABARITO - Lista de Exercícios 02 1-
2-
a)
média: 4,08
mediana: 4,1
moda: Amodal
b)
média: 28,5
mediana: 33
moda: Amodal
c)
média: 164,93
mediana: 164,08
0,68 , 1 31
3- a) R$ 96
moda: 162,5
b) R$ 88
4- a) média: 5,3 b) média: 172,4
mediana: 5,28 mediana: 174
moda: 5,2 P80: 7,64 moda: 176,57 P80: 180,22
5- 7 6- R$ 2833,33 7- 6% 89-
1011-
ã. 72 60, 5 55 6,8
12-
Md = 7
a) 64% b) 76 c) 56 d) = 9,84
Mo = 8,66 C70=8,66 e) Md = 10,33 f) C85 = 15,12 g) C14= 3,5
39
UNIDADE III - MEDIDAS DE DISPERSÃO
3.0 - Medidas de Dispersão Podemos definir dispersão (variabilidade) de um conjunto de dados como sendo a maior ou menor diversificação em torno de uma medida de tendência central. O objetivo das medidas de dispersão é medir quão próximos uns dos outros estão os valores de um grupo (e algumas mensuram a dispersão dos dados em torno de uma medida de posição). Exemplo 01: Em um processo seletivo, três candidatos estão concorrendo a uma vaga. Os candidatos realizaram vários testes e as notas obtidas foram registradas, o candidato escolhido será o que apresentar melhor desempenho no geral (notas mais homogêneas). Os resultados obtidos em cada um deles foram os seguintes:
A B C
5 10 10
10 9 10
7 12 9
15 9 10
14 14 9
12 8 9
4 9 10
7 7 11
10 8 7
Média 11 9,5 9 9,5 10 9,5
Qual informação é necessária para decidir qual o melhor candidato?
Verificamos que a média dos três candidatos nos 10 testes é 9,5, ou seja, os três tem o mesmo rendimento. Por outro lado, vemos que existe significativa diferença nas distribuições das notas. Então, p ara decidir qual o melhor candidato analisamos a dispersão ou variabilidade das notas de cada candidato, para verificar qual apresenta média mais confiável. As medidas de dispersão podem ser absolutas ou relativas. A seguir apresentaremos as que são consideradas mais importantes.
3.1 - MEDIDAS DE DISPERSÃO ABSOLUTA 3.1.1 - Amplitude Total (intervalo) É a medida mais simples de dispersão. Consiste em identificar os valores extremos do conjunto (mínimo e máximo), podendo ser expresso:
í [í; ]
- pela diferença entre o valor máximo e o mínimo; - pela simples identificação dos valores.
41
Exemplo 02: Observe o conjunto abaixo, referente às notas de duas turmas de Estatística:
Diagrama de Pontos das notas das turmas
Desvantagem do uso do intervalo: Apesar de sua simplicidade o intervalo não dá ideia de como os dados estão agrupados entre os extremos. No caso acima ambos os grupos têm o mesmo intervalo (4, [4,8]), mas no primeiro grupo os dados estão bem dispersos, enquanto no primeiro estão próximos do valor mínimo.
3.1.2 - Desvio (d i) Diferença entre o valor observado x i e a média (x) das observações. Exemplo 03: Dados os conjuntos:
X = 4; 6; 4; 6; 5; 5 Y = 9; 1; 5; 5; 1; 9
Média dos conjuntos Desvios em relação a média são:
5 5
= { -1, 1, -1, 1, 0, 0}
= { 4, -4, 0, 0, -4, 4}
Se os desvios tem valores relativamente pequenos (conjunto X), os dados tem pouca dispersão. Se, ao contrário, os desvios têm valores relativamente grandes como no caso do conjunto Y, a dispersão é maior. O conjunto com menor média dos desvios terá menos dispersão.
OBS: 42
3.1.3 - Desvio Médio (Dm) É a média dos desvios em seus valores absolutos.
Exemplo 04: Desvios médios dos conjuntos X e Y. di = xi - x = { -1, 1, -1, 1, 0, 0} di = yi - y = { 4, -4, 0, 0, -4, 4}
O desvio médio do conjunto X é menor que o desvio médio do conjunto Y.
3.1.4 - Variância (σ² ou s²) A variância é uma das medidas de dispersão mais importantes, pois proporciona uma mensuração da dispersão dos dados em torno da média. Para calcularmos a variância devemos considerar os desvios de cada valor em relação à média. Como estamos interessados nos tamanhos dos desvios e não no fato deles serem positivos e negativos trabalhamos com os desvios ao quadrado. Tomamos a média aritmética dos desvios ao quadrado, obtemos a variância.
Ou
∑
Ou
̅ ∑1 ∗ ∑
∑ População
Dados Simples
Tabelas
∑² ∑ ∗ ∑ ²
Amostra
Ou
Ou
̅ ∑1
A unidade de medida da variância equivale à unidade dos dados ao quadrado (e portanto o quadrado da unidade da média) causando dificuldades para avaliar a dispersão. Para retornarmos a unidade original dos dados tiramos a raiz quadrada da variância obtendo assim o desvio padrão. 43
3.1.5 - Desvio Padrão (s ou σ) É a raiz quadrada positiva da variância, apresentando a mesma unidade dos dados e da média, permitindo avaliar melhor a dispersão.
Dados simples:
∑ ∑ ∑ ∑ ∗
Tabelas:
OBS: se os dados referem-se a uma POPULAÇÃO usa-se N no denominador da expressão e o símbolo σ. - Quanto maior o desvio padrão, maior a dispersão dos dados em torno da média.
Exemplo 06: A tabela abaixo refere-se às notas dos candidatos do exemplo 1.
A B C
5 10 10
10 9 10
7 12 9
15 9 10
14 14 9
12 8 9
4 9 10
7 7 11
10 8 7
Média 11 9,5 9 9,5 10 9,5
Candidato A:
∑
, , , ⋯,² , ∑ ² ,, , , , ⋯, ² , ∑ ² ∑ , , , , , ⋯, ² , ∑ Candidato B:
Candidato C:
44
∑ ² , , Quanto maior a dispersão dos dados maior o valor do desvio padrão: - O candidato C é o que tem as notas mais homogêneas, pois apresenta o menor desvio padrão, 1,0. - O candidato A, apesar de apresentar notas altas, tem o maior desvio padrão (3,5), assim apresenta apresenta maior dispersão.
Exemplo 07: Amostra da estatura de 40 funcionários em uma empresa (em cm)
∗ ∑∗ ∗∗⋯ ∗ ,² ∗ ∗⋯ ∑
Média amostral:
Variância:
Desvio padrão:
,, PROPRIEDADES DO DESVIO PADRÃO
1. O desvio-padrão é sempre não negativo 2. Quanto maior for o desvio-padrão maior será a dispersão dos dados em relação à média. 3. Se o desvio-padrão é igual a zero é porque não existe variabilidade, isto é, os dados são todos iguais.
45
•
Propriedade da Soma
Somando-se ou subtraindo-se uma constante a todos os valores de uma variável, o desvio padrão não se altera. Média:
{1,3,5,7,9}, 5
Variância:
∑−−² −+−+− +−+−² 10
Desvio Padrão:
² 10 ≅3,2
Se somarmos a constante 2 a cada observação, teremos:
∑[+−−+]² ∑[+−−−]² ∑−−² S −+−+− +−+−² 10 Ou seja, a variância não se altera. Portanto, o desvio padrão permanece o mesmo.
•
Propriedade da Multiplicação
Multiplicando-se ou dividindo-se todos os valores de uma variável por uma constante (diferente de zero), o desvio padrão fica multiplicado ou dividido por este valor. Se multiplicarmos as observações por 2, teremos:
]² 2²∑[1 ]² 2 ∗ 1040 ∑[21 2]² ∑2²[1 Ou seja, a variância será multiplicada pelo quadrado da constante que multiplicou os valores da variável. Portanto, o desvio será multiplicado pela própria constante:
2² 4 ∗10 ≅2∗3, 2 6, 4 3.2 - MEDIDA DE DISPERSÃO RELATIVA
3.2.1 - Coeficiente de Variação Percentual (c.v. %) O coeficiente de variação percentual é uma medida de dispersão relativa, pois permite comparar a dispersão de diferentes distribuições (com diferentes médias e desvios padrões). 46
Onde é a média e s é o desvio padrão do conjunto de dados. Quanto menor o valor do C.V.% mais os dados estão concentrados em torno da média (conjunto mais homogêneo). Exemplo 07: Usando os dados dos candidatos do exemplo 1, temos: Candidato A B C
Média 9,5 9,5 9,5
Desvio padrão 3,5 2,0 1,0
Qual é o mais homogêneo em termos de notas.
. % ,, ∗,% . % ,, ∗,% . % ,, ∗,%
Classificação do Coeficiente de Variação:
Ou seja, 0 % ≤ CV ≤ 20% → Dispersão baixa (média boa como medida de resumo). 20% < CV ≤ 30% → Dispersão moderada (média razoável como medida de resumo). CV > 30% → Dispersão alta (média ruim como medida de resumo).
47
EXERCÍCIOS (Resolvidos em sala)
Exercício 1 – Um exame físico examinou 6 indivíduos cujos pesos (kg) foram: 68; 70; 86; 55; 75 e 90. No mesmo exame, foram também tomadas medidas de altura (cm), com seguintes valores: 170; 160; 164; 164; 170 e 180. Os indivíduos apresentam maior variabilidade no peso ou altura?
Exercício 2 Na tabela abaixo encontra-se a estrutura do produto interno bruto do Brasil, em bilhões de reais, segundo as atividades econômicas.
Em qual dos setores ocorre a maior variabilidade?
Exercício 3 - Uma variável X tem média igual a 10 e variância igual a 16. Calcule a média e a variância da variável dada por Y = (3X + 5) / 2.
48
Exercício 5 - Dado o polígono de frequências para as profundidades de poços de petróleo (metros), avalie a dispersão dos dados em torno da média.
49
LISTA DE EXERCÍCIOS 03
1) Um departamento de produção usa um procedimento de amostragem para testar a qualidade de itens recém-produzidos. O departamento emprega a seguinte regra de decisão em uma estação de inspeção: se uma amostra de 25 itens tem uma variância de mais que 0,15, a linha de produção precisa ser paralisada para reparos. Suponha que os seguintes dados tenham sido coletados:
Dados
fi
3,4 |--3,8
4
3,8 |--4,2
6
4,2 |--4,6
10
4,6 |--5,0
3
5,0 |--5,4
2
Total
25
Pede-se: a) A linha de produção deve ser paralisada? Por quê? b) A média e uma boa medida de resumo para o conjunto de dados? Explique pela dispersão relativa(CV) dos dados. c) Estime a menor medida entre as 25% maiores.
225 e 235.
2) Duas turmas A e B com nA = 50 e nB = 80 apresentaram médias Qual é a turma mais homogênea?
65 e 70
e variâncias
3) O tempo de “ignição fria” de um motor de carro está sendo investigado por um fabricante de gasolina. Os seguintes tempo (em segundos) foram obtidos em um veículo de teste: 1,75; 1,92; 2,62; 2,35; 3,09; 3,15; 2,52 e 1,90. O que podemos dizer sobre a qualidade da média levando-se em consideração a dispersão dos dados (utilize CV)? 4) Dados os histogramas de duas amostras de preços de um produto em regiões distintas, pede-se:
a) Calcular e comparar os preços médios do produto. b) Qual região apresenta menor centil 75 (C 75). 50
c) Qual região é mais heterogênea em relação aos preços do produto? 5) Uma indústria deseja comprar uma máquina para melhorar o desempenho de sua produção. Como opção, o engenheiro responsável deve avaliar duas marcas e decidir qual das duas comprar. As máquinas foram então testadas e os tempos de execução são dados abaixo. Máquina Z: 25 24 25 22 23 24 23 27 22 26 Máquina W: 29 23 28 27 26 24 24 28 23 28
a) Encontre a média amostral e o desvio padrão amostral para o tempo de execução de cada máquina. b) Suponha que você seja o responsável de dar o parecer. Qual das duas escolheria? Justifique (Use CV). 6) Dado o gráfico abaixo, pede-se:
a) b) c) d) e) f)
Construir uma tabela de distribuição de frequências? Podemos dizer que 50% dos aumentos estão abaixo de que percentual? Qual a classe de variação com maior frequência? Qual o aumento médio durante estes dois anos? Qual a proporção de aumentos entre 4% e 8,0%? Avalie a dispersão dos percentuais de aumento do dólar.
7) Os conjuntos de dados abaixo referem-se a observações dos preços de um produto em todos os estabelecimentos de seu comércio, em duas grandes cidades: Cidade A:
Cidade B:
2,0
2,5
2,8
2,8
2,5
2,6
2,6
2,4
2,4
2,0
2,3
2,5
2,6
2,4
2,8
2,8
2,5
1,7
1,9
1,8
1,8
2,2
2,0
2,8
2,5
3,2
2,5
2,1
2,3
2,4
a) b)
Em média, qual cidade apresenta maior preço do produto? Qual cidade apresenta preços mais homogêneos? Utilize o C.V.
8) Considere os seguintes dados amostrais (conjunto de peças, em gramas): 105 – 110 – 102 – 103 – 107 – 105 – 90 – 80 51
Pede-se: a) A média, a mediana, a moda, o desvio médio, a variância, o desvio padrão e o coeficiente de variação. b) Os dados possuem pequena dispersão? Por quê? c) Somar 100 de cada observação para obter uma amostra com valores transformados e calcule a média, a variância. (Compare essa variância com os dados originais).
09) A idade média dos candidatos a um determinado curso de aperfeiçoamento sempre foi baixa, da ordem de 22 anos. Como esse curso foi planejado para atender a todas as idades, decidiu-se fazer uma campanha de divulgação. Para se verificar se a campanha foi ou não eficiente, fez-se um levantamento (amostra) da idade de candidatos à última promoção, e os resultados estão na tabela a seguir.
Idade
18 |-- 21
21 |-- 24
24 |-- 27
27 |-- 30
30 |-- 33
Total
Nº de candidatos
18
12
10
8
2
50
a) Baseando-se nesses resultados, você diria que a campanha produziu algum efeito (isto é, aumentou a média)?
2 S/√ n
x22
b) Um outro pesquisador decidiu usar a seguinte regra: se a diferença fosse maior que o valor , então a campanha teria surtido efeito. Qual a conclusão dele, baseado nos dados? c) O que podemos dizer sobre a qualidade da média de idade levando-se em consideração a dispersão dos dados? d) Acima de que valor de idade estão os 5 candidatos mais velhos?
52
GAB ARITO - Lis ta de Exercício s 03 (Medid as d e di sp ersão)
Qu es tão 1)
a) Sim, pois a variância da amostra é maior que a variância tolerada de 0,15.
4,29 0,207 0,455 ∗100 0,4,42559 ∗10010,6%
b) A média tem uma boa qualidade, o coeficiente de variação é menor que 20%, representadno baixa dispersão.
c) P75 = 4,55
O menor valor entre os 25% maiores é 4,55.
Qu es tão 2) :
∶ ∗100 ∗10023,1% : ∗100 15,703 ∗10021,9%
Turma B é mais homogênea, apresentou menos percentual de variação.
Qu es tão 3)
2,41 0,2865 0,535 ∗100 ,, ∗10022,19%
A média é de qualidade moderada, pois os dados apresentam moderada dispersão. CV > 20%
Qu es tão 4 )
:
6,9 8,7 ∶ 9,0 : 10,43 6,25 2,5 ∗100 2,6,59 ∗10036,24% 4,96 2,23 ∗100 2,8,273 ∗10025,6% áá: 24, :1 26 0,277 5,31,3 62,6 31 á : ∗100 2,1,24,36161 ∗1006,9% á : ∗100 26 ∗1008,88%
a) A cidade A apresenta preço médio mais baixo. b) Cidade A. c) Cidade A
Qu es tão 5 )
a)
b) A máquina W, pois apresenta menor percentual de variação.
53
Qu es tão 6 )
a)
Percentual de 0|-- 2 2|--4 4|--6 6|--8 8|--10
fi 5 15 33 25 22 100
Fi 5 20 53 78 100
fr 5,0% 15,0% 33,0% 25,0% 22,0% 100,0%
b) Acima de 5,82. P50 = 5,82 c) 3ª classe. (4|--6) d) e) 33 +25 = 58% f)
Fr 5,0% 20,0% 53,0% 78,0% 100,0%
5,88 5,2 2,28 ∗100 ,, ∗10038,77%
Alta dispersão
Qu es tão 7 )
a) Cidade A. b) Cidade B. Menor coeficiente de variação.
: 2,39 0,12 0,34 ∗100 0,2,3349 ∗10014,34% : 2,32 0,108 0,33 ∗100 0,2,3332 ∗10014,22% 100,25 101,64 10,06 ∗100 100,10,0285 ∗10010,06% 200,25 101,64 10,08 ,, ∗1005%
Qu es tão 8 )
a) A média, a mediana, a moda, o desvio médio, a variância, o desvio padrão, o erro padrão, e o coeficiente de variação. b) Sim, pois o CV ≤ 20% representa baixa dispersão.
c) Após somar 100: A média é alterada e a variância permanece a mesma.
Qu es tão 09 )
a) Sim, a média da amostra é 23,34. Superior a 22 anos.
x22> 2 S /√ n 30,43 5,51 x2223,34221,34 2√ Sn 2∗5,√ 5051 1,56 1,34<1,56 ,, ∗10023,63% b) Se
23,34
Não surtiu efeito.
c) O que podemos dize
d) Acima de 28,25 anos. (P90=28,25)
54
UNIDADE IV - PROBABILIDADE 4.0 – INTRODUÇÃO A PROBABILIDADE Normalmente é impossível identificar com certeza o resultado de um evento futuro: •
De qual sexo será o primeiro filho de determinado casal;
•
Qual lado da moeda vai sair;
•
Com quantos anos determinada pessoa vai morrer;
•
Quais os números que serão sorteados na loteria;
Usando a teoria da probabilidade, é possível quantificar a chance de um evento futuro ocorrer com base em informações obtidas de eventos passados.
4.1 - CONCEITOS IMPORTANTES Experimentos Aleatórios Experimentos que quando repetidos, nas mesmas condições, produzem diferentes resultados ( Jogar um dado numa superfície plana; Retirar uma carta de baralho; Lançar uma moeda). Espaço Amostral O conjunto de resultados possíveis, relacionado a um experimento, é denominado espaço amostral. E representamos pela letra grega Ω. Exemplos:
Lançamento de um dado (existem 6 resultados possíveis) Ω = {1, 2, 3, 4, 5, 6}
Retirar uma carta de um baralho (existem 52 resultados possíveis) Ω = { Ás de copas, Ás de ouros,..., Reis de paus, Rei de espada}
Evento Um evento pode ser referido a um único resultado, ou a um subconjunto de resultados, pertencente à um espaço amostral; Exemplo:
Lançamento de um dado: E1= sair face 5 E2= sair um valor menor do que 3.
Retirar uma carta de um baralho: E1= sair um 5 de paus. 55
E2= sair uma carta de espadas; EXEMPLO 01: Lançam-se dois dados e observa-se as faces superiores. Vamos imaginar como seria o espaço amostral neste caso. Ao lançar dois dados, temos então os seguintes resultados que podem ocorrer como resultados deste lançamento:
Podemos determinar o espaço amostral do experimento através do diagrama de árvore, útil para resolução de problemas que serão vistos futuramente:
Podemos observar os seguintes eventos: A: Saída de faces iguais; A = { (1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)}.
B: Saída de faces cuja soma seja igual a 10; B = { (4, 6), (5, 5), (6, 4)}. 56
C: Saída de faces cuja soma seja menor que 2; C=Ø Isto quer dizer que temos um evento chamado Evento Vazio ou Evento impossível. D: Saída de faces cuja soma seja menor que 13; D=Ω E: Saída de faces onde uma face é o dobro da outra. E = { (1, 2), (2, 1), (2, 4), (3, 6), (4, 2), (6, 3)}.
4.2 - DEFINIÇÕES DE PROBABILIDADE
•
Definição clássica:
A probabilidade de um evento é a divisão do número de resultados favoráveis pelo número de resultados possíveis.
º º í ç
•
Definição frequentista:
Se repetir um experimento um grande número de vezes a probabilidade pela frequência relativa de um evento tende para probabilidade, está dada por:
onde m é o número de vezes que é observado A e n é o número de repetições do experimento. Quando temos um espaço amostral finito em que todos os pontos amostrais têm a mesma probabilidade 1/n, não é necessário explicitar completamente Ω e A. Nesse caso, são usado os métodos clássicos de contagem da análise combinatória. Um princípio fundamental de contagem diz que, se uma tarefa pode ser executada em duas etapas, a primeira podendo ser realizada de p maneiras e a segunda de q maneiras, então, a tarefa completa pode ser executada de p.q maneiras. Esse é o princípio multiplicativo.
EXEMPLO 02: E: Retirar uma carta de um baralho de 52 cartas B: Extrair um ás “Bem misturado” significa que qualquer carta tem a mesma chance de ser extraída. Como há s = 4 ases entre
as n = 52 cartas, a probabilidade é dada por:
à 4 1 ºº 52 13
57
EXEMPLO 03: Em um estudo para verificar a probabilidade dos indivíduos da cidade X apresentarem Rh- ou +, em seus tipos sanguíneos, foram coletadas informações de 820 indivíduos. •
Os resultados foram: Rh negativo – 83 indivíduos Rh positivo – 737 indivíduos
Evento A = o indivíduo apresentar Rh – em seu tipo sanguíneo;
82083 0,1012 737820 0,8988
Evento B = o indivíduo apresentar Rh + em seu tipo sanguíneo;
EXEMPLO 04: Os registros de uma companhia de aviação mostram que durante certo tempo 468 dentre 600 de seus jatos da linha Vitória-Rio chegaram no horário, qual a probabilidade de que um avião daquela linha chegue no horário? Nº de jatos que chegaram no horário: 468 Nº total de jatos: 600
(ℎℎá) º ℎℎá º 0,7878%
Lei dos grandes números: “Se repete-se um experimento um grande número de vezes a probabilidade pela frequência relativa de um evento tende para pro babilidade teórica”.
Propriedades da Probabilidade:
•
0 ≤ P(A) ≤ 1 para qualquer evento A.
•
P(Ω) = 1
•
Se é o complemento do evento A, então
•
Dois eventos A e B, são mutuamente exclusivos se possuem interseção vazia, a probabilidade deles ocorrerem simultaneamente é nula. Isto é
•
Teorema da soma: Se A e B são dois eventos quaisquer, então:
̅
Operações com Eventos
̅ 1 ∩ ∅ ∪ ∩ ∪ ∩
•
A UNIÃO de dois eventos é denotadas por:
•
A INTERSECÇÃO entre dois eventos é denotadas por:
58
•
̅
O COMPLEMENTAR do evento A, denotado por A c ou , é o evento que ocorre quando A não ocorre;
ILUSTRAÇÂO DAS PROPRIEDADES
∪
Teorema da soma:
∩
Ac
∪ ∩
Eventos Mutuamente Exclusivos Eventos mutuamente exclusivos são aqueles que jamais podem ocorrer ao mesmo tempo.
•
Exemplo:
Lançamento de um dado: A = sair 2; B= sair um valor maior do que 4.
Representação (Eventos Mutuamente Exclusivos) 59
∪ EXEMPLO 05 – Tipo sanguíneo Usando os dados do exemplo 03, os eventos A e B são mutuamente exclusivos, já que um indivíduo não pode apresentar Rh- e Rh+, em seu tipo sanguíneo, ao mesmo tempo;
82083 0,1012 737820 0,8988 ∩0 ∪ 0,10120,89881 c
= B
c
= A
EXEMPLO 06: A tabela a seguir apresenta dados relativos à distribuição de sexo e alfabetização em habitantes de Sergipe com idade entre 20 e 24 anos.
Um jovem entre 20 e 24 anos é escolhido ao acaso em Sergipe, calculamos as probabilidades das seguintes maneiras: Ω : conjunto de 101.850 jovens de Sergipe, com idade entre 20 e 24 anos.
M: jovem sorteado é do sexo masculino; F: jovem sorteado é do sexo feminino; S: jovem sorteado é alfabetizado; 60
N: jovem sorteado não é alfabetizado.
Temos,
.. 0,474 .. 0,526 .. 0,843 .. 0,157 ∩: é º 39577 0,389 ∩ º ∩Ω 101850 ∩: é ºé 39577 0,389 ∪ º ∪Ω 101850 858814824939577 101850 0,928
EXERCÍCIOS (Resolvidos em sala) Questão 01: Considere a experiência que consiste em pesquisar famílias com três crianças, relação ao sexo das mesmas, segundo ordem de nascimento. Determinar o espaço amostral e enumerar os seguintes eventos: a) A ocorrência de dois filhos do sexo masculino; b) A ocorrência de pelo menos um filho do sexo masculino; c) A ocorrência de no máximo duas crianças do sexo masculino.
Questão 02: Sendo A e B dois eventos em um mesmo espaço amostral “traduza” para a linguagem da teoria dos conjuntos, as seguintes situações: a) Pelo menos um dos eventos ocorre; b) O evento A ocorre, mas B não ocorre; c) Nenhum deles ocorre; Questão 03: Em uma universidade,2000 estudantes do curso de medicina, em determinado ano, foram classificados de acordo com o tipo de esporte que praticam. Futebol é praticado por 260 estudantes, natação por 185 estudantes e musculação por 210 estudantes, sendo que alguns praticam mais de um desses 61
esportes. Assim, tem-se 42 estudantes que praticam natação e musculação, 12 futebol e musculação, 18 futebol e natação e 3 praticam as três modalidades. Se um desses estudantes é sorteado ao acaso, qual é a probabilidade de:
a) Praticar somente musculação;
b) Praticar pelo menos um destes esportes;
c) Praticar pelo menos dois destes esportes;
d) Não praticar nenhum destes esportes.
Questão 04: Três cavalos A, B, C estão numa corrida. Sabe-se que A é duas vezes mais provável de ganhar que B e esse é duas vezes mais do que C. Determinar as probabilidades de ganhar dos cavalos A, B e C.
Questão 05: Supor uma classe onde três alunos são considerados com capacidade de liderança, 16 não tem essa capacidade e dois são não-classificáveis. Escolhendo-se um aluno ao acaso, qual será a probabilidade de esse aluno ter capacidade de liderança ou ser não-classificável.
Questão 06: Suponha que em um lote com 20 animais existem 5 doentes. Escolhem-se 4 animais do lote ao acaso, isto é, uma amostra de 4 elementos, de modo que a ordem dos elementos seja irrelevante. Considerando o evento E: 2 doentes na amostra, calcular P(E).
Questão 07: O jogo da Megasena consiste em escolher 6 dezenas dentre as 60 dezenas (01, 02,..., 60). Qual a probabilidade de um jogador ganhar o prêmio máximo com um único jogo de 6 dezenas? E com um único jogo de 15 dezenas?
62
4.3 - PROBABILIDADE CONDICIONAL É a probabilidade de ocorrência de um evento submetida a ocorrência de um outro evento. Muitas vezes existe o interesse em determinar a probabilidade de um evento B, dado que já se conhece o resultado de um evento A; Exemplo: •
Num experimento em que um dado é lançado duas vezes, sabe-se que a soma dos dois resultados vale 9. Qual a probabilidade de que o primeiro resultado tenha sido 6?
•
a probabilidade de uma pessoa ser hipertensa varia segundo o estado nutricional dela. Os obesos têm maior probabilidade de hipertensão comparados com os não obesos.
A notação é: P(A|B) e se lê da seguinte maneira: Probabilidade de ocorrer o evento “A” dado que o correu o evento “B”. Neste caso, a ocorrência do evento “B” é um fato. Não existe incerteza a esse respeito. A incerteza está restrita à ocorrência do evento “A”.
Expressão formal da probabilidade condicional:
| ∩ ∩ |
Exemplo 07: Os dados abaixo se referem a 200 alunos matriculados em determinado Instituto de matemática, de acordo com o sexo e o curso: Matemática Pura Estatística Total
Masculino 60 80 140
Feminino 50 10 60
Total 110 90 200
63
Sejam os eventos: A = {aluno faz matemática pura} E = {aluno faz estatística} M = {aluno é do sexo masculino} F = {aluno é do sexo feminino}
Qual seria a probabilidade de uma pessoa aleatoriamente escolhida: a) Estar matriculada em matemática pura?
∩ | ∩ | ∩ | ≤|≤ | [ ∪| | | ∩| [ ∪| | | ∩ ∅
b) Estar matriculada em matemática pura, dado ser homem?
c) Ser homem?
d) Ser homem dado que está matriculado em estatística?
e)
Estar matriculada em matemática pura, sabendo-se que é mulher?
OBSERVAÇÃO: No caso de probabilidade condicionada, vários postulados da probabilidade são satisfeitos, isto é: 1) 2) 3)
1
OU
, se
64
4.4 - REGRA DO PRODUTO E INDEPENDÊNCIA ENTRE EVENTOS 14
O produto de probabilidades está eventos. É a probabilidade de simultaneamente. Sai diretamente da probabilidade
∩| . ∩ |.
B
B 2/5
relacionado coma a intercessão de 3/4 2/4
3/5
V ocorrerem os eventos “A” e “B” B
condicional:
V 2/4
V
Essa regra é de grande utilidade na verificação de dependência entre eventos envolvidos. Dois eventos são considerados independentes quando a ocorrência de um não influencia na ocorrência ou não ocorrência do outro; Logo, se dois eventos, A e B, são INDEPENDENTES tem-se: P(A|B) = P(A) e P(B|A) = P(B); Ou seja, P(A∩B) = P(A) x P(B) OBS: os termos mutuamente exclusivos e independentes não são sinônimos; basta lembrar que eventos mutuamente exclusivos não possuem intersecção.
Exemplo 08: Uma urna contém 2 bolas brancas (B) e 3 vermelhas (V). Suponha que sorteamos duas bolas ao acaso sem reposição.
a primeira retirada tem as seguintes probabilidades: P (B) = 2/5 e P (V) = 3/5
a segunda retirada terá probabilidades diferentes, de acordo com o que foi selecionado na primeira, portanto, terá as seguintes probabilidades: P (B|B) = 1/4 , P (B|V) = 2/ 4 , P (V|B) = 3/4 e P (V|V) = 2/4
Essas probabilidades são representadas no diagrama a seguir. Diagrama em árvore para a extração de duas bolas de uma urna, sem reposição.
65
As probabilidades conjuntas da primeira e segunda retirada: P(B, B) = P (B).P (B|B) = 2/5 × 1/4 = 2/20 P(B, V) = P (B).P (V|B) = 2/5 × 3/4 = 6/20 P(V, B) = P (V).P (B|V) = 3/5 × 2/4 = 6/20 P(V, V) = P (V).P (V|V) = 3/5 × 2/4 = 6/20
Exemplo 09: Uma urna contém 2 bolas brancas (B) e 3 vermelhas (V). Suponha que sorteamos duas bolas ao acaso com reposição. Nesse caso, as retiradas são independentes, ou seja, a primeira retirada não influencia nas possibilidades de resultados da segunda retirada.
a primeira retirada tem as seguintes probabilidades: P (B) = 2/5 e P (V) = 3/5
a primeira retirada tem as seguintes probabilidades: P (B|B) = 2/5 , P (B|V) = 2/5 , P (V|B) = 3/5 e P (V|V) = 3/5
Essas probabilidades são representadas no diagrama abaixo. Diagrama em árvore para a extração de duas bolas de uma urna, com reposição.
∗
∗
2/5
B
Note que P(B| ) = P(B) e P(V| ) = P(B, B) = P(B) P(B|B) = P(B) P(B) =
2/5
P(V, V) = P(V) P(V|V) = P(V) P(V) =
P(V), Portanto: 3/5
P(B, V) = P(B) P(V|B) = P(B) P(V) = P(V, B) = P(V) P(B|V) = P(V) P(B) =
B
2/5 3/5
V
2/5 × 2/5 = 4/25
B
2/5 × 3/5 = 6/25
V
3/5 × 2/5 = 6/25 3/5
V
3/5 × 3/5 = 9/25
66
EXERCÍCIOS (Resolvidos em sala)
Exercício 01: Considere as situações dadas abaixo. Identifique se os eventos são mutuamente exclusivos ou independentes. a) Evento A: O 1º filho de um casal ser menina; Evento B: O 2º filho de um casal ser menina. b)
Evento A: Um indivíduo, de determinada população, ter o tipo sanguíneo A; Evento B: Um indivíduo, de determinada população ter o tipo sanguíneo O.
c) Considere dois eventos, A e B, dado que P(A)= 0,8, P(B) = 0,5 e P(A ∩B) = 0,4.
Exercício 02: A tabela a seguir mostra a relação entre dois sintomas que costumam aparecer em pessoas com uma determinada doença. A amostra está formada por 266 pessoas com a doença.
a) Qual a probabilidade de um paciente ter o sintoma A?
b) Qual a probabilidade de um paciente, que tem o sintoma B, ter o sintoma A?
Exercício 03: Em um estudo feito com 25 pessoas, foram coletadas informações sobre o estilo de vida de cada um (sedentário ou não) e sobre o peso de cada um (obeso ou não). Foi observado 8 pessoas obesas e 12 sedentárias; dentre as 8 pessoas obesas, 6 foram classificadas como sedentárias. Qual a probabilidade de:
a) Um indivíduo ser obeso ou sedentário;
b) Um indivíduo ser sedentário e obeso;
c) Um indivíduo ser sedentário dado que ele é obeso;
d) Um indivíduo ser obeso dado que ele é sedentário;
67
Exercício 04: Sejam A e B eventos com P(A) = ¼ , P(A U B) = 1/3 e P(B) = p. Encontre p nos seguintes casos: a) Se A e B são mutuamente exclusivos.
b) Se A e B são independentes.
4ª Lista de Exercícios - Probabilidade
1.
Em uma escola, as turmas A, B e C têm 40, 50 e 10 % do total de alunos de determinada série, respectivamente. Dos alunos de cada turma, 3, 5 e 2%, respectivamente, são reprovados. Escolhido ao acaso um aluno dessa série, pede-se: a) Qual a probabilidade de o aluno ser reprovado? (R: 0,039) b) Seleciona-se ao acaso um aluno dessa escola, sabendo-se que o aluno foi reprovado, qual a probabilidade de que ele seja da turma B? (R: 0,641)
2.
Suponha duas estações metereológicas A e B, em certa região. As observações mostraram que a probabilidade de chuva em A é 0,55 e em B é 0,4. A probabilidade de ocorrência de chuva simultânea nas duas regiões é 0,25. A partir destas informações, determine a probabilidade de: (a) Não ocorrer chuva em A; (R: 0,45) (b) Ocorrer chuva em pelo menos uma das duas regiões A ou B. (R: 0,70)
3.
4.
Sejam P(A)=0,50, P(B)=0,40 e P(A B)=0,70. a) A e B são eventos mutuamente exclusivos? Por quê? b) A e B são eventos independentes? Por quê? c) Calcule P(A|B) e P(B|A). (R: 0,50 e 0,40) A probabilidade de um aluno A resolver uma questão de prova é de 0,8, enquanto que a do outro B resolvê-la é 0,6. Qual a probabilidade da questão ser resolvida se ambos tentam resolvê-la independentemente. (R: 0,92)
5.
A firma X apresentou proposta para um projeto de construção. Se o principal concorrente apresentar proposta, há 25% de probabilidade da firma X ganhar a concorrência. Se a concorrente não apresentar proposta, há 2/3 de chances da firma X ganhar. A chance de a concorrente apresentar proposta é de 60%. a) Qual a probabilidade da firma X ganhar a concorrência? (R: 0,4167) b) Se a firma X ganhou, qual a probabilidade de a concorrente ter apresentado proposta? (R: 0,36)
6.
De sua turma de 30 alunos, é escolhida uma comissão de 3 representantes. Qual a probabilidade de você fazer parte da comissão? (R: 1/10) 68
7.
Se num grupo de 10 homens e 6 mulheres sorteamos 3 pessoas para formarem uma comissão, qual a probabilidade de que essa comissão seja formada por 2 homens e 1 mulher? (R: 27/56)
8. A probabilidade de fechamento de cada relê do circuito apresentado abaixo é dada por p. Se todos os relês funcionarem independentemente qual será a probabilidade de que haja corrente entre os terminais L e R? (R: 2p²-p4 )
9.
Um restaurante popular apresenta apenas dois tipos de refeições: salada completa ou um prato à base de carne. Considere que 20% dos fregueses do sexo masculino preferem a salada, 30% das mulheres escolhem carne, 75% dos fregueses são homens e os seguintes eventos: H: freguês é homem A: freguês prefere salada M: freguês é mulher
B: freguês prefere carne.
Para um freguês sorteado ao acaso desse restaurante, calcule:
a) b) c)
PPMA ∩H |A
P(H), P(A|H), P(B|M); R. 0,75 ; 0,20; 0,30 R. 0,15; R. 0,538
10. Em uma fábrica de parafusos, as máquinas A, B e C produzem 25, 35 e 40% do total produzido respectivamente. Da produção de cada máquina 5, 4 e 2%, são defeituosos, respectivamente. Retira-se um parafuso ao acaso e verifica-se que é defeituoso. Qual o probabilidade que tenha sido produzido por A? E por B? e por C? (R: 0,36; 0,41; 0,23) 11. As probabilidades de três motoristas serem capazes de guiar até em casa, independentemente, com segurança, depois de beber, são: 0,30, 0,25 e 0,20. Se decidirem guiar até em casa, após beberem numa festa: a) Qual a probabilidade de todos os três motoristas sofrerem acidentes? (R: 0,42) b) Qual a probabilidade de pelo menos um dos motoristas guiar até em casa a salvo? (R:0,58) 12. A probabilidade de que um atleta A ultrapasse 17,30 m num único salto triplo é de 0,7. O atleta dá 4 saltos. Qual a probabilidade de que em pelo menos num dos saltos ultrapasse 17,3m? (R: 0,9919) 13. O José está indeciso quanto à compra de três discos. Resolveu fazer o seguinte: para cada um atira uma moeda ao ar e se sair “cara” compra o disco. Determine a probabilidade de:
a) não comprar nenhum; (R: 1/8) b) comprar pelo menos um; (R: 7/8) c) comprar pelo menos dois. (R: 1/2) 14. O João tem 20 pares de meias e o José tem 16. Se escolhermos ao acaso um par de meias de cada um, a probabilidade de ambas serem brancas é 0.25. Se o João tem 10 pares de meias brancas quantas meias brancas tem o José? (R: 8 meias brancas) 69
15. Dos ouvintes de uma estação radiofónica 37% ouvem o programa X, 53% ouvem o programa Y e 15% ouvem ambos os programas. Ao escolher aleatoriamente um o uvinte desta estação qual a probabilidade de que i) Ouça apenas um dos referidos programas; (R: 0,6) ii) Não ouça nenhum destes dois programas. (R: 0,25) 16. A tabela a seguir apresenta dados dos 1000 ingressantes de uma universidade, com informações sobre área de estudo e classe sócio econômica. Área\Classe Exatas Humanas Biológicas
Alta 120 72 169
Média 156 85 145
Baixa 68 112 73
Se um aluno ingressante é escolhido ao acaso, determine a probabilidade de: a) b) c) d)
Ser da classe econômica mais alta. Estudar na área de exatas. Estudar na área de exatas e ser da classe média. Ser da classe baixa, dado que estuda na área de biológicas. Resp. a) 0,361 b) 0,344 c) 0,156
d) 0,189
17. - Em um lote de 12 peças, 4 são defeituosas. Sendo retirada aleatoriamente 2 peças, calcule: a) A probabilidade de ambas serem defeituosas. b) A probabilidade de ambas não serem defeituosas. c) A probabilidade de ao menos uma ser defeituosa. Resp. a) 1/11
b) 14/33
c) 19/33
18. – Duas lâmpadas ruins são misturadas com 2 lâmpadas boas. As lâmpadas são testadas uma a uma, até que as 2 ruins sejam encontradas. Qual a probabilidade de que a última ruim seja encontrada no: a) Segundo teste; b) Terceiro teste; c) Quarto teste.
Resposta: a) 1/6
b) 1/3
c) ½
19. – Uma pessoa joga um dado. Se sair 6, ganha a partida. Se sair 3, 4 ou 5, perde. Se sair 1 ou 2, tem direito de jogar novamente. Desta vez, se sair 4, ganha, e se sair outro número, perde. Qual a probabilidade de ganhar? (R: 2/9)
UNIDADE V - Variável aleatória
O conjunto de todos os possíveis resultados de um experimento aleatório é o espaço amostral. Os elementos desse conjunto podem ser numéricos ou não. Por exemplo, se o experimento for escolher um aluno de uma turma e registrar sua altura, teremos um conjunto numérico, porém se indagarmos o time de futebol preferido do aluno, teremos um conjunto não numérico. 70
Considere o espaço amostral do lançamento de um dado e observação da face superior: S = {1, 2, 3, 4, 5, 6}. O espaço é constituído por números reais. Considere o espaço amostral do lançamento de uma moeda e observação da face superior: S = {c, k}. Neste caso o espaço amostral não é constituído por números reais. Considere o espaço amostral de todas as possíveis alturas de pessoas, o intervalo real [1,50, 1,90]. Neste caso o espaço amostral contém pontos amostrais que formam uma continuidade. Como em muitas situações experimentais precisamos atribuir um número real x a todo elemento do espaço amostral, vamos definir o conceito de variável aleatória.
Variável aleatória (v.a) é uma variável que tem um valor numérico único, para cada resultado de um experimento. Sejam E um experimento aleatório e S o espaço amostral associado ao experimento. Uma função X, que associe a cada elemento s S um número real X(s) é denominada variável aleatória.
S s•
R X
•
X(s)
Variável aleatória Exemplo 01: E: lançamento de duas moedas X: número de caras obtidas nas duas moedas S = {(ca,ca),(ca,co),(co,ca),(co,co)} X = 0: corresponde ao evento (ca,ca) X = 1: corresponde ao evento (co,ca), (ca,co) 5.1. VARIÁVEL ALEATÓRIA DISCRETA (v.a.d.)
Dizemos que a variável discreta X é aleatória se a cada um de seus possíveis valores se associa uma probabilidade P(x). 5.1.1 Função de probabilidade da variável aleatória discreta
71
É uma função que associa a cada valor assumido pela variável aleatória a probabilidade do evento correspondente. O conjunto dos valores da variável e das respectivas probabilidades, isto é, o conjunto dos valores X i e P(X ), i com i = 1,...,n, é uma distribuição de probabilidade de X . Seja X uma v. a. discreta, a probabilidade da variável aleatória X assumir um valor particular x , é a função de probabilidade X que se representa por P(X = x). A função P(X = x) constitui uma “Distribuição de probabilidades” desde que:
1. 2.
0∑ ≤≤1, ∀ 1, onde x toma todos os valores possíveis.
Exemplo 02: E: Lançamento de três moedas. X: Nº de caras obtidas em três lançamentos. S = {(C,C,C), (C,C,K), (C,K,C), (K,C,C), (C,K,K), (K,C,K), (K,K,C), (K,K,K)}
A distribuição de probabilidade da v. a. X é dada por: X
0
1
2
3
∑
P(x)
1/8
3/8
3/8
1/8
1
Distribuição de Probabilidades 72
Pode-se verificar o que está ocorrendo com um conjunto de dados utilizando tabelas, gráficos, medidas de tendência central e medidas de variação. Combinando esses conceitos com os da Teoria das Probabilidades podemos definir as Distribuições de Probabilidades, que descrevem o que provavelmente acontecerá, em lugar do que efetivamente aconteceu. Toda Distribuição de Probabilidade deve ser apresentada por: Tabelas
Gráficos
Modelo (Equação)
, 0,1,2 3 ∑ 1,temos: 00 1 2 3 1 1 2 3 2 2 2 2 1 62 1 → 3 PX x , para x0,1,2 e 3
Exemplo 03: Seja D.P?
Dado que
Logo, a equação
. Qual o valor da constante “K” para que P(X = x) seja uma
é uma distribuição de probabilidade.
73
Exemplo 04: Considere o experimento que consiste em sortear duas bolas de uma urna que contém 3 bolas brancas (B) e 2 pretas (P). Montar a distribuição de probabilidade de X para os casos: com reposição e sem reposição. Seja X o número de bolas pretas na amostra.
Com reposição:
Sem reposição:
5.1.2 Média (ou valor esperado) e variância de uma variável aleatória discreta
Valor esperado E(X) é uma medida de tendência da variável aleatória “X”.
A média de uma variável aleatória discreta é o resultado médio de um número infinito de provas. Podemos encarar essa média como o valor esperado no sentido de que é o valor médio que esperaríamos obter se as provas se prolongassem indefinidamente.
A sua expressão matemática é a seguinte: 74
E ( X ) x1 p( x1 ) x2 p( x2 ) ... xn p( xn ) Assim:
E ( X )
xP ( x)
É também chamada de esperança matemática ou média.
ALGUMAS PROPRIEDADES DA ESPERANÇA MATEMÁTICA
1ª) E(k) = k
k = constante
2ª) E(kX) = k E(X) 3ª) E(X + k) = E(X) + k 4ª) E(X Y) = E(X) E(Y)
Exemplo 05: Considere que o valor de venda de um determinado imóvel pode alcançar os valores a seguir, com as respectivas probabilidades de ocorrência:
Qual o valor esperado do preço de venda deste imóvel? O valor esperado será, então, igual a: n
E ( X )
x P ( x ) i
i
i 1
(180.000 * 0,15) (215.000 * 0,30) (250.000 * 0,45) (280.000 * 0,10)
232.000,00
Isso significa que se este imóvel fosse vendido um infinito nº de vezes, a média dos seus valores de venda seria igual a $232.000,00. Uma outra interpretação seria a de que se um nº infinito de imóveis desse mesmo tipo fosse vendido, o valor médio do preço de venda seria $ 232.000,00.
75
5.1.3 - Variância de uma Variável Aleatória Discreta
A variância para uma distribuição de probabilidades é dada por:
∑ ∑[ ] Podendo ser reescrita como: ²
VAR ( X )
E ( X
2
) [ E ( X )]2
O desvio padrão ( ou S) da variável aleatória da v.a. discreta é dado por:
2
VAR ( X )
Propriedades da Variância 1ª) VAR (k) = 0
k = constante
2ª) VAR (kX) = k2 . VAR (X) 3ª) VAR (X Y) = VAR (X) + VAR(Y)
(se X e Y independentes)
4ª) VAR (aX b) = a2 VAR (X)
No caso do Desvio padrão: S ( X Y ) VAR ( X ) VAR (Y ) 1ª) (o desvio padrão da soma das variáveis X e Y não é a soma dos desvio da variável X mais o desvio da variável Y)
2ª) S(X + k) = S(X) 3ª) S(kX) = k . S(X) Cálculo da Variância de “X” a partir do seu Valor Esperado
Exemplo 06: Considere que o número de reclamações recebidas diariamente em uma determinada empresa de telefonia segue a seguinte distribuição de probabilidades:
76
Determine a variância do nº de reclamações diárias. O valor esperado do nº de reclamações diárias será igual a: E X xi . p( xi ) 1 0,10 2 0,30 3 0,35 4 0,25 2,75
O valor esperado do quadrado do nº de reclamações diárias será igual a:
E X 2 x 2 p( xi ) 1 0,10 22 0,30 32 0,35 4 2 0,25 8,45
A variância do nº de reclamações diárias será igual a: VAR ( X ) E ( X ²) E ( X )² 8,45 2,75 0,8875 2
Também podemos calcular o desvio e o coeficiente de variação:
S ( X ) VAR ( X ) 0,8875 0,942 CV ( X )
S ( X )
E ( X )
*100
0,942
2,75
*100 34,2%
Exemplo 07: Considere que numa grande rede de computadores, em 60% dos dias ocorre alguma falha. Construir a distribuição de probabilidades e calcular as medidas de posição e dispersão para a variável aleatória X = número de dias com falhas na rede, considerando o período de observação de três dias. (Suponha independência.) Espaço amostral: S = {(B,B,B), (B,B,R), (B,R,B), (R,B,B), (B,R,R), (R,B,R), (R,R,B), (R,R,R)}
Obtendo a distribuição de probabilidade de X:
Tabela e gráfico de distribuição de probabilidade de X: 77
E X xi p( xi ) 0 * (0,064) + 1* (0,288) + 2 * (0,432) + 3 * (0,216) = 1,8
V X xi p( xi ) (0 - 1,8)²(0,064) + (1 - 1,8)²(0,288) + (2 - 1,8)²(0,432) + (3 - 1,8)²(0,216) 0,72 2
S ( X )
V X
0,72
0,848
O número esperado de dias com falha na rede é E(X)= 1.8, ou seja, aproximadamente 2 dias. Apresentando um desvio padrão de 0,848.
EXERCÍCIOS (Resolvidos em sala)
1 - Em um lote com 4 peças, das quais 2 são defeituosas retira-se ao acaso duas peças, com reposição. Considere X o número de peças defeituosas nas duas retiradas. Construa a distribuição de probabilidade para a variável X e calcule E(X).
2 - Dada a seguinte distribuição de probabilidades:
a) Ache A. b) Calcule P(X 4). c) Calcule P(X 3).
78
3 - O número de mensagens enviadas por hora, através de uma rede de computadores, tem a seguinte distribuição: X= Número mensagens f(x)
de
10
11
12
13
14
15
0,08
0,15
0,30
0,20
0,20
0,07
Determine a média e o desvio padrão do número de mensagens enviadas por hora.
6.2. VARIÁVEL ALEATÓRIA CONTÍNUA (v.a.c.)
O estudo de uma variável aleatória contínua é análogo ao das variáveis discretas. Uma variável aleatória contínua X pode assumir infinitos valores ou qualquer valor no intervalo de sua definição. Dessa forma, a probabilidade é estimada para um intervalo de valores e não pontualmente P(X=x) como no caso discreto. Assim, as probabilidades calculadas serão do tipo P(x 1 < X < x2), e interpretadas como a área entre x1 e x2 de uma curva de probabilidades para os possíveis infinitos valores da variável.
Assim a probabilidade de uma v. a. contínua assumir um determinado valor (probabilidade no ponto [P(X=x)] ) é nula, pois a área embaixo de um ponto é igual a zero. Para identificar uma distribuição contínua, existe a função densidade de probabilidade, probabilidade , que é uma equação do tipo y = f = f (x). (x).
79
Exemplo 08: Uma metalúrgica produz uma peça cujo comprimento varia aleatoriamente entre 5cm e 7cm. Não é possível neste caso representar toda distribuição de probabilidade em uma tabela, pois há infinitos valores. Como há infinito valores, mas a soma de todas as probabilidades continua sendo 1, c onclui-se que a probabilidade de um valor definido é zero !! Só faz sentido falarmos em probabilidades intervalares.
Por exemplo: Probabilidade do comprimento estar entre 5,2cm e 5,3cm. P( 5,26,5 )
6.2. 1 Função de Densidade de Probabilidade (fdp)
Uma função densidade de probabilidade f(x) pode ser usada para descrever uma distribuição de probabilidades de uma variável aleatória contínua X. Funções de densidade são usadas na engenharia para descrever sistemas físicos, como por exemplo, a densidade de uma carga em uma viga longa e delgada.
Definição: Para uma variável aleatória contínua X, uma função densidade de probabilidade (fdp) é uma função tal que:
a) f ( x ) 0 para todo x ϵ ]-∞, ∞[; b) A área definida por f(x) por f(x) é é igual a 1;
f ( x)dx 1 ;
b
c) P ( a X b)
sob f(x) para para quaisquer a, b, com f ( x)dx = a área sob f(x)
a b .
a
80
Obs.: * 0 P (a X b) 1 * P ( X
x)
0
* P (a X b) P (a X b) P (a X b) P (a X b)
Exemplo 09: Suponha que o erro medido na temperatura de reação (C) em um experimento controlado em laboratório seja uma v.a. contínua cuja fdp é dada por:
1 x ² se 1 x 2 f ( x ) 3 0, caso contrário a) Verifique se f ( x ) satisfaz a condição para ser uma fdp.
2
1
1 3
x ²dx
x³
9
2
|
1
2³ 9
(1)³ 9
0,8889 0,1111 1
Satisfaz, pois
f ( x)dx 1
b) Calcule P[0 < X ≤ 1].
1
1
3 0
x ²dx
x ³
1
| 9
0
1³ 9
(0)³ 9
0,1111 0 0,1111 ou 11,11%
Exemplo 10: Uma variável X tem distribuição triangular no intervalo [0,1] se sua f.d.p for dada por:
0 10
a) Qual valor deve ter a constante C?
<0 0≤≤1/2 1/2≤≤1 >1
Devemos escolher C de modo que f(x) satisfaça: (i) f(x) ≥ 0 para todo x
(ii)
f ( x)dx 1
81
0
1/ 2
1
0
1/ 2
1
f ( x)dx 0dx Cxdx C (1 x)dx 0dx
1/ 2
1
0
1/ 2
C xdx (1 x)dx x ² 1 / 2 x ² 1 C x 2 0 2 1 / 2 1 1 1 C 1 C 1 2 2 8 4 8
C 4
b) Determine P( X ≤ 1/2), P(X > 1/2) e P(1/4 ≤ X < 3/4).
1
P ( X ) 2
1/ 2
1/ 2
1
f ( x)dx 4 xdx 2
1
1 1 1 P ( X ) f ( x)dx 1 P ( X ) 1 2 1/ 2 2 2 2
1
3
3/ 4
1/ 2
3/ 4
3 P ( X ) f ( x)dx 4 xdx 4(1 x)dx 4 4 4 1/ 4 1/ 4 1/ 2
5.2.2 Média (ou valor esperado) e variância de uma variável aleatória contínua
A média e a variância de uma v.a. contínua são definidas de modo similar a uma v.a. discreta. A integração substitui a soma nas definições.
Definição: Suponha que X seja uma v. a. contínua com uma função densidade de probabilidade f(x).
A média ou o valor esperado de X, denotado por μ ou E(X) é
E ( X ) x f ( x)dx
A variância de X, denotada por
2
ou VAR(X), é: 82
2
2
E X
E ( X ) 2
2
onde E ( X )
x 2 f ( x)dx
Exemplo 11: Suponha que f(x) = 0,125x para 0 < X < 4. Determine a média e a variância de X.
f ( x)dx
E ( X )
E ( X ²)
4
0
4
0,125 xdx 0,125 x ² / 2| 1 0
xf ( x)dx
0
x² f ( x)dx
VAR ( X )
E ( X ²)
4
0,125 x ² dx
4
0
0,125 x ³
0,125 x³dx
E ( X )²
3
4
0
0,125 x 4
8 8 ( )² 3
4
|
4
|
0
8 3
8
0,89
Exercícios (Resolvidos em sala)
2 x 3 se 0 x 2 1. Verificar se f ( x) 0, se x 0 ou x 2
é uma fdp.
1 ( 2 x 3) se 0 x 2 2. Verificar se f ( x) 10 0, se x 0 ou x 2
é uma fdp.
83
3. Seja uma v.a. X a corrente em um fio delgado de cobre, medida em miliampères. Suponha que a faixa de X seja [0;20] e considere que a função densidade de probabilidade de X seja f ( x) 0,05 para 0 x 20 . Qual a probabilidade de que uma medida da corrente seja menor 10 miliampères?
4. Suponha que o tamanho de uma partícula de contaminação possa ser modelado como f ( x)
2 x 3 para
1 < X. Determine a média de X.
6.3 - Função de Distribuição acumulada
A função de distribuição acumulada nos dá uma maneira de descrever como as probabilidades são associadas aos valores ou aos intervalos de valores de uma variável aleatória. É a função que acumula as probabilidades dos valores inferiores ou iguais a x.
Definição: A função de distribuição acumulada de uma variável aleatória X é uma função que a cada número real x associa o valor:
F(x) para variável aleatória discreta: F ( x )
P [ X x] P [ X xi ] xi x
F(x) para variável aleatória contínua: F ( x) P [ X x] P ( X x)
x
f (t )dt
Para cada x, FX (.) corresponde à área debaixo da curva de f X (.) à esquerda de x.
OBS: 84
i) ii)
FX(.) pode ser obtida a partir de f X (.) e vice-versa. A derivada da função de distribuição acumulada de uma variável contínua e a função de densidade, ou seja,
iii)
P(a < X ≤ b) = P(X ≤ b) – P(X ≤ a) = F(b) – F(a)
Exemplo 12: Suponha que uma variável aleatória discreta X tenha a seguinte distribuição de probabilidade.
Temos, então:
12 ≤1 10, 1 ≤2 1 20, 3 34 ≤3 1 2 30, 1 0, 2 0, 4 0, 7 ≤4 ≤3 40, 7 0, 2 0, 9 5 ≤5 ≤4 50, 9 0, 1 1 Podemos calcular também:
0, 13,,394 ≤1, 3 4 ≤1 1 1 0, 8 ≤3, 9 8 ≤3 3 7 7 ≤7 ≤551 3 ≤30 Com esses resultados podemos representar das seguintes formas: Função
Gráfico
85
Exemplo 13: Suponha que o erro medido na temperatura de reação (C) em um experimento controlado em laboratório seja uma v.a. contínua cuja fdp é dada por:
1 x ² se 1 x 2 f ( x ) 3 0, caso contrário a) Determine a fda para a v.a. X = erro na medida da temperatura de reação
0 , se x 1 x x ³ 1 , se 1 x 2 F X ( x) t ² dt 1 3 9 1 , se x 2
b) Usando F( x ), calcule P[0 < X ≤ 1]
P [0 x 1] P [ x 1] P [ x 0] F X (1) F X (0) F X (1)
F X (0)
1³ 9 0³ 9
0,1111 0 0,1111
0,1111
0
Exercícios (Resolvidos em sala)
1 - Verifique se as seguintes funções são funções de probabilidade e determine as probabilidades requeridas:
86
a) P(X ≤ 2)
b) P(X > - 2) c) F(2) – F(-1) d) F(0) e) Construir a função de distribuição acumulada.
2 - Seja
uma variável contínua com f.d.p. dada por:
a) Construa a função de distribuição acumulada. b) Obtenha F(0,5), P(0,5 < X < 0,8) 5ª Lista de Exercícios – Variáveis Aleatórias
1. Uma turma de Estatística compreende 3 canhotos e 24 destros. Selecionam-se aleatoriamente dois estudantes diferentes para um projeto de coleta de dados, representando-se por X o número de estudantes canhotos escolhidos. Obtenha a distribuição de probabilidades de X, calcule a média, a e o desvio padrão da variável aleatória X. Resp: E(X) = 6/27 S(X) = 4/9
2. Se uma v.a. X apresenta E(X) = 20 e VAR(X)=3, calcule: a) VAR(2X) Resp: 12 b) E(2X) Resp: 40 c) E(2X +10) Resp: 50 c) VAR(5X-10) Resp: 75 d) VAR(2/5X - 4) Resp: 0,48
3. Uma confeitaria estabeleceu um registro de vendas (tabela abaixo) para certo tipo de bolo. Determine o número esperado de bolos encomendados. Nº de bolos/dia 0 1 2 3 4 5 6 7 8 9 87
Freq. Relativa
0,02
0,07
0,09
0,12
0,20
0,20
0,18
0,10
0,01
0,01
Resp: E(X) = 4,36
4. Um jogador lança um dado. Se aparecerem os números 1, 2 ou 3, recebe R$ 10,00. Se, no entanto, aparecer 4 ou 5, recebe R$ 5,00. Se aparecer 6, ganha R$ 20,00. Qual o ganho médio do jogador? Resposta: R$ 10,00
5. As probabilidades de que haja 1, 2, 3, 4, ou 5 pessoas em cada carro que vá ao litoral num sábado são, respectivamente: 0,05; 0,20; 0,40; 0,25 e 0,10. Qual o número médio de pessoas por carro? Se chegam no litoral 4000 carros por hora, qual o número esperado de pessoas, em 10 horas de contagem? Resposta: 3,14 pessoas; 126.000 pessoas. 6. A função de probabilidade da variável aleatória X é: P(X) = 1/5, para X = 1, 2, 3, 4, 5. Calcular E(X) e E(X²), e usando esses resultados, calcular: a) b)
E(X+3)² VAR(3X – 2) Resposta: a) 38
b) 18
7. Seja X uma variável aleatória discreta com a seguinte distribuição de probabilidades:
a) b) c)
Calcule E(X) e VAR(X) Determine a função de distribuição acumulada de X. Calcule P(X ≥ 0 | X<2). ( Resp. 0,3)
2 , 3 0,, 1, á
8. Considere a variável aleatória discreta X com a seguinte função de probabilidade:
Sendo a uma constante real. Calcule a e defina a função de distribuição de X. (a=1/6) 9. O número de televisores encomendados mensalmente em determinada loja é bem descrito por uma variável aleatória X com a seguinte função de distribuição acumulada:
a) Determine a função distribuição de probabilidades da variável aleatória X. 88
b) Quantos televisores deve ter a loja em stock, por mês, para que a probabilidade de satisfazer todas as encomendas seja superior a 0,95? (Resp. 3 ou mais)
10. Seja X a duração da vida (em horas) de um certo componente eletrônico. Admitindo que X seja contínua e com fdp:
, 0, 1500≤á≤2500; 2200≤ ≤ 2500
a) Determine a constante k. b) Calcular c) Calcule E(X). Resp: 1875
Resp: k=7031250 ). Resp: 0,1639
89
UNIDADE VI - Distribuição de probabilidades Na prática as distribuições de probabilidades são usadas para resolver problemas. Os tipos de distribuições podem ser considerados modelos para descrever situações que envolvem resultados gerados pela chance.
Existem muitos problemas parecidos, então poucos modelos solucionam uma grande quantidade de problemas. Ex.: a jogada de moedas para o ar e nº de itens defeituosos numa remessa de peças recaem sobre o mesmo modelo de probabilidade. A constatação desse fato levou o desenvolvimento de técnicas padronizadas para a resolução de muitos problemas diferentes.
Cada distribuição de probabilidade tem um conjunto de hipóteses que devem ser verificadas para se utilizar o modelo.
O uso da distribuição de probabilidade consiste em comparar as hipóteses do tipo da distribuição com as características do problema real.
Verificada a correspondência, o problema é enquadrado em uma classe de distribuição de probabilidade e é resolvido sempre da mesma maneira.
6.1. Distribuições Discretas de Probabilidades As distribuições discretas envolvem variáveis aleatórias relativas a dados que resultam de contagem, como o nº de ocorrências por amostra, nº de ocorrências por intervalo de tempo, de área, ou distância.
6.1.1 Distribuição Binomial
O termo “binomial” designa situações em que os resultados de uma v.a. podem ser agrupados em duas
categorias (os dados são, pois, nominais). Exemplo: em processos industriais as peças falham ou não falham; em medicina o paciente sobrevive ou morre; em marketing o consumidor reconhece um produto ou não.
Definição: um experimento binomial satisfaz as seguintes condições:
O experimento deve ser repetido, sob as mesmas condições um nº finito de vezes (n); As repetições devem ocorrer de forma independente; Cada repetição possui dois resultados possíveis: sucesso ( p) e fracasso (q = 1- p); As probabilidades devem permanecer constantes para cada repetição.
90
Exemplo 01: Imagine uma máquina de confeccionar parafusos. Dos parafusos fabricados por essa máquina, 2% saem com algum tipo de defeito (esta é uma característica da máquina). Suponha que a produção dessa máquina é lançada ininterruptamente em uma esteira, e que dessa esteira são retirados 10 parafusos.
Para variáveis com essa distribuição resolvemos problemas do tipo: determinar a probabilidade de se obter “ k” sucessos em “ n” tentativas.
Seja “X” número de sucessos em “n” tentativas. A função de probabilidade da variável X é dada por:
Notação: X: B (n, p).
. . 1−; ! !!
p: probabilidade de sucesso em uma das repetições; (1-p): probabilidade de fracasso em uma das “n” repetições; n: número de repetições; k : nº de sucessos em “ n” repetições, pode ser qualquer inteiro entre 0 e n, inclusive; P (X = k): é a probabilidade de obter “k” sucessos em “n” repetições.
Média e desvio padrão de uma variável binomial: Média = n.p Desvio padrão =
n p (1 p )
Exemplo 02: Acredita-se que 20% dos moradores das proximidades de uma grande indústria siderúrgica tem alergia aos poluentes lançados ao ar. Admitindo que este percentual de alérgicos é real (correto), calcule a probabilidade de que pelo menos 4 moradores tenham alergia entre 13 selecionados ao acaso. Resolução: Seja X o número de moradores que têm alergia. p: probabilidade de um indivíduo, selecionado ao acaso, ter alergia; p=0,2.
n P ( X x) C x
X ~bin (13; 0,20)
p
x
(1 p) n
x
, x
0, 1, ..., n
91
ou seja, a variável aleatória X tem distribuição binomial com parâmetros n = 13 e p = 0,20, com função de probabilidade dada por: x
P ( X x) C x13 p
q13
x
Assim, a probabilidade de que pelo menos 4 moradores tenham alergia é dada por:
P(X 4) = P(X=4) + P(X=5) + … + P(X=13) Ou P(X 4) = 1 - P(X 3)
Cálculos:
P(X 4) = P(X=4) + P(X=5) + … + P(X=13) = 0,1535 + 0,0690 + … + 0,0000 = 0,2529 Ou P(X 4) = 1 - P(X 3) = 1 – [P(X=0) + P(X=1) + P(X=2) + P(X=3)]=1 – (0,7471) = 0,2529
Exemplo 03: Uma companhia perfuradora de poços de petróleo faz 5 perfurações. Sabendo-se que cada tentativa tem probabilidade 0,3 de encontrar petróleo, qual a probabilidade de se encontrar petróleo em dois poços? Y= Nº de poços com petróleo. p= 0,3 P (Y y ) C x5 0,3 y
0,7 5
y
( = ) = ∗ (, ) ∗ (, )− = , = , % Ou seja, em 30,9% das vezes que 5 perfurações forem feitas, será encontrado petróleo em 2 poços. 92
Exercícios (Resolvidos em sala)
1. Considere que uma auditoria em uma empresa de vendas a crédito levantou que 30% dos clientes estavam com suas prestações atrasadas. Determine a probabilidade de que, em 10 clientes escolhidos aleatoriamente, 4 estejam com suas prestações em atraso. E calcule a média e o desvio padrão.
2. Cada amostra de ar tem 10% de chance de conter uma certa molécula rara. Considere que as amostras sejam independentes com relação à presença da molécula rara. Encontre a probabilidade de que nas próximas 18 amostras, pelo menos 2 contenham a molécula rara.
3. A chance de que um bit transmitido através de um canal digital de transmissão seja recebido com erro é de 0,1. Suponha também que as tentativas de transmissão sejam independentes. Faça X = número de bits com erro nos próximos quatro bits transmitidos. Determine P(X = 2).
6.1.2. Distribuição de Poisson
É frequentemente usada para estimar o número de ocorrências sobre um intervalo de tempo ou espaço. Exemplo: Número de defeitos por centímetro quadrado, clientes atendidos por hora, chegada de navios por dia no porto de Vitória.
Propriedades do experimento de Poisson: A probabilidade de ocorrência é a mesma para quaisquer dois intervalos de igual comprimento. O número de ocorrências em qualquer intervalo é independente do número de ocorrências em outros intervalos.
Ex.01 - Suponha que em uma agência bancária entrem, em média, 60 clientes por hora. Qual a probabilidade de, em 10 minutos, entrarem 4 clientes?
Observe que o “sucesso” é à entrada do cliente. A probabilidade desejada é a de 4 sucessos, isto é, 4 entradas
de clientes, dentro de um período de tempo de 10 minutos.
Ex.02 - Suponha que uma vistoria em uma estrada constatou que, em média, existem 10 imperfeições no seu leito a cada 1000 metros. Qual a probabilidade de, em 100 metros, serem encontradas 2 imperfeições?
Nesse caso, o “sucesso” é encontrar uma imperfeição no leito da estrada, e o período ao longo do qual se
deseja calcular a probabilidade, é o espaço de 100 metros. 93
Como calcular a Probabilidade: Seja: = Nº médio de sucessos no intervalo pretendido x = Nº de sucessos pretendido.
Então: x
P ( X
x)
e
x!
Onde: t e = 2,71828
“” é a razão de ocorrência do “sucesso” e o “t” é o período ao longo do qual se deseja calcular a
probabilidade. Notação: X ~ Poi(µ)
No exemplo nº 1:
= 60 clientes/hora = 60 clientes/60 minutos t = 10 minutos.
60 Então:
P ( X
4)
60
10 10
10 4 e
10
4!
0,0189
No exemplo nº 2:
= 10 imperfeições/1000 metros t = 100 metros. 10
Então: = P ( X
2)
1000
12 e 2!
100 1
1
0,1839
94
Parâmetros da distribuição de Poisson: Média = Desvio padrão =
Exemplo 03: Em um processo produtivo têxtil, o número médio de defeitos por m 2 de tecido é 0,4, variando segundo uma distribuição de Poisson. Qual é a probabilidade de que, em 2 m 2 de tecido fabricado:
a) b)
Não haja defeito? Haja no máximo 1 defeito?
Resolução: X = Nº de defeitos por m² λ = 0,4 defeitos/ 1 m²
t=2 µ = λt = 0,4 * 2
− −, . 0, 8 . ! → ! 0 ,.!, 0,449 ≤1 0 1 ,!., ,!., 0,4490,3590,808 X ~ Poi(0,8)
a)
b)
=
Exercícios (Resolvidos em sala)
1. Estima-se que, em todo mundo, os tubarões matem dez pessoas por ano. Determine a probabilidade: a) De que três pessoas sejam mortas por tubarões este ano. b) De que duas ou três pessoas sejam mortas por tubarões este ano.
2. Contaminação é um problema na fabricação de discos ópticos de armazenagem. O número de partículas de contaminação que ocorrem em um disco tem distribuição de Poisson e o número médio de partículas por centímetro quadrado de superfície média é 0,1. A área do disco sob estudo é 100 centímetros quadrados. Encontre a probabilidade de que 12 partículas ocorram na área de um disco sob estudo.
95
3. O número de chamadas telefônicas que chegam a uma central é freqüentemente modelado como uma variável aleatória de Poisson. Considere que, em média, há 10 chamadas por hora. a) Qual a probabilidade de que haja exatamente 5 chamadas em uma hora? b) Qual a probabilidade de que haja 3 ou menos chamadas em uma hora? c) Qual a probabilidade de que haja exatamente 15 chamadas em duas hora? d) Qual a probabilidade de que haja exatamente 5 chamadas em 30 minutos?
6.1.3. Distribuição Hipergeométrica
Considere uma população com N objetos nos quais M são classificados como do tipo A e N-M são classificados como do tipo B. Por exemplo, em um lote de 50 (N) peças temos 10 (n) peças defeituosas e 40 (NM) peças conformes. Tomamos uma amostra ao acaso, sem reposição e não ordenada de n o bjetos. Seja X a variável aleatória que conta o número de objetos classificados como do tipo A na amostra. Então a distribuição de probabilidade de X é dada por:
Diremos que uma variável aleatória X tem distribuição hipergeométrica de parâmetros M, N e n se sua função de probabilidade for dada da maneira acima. Denotamos X~Hiper(M, N, n).
Notas: 1. A experiência aleatória referida pode ser vista como uma sequencia de n realizações dependentes de uma prova de bernoulli mas com probabilidade de sucesso constante igual a p=M/N; 2. e 3.
Se[ N] →∞ comp[ ]∙ fixoent∙ −ãoE[∙X−−]np,; Var[X]→np1 pe ainda . →−
Exemplo 01: De um baralho com 52 cartas, retiram-se 8 cartas ao acaso, sem reposição. Qual a probabilidade de que 4 sejam figuras?
Resolução: 96
X: número de figuras em 8 cartas. X~Hiper(12, 52, 8).
. . ,
N = 52 M = 12 n=8
Exemplo 02: Uma firma compra lâmpadas por centenas. Examina sempre uma amostra de 15 lâmpadas para verificar se estão boas. Se uma centena inclui 12 lâmpadas queimadas, qual a probabilidade de se escolher uma amostra com pelo menos uma lâmpada queimada?
Resolução: X: número de lâmpadas queimadas na amostra.
X~ Hiper(12, 100, 15).
M = 12 n = 15
. 12 88 . 0 15 ≥11 <11 01 10015 0,8747 Exercícios (Resolvidos em sala)
1 . Suponha que 4 moedas comemorativas foram colocadas por engano em um cofrinho no qual já haviam algumas moedas comuns, o qual ficou contendo um total de 14 moedas. Suponha que, devido a dificuldade de tirar as moedas do cofrinho sem quebrá-lo, vamos retirar ao acaso um total de 4 moedas, qual a probabilidade de retirarmos no mínimo 2 moeda comemorativa?
2 . Uma empresa fabrica um tipo de tomada que são embalados em lote de 25 unidades. Para aceitar o lote enviado por essa fábrica, o controle de qualidade da empresa tomou o seguinte procedimento: sorteia-se 97
um lote e desse lote selecionam-se 8 tomadas para teste, sem reposição. Se for constatado, no máximo, duas tomadas defeituosas, aceita-se o lote fornecido pela fábrica. Se o lote sorteada tiver 6 peças defeituosas, qual a probabilidade de se aceitar o lote?
7.2. Distribuições Contínuas de Probabilidades Serão estudadas as seguintes Distribuições Contínuas de Probabilidades: - Distribuição Normal - Distribuição Exponencial
7.2.1 Distribuição Normal
A Distribuição Normal é uma das mais importantes distribuições, se não a mais importante, da Estatística. Ela é aplicada a um grande número de processos aleatórios relacionados com o ser humano. Ela também é intensamente utilizada ao longo da Estatística Inferencial.
Função Densidade de Probabilidade
Seja X uma v.a.c., dizemos que X tem distribuição normal se possuir a seguinte f.d.p.:
−(−)² () = ² √ Notação: X~N(μ;σ²)
-> X tem distribuição normal com média μ e variância σ².
Representação gráfica:
98
Características da Distribuição Normal
A v.a. de distr. normal pode assumir todo e qualquer valor real, é definida de a . A Distribuição Normal é uma distribuição simétrica. Assim sendo, a média, a mediana e a moda assumem o mesmo valor. O ponto mais elevado da curva corresponde ao seu valor médio. Cada distribuição normal fica especificada por sua média e seu desvio padrão. A área total sob a curva é 1 e a probabilidade de ocorrer um valor maior que a média é igual a probabilidade de ocorrer um valor menor do que a média. É também conhecida como distribuição de Gauss, Laplace ou Laplace-Gauss
É um gráfico em forma de sino. O seu posicionamento em relação ao eixo das ordenadas e seu achatamento vai ser determinado pelos parâmetros μ e σ², respectivamente. Fixando a média, verifica-se que o achatamento está diretamente ligado ao valor do desvio padrão.
Acima temos, curvas normais com mesma média µ, mas com variâncias diferentes (s 22 > s12 ).
Em uma Distribuição Normal observa-se que:
68% das observações são localizadas dentro de ± 1 desvio padrão em torno da média; 95% das observações são localizadas dentro de ± 2 desvios padrão em torno da média; 99,7% das observações são localizadas dentro de ±3 desvios padrão em torno da média.
Cálculo de probabilidades:
99
Quando temos em mãos uma variável aleatória com distribuição normal, nosso principal interesse é obter a probabilidade de essa variável aleatória assumir um valor em um determinado intervalo.
O cálculo de áreas sob a curva normal é consideravelmente complexo. Por isso, é conveniente trabalhar com valores padronizados.
Distribuição Normal Padrão
A solução foi definir uma Distribuição Normal Padrão. Uma Distribuição Normal Padrão é uma distribuição normal cuja média é igual a zero e o desvio padrão é igual a 1. A Distribuição Normal Padrão é, então, tabelada. A operação para se calcular uma probabilidade normal passa a ser a conversão da normal qualquer, da qual desejamos calcular a probabilidade, em uma normal padrão, seguida de uma consulta à tabela da normal padrão. A transformação de uma normal qualquer de média e desvio padrão é realizada com o auxílio de uma variável aleatória auxiliar “Z”, assim calculada: Z
X
Com o valor de “Z” assim calculado, entra-se na tabela da distribuição normal padrão.
A Tabela da Distribuição Normal Padrão (vide a tabela Distribuição normal padrão) fornece a probabilidade do valor da variável aleatória cair dentro de um intervalo entre a média e o determinado valor de “Z”.
A Tabela possui dois argumentos de entrada: Na margem vertical à esquerda, entra-se com a parte inteira e o 1º decimal de “Z”; Na margem horizontal superior entra-se com o 2º decimal de “Z”. No cruzamento, lê-se a probabilidade. 100
Uso da Tabela da Normal Padrão
Entre com o inteiro e 1º decimal do valor de Z Z
0,00
0,01
Entre com o 2º decimal do valor de Z
0,02
0,03
0,04
0,0 0,1 0,2
0,05
0,06
0,07
0,08
0,09
Probabilidade para Z entre 0 e 1,14
. . .
1,0 1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830 1,2 . . .
2,0 2,1 . . .
Leia, no cruzamento a Probabilidade
Exemplo 01: O tempo gasto no exame vestibular de uma universidade tem distribuição Normal, com média 120 min e desvio padrão 15 min.
a) Sorteando um aluno ao acaso, qual é a probabilidade que ele termine o exame entre 120 e 140 minutos?
X : tempo gasto no exame vestibular
X ~ N(120; 152)
Z Xμσ X120 15 <
< 140
− ) (− ≤ ≤ =
≤≤, ,
b) Sorteando um aluno ao acaso, qual é a probabilidade que ele termine o exame antes de 100 minutos?
Z Xμσ X120 15
101
( ≤ − ) ≤ − <
=
=
=
=
,
, − ( ≤ ≤ , ) , − ,
= ,
c) Qual é o intervalo central de tempo, tal que 90% dos estudantes gastam para completar o exame?
Z Xμσ X120 15
z
=?
P(0 < Z< z) = 0,45
Pela tabela, z = 1,64
120 15 1,64 → 120 1,64 15 195,4 120 1,64 15 1144,5 15 1,6,4 → , 120<<, ,
Exemplo 02: Seja X ~ N(10 ; 64) ( m = 10, s² = 64 e s = 8 ), Calcular P(6 X 12). 102
Z
X
10
8
P (6
12 10 6 10 X 12) P Z 8 8 ( 0,5 Z 0,25)
P
= P(0 < Z< 0,25) + P(0 < Z < 0,5) = 0,0987+ 0,19146 = 0,2901
Exercícios (Resolvidos em sala)
1. Um estudo realizado sobre o valor das compras feitas em uma determinada loja de um dos shoppings da cidade nos finais de semana revelou que essa variável aleatória é normalmente distribuída com uma média de $ 98,00 e um desvio padrão de $ 20,00. Qual a probabilidade de um cliente fazer uma compra cujo valor seja: a) Entre $ 98,00 e $ 110,00? b) Maior do que $ 109,00?
2. Suponha que medidas da corrente em um pedaço de fio sigam a distribuição normal, com uma média de 10 miliampères e uma variância de 4 (miliampères) 2. Qual a probabilidade da medida exceder 13 miliampères? 3. Calcule: a) b) c) d)
P(Z <1,82) P(Z ≤ -2,03) P(-2,55 ≤ Z ≤ 1,20) P(Z ≥ 1,93)
4. Se X ~ N(100,25), calcule:
a) P(X > 110) b) P(95 ≤ X ≤ 105) c) Encontre x tal que P(X ≤ x) = 0,3446
103
7.2.2 Distribuição Exponencial
•
É aplicada para o cálculo da probabilidade de intervalos de tempo ou de espaço físico entre dois eventos governados por um processo de Poisson. Na distribuição de Poisson, a variável aleatória é definida como o número de ocorrências em determinado período. Na distribuição Exponencial a variável aleatória é definida como o tempo ou espaços entre duas ocorrências consecutivas.
Função Densidade de Probabilidade é igual a:
Uma variável aleatória contínua X tem distribuição exponencial com parâmetro μ, se sua função de densidade
se probabilidade (fdp) é dado por:
1 x e , x 0 f ( x) 0, c.c
onde = tempo (ou espaço) médio
Notação: X~Exp(μ).
A função de distribuição acumulada é dado por:
1 e , F ( x) 0 x
x
0
c.c
O cálculo de uma probabilidade exponencial é feito da seguinte forma : x0
P ( x x0 ) 1 e
, para valores de x xo
x0
P ( x x0 ) e
, para valores de x xo
104
A média e o desvio padrão da distribuição exponencial são calculados usando:
E ( X )
Var ( X )
²
Exemplo 01: Um banco está implementando um serviço de atendimento a clientes especiais após o término do expediente. O gerente da agência fez um estudo a respeito da demanda por esses serviços e constatou que, em média, a agência era procurada por cerca de seis clientes por hora.
a) Qual a probabilidade de um cliente chegar pelo menos 10 minutos após o anterior ter chegado?
Neste caso, o período de tempo entre os dois eventos consecutivos é de 10 minutos: 6 clientes em 1 hora ou 10 minutos entre dois clientes consecutivos. A probabilidade que se deseja calcular é a de P(t 10 minutos) Aplicando-se a fórmula apropriada, teremos:
P ( x x0 ) e
x0
10
P (t 10) e
10
0,3679
Veja no gráfico abaixo a área correspondente à probabilidade calculada.
P t 10
0
10
t
b) Qual a probabilidade um cliente chegar, no máximo, 8 minutos após a chegada do cliente anterior? A probabilidade que se deseja calcular, neste caso, é P (t 8 minutos). Tem-se então que: x0
P ( x x0 ) 1 e
P (t 8) 1 e
8
10
0,5507 105
Veja no gráfico abaixo a área correspondente à probabilidade calculada:
P(t 8 )
0
t
8
c) Qual a probabilidade do período de tempo entre duas chegadas consecutivas de cliente ficar entre 5 minutos e 9 minutos? Nesse caso, a probabilidade que se deseja é p ( 5’ t ’ .
p (5 t 9) p (t 9) p (t 5)
p(5 t 9) (1 e
9 10
) (1 e
5
10
) 0,20
P5 t 9
0
5
9
t
Exemplo 02: Certo 02: Certo tipo de fusível tem duração de vida que segue uma distribuição exponencial com tempo médio de vida de 100 horas. Cada peça tem um custo de 10,0 unidades monetárias (u.m) e se durar menos de 200 horas, existe um custo adicional de 8,0 u.m. a) Qual é a probabilidade de uma durar mais de 150 horas? b) Determinar o custo esperado.
Solução: Se X: tempo de duração de uma peça, peça, do enunciado tem-se que: E(X)=100 horas
X ~ Exp(100). Ou seja,
106
100 1 , e F ( x) 0 x
x
0
c.c
a) P ( X 150) 1 P ( X 150) 1 (1 e
150 100
)e
1, 5
0,223
b) Seja b) Seja C o custo total de uma peça.
10, se x 200 C 10 8, se x 200
O custo total esperado é: E(C)= 10*P(C=10) + 18 *P(C=18)
P (C 10) P ( X 200) 1 P ( X 200) 1 F (200) e
P (C 18) P ( X 200) F (200) 1 e E (C )
10 e
2
18 (1 e
2
)
2
2
16,918u.m
Exercícios (Resolvidos em sala)
1. O tempo de vida, em meses, de um componente tem distribuição exponencial de parâmetro μ = 0,5. a) Qual é a probabilidade de que um componente novo dure pelo menos 2 meses? b) Dado que um componente usado já tem 1 mês de vida, qual é a probabilidade de que ele dure pelo menos mais dois meses?
2. Uma fábrica de tubos de TV determinou que a vida média dos tubos de sua fabricação é de 800 horas de uso e segue uma distribuição exponencial. Qual a probabilidade de que a fábrica tenha que substituir um tubo gratuitamente, se oferecer uma garantia de 300 horas de uso?
107
7ª Lista de Exercícios – Distribuições de Probabilidades
1. Um lote de aparelhos de TV é recebido por uma empresa. 20 aparelhos são inspecionados. O lote é rejeitado se pelo menos 4 forem defeituosos. Sabendo-se que 1% dos aparelhos é defeituoso, determinar a probabilidade de a empresa empresa rejeitar todo o lote. Resp: 0,00004 2. Durante o período de tempo em que reservas por telefone, para o verão, estão sendo feitas nos hotéis da cidade de Vitória, as chamadas chegam a uma razão de uma a cada dois minutos. Qual a probabilidade de ocorrer 3 chamadas em 5 minutos? Resp: 0,2137 3. Considere que uma auditoria em uma empresa de vendas a crédito levantou que 30% dos clientes estavam com suas prestações atrasadas. Determine a probabilidade de que, em 10 clientes escolhidos aleatoriamente, 4 estejam com suas prestações em atraso. E calcule a média e o desvio padrão. Resp: 0,2001 4. Pequenos motores são guardados em caixas de 50 unidades. Um inspetor de qualidade examina cada caixa, antes da posterior remessa, testando 5 motores. Se nenhum motor for de feituoso, a caixa é aceita. Se pelo menos um motor for defeituoso, todos os 50 motores são testados. Há 6 motores defeituosos numa caixa. Qual a probabilidade de que seja necessário examinar todos os motores dessa caixa? (Resp. 0,4874) 5. Um fabricante de peças de automóveis garante que uma caixa de suas peças conterá, no máximo, duas defeituosas. Se a caixa contém 30 peças, e a experiência tem mostrado que esse processo de fabricação produz 10% de peças defeituosas, qual a probabilidade de que uma caixa satisfaça a garantia? Resp: 0,4114 6. Bob é o jogador de basquete da faculdade. Ele é um lançador de arremessos livres 70%. Isso significa que sua probabilidade de acertar um arremesso livre é 0,70. Durante uma partida, qual é a probabilidade que Bob acerte pelo pelo menos um arremesso arremesso livre em cinco arremessos? Resp: 0,998 7. Numa central telefônica, o número de chamadas chega com uma média de 6 por minuto. Determinar a probabilidade de que em um minuto se tenha: a) no mínimo 4 chamadas; Resp: 0,848 b) no no máximo máximo cinco chamadas; Resp: 0,445 c) Mais de cinco e menos de oito chamadas. Resp: 0,298 8. Suponha que X, o nº de partículas emitidas em t horas por uma fonte radioativa, tenha uma distribuição de Poisson com parâmetro 20t. Qual será a probabilidade de que exatamente 5 partículas sejam emitidas durante um período período de 15 min? Resp. 0.1754 9. Num certo tipo de fabricação de fita magnética, ocorrem cortes a uma taxa de dois por 2000 pés. Qual a probabilidade de que um rolo com 2000 pés de fita magnética tenha: a) pelo menos dois cortes. Resp: 0, 596 b) no máximo dois cortes; Resp: 0,6767 c) nenhum corte; Resp: 0,1353 10.O dono de uma festa encomendou a um “buffet” 100 empadinhas de frango e 50 de camarão. Um convidado guloso “sequestra” a bandeja do garçom, que contém 20 empadinhas. O convidado é, além de guloso, alérgico a camarão, e se comer mais de 2 empadas de camarão corre o risco de passar o resto da festa no hospital. Qual a probabilidade disto acontecer? (Resp. ~ 100%) 108
11. A variável aleatória Y tem densidade Poisson com parâmetro µ=2. Obtenha: a) P(Y<2)
Resp: 0,406
b) P(2≤Y<4) Resp: 0,4511
c) P(Y>0)
Resp: 0,8647
12. Considere X uma variável aleatória Normal com média 11,15 e desvio-padrão 2,238. Qual a probabilidade de X ser menor que 8,7? Resp: 0,1379 13. A duração de um certo tipo de pneu, em quilômetros rodados, é uma variável normal com duração média 60000Km e desvio padrão 10000Km. a) Qual a probabilidade de um pneu aleatoriamente escolhido durar mais de 75000Km? Resp: 0,0666 b) Qual a probabilidade de um pneu aleatoriamente escolhido durar entre 50000km e 70000km? Resp: 0,6826 c) Qual a probabilidade de um pneu aleatoriamente escolhido durar entre 63000km e 70000km? 14. Um teste de inteligência foi aplicado a um grupo de 50 adolescentes do 2º grau. Supondo que obtevese uma distribuição normal com média 70 e desvio padrão de 6, pede-se: a) b)
A porcentagem dos alunos com nota superior a 80; Resp: 0,0475 O número de alunos com notas entre 45 e 65. Resp: 10
15. Uma empresa observa que na fabricação de determinado tipo de vela há pequena variação nas dimensões e no peso entre elas. O diâmetro médio das velas segue distribuição normal com média de 4,45 cm e desvio padrão de 0,35 cm. Para saber em quais candelabros as velas poderão ser colocadas, é interessante conhecer a probabilidade de as velas terem diâmetros: a. maior que 4,75 cm; Resp:0,1949 b. menor que 4,25 cm; Resp: 0,2843 c. entre 4,25 e 4,75 cm. Resp: 0,5208 16. Uma enchedora automática de refrigerantes está regulada para que o volume médio de líquido em cada garrafa seja de 1000 cm3 e desvio padrão de 10 cm 3. Admita que o volume siga uma distribuição normal. a. Qual é a porcentagem de garrafas em que o volume de líquido é menor que 990 cm 3? Resp: 0,159 b. Qual é a porcentagem de garrafas em que o volume de líquido não se desvia da média em mais do que dois desvios padrões? Resp: 0,9544 17. Os salários dos funcionários de um hotel fazenda têm distribuição normal em torno da média de R$ 1500,00, com desvio padrão de R$ 200,00. Qual a probabilidade de um funcionário: a. ganhar entre R$ 1400,00 e R$ 1600,00 ? Resp: 0,383 b. ganhar acima de R$ 1500,00 ? Resp: 0,5 Resp: 0,6915 c. ganhar acima de R$ 1400,00 ? Resp: 0,3085 d. ganhar abaixo de R$ 1400,00 ? e. ganhar acima de R$ 1650,00 ? Resp: 0,2266
109
18. A duração de certos tipos de amortecedores, em km rodados é normalmente distribuída, possui duração média de 5000 km e desvio-padrão de 1000 km. a) Qual a probabilidade de um amortecedor escolhido ao acaso durar entre 4500 e 6350 km?R: 0,60295 b) Se o fabricante desejasse fixar uma garantia de quilometragem, de tal forma que se a duração do amortecedor fosse inferior a garantia, o amortecedor seria trocado, de quanto deveria ser esta garantia para que somente 1% dos amortecedores fossem trocados? R: 2670 km 19. A altura dos alunos de uma escola (em Cm) tem distribuição normal com média 169cm e variância de 81cm. Pergunta-se: a) Qual a proporção de alunos com altura que diferem da média em mais de um desvio padrão? (R. 0,3174 b) Se a escola tiver 5000 alunos, quantos esperamos com alturas abaixo de 160 cm ou acima de 178 cm? (Resp. 1587) c) Qual a maior altura entre os 1,25%, menores? ( Resp. 148,84) d) Qual a probabilidade (proporção) de um aluno escolhido aleatoriamente ter altura entre 151 cm e 160 cm. ( Resp. 0,1359) 20. Suponha que as notas de uma prova sejam normalmente distribuídas com média 73 e desvio padrão 15. Quinze por cento dos alunos mais adiantados recebem a nota A e 12% dos mais atrasados recebem nota F. Encontrar o mínimo para receber A e o mínimo para passar, não receber F. (Resp. 55,3 e 88,6) 21. O salário semanal dos operários industriais é distribuído normalmente em torno de uma média de R$ 180,00 com desvio padrão de R$ 25,00. Pede-se: a) Encontrar a probabilidade de um operário ter salário semanal situado entre R$ 150,00 e R$ 178,00. (Resp. 0,353) b) Dentro de que desvio, de ambos os lados da média, cairão 96% dos salários? (R. 2,06 desvios) (X1= 128,75 e x2=231,25) 22. Em uma distribuição normal, 28% dos elementos são superiores a 34 e 12% inferiores a 19. Encontrar a média e a variância. (Resp. µ=29,03; σ²=73,4) 23. Seja X uma variável aleatória e tenha uma distribuição exponencial com parâmetro probabilidade de que X ultrapasse seu valor esperado. Resp: 0,3679
. Calcule a
24. A duração de uma lâmpada é uma variável aleatória T, com fdp dada por:
1 − 1000 0,, ≥0>0. ℎ;
Calcular a probabilidade de uma lâmpada: a) Se queimar antes de 1000 horas; Resp: 0,632 b) Durar entre 800 e 1200 horas. Resp: 0,1481
25. A vida média de um satélite é 4 anos, seguindo o modelo exponencial. Seja T a variável definida como o tempo de vida do satélite. Calcule: a) P(T > 4) Resp: 0,3678 b) P(5 ≤ T ≤6) Resp: 0,0633 110
111
UNIDADE VII - CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES 7.1 - Análise de Correlação
Os principais objetivos de uma análise de correlação consiste em identificar quais variáveis são potencialmente importantes na análise de um dado processo e medir a força ou o grau de relação linear entre duas variáveis. Por exemplo, podemos estar interessados em determinar o grau de relação entre: fumar e câncer de pulmão; entre notas obtidas nas provas de estatística e de matemática; entre as notas obtidas no ensino médio e na faculdade e assim por diante. OBS: Não há, nesse caso, preocupação em apresentar forma funcional entre as variáveis, se houver. Trata-se qualquer (duas) variáveis simetricamente, não há distinção entre as variáveis dependentes e explanatórias. O grau de relação é mensurado por uma medida estatística chamada de coeficiente de correlação, os símbolos usados são:
Podemos levantar, a título de exemplo, algumas questões: 1. A idade (independente) de uma pessoa e sua resistência (dependente) física estão correlacionadas? 2. Pessoas de maior renda (independente) tendem a apresentar melhor escolaridade (dependente)? 3. A temperatura (independente) pode influenciar na taxa de criminalidade (dependente)? 4. O sucesso (dependente) num emprego pode ser predito com base no resultado de testes (independente)?
Para o estudo do comportamento conjunto de duas variáveis podem ser utilizados: Diagrama de Dispersão e o Coeficiente de correlação de Pearson.
7.1.1 - Diagrama de Dispersão É interessante, sempre que possível, fazer um gráfico dos pares observados para as variáveis em estudo, afim de perceber algum tipo de tendência dos dados, o que indica uma possível relação entre as variáveis. O diagrama de dispersão é a representação gráfica do conjunto de dados. Nada mais é do que a representação dos pares de valores num sistema cartesiano. Em síntese quatro situações marcantes poderiam acontecer:
112
Correlação Linear Negativa Quando a correlação em estudo tem como imagem uma reta descendente, dizemos existir uma correlação linear negativa.
O Diagrama de dispersão indica que há uma tendência inversamente proporcional. Ou seja, quando uma das variáveis “cresce”, a outra, em média, “decresce”.
Correlação linear positiva Quando a correlação em estudo tem como imagem uma reta ascendente, dizemos existir uma correlação linear positiva.
O Diagrama de dispersão indica que há uma tendência diretamente proporcional. Ou seja, quando uma das variáveis “cresce”, a outra, em média, também “cresce”.
Ausência de Correlação Se os pontos estiverem dispersos, sem definição de direção, dizemos que a correlação é muito baixa, ou mesmo nula, as variáveis nesse caso são ditas não correlacionadas.
113
O diagrama de dispersão indica que não há tendência, o que também será indicado por uma medida estatística. Correlação Não-Linear Quando a correlação em estudo tem forma de curva, dizemos existir uma correlação não-linear.
EXEMPLO 1: Sejam os dados da tabela abaixo que apresentam as notas obtidas por alunos nas disciplinas de Química e Biologia. É razoável considerarmos que as notas em biologia dependam das notas em química, ou seja: Notas em Biologia: Variável Dependente. Notas em Química: Variável independente.
Notas de Biologia (Y)
6
9
8
10
5
7
8
4
6
2
Notas de Química (X)
5
8
7
10
6
7
9
3
8
2
Diagrama de Dispersão
114
7.1.2 - Coeficiente de correlação de Pearson
É um valor numérico, uma medida do grau de associação entre duas variáveis. Se for observada uma associação entre as variáveis quantitativas (a partir de um diagrama de dispersão, por exemplo), é muito útil quantificar essa associabilidade. O coeficiente de correlação amostral é calculado por:
[ ∑ ∑ ∑ ∑][ ∑ ∑ ∑ ] Propriedades: 1. Pode ser positivo ou negativo, o que dependerá do sinal do termo no numerador da equação, que mede a covariação amostral das duas variáveis; 2. Se situa nos limites de -1 e +1, isto é, - 1 ≤ r ≤ 1. 3. Sua natureza é simétrica, isto é, o coeficiente de correlação entre X e Y (r ( r xy ) é o mesmo que Y e X (r (r yx ). yx ). 4. Se X e Y são estatisticamente independentes, o coeficiente de correlação entre elas é zero, mas se r = 0, isso não significa que sejam independentes. 5. É uma medida de associação linear ou de dependência linear, não é significativa para descrever relações não lineares. Classificação para o coeficiente de correlação:
Relação Fraca: Se -0,3 ≤ r ≤ 0,3 Relação moderada: Se -0,7 < r < -0,3 ou 0,3 < r < 0,7 Relação Forte: Se -1 ≤ r ≤ - 0,7 ou 0,7 ≤ r ≤ 1,0 Padrões de Correlação 115
EXEMPLO 2: Calcular o grau de associação entre as notas de biologia e química do exemplo 01.
Logo teremos:
.. ∑ .∑ ∑. . ∑ .. ∑. ∑ ∑ 116
10∗473 10∗47365∗65 10∗481 10∗47565² 10∗481 65 . 10∗47565² (4810 473065) 4225 ∗ 475065 475065 √ ∗√ ∗ √ , Resultado que indica uma forte correlação linear positiva entre as variáveis. Quanto maior a nota em química maior é a nota em biologia.
EXEMPLO 3: Na tabela abaixo temos o salário-hora médio(Y) segundo nível de escolaridade (X). Anos de estudo Salário - hora (X) médio (Y)
∑
X²
Y²
XY
6
4,46
36
19,89
26,76
7
5,77
49
33,29
40,39
8
5,98
64
35,76
47,84
9
7,33
81
53,73
65,97
10
7,32
100
53,58
73,20
11
6,58
121
43,30
72,38
12
7,82
144
61,15
93,84
13
7,84
169
61,47
101,92
14
11,02
196
121,44
154,28
15
10,67
225
113,85
160,05
16
10,84
256
117,51
173,44
17
13,62
289
185,50
231,54
18
13,53
324
183,06
243,54
156
112,78
2054
1083,53 1485,15
Existe uma relação entre o grau de escolaridade e o salário-hora médio?
n13 X156 Y112,78 117
2054 1083,53
1485,15
[ ∑ ∑ ∑ ∑][ ∑∑ ∑ ] 13∗1485,1561]∗[5156∗112, 7 8 [13∗2054 13∗1083,53112,78] 1713,27 56 0,9528 2366∗1366, 0,9528 O coeficiente de correlação de 0,95 está bem próximo de 1, então podemos concluir que o grau de escolaridade e o salário-hora médio são fortemente correlacionados, apresentando uma relação positiva. Podemos verificar essa relação através do diagrama de dispersão.
EXERCÍCIO (Resolvidos em sala)
1 - Os dados abaixo são referentes aos salários e tempo de serviço dos 10 operários de uma firma, construa a tabela de distribuição conjunta, verifique graficamente se existe relação entre salário e tempo de serviço, quantifique essa relação usando a medida estatística apropriada. 118
Y = salário em $ X = tempo de serviço em anos
7.2 - REGRESSÃO LINEAR SIMPLES
A análise de regressão consiste em determinar um modelo matemático que expresse da melhor maneira possível o comportamento da variável dependente (Y) em função da variável independente (X).
Todos os dias, a mídia se encarrega de informar resultados de análises e pesquisas do tipo:
– O valor da empresa depende do lucro futuro, – A taxa de juros depende da inflação. – O salário depende da escolaridade do trabalhador etc.
Na regressão linear simples será deduzida e analisada a reta que melhor explica essa relação, tendo previamente definido a variável independente e a variável dependente. Estuda-se apenas duas variáveis e o modelo determinado é um polinômio de primeiro grau.
119
OBS: Uma análise de regressão torna-se mais interessante quando as variáveis envolvidas apresentam associação de moderada a forte. 7.2.1 - Modelo do Ajuste de uma Reta de Regressão
O ajuste de uma reta de regressão é um modelo linear que relaciona a variável dependente Y e a variável independente X por meio da equação de reta do tipo:
̂
̂
̂
A equação deve ser obtida de forma a minimizar os erros de estimação, “e”, como pode ser visto no ponto (x 1; y1). O erro de estimação “e” é a distância entre o ponto e a reta . Para tanto empregase o método dos mínimos quadrados como veremos a seguir.
Uma vez que tenha sido formulada a equação de regressão, pode-se utilizá-la para estimar o valor da variável dependente, dado o valor da variável independente. Contudo, tal estimação deve ser feita apenas dentro do intervalo de variação dos valores da variável independente originalmente amostrados, já que não existe base estatística para supor que a linha de regressão é apropriada fora destes limites.
120
Estimação dos coeficientes A forma geral da equação de regressão linear para os dados de uma amostra é:
Essa equação deve ser obtida de forma que o erro de estimação seja mínimo. Pelo método dos mínimos quadrados, estes erros são mínimos para:
∑ [∑ ∑ ∑ ∑] ∑ . ∑ Neste caso, o parâmetro a indica a altura em que a reta corta o eixo Y e o parâmetro b indica a inclinação da reta, isto é, a mudança que Y sofre para cada unidade de variação de X.
EXEMPLO 4: O objetivo do diretor de vendas de uma rede de varejo é analisar a relação entre o investimento realizado em propaganda e as vendas das lojas da rede, para realizar projeções de vendas de futuros investimentos em propaganda. A tabela seguinte registra uma amostra representativa extraída dos registros históricos das lojas de tamanho equivalente, com os valores de Propaganda e Vendas em milhões. Analisar a possibilidade de definir um modelo que represente a relação entre as duas variáveis ou amostras.
SOLUÇÃO Para analisar a relação entre as duas variáveis foi construído o gráfico de dispersão das vendas anuais em função do investimento anual em propaganda. Nesse gráfico pode-se ver que, nos últimos dez anos, o aumento de investimento em propaganda gerou aumento das vendas, e vice-versa.
121
• •
O gráfico de dispersão mostra que as vendas e o investimento em propaganda estão correlacionados de forma positiva, com um coeficiente de correlação próximo de +1. Uma reta como a linha tracejada no gráfico de dispersão acima poderá ser utilizada para realizar projeções das vendas futuras em função do investimento em propaganda. – A linha tracejada foi ajustada tentando equilibrar os pontos acima da reta com os pontos abaixo dela. – Essa reta é uma das muitas possíveis retas que poderiam ser ajustadas.
Estimação da equação de regressão: Y = Vendas X = Investimento em propaganda
∑ [∑ ∑ ∑ ∑]
122
b
10 112.455 270 3.800 10 8.302 270
2
9,7381
∑ . ∑ a
3.800 9,7381 270 10
117,07
Portanto, a equação da reta de regressão procurada é:
y ˆ
117,07 9,74 x
Conclusão: A cada 1 milhão investido em propaganda o valor médio de vendas aumenta em 9,74 milhões.
EXERCÍCIO (Resolvidos em sala)
1 - Os dados abaixo são referentes aos salários e tempo de serviço dos 10 operários de uma firma, verificouse que existe relação entre salário e tempo de serviço, obtenha a equação da reta de regressão que estima o salário segundo tempo de serviço.
Y = salário em $ X = tempo de serviço em anos
123
7ª lista de exercícios
Questão 1 - Abaixo você encontra uma lista de situações de pesquisa. Para cada uma delas indique se o apropriado é proceder uma análise de regressão ou uma de correlação. Justifique sua indicação. a) O rendimento escolar na Universidade favorece o êxito profissional? b) O tempo de treinamento influi no desempenho profissional? c) O objetivo é estimar o tempo necessário a consecução de certa tarefa usando, para tanto, o tempo de treinamento do executor. d) O objetivo é utilizar o preço da carne de gado para estimar a quantidade de procura desse bem. e) A quantidade procurada de carne de gado depende do preço da carne de porco? Questão 2 - A Revista Nacional do Consumidor apresenta as seguintes correlações: (i) A correlação entre peso de carro e a confiabilidade é -0,30; (ii) A correlação entre peso do carro e dos custos anuais de manutenção é 0,20. Qual a interpretação do coeficiente de correlação em cada um dos casos, ou seja, como pode -se descrever a relação entre as variáveis?
Questão 3 - Certa empresa, estudando a variação da demanda de seu produto em relação à variação de preço de venda, obteve a tabela:
Preço (X)
Demanda (Y)
38
350
42
325
50
297
56
270
59
256
63
246
70
238
80
223
95
215
110
208
a) Construa o diagrama de dispersão (gráfico). b) Verifique o grau de relação entre Preço e demanda do produto. 124
c) Obtenha a função de regressão estimada, e conclua algo; d) Qual a estimativa da demanda quando o preço é 65? Questão 4 - Uma cadeia de supermercados financiou um estudo dos gastos realizados por família de quatro pessoas com renda mensal líquida entre oito e vinte salários mínimos. A pesquisa levou a equação de regressão Y = -1,2 + 0,4 X, onde Y representa a despesa mensal estimada ( através do modelo) e X a renda mensal líquida expressa em número de salários mínimos.
a) Estime a despesa mensal de uma família com renda líquida mensal de 15 salários mínimos. b) A equação em questão serve para estimar a despesa mensal de uma família de 5 pessoas com renda líquida de 12 salários mínimos? Justifique. Questão 5 - Para estudar a poluição de um rio, um cientista mediu a concentração de um determinado composto orgânico (Y) e a precipitação pluviométrica na semana anterior (X): X
0,91
1,33
4,19
2,68
1,86
1,17
Y
0,1
1,1
3,4
2,1
2,6
1
a) Existe alguma relação entre o nível de poluição e a precipitação pluviométrica? Responda analisando o gráfico de dispersão. b) Calcule e interprete o coeficiente de correlação linear de Pearson. c) Determine a equação de regressão linear.
Questão 6 - Para cada caso abaixo, estime a correspondente equação de reta de regressão: a)
n
20, X 200, Y 300, XY 6200, X
b) n 36, X 7,2, Y 37, XY 3100, X
2
2
3600.
620.
GABARITO Questão 1) a) Correlação, pois o objetivo da pesquisa é observar se o êxito profissional depende do rendimento escolar. b) Correlação, pois o objetivo da pesquisa é observar se o desempenho profissional depende do tempo de treinamento. c) Análise de regressão, pois o objetivo da pesquisa é estimar o tempo de consecução de certa tarefa utilizando a informação do tempo de treinamento do executor. d) Análise de regressão, pois o objetivo da pesquisa é estimar a quantidade de procura da carne do gado através do preço da carne. e) Correlação, pois o objetivo da pesquisa é verificar se existe relação de dependência entre o preço da carne de porco e a procura de carne de boi. Questão 2)
125