1
ESTATÍSTICA IV
Profª Raquel Andrade Rebelo
2
ESTATÍSTICA O QUE É ESTATÍSTICA? ESTATÍSTICA? sta tísti ca surgiu da palavra latina “status” referindo -se ao “Estado” O nome E statí organização política e administrativa. A própria raiz da palavra deixa isso claro: status sta tísti ca (port.). Segundo (lat.), de onde se originaram estado, estado, estadista, estadista, E statí Achenwall refere-se refere-se à ciência das coisas que pertencem ao Estado.
Um pouco da história da Estatística.... Registros egípcios de presos de guerra 5000 AC – Registros 2000 AC – Censo Censo Chinês 695 – Primeira utilização da média ponderada pelos árabes na contagem de moedas 1654 – Pierre Pierre de Fermat e Blaise Pascal estabelecem os Princípios do Cálculo das Probabilidades 1930 – Controle Controle de Qualidade nas Indústrias Estudo retrospectivo de doenças (Mantrel & Haenszel). 1959 – Estudo http://www.redeabe.org.br/historia.htm
1.1. ESTATÍSTICA No desenvolvimento científico e em nosso próprio dia-a-dia dia -a-dia estamos sempre fazendo observações de fenômeno, gerando dados. Os engenheiros estão frequentemente analisando dados de propriedades dos materiais. Ao ler jornais e revistas, estamos vendo resultados estatísticos de dados do censo demográfico, de pesquisas, etc. etc. A estatística envolve técnicas para coletar, organizar, descrever, analisar e interpretar dados, ou provenientes de experimentos, ou vindos de estudos observacionais. As tabelas tornaram-se mais completas, surgiram às representações sta tísti ca deixou gráficas, os das probabilidades. A E statí deixou de ser simples catalogação de dados numéricos coletivos para se tornar o estudo de como chegar a conclusões sobre o todo (população), partindo da observação de partes desse todo (amostra). Com base no desenvolvimento das teorias das probabilidades, verificou-se que a estat esta t ísti ca poderia ser utilizada para tirar conclusões e tomar decisões baseadas na análise de dados. Qualquer que seja a área, sempre existe questões que remetem fatos e questões que remetem a dados. Na área da Administração, por exemplo, os gerentes precisam apresentar e descrever informações de forma adequada. Na engenharia, por sua vez, as generalizações de amostras para populações de onde foram extraídas, são fundamentais na resolução de problemas de engenharia e nos processos de tomada de decisões. Embora os métodos estatísticos descritivos sejam importantes para a apresentação e a caracterização de dados, foi o desenvolvimento de métodos estatísticos de inferência, como um produto da teoria de probabilidade, que levou à esta t ísti ca em todos os campos de pesquisa atuais. ampla aplicação da estat Por exemplo, como se comparam preços de determinados produtos, como se distribuem as rendas familiares de uma determinada cidade. Os gerentes precisam
2
ESTATÍSTICA O QUE É ESTATÍSTICA? ESTATÍSTICA? sta tísti ca surgiu da palavra latina “status” referindo -se ao “Estado” O nome E statí organização política e administrativa. A própria raiz da palavra deixa isso claro: status sta tísti ca (port.). Segundo (lat.), de onde se originaram estado, estado, estadista, estadista, E statí Achenwall refere-se refere-se à ciência das coisas que pertencem ao Estado.
Um pouco da história da Estatística.... Registros egípcios de presos de guerra 5000 AC – Registros 2000 AC – Censo Censo Chinês 695 – Primeira utilização da média ponderada pelos árabes na contagem de moedas 1654 – Pierre Pierre de Fermat e Blaise Pascal estabelecem os Princípios do Cálculo das Probabilidades 1930 – Controle Controle de Qualidade nas Indústrias Estudo retrospectivo de doenças (Mantrel & Haenszel). 1959 – Estudo http://www.redeabe.org.br/historia.htm
1.1. ESTATÍSTICA No desenvolvimento científico e em nosso próprio dia-a-dia dia -a-dia estamos sempre fazendo observações de fenômeno, gerando dados. Os engenheiros estão frequentemente analisando dados de propriedades dos materiais. Ao ler jornais e revistas, estamos vendo resultados estatísticos de dados do censo demográfico, de pesquisas, etc. etc. A estatística envolve técnicas para coletar, organizar, descrever, analisar e interpretar dados, ou provenientes de experimentos, ou vindos de estudos observacionais. As tabelas tornaram-se mais completas, surgiram às representações sta tísti ca deixou gráficas, os das probabilidades. A E statí deixou de ser simples catalogação de dados numéricos coletivos para se tornar o estudo de como chegar a conclusões sobre o todo (população), partindo da observação de partes desse todo (amostra). Com base no desenvolvimento das teorias das probabilidades, verificou-se que a estat esta t ísti ca poderia ser utilizada para tirar conclusões e tomar decisões baseadas na análise de dados. Qualquer que seja a área, sempre existe questões que remetem fatos e questões que remetem a dados. Na área da Administração, por exemplo, os gerentes precisam apresentar e descrever informações de forma adequada. Na engenharia, por sua vez, as generalizações de amostras para populações de onde foram extraídas, são fundamentais na resolução de problemas de engenharia e nos processos de tomada de decisões. Embora os métodos estatísticos descritivos sejam importantes para a apresentação e a caracterização de dados, foi o desenvolvimento de métodos estatísticos de inferência, como um produto da teoria de probabilidade, que levou à esta t ísti ca em todos os campos de pesquisa atuais. ampla aplicação da estat Por exemplo, como se comparam preços de determinados produtos, como se distribuem as rendas familiares de uma determinada cidade. Os gerentes precisam
3 saber como tirar conclusões a partir de grandes populações com base somente em informações obtida de amostras.
1.2. ESTATÍSTICA NA ENGENHARIA Logo após a revolução industrial, métodos estatísticos foram incorporados nos processos industriais para garantir a qualidade dos produtos. Amostras de itens produzidos eram avaliadas sistematicamente para inferir se o processo estava sobre controle. Mais recentemente (principalmente dos anos 70 em diante), a avaliação da qualidade passou a ser feita ao longo de todo o processo produtivo como forma de corrigir eventuais falhas no sistema assim que elas se aparecessem. Isto levou um aumento da qualidade do produto final acompanhado de redução de custos, pois reduziu drasticamente as perdas por defeitos. Os métodos de engenharia costumam incorporar intrinsecamente procedimentos probabilísticos ou estatísticos. Desta forma para que o aluno possa entender certos métodos estatísticos de engenharia é necessário que ele tenha conhecimentos conhecimentos de probabilidade e estatística.
1. CONCEITOS BÁSICOS
População - é o conjunto de elementos (pessoas, coisas, objetos) que têm em comum uma característica em estudo. A população pode ser: i. Finita: quando apresenta um número limitado limit ado de indivíduos. Ex.1 a população constituída por todos os parafusos produzidos em uma fábrica em um dia. Ex. 2 nascimento de crianças em um dia em Blumenau. ii. Infinita: quando o número de observações for infinito. infi nito. Ex. a população constituída de todos os resultados (cara e coroa) em sucessivos lances de uma moeda.
Amostra - é o conjunto de elementos retirados da população, suficientemente representativos dessa população. Através da análise dessa amostra estaremos aptos para analisar os resultados da mesma forma que se estudássemos estudássemos toda a população.
Obs. A amostra é sempre finita. Quanto maior for a amostra mais significativa é o estudo.
Parâmetro - é uma característica numérica estabelecida para toda uma população.
Estimador - é uma característica característica numérica estabelecida estabelecida para uma amostra.
Dado Estatístico - é sempre um número real.
4 a- Primitivo ou Bruto: é aquele que não sofreu nenhuma transformação transformação matemática. Número direto. b- Elaborado ou secundário: é aquele que sofreu transformação matemática. Ex. porcentagem, média, etc.
2. ARREDONDAMENTO DE DADOS Muitas vezes, é necessário ou conveniente suprimir unidades inferiores às de determinada ordem. Esta técnica é denominada arredondamento de dados. De acordo com a resolução 886/66 da Fundação IBGE, o arredondamento é feito da seguinte maneira:
Quando o primeiro algarismo após aquele que vai ser arredondado for 0, 1, 2, 3 e 4 despreza-se este algarismo e conserva-se o anterior.
Exemplo: 5,733958 = 5,73;
78,846970 = 78,8.
Quando o primeiro primeiro algarismo após aquele aquele que vai ser ser arredondado for 5, 6, 7, 8 e 9 aumentamos uma unidade no algarismo anterior.
Exemplo: 5,735958 = 5,74;
78,886970 = 78,9.
Quando o 1.º algarismo a ser abandonado dor 5, há duas soluções: 1) Caso o 5 vier seguido de algum n.º distinto de zero aumenta-se uma unidade ao último algarismo a permanecer. 2,502= Ex.: 12,3453= 2,6351=
2) Caso o 5 vier seguido só de zeros, o último algarismo a ser conservado só será aumentado se for ímpar. Ex.: 32,150= 32,25= 31,4500=
ATIVIDADES 1) Arredondar para a unidade: a) 6,0= b) 12,3= c) 20,7= d) 12,50= e) 212,1= f) 3,40= g) 23,07= 2) Arredondar para décimos: a) 48,23= b) 132,47= c) 20,75= d) 13,45= e) 3,142= f) 3,42= g) 34,99=
h) 7,50= i) 15,8= j) 19,6= l) 89,502= m) 99,50= n) 8,503=
h) 7,60= i) 15,3452= j) 2,68= l) 45,444= m) 3,25= n)27,2502=
5
3. DIVISÃO DA ESTATÍSTICA Podemos dividir a Estatística em duas áreas:
Estatística Descritiva – é à parte da Estatística que tem por objetivo descrever os dados observados e na sua função dos dados, tem as seguintes atribuições.
i. A obtenção ou coleta de dados – é normalmente feita através de um questionário ou de observação direta de uma população ou amostra. ii. A organização dos dados – consiste na ordenação e crítica quanto à correção dos valores observados, falhas humanas, omissões, abandono de dados duvidosos. iii. A representação dos dados – os dados estatísticos podem ser mais facilmente compreendidos quando apresentados através de tabelas e gráficos, que permite uma visualização instantânea de todos os dados. Estatística Indutiva – é é à parte da Estatística que tem por objetivo obter e generalizar conclusões conclusões para a população a partir de uma amostra, através do cálculo de probabilidade. A tais conclusões estão sempre associados a um grau de incerteza e consequentemente, a uma probabilidade de erro.
4. VARIÁVEIS Uma variável é qualquer característica de um elemento observado (pessoa, objeto ou animal). Algumas variáveis, como sexo e designação de emprego, simplesmente enquadram os indivíduos em categorias. Outras, como altura e renda anual, tomam valores numéricos com os quais podemos fazer cálculos. Os exemplos acima nos dizem que uma variável pode ser:
a – Qualitativa: quando seus valores são expressos por atributos: sexo (masculino – feminino), feminino), cor da pele (branca, preta, amarela, vermelha); b – Quantitativa: Quantitativa: quando seus valores são expressos em números (salários dos operários, idade dos alunos de uma escola, número de filhos, etc.). Uma variável quantitativa que pode assumir, teoricamente, qualquer valor entre dois limites recebe o nome de variável contínua (altura, peso, etc.); uma variável que só pode assumir valores pertencentes a um conjunto enumerável recebe o nome de variável discreta (número de filhos, número de vitórias).
Exercícios 1. Classifique as variáveis abaixo: (a) Tempo para fazer um teste. (b) Número (b) Número de alunos alunos aprovados por turma. (c) Nível sócio-econômico sócio-econômico (d) QI (Quociente de inteligência).
6 (e) Sexo (f) Gastos com alimentação. (g) Opinião com relação à pena de morte (h) Religião (i) Valor de um imóvel (j) Conceitos em certa disciplina (k) Classificação em um concurso. 2. Identifique e classifique as variáveis: a) Tabela de códigos de declaração de bens e direitos de imóveis: 11 – Apartamento; 12 - Casas; 13 – Terrenos; 14 – Terra nua; 15 – Salas ou lojas; 16 – Construção; 17 – Benfeitorias; 19 – Outras; (Declaração de Ajuste Anual, Instruções de Preenchimento, Imposto de Renda, Pessoa Física, 1999) b) “O euro começa a circular com 13 bilhões de notas em sete valores(5, 10, 20, 50, 100, 200 e 500)...A cunhagem de 75 bilhões de moedas de 1 e 2 euros e de 1, 2, 5, 10, 20 e 50 centavos de euro implicará uma troca completa de máquinas e
equipamentos de venda de jornais,café e refrigerantes.” (Revista Época, Ano 1, nº 33 , 4/1/1999)
c) “Em sete deliciosos sabores: tangerin a, Laranja, maracujá, lima-limão,
carambola, abacaxi e maçã verde.” ( Anúncio de um preparado sólido artificial
para refresco)
d) “ A partir de 1999, as declarações de Imposto de Renda dos contribuintes com patrimônio de até R$ 20 mil poderão ser feitas por telefone.” (Revista época, ano 1, nº 33, 4/1/1999) e) Quantidade de sabores de refresco consumida em determinado estabelecimento no fim de semana; f) Em 28 de dezembro de 1998, a Folha de S. Paulo publicou a classificação dos prefeitos de nove capitais brasileiras. As notas, em uma escala de 0 a 10, foram as seguintes: Curitiba 6,7; Recife, 6,5; Porto Alegre, 6,4; Florianópolis, 6,4; Salvador, 6,3; Fortaleza, 5,5; Belo Horizonte, 5,4; Rio de Janeiro, 5,4 e São Paulo,3,4. 3. O Departamento do Comércio declarou ter recebido os seguintes formulários de inscrição para o Prêmio de Qualidade Nacional MB: 23 de grandes empresas de manufatura, 18 de grandes empresas de serviços e 30 de pequenas empresas de negócios. a) O tipo de negócio é uma variável qualitativa ou quantitativa? b) Que porcentagem de formulários foi entregue pelas pequenas empresas? 4. Declare se cada uma das seguintes variáveis é qualitativa ou quantitativa: a) vendas anuais; b) tamanho dos refrigerantes (p, m, g); c) classificação dos empregados (GS1 até GS18); d) ganhos por ação; e) método de pagamento (à vista, com cheque, com cartão). 5. A Casa Columbia fornece CD‟s, fitas e gravações para os membros de seu clube de compra via mala-direta. Uma pesquisa sobre música da Casa Columbia solicitava aos novos membros do clube que completassem um levantamento de 11 questões, as quais seguem:
7 a) quantos álbuns (CD‟s, fitas ou discos) você comprou nos últimos 12 meses? b) Você é membro de algum clube nacional de compra de livros de mala-direta? (Sim/Não) c) Qual é sua idade? d) Incluindo você, quantas pessoas existem em sua família? e) Que tipo de música você está interessado em comprar? (15 categorias eram listadas)
5.
APRESENTAÇÃO DE DADOS ESTATÍSTICOS
5.1 APRESENTAÇÃO TABULAR A apresentação de dados estatísticos na forma tabular consiste na reunião ou grupamento dos dados em tabelas ou quadros com a finalidade de apresenta-los de modo ordenado, simples e de fácil percepção e com economia de espaço.
Componentes Básicos Em termos genéricos, uma tabela se compõe dos seguintes elementos básicos: Título Cabeçalho
Indicadora de
Casa
Coluna
C o l Linha u n a
Rodapé Exemplo: Tabela 1 - Desempenho de 43 Funcionários da Empresa A no Curso de Aperfeiçoamento-Blumenau-2012 Desempenho
N.º de Funcionários
Péssimo Regular Bom Ótimo
5 12 20 6
Total
43
Fonte: Empresa A
8
Principais Elementos de uma Tabela
a)TÍTULO- designação que se coloca acima da tabela e/ou série indicando a natureza, o local e a época do fato, respondendo às perguntas: O quê? Onde? Quando? b)CORPO- conjunto de linhas e colunas respectivamente horizontal e vertical que contém as informações. O encontro de uma linha com uma coluna chama-se casa. c)CABEÇALHO- é a parte superior da tabela (1.ª linha) que especifica as colunas. d)COLUNA INDICADORA- é a 1.ª coluna que especifica as linhas. e) ELEMENTOS COMPLEMENTARES - (no rodapé) colocados no espaço abaixo da tabela/série. I-Fonte- é a indicação da entidade responsável pelo fornecimento dos dados ou sua elaboração. II-Notas- são informações de natureza geral identificadas por algarismos romanos. III-Chamadas- são informações de natureza específica identificadas por algarismos arábicos, entre parênteses, escritos no corpo da tabela à esquerda das casas e a direita da coluna indicadora.
6. SÉRIES ESTATÍSTICAS Toda série é uma tabela, mas nem toda tabela é uma série pois esta exige homogeneidade, classificação, critério de modalidade segundo: espécie, local ou época. As séries estatísticas representam um conjunto de informações ou observações através do tempo ou dentro de um determinado espaço ou ainda, em relação a um fenômeno. Série é um conjunto de n.º associados a fenômenos dispostos em correspondência com critério de modalidade, ou seja, apresenta a distribuição de um conjunto de dados estatísticos em função da época, local ou espécie.
REGRAS DE APRESENTAÇÃO DA TABELA/SÉRIE a) Toda tabela/série deve ser clara, simples e completa dispensando a consulta ao texto. b) As tabelas/séries não são fechadas nas laterais. c) As tabelas/séries são fechadas em cima e embaixo com traços horizontais mais grossos. d) Uma casa nunca deve ficar em branco. e) Para englobar várias especificações usamos “outros”.
SINAIS PARA PREENCHIMENTO DE UMA CASA EM BRANCO - Valor Nulo . . . Dado não Pesquisado, Desconhecido
9
? Dado Duvidoso ! Dado Absurdo Valor Provisório 0; 0,0; 0,00 quando o valor for menor que a metade da unidade ou da fração decimal adotada. DATA DA REFERÊNCIA DOS DADOS a) Indicar sempre a data do fenômeno estudado. b) Não pontuar no fim da data. c) Os meses são observados pelas três primeiras letras, exceto maio que escreve-se por extenso. d) Série de anos consecutivos; Ex.: 1890-990 (quando diferem os séculos); 1987-92 (quando for do mesmo século). e) Série de anos não consecutivos. Ex.: 1989-1998 A Série Estatística é toda tabela que apresenta a distribuição de um conjunto de dados estatísticos em função de três elementos: a. Da época; b. Do local; c. Da espécie. Esses elementos determinam o surgimento de quatro tipos fundamentais de séries estatísticas:
Exemplo:
Séries Temporais ou Cronológicas: são aquelas nas quais os dados são reunidos segundo o tempo que varia, permanecendo fixos o local e a espécie.
Tabela 1 - Produção de Fertilizantes Fosfatados Brasil – 1985 – 89 Anos 1985 1986 1987 1988 1989
Quantidade(t) 3.570.115 4.504.201 5.448.835 4.373.226 4.024.813
Fonte: Associação Nacional de Corretivos Agrícolas
Séries Geográficas: são aquelas nas quais os dados são reunidos segundo o local que varia permanecendo fixos o tempo e a espécie.
10
Exemplo: Tabela 2 - Produção de parafusos (t) em diversas filiais da Indústria X – Brasil - 2000 Regiões Quantidade Nordeste Sudeste Norte Centro – Oeste Sul
512900 299585 148818 124791 105371
Total
1191465
Fonte : Indústria X.
. Séries Específicas: são aquelas nas quais os dados são reunidos segundo o espécie que varia permanecendo fixos o tempo e o local.
Exemplo: Tabela 3 - Investimentos realizados pela Empresa T- Indaial – 2011 Espécie Pregos Fechaduras Portas
N.º 58.889 5.888 23
Fonte: Setor de Produção.
Séries Composta ou Mista: é a combinação de dois ou mais fundamentais de séries estatísticas. Exemplo: Geográfica – Temporal.
Tabela 4 - Evolução do transporte de carga marítima nas 4 principais bacias brasileiras -1998 – 2000 Anos Bacias 1998 1999 2000 233.768* 324.350 316.557 Amazônica 16.873 20.272 20.246 Nordeste 177.705 203.966 201.464 Prata 53.142 48.667 57.948 São Francisco Fonte Brasil em dados. * Os dados estão em toneladas. A apresentação tabular de dados estatísticos é normalizada pela resolução nº 886 de 26-10-1966 do Conselho Nacional de Estatística a fim de uniformizar a apresentação de dados.
11 EXERCÍCIOS
Exercício 1: De acordo com o IBGE (1988), em 1986 ocorreram, em acidentes de trânsito, 27306 casos de vítimas fatais, assim distribuídos: 11712 pedestres, 7116 passageiros e 8478 condutores. Faça uma tabela para apresentar esses dados. Exercício 2: De acordo com o Ministério dos transportes, em 1998, o tamanho das malhas de transporte no Brasil é, assim distribuído: 320480 km de Rodovias (estradas municipais não estão incluídas), 29700 km de Ferrovias (inclui as linhas de trens urbanos) e 40000 km de Hidrovias (desse total, apenas 8000 km estão sendo usados de fato). Faça uma tabela para apresentar esses dados. Exercício 3 :Organize uma série estatística com os dados abaixo:
a) “ Em 1993 a fábrica A tinha 400 sindicalizados e 800 não
sindicalizados, sendo 700 homens e 500 mulheres. Em 1994, havia 600 operários a mais que no ano anterior, 400 sindicalizados e 800 homens. Quanto à cor, negros e brancos, no 1.º ano havia 700 negros, no 2.º ano 400 e no 3.º ano 800. Em 1995 os operários eram 2000 dos quais 1300 do sexo
masculino e 1700 sindicalizados.”
b) O diretor da fábrica R de Blumenau, analisando o n.º de funcionários, deparou-se com os seguintes dados apresentados pelo departamento pessoal (2005): Turno Matutino: Setor 1: 92 funcionários [40 homens e 52 mulheres]; Setor 2: 80 funcionários [37 homens e 43 mulheres]; Setor 3: 76 funcionários [35 homens e 41 mulheres] e Setor 4: 25 funcionários [ 12 homens e 13 mulheres]. Turno Vespertino: Setor 1: 72 funcionários [30 homens e 42 mulheres]; Setor 2: 54 funcionários [22 homens e 32 mulheres]; Setor 3: 32 funcionários [12 homens e 20 mulheres] e Setor 4: 18 funcionários [08 homens e 10 mulheres]. Diante destes dados, o diretor resolveu analisar os fatos através de uma série estatística. Então, faça uma série do n.º de funcionários da fábrica R por setor e sexo. c) A fábrica M de Blumenau fez um levantamento da produção de camisas (com manga e sem manga) na 1.ª semana do mês de julho e encontrou os seguintes resultados: 1.º dia- 150 camisas sendo 70 com manga e 80 sem manga; 2.º dia- 160 camisas sendo 90 com manga e 70 sem; 3.º dia- 190 camisas sendo 100 com manga e 90 sem; 4.º dia- 230 camisas sendo 130 com manga e 100 sem; 5.º dia- 260 camisas sendo 150 com manga e 110 sem; 6.º dia- 280 camisas sendo 170 com manga e o restante sem. Fazer uma série estatística que represente estes dados. d) Uma fábrica de bonecas tem três linhas de produção. Um levantamento realizado no final do dia forneceu as seguintes informações: A
linha “A” produziu 24 bonecas das quais 6 eram defeituosas; a linha “B” produziu 38 das quais 2 eram defeituosas e a linha “C” produziu 18 das quais 2 eram defeituosas. Apresente estes dados através de uma série estatística,
12 classificando-ª Em seguida, calcule o percentual de bonecas defeituosas produzidas em cada linha de produção. Forneça também, o percentual total de bonecas defeituosas produzidas naquele período.
Exercício 8: Classifique as séries dos exercícios 1 até 3. 7. DISTRIBUIÇÃO DE FREQUÊNCIA É o tipo de série estatística na qual permanece constante o fato, o local e a época. Os dados são colocados em classes pré-estabelecidas, registrando freqüência. Divide-se em duas partes: Distribuição de Frequência Intervalar (Var. Contínua) Distribuição de Frequência Pontual (Var. Discreta)
7.1 Distribuição de Frequência Intervalar É um método de tabulação dos dados em classes, categorias ou intervalos, onde teremos uma melhor visualização e aproveitamento dos dados. Exemplo:
Tabela 1 - Notas do curso de Ciência da Computação na disciplina de Programação I de uma dada Faculdade. 2012 Notas Nº de Estudantes 5 |-- 6 18 6 |-- 7 15 7 |-- 8 12 8 |-- 9 03 9 |--10 02 Fonte: Dados Fictícios 7.2 Elementos Principais: a) Classe – é cada um dos intervalos em que os dados são agrupados. Ex: 6 8; 8 10 b) Limites de classes são os valores extremos de cada classe. li = limite inferior de uma classe; Ls = limite superior de uma classe. c) Amplitude – é a diferença entre o maior valor e o menor valor de certo conjunto de dados. Pode ser referida ao total de dados ou a uma das classes em particular.
Amplitude Total (At) – é calculada pela seguinte expressão: At = X Max. (rol) – XMin.(rol).
Número de classes: Nc N
13
Amplitude das classes (h) – é a relação entre a amplitude total e o número de classes, conforme mostra a expressão a seguir: h
X Máx ( rol ) X Mín.( rol ) Nc
, onde n é o número de intervalos de classe.
d) Ponto médio de classe (x i) - é calculado pela seguinte expressão: x i
Li l s 2
e) Frequência absoluta (f i) - freqüência absoluta de uma classe de ordem i, é o número de dados que pertencem a essa classe. f) Frequência relativa (fr i) - freqüência relativa de uma classe de ordem i, é o quociente da freqüência absoluta dessa classe (f i), pelo total, ou seja, fr i
f i Total
Obs: a soma de todas as frequências absolutas é igual ao total. g) Frequência acumulada (Fac i) - frequência acumulada de uma classe de ordem i, é a soma das frequências até a classe de ordem i. h) Frequência relativa acumulada (Fr i) - frequência relativa acumulada de uma classe de ordem i, é a soma das frequências relativas até a classe de ordem i. i) Dados Brutos: são dados não organizados. j) Rol: dados brutos obedecendo a uma ordem.
7.3 ORGANIZAÇÃO DE UMA DISTRIBUIÇÃO DE FREQUÊNCIA: Para organizar um conjunto de dados quantitativos em distribuição de frequências, aconselha-se seguir a seguinte orientação:
1o Organizar o rol – colocar os dados em ordem crescente ou ordem decrescente. 2o Calcular (ou adotar) o número conveniente de classes – o número de classe deve ser escolhido pelo pesquisador, em geral, convém estabelecer de 5 a 15 classes. Existem algumas fórmulas para estabelecer quantas classes devem ser construídas. Nos usaremos, Nc N onde N é a quantidade total de observações. 3o Calcular (ou adotar) a amplitude do intervalo de classes conveniente - a amplitude do intervalo de classes deve ser o mesmo para todas as classes. h
X Máx ( rol ) X Mín.( rol ) Nc
onde Nc é o número de classes.
4o Obter os limites das classes – Usualmente as classes são intervalos abertos á direita. Os limites são obtidos fazendo-se. Limite inferior da 1a classe é igual ao mínimo do rol, isto é, li = XMin.(rol)
14 Encontram-se os limites das classes, adicionando-se sucessivamente a amplitude do intervalo de classes aos limites da 1 a classe. 5o Obter as f i - contar o número de elementos do rol, que pertencem a cada classe. 6o Apresentar a distribuição – construir uma tabela com título, subtítulo, ...
7.4
Distribuição de Frequência Pontual
É uma série de dados agrupados na qual o número de observações está relacionados com um ponto real.
Ex.: Tabela 1 - Notas do Aluno "X" na Disciplina de Estatística – 2011 Nota Alunos 6.3 2 8.4 3 5.3 2 9.5 3 6.5 5 Total 15 Fonte: FURB
Exercícios 1)
Tempo (em segundos) gasto funcionários da área de produção da empresa X,para preencher um certo tipo de formulário: 61 65 43 53 55 51 58 55 59 56 52 53 62 49 68 51 50 67 62 64 53 56 48 50 61 44 64 53 54 55 48 54 57 41 54 71 57 53 46 48 55 46 57 54 48 63 49 55 52 51 a) Construir uma distribuição de frequências adequada. b) Interpretar os valores da terceira classe.
2)
Abaixo são relacionados às estaturas e os pesos de 25 alunos de Estatística. Estaturas 1.71 1.90 1.63 1.83 1.72
1.80 1.80 1.80 1.80 1.88
1.75 1.71 1.78 1.75 1.80
Pesos 1.73 1.74 1.84 1.79 1.66
1.81 1.77 1.81 1.65 1.89
58 80 55 79 77
60 77 76 70 60
60 70 83 60 65
62 82 50 76 71
63 62 78 83 63
Construir uma distribuição de frequências adequada para cada conjunto de dados.
15
3) Uma amostra de 20 operários de uma companhia apresentou os seguintes salários recebidos durante uma certa semana, arredondados para o valor mais próximo e apresentados em ordem crescente: 140, 140, 140, 140, 140, 140, 140, 140, 155, 155, 165, 165, 180, 180, 190, 200, 205, 225, 230, 240. Construir uma distribuição de frequências adequada.
4) Complete os dados que faltam na distribuição de frequência: a) Classes Faci x i f i fr i (%) 0 |-- 2 1 4 ... 4 2 |-- 4 ... 8 ... ... 4 |-- 6 5 ... 30 18 ... 7 27 ... 27 8 |-- 10 ... 15 72 ... 10 |-- 12 ... ... 83 ... ... 13 10 93 10 14 |-- 16 ... ... ... 7 TOTAL ... .... b)
5)
Salários
x i
f i
Faci
500 |-- 700 ... 900 |-- 1.100 1.100 |-- 1.300 1.300 |-- 1.500 ... 1.700 |-- 1.900 Total
600 800 ... ... 1.400 ... 1.800
8 20 ... 5 ... 1 ... 44
8 ... 35 40 ... 43 ...
Tabela 1 - Diâmetro Externo da Engrenagem
Indústria Y – Blumenau – out - 2000 Diâmetro (mm)
fi
1000 1010 1010 1020 1020 1030 1030 1040 1040 1050
3 12 28 82 75
Total Fonte: Indústria Y.
Encontrar: Intervalo: ____________ Classes de freqüência: ___________ Freqüência de classe: ____________
200
16 Limite inferior: ___________________ Limite superior: ____________________ Limites inferiores: ____________________ Classe modal: ________________________ Frequência relativa (%): _____________________ Pontos centrais: ____________________________ Frequência máxima: _______________________ Interpretação da 3ª linha: ______________________ Freq. acumulada abaixo de: __________________________ Argumento: ____________________________ Amplitude total: ___________________________
8.
GRÁFICOS ESTATÍSTICOS
O gráfico estatístico é uma forma de apresentação dos dados estatísticos, cujo objetivo é o de produzir, no investigador ou no público em geral, uma impressão mais rápida e viva do fenômeno em estudo, já que os gráficos falam mais rápido à compreensão que as séries. A representação gráfica de um fenômeno deve obedecer a certos requisitos fundamentais para ser realmente útil: a) Simplicidade – o gráfico deve ser destituído de detalhes de importância secundária, assim como de traços desnecessários que possam levar o observador a uma análise com erros. b) Clareza – o gráfico deve possibilitar uma correta interpretação dos valores representativos do fenômeno em estudo. c) Veracidade – o gráfico deve expressar a verdade sobre o fenômeno em estudo.
8.1 Tipos de gráficos Histograma: que representa todos os elementos da série. É uma área formada por colunas justapostas de maneira contínua, na qual cada classe é uma coluna. No eixo X vão as classes de freqüência (X) e no eixo Y vai a freq. Exemplo:
Fonte: BBB
17
Ex.: Tabela 1 - Distribuição de comprimentos de peças (cm) – Indústria T – Blumenau - out - 2000 Comprimento (cm) 50|--60 60|--70 70|--80 80|--90 90|--100 100|--110 110|--120 120|--130 Total
fi 1 3 6 15 25 20 7 3 80
Fonte: Indústria T.
Distribuição de Comprimentos de Peças (cm) Indústria T - Blumenau - Out -2000 30 s 25 a ç 20 e p 15 e d 10 º . n 5 0
25 20 15
1 50|--60
3 60|--70
7
6
70|--80
3 80|--90
90|--100 100|--110 110|--120 120|--130
cm
a) Polígono de Frequência: representa o elemento de cada classe. É a representação gráfica sob forma poligonal, na qual no eixo X vão os valores centrais ou médios (xi) de cada classe (inclusive o anterior e o posterior) e no eixo Y vão as freq. de classe (fi).
18 Ex: Tabela 1 - Distribuição de comprimentos de peças (cm) – Indústria T – Blumenau - out – 2000 Comprimento (cm) 50|--60 60|--70 70|--80 80|--90 90|--100 100|--110 110|--120 120|--130 Total
fi 1 3 6 15 25 20 7 3 80
Fonte: Indústria T.
No polígono de frequência, deveremos acrescentar, na tabela as colunas auxiliares referente aos pontos centrais e a frequência de classes (f) modificada. Veja: fi 0 1 3 6 15 25 20 7 3 0
xi 45 55 65 75 85 95 105 115 125 135
Distribuição de Comprimentos de Peças (cm) - Indústria T - Blumenau Out - 2000 s 30 a ç e 20 p e d 10 º . n
25 20 15
0
1
0 45
55
Fonte: Indústria T
65
7
6
3 75
85
95
3
0
105 115 125 135
cm
b) Gráfico em linha: é um dos mais importantes gráficos; representa observações feitas ao longo do tempo. Tais conjuntos de dados constituem as chamadas séries históricas ou temporais.
19 Tabela 1 - Processamento (h) das máquinas A e B – Empresa X 1ª semana - novembro – 2000 processamento dia A B 1 2 3 4 5 6 Fonte: Empresa X
15 18 14 13 10 14
10 16 15 14 17 13
Proce ssamento (h) das Máqu inas A e B - Empre sa X- 1.ª semana nove mbro -2000 20 15
s a r 10 o h
A B
5 0 1
2
Fonte:Empres a X
3
4
5
6
Dia
c) Gráfico em setores: É um gráfico construído no círculo, que é dividido em setores correspondentes aos termos da série e proporcionais aos valores numéricos dos termos da série. É mais utilizado para séries específicas ou geográficas com pequeno número de termos e quando se quer salientar a proporção de cada termo em relação ao todo.
Exemplo:
20 Tabela 1 - Consumo de Borracha na Indústria X – Brasil – 1.990 Especificação Pneumáticos Câmaras de Ar Correias Material de Conserto Outros Artefatos Total
Quantidade (t) 238.775 14.086 4.472 19.134 4.647
Fonte: Ministério da Indústria e do Comércio. Preencher utilizando a auto-soma (Excel)
Consumo de Borracha na Indústria X - Brasil - 1990
2% 7% 2%
Pneumáticos
5%
Câmaras de Ar Correias Material de Conserto Outros Artefatos
84% Fonte: Ministério da Indústria e do Com ércio
d) Gráficos em Barras (ou em colunas). É a representação de uma série por meio de retângulos, dispostos horizontalmente (em barras) ou verticalmente (em colunas). Quando em barras, os retângulos têm a mesma altura e os comprimentos são proporcionais aos respectivos dados. Quando em colunas, os retângulos têm a mesma base e as alturas são proporcionais aos respectivos dados.
21
Processamento (h) das máquinas A e B - Empresa X 1.ª semana - novembro - 2000 20 15 s a r 10 o H
18
17
16
15
14
15 13
14
10
14
13
10
A B
5 0 1
2
3
4
5
6
Dia
Fonte: Empresa X
LISTA DE EXERCÍCIOS
1)
Classifique as séries e diga qual é o melhor gráfico correspondente às séries:
a) Investimentos Realizados pela Firma Z – S.P. 1983 – 86 Anos
R$ (mil)
1.983 1.984 1.985 1.986
80 120 150 200
Total
550
Fonte: Firma Z.
22 b) Movimentos Mensais de Compras Empresa U – Blumenau – 1.994 Mês
R$ (mil)
Jan Fev Mar Abr Maio Jun Jul Ago Set Out Nov Dez
12 13 14 12 15 19 17 18 14 16 12 18
Fonte: Empresa U .
2) Os gráficos abaixo apresentam alguns „problemas‟ em sua construção (segundo as normas estatísticas). Descreva, em cada situação, os erros encontrados: 100 80 60
Leste
40
Oeste
20
Norte
0 1° 2° 3° 4° Trim. Trim. Trim. Trim.
47 46
2° Trim. 1° Trim. 3° Trim.
45 Norte
4° Trim.
44 43 42 1° 2° 3° Trim. Trim. Trim.
4° Trim.
23
4° Trim. Norte
3° Trim.
Oeste
2° Trim.
Leste
1° Trim. 0
1° Trim.
Leste Oeste Norte
50
2° Trim.
100 90 80 70 60 50 40 30 20 10 0
100
3° Trim.
30.6
38.6
4° Trim.
34.6
31.6
1° Trim.2° Trim.3° Trim. 4° Trim.
.
9.
MEDIDAS DESCRITIVAS
Estudaremos dois tipos fundamentais de medidas estatísticas: medidas de tendência central e medidas de dispersão. As medidas de tendência central mostram o valor representativo em torno do qual os dados tendem a agrupar-se, com maior ou menor frequência. São utilizadas para sintetizar em um único número o conjunto de dados observados. As medidas de dispersão mostram o grau de afastamento dos valores observados em relação àquele valor representativo.
24
9.1 MEDIDAS DE TENDÊNCIA CENTRAL A média aritmética simples A média aritmética simples de um conjunto de valores é o valor obtido somando-se todos eles e dividindo-se o total pelo número de valores. É denotada por x (leia-se “x barra”) X
X
X , onde x são os valores observados. n
X . f , se os dados estiverem organizados em distribuição de frequência. f i
i
i
Onde Xi e f i são os valores do ponto médio e da frequência absoluta da classe i-ésima respectivamente. Algumas propriedades da média: a) A média de um conjunto de números pode sempre ser calculada. b) Para um dado conjunto de números, a média é única. c) A média é afetada por todos os valores do conjunto. Assim, se um valor se modifica, a média também se modifica. d) A média de uma constante sempre é uma constante. Características da Média quanto à importância, utilidade, vantagens e desvantagens. a) É descritiva de todos os dados de uma série e de fácil compreensão. b) É facilmente calculável. c) Depende de cada valor da série e qualquer alteração de um deles altera seu valor. d) É influenciada por valores excepcionais, podendo em alguns casos não representar a série. e) É das medidas de tendência central de maior emprego. f) Usada para operações estatísticas mais avançadas como testes para tomadas de decisão. Exemplos: 1º) Calcule a média aritmética dos valores abaixo: a. X = {0, 6, 8, 7, 4, 6} b. Y = {25, 16, 29, 19, 17} c. Z = {105, 123, 98, 140}
25 2º) Encontre a média para o salário destes funcionários.
Salários semanais para 100 operários não especializados Salários f i xi xi.f i semanais 140 |-- 160 7 160 |-- 180 20 180 |-- 200 33 200 |-- 220 25 220 |-- 240 11 240 |-- 260 4 TOTAL 100 Exercícios: 1) Encontre a média dos seguintes conjuntos de observações. a) X = {2, 3, 7, 8, 9}. R: 5,8 b) Y = {10, 15, 22, 18, 25, 16}. R: 16,67 c) Z = {1, 3, 6, 8}. R: 4,5 R: 27,5 d) T = {1, 3, 6, 100}.
2) Encontre a média das notas na disciplina de Programação I. Tabela 1 - Notas obtidas na disciplina de Programação I Notas f i 5 |-- 6 18 6 |-- 7 15 7 |-- 8 12 8 |-- 9 03 9 |--10 02 TOTAL 50 Fonte: Dados hipotéticos .
Resp 6,62. A mediana é um valor central de um rol, ou seja, a mediana de um conjunto de valores ordenados (crescente ou decrescente) é a medida que divide este conjunto em duas partes iguais.
1) Exemplo: Calcule a mediana dos conjuntos abaixo: a- X={3, 7, 4, 12, 15, 10, 18, 14} b- Y={29, 33, 42, 38, 31, 34, 45, 51, 95} c- Z={29, 33, 42, 38, 31, 34, 45, 120, 95}
26
Vantagens e Desvantagens da Mediana a) É menos sensível a valores extremos do que a média. b) É difícil de determinar para grande quantidade de dados. c) É mais adequada para distribuição muito assimétrica.
2) Dados agrupados sem intervalos - DADOS DI SCRETOS
1.º) Calcula – se a Fac (abaixo de) 2.º) Calcula – se P = fi +1 / 2 3.º) Localiza – se P na Fac (Fac P) (Fac que contém P) 4.º) Procura – se o X correspondente da Fac que contém P 5.º) Este X é o valor da Me Ex.: Peso (gramas) de embalagens plásticas – Indústria X- Blumenau. 2000 X (Peso)
fi
31,5 32,5 33,5 34,5 35,5 36,5
1 5 11 8 3 2
TOTAL
30
Fac
Fonte: Indústria X
P = fi + 1 / 2
P = ________
Me = __________
3) Distribuição de freqüência (dados agrupados com intervalos) DA DOS CONTÍNU OS
Me = X1 + [n/2 . (P – Facanterior)] / f , onde X1 = lim. Inferior da Fa P n = número de observações Fac = anterior da Fa P f = freq. da classe mediana
27 Ex:
Diâmetro Externo da Engrenagem EmpresaY – Blumenau – out - 2000 Diâmetro (mm)
f
1000 1010 1010 1020 1020 1030 1030 1040 1040 1050
3 12 28 82 75
Total
200
Fonte: Indústria Y .
Moda Seja X um conjunto de dados estatísticos. Define-se Moda de X, denotada por Mo como sendo o elemento mais freqüente no conjunto. Um conjunto de dados pode ter: Nenhuma moda (amodal); Uma moda (unimodal); Duas ou mais modas (multimodal). Exercícios: Calcule a moda para os conjuntos abaixo: a) X= {2, 3, 4, 3, 7, 8, 9, 14}. b) Y= {2, 4, 6, 2, 8, 4, 10}. c) Z= {32, 56, 76, 4, 8, 97}. OBSERVAÇÕES: Não há regra para se dizer qual a melhor medida de tendência central. Em cada situação específica o problema deve ser analisado pelo estatístico, que concluirá pela medida mais adequada a situação. Assim é que: a) A MÉDIA é a medida mais adequada quando não há valores erráticos ou aberrantes. b) A MEDIANA deve ser usada sempre que possível como medida representativa de distribuições com valores dispersos, como distribuição de rendas, folhas de pagamentos, etc. Exercícios: 1) Dados os conjuntos abaixo, calcule a média aritmética, mediana e moda. A = {3, 5, 2, 1, 4, 7, 9}. x 4,4 9,3 10,3 6,8 B = {6, 12, 15, 7, 6, 10}. Md 4 8,5 10 6,5 C = {10, 5, 11, 8, 15, 4, 16, 5, 20, 6, 13}. Mo 6 5 D = {4, 4, 10, 5, 8, 5, 10, 8}. 2)
Cálculo para dados agrupados sem intervalo de classe (DADOS ). Neste caso, a moda será o X de maior frequência. DISCRETOS
28
Ex.: Peso (gramas) de embalagens plásticas – Indústria X- Blumenau. 2000 X (Peso)
fi
31,5 32,5 33,5 34,5 35,5 36,5
1 5 11 8 3 2
TOTAL
30
Fonte: Indústria Y.
3) Cálculo para dados agrupados com intervalo de classe (DADOS CONTÍNUOS) a) Czuber
MoC = X1 + [h . (fmáx – fant)] / [2 . fmáx – (fant + fpost)] b) Pearson
Mo = 3 . Me – 2 . X , onde: X1 = limite inferior da classe que possui fmáx h = intervalo fmáx = maior freq. fant = f anterior ao máximo fpost = f posterior ao máximo Ex:
Diâmetro Externo da Engrenagem EmpresaY – Blumenau – out - 2000 Diâmetro (mm)
f
1000 1010 1010 1020 1020 1030 1030 1040 1040 1050
3 12 28 82 75
TOTAL
200
Fonte: Indústria Y.
Vantagens e desvantagens da moda
29 a) É a menos útil para problemas estatísticos, porque se presta a análise matemática. b) A utilidade da moda se acentua quando um ou dois valores ocorrem aproximadamente com a mesma freq.; a moda nada acrescenta em termos de descrição dos dados. Conclusão: Das três medidas as mais usadas são a X e a Me, pois a Mo nos dá uma informação mais rápida e grosseira.
SEPARATRIZES As separatrizes são medidas de posição que dividem a série em partes iguais. As principais separatrizes são: 1)Quartis: dividem a série em 4 partes iguais. São elas: P = fi +1/ 4 a) Q1 1.º quartil P = fi +1/ 2 ( equivale a Me) b) Q2 2.º quartil P = 3 fi+1 / 4 c) Q3 3.º quartil
Q __ = X1 + [n/4 . (P – Faant)] / fi LISTA DE EXERCÍCIOS 1) Calcule a X , Me, Mo e o 1º quartil, para a seguinte distribuição: Distribuição de comprimentos de Peças (cm) – Indústria T – Blumenau, out - 2000 Classes 50 60 60 70 70 80 80 90 90 100 100 110 110 120 120 130
fi 1 3 6 15 25 20 7 3
Fonte: Indústria T. Em seguida, interprete os dados. 2) Uma amostra de chapas produzidas por uma máquina forneceu as seguintes espessuras, em milímetros: 6,34 6,38 6,40 6,30 6,36 6,36 6,38 6,20 6,42 6,28 6,38 Encontre a X , Me e a Mo.
30 3) Uma máquina produz peças que são embaladas em caixas contendo 48 unidades. Uma pesquisa realizada com 59 caixas revelou a existência de peças defeituosas seguindo o quadro: Nº de peças defeituosas por caixa 0 1 2 3 4 5 Total
Nº de caixas 20 15 12 6 4 2
Determine a X ,Me, Mo, e o 3.º quartil, interpretando os resultadosl. 4) São dadas as notas de 5 alunos, em três provas que tinham como pesos 2, 3 e 5. Calcule a média de cada aluno: Aluno Ana Cláudia Marcos Pedro Sérgio
1.ª prova 7 1 5 10 5
2.ª prova 6 2 5 10 7
3.ª prova 5 9 5 0 3
5) Calcule a média, a mediana e a moda: a) 11 – 15 – 16 – 18 – 22 – 23 – 26 – 28 – 13 – 33 – 37 b) 19 – 24 – 26 – 29 – 29 – 29 – 33 – 38 – 38 – 39 – 39 – 39 – 41 – 45 – 49 c) 45 – 49 – 54 – 56 – 60 – 64 – 67 - 72 d) Verbas (R$) recebidas pelo Governo Estadual, para Saúde – SC – 2004 Verbas (R$) 3250,00 11.458,33 11458,33 19666,66 19666,66 27874,99 27874,99 36083,32 36083,32 44291,65 44291,65 52499,98 52499,98 69708,31 TOTAL Fonte: Dados fictícios
N.º de cidades 4 7 5 4 4 0 1 25
31
10.
MEDIDAS DE DISPERSÃO
Representamos geralmente uma série pela média, mediana ou moda, entretanto elas não descrevem a flutuação dos demais valores em torno delas. Vejamos um exemplo: supomos que se deseja comparar a performance de dois funcionários, com base na seguinte produção diária de determinada peça: Funcionário A: 70 – 71 – 69 – 70 – 70 Funcionário B: 60 – 80 – 70 – 62 – 83 De acordo com os resultados da produção diária em 5 dias, verificamos que a performance média do funcionário A é de 70 peças produzidas diariamente, enquanto que a do funcionário B é de 71 peças. Então, baseado nestes únicos resultados, diríamos que a performance do funcionário B é melhor do que a de A. Se nos fixarmos mais dedicadamente nos dados, percebemos que a produção de A varia apenas entre 69 e 71 peças, ao caso que a de B varia de 60 a 83 peças, o que revela que a performance de A é bem mais uniforme do que a de B. Ocorre, por outro lado, que um alto grau de uniformidade ou pequena dispersão costuma ser considerado como algo de qualidade desejável num processo produtivo. Qualquer produção em série seria anti-econômica se houvesse muita variabilidade nos materiais ou peças fabricadas. Portanto, para avaliar o grau de variabilidade ou dispersão dos valores, usamos medidas de dispersão , de variabilidade, de flutuação dos demais valores em torno do valor pré-determinado. Essas nos proporcionarão um conhecimento mais completo do fenômeno a ser analisado, permitindo assim, estabelecer comparações entre fenômenos de mesma natureza e mostrando até que ponto os valores se distribuem acima ou abaixo da tendência central. Servem para verificarmos a representatividade das medidas de posição, pois é muito comum encontrarmos séries que, apesar de terem a mesma média, são compostas de maneira distinta. Assim, para as séries: a) 25, 28, 31, 34, 37 b) 17, 23, 30, 39, 46 temos xa xb 31 . Nota-se que os valores da série “a” estão mais concentrados em torno da média 31, do que a série “b”. Precisamos medir a dispersão dos dados em torno da média, par a isto utilizaremos as medidas de dispersão: As principais medidas de dispersão são:
I)
Quanto à Média - X
a) Amplitude Total (A): A = Xmaior – Xmenor, muito instável se ocorrer valor excepcional; pouca utilidade. b) Desvio Padrão: ou afastamento médio quadrático, consiste em achar a média quadrática entre os desvios em relação à X . É a medida mais usada no trabalho experimental ou na pesquisa.
32
# Para População
( X )
- sem f:
2
N
( X ) f f 2
- com f:
# Para amostra
- sem f: s
( X X )
2
n 1
( X X ) f f 1 2
- com f: s
Onde: desvio = X – X c) Coeficiente de Variação (CV): é o índice de variabilidade; é o desvio padrão expresso como percentagem da M. Usado para comparar grandezas de unidades iguais ou diferentes. CV
100. X
Interpretação do C.V.: Até 15% variação pequena; 15% a 30% variação média; 30% ou mais variação grande. d) Variância: é o quadrado do desvio-padrão ( ² ) LISTA DE EXERCÍCIO 1) Calcule as Medidas de Tendência Central e Dispersão para dados agrupados e não agrupados: Distribuição do desempenho de 45 alunos em uma turma de EC da FURB em 2010 89 61 52 44 34 83 61 51 44 31 77 60 51 42 30 74 58 51 41 28 68 57 51 40 27 67 55 50 40 24 65 55 50 37 23
33 65 65
53 53
49 47
36 35
20 17
2) Salários semanais para 100 operários não especializados Salários f i xi (xi- x )2 (xi- x )2f i semanais 140 |-- 160 7 160 |-- 180 20 180 |-- 200 33 200 |-- 220 25 220 |-- 240 11 240 |-- 260 4 TOTAL 100 Encontre o desvio padrão para o salário destes funcionários. 3) Para duas emissões de ações ordinárias da indústria eletrônica, o preço médio diário, no fechamento dos negócios, durante um período de um mês, para as ações A, foi de R$ 150,00 com um desvio padrão de R$ 5,00. Para as ações B, o preço médio foi de R$ 50,00 com um desvio padrão de R$ 3,00. Em relação ao nível do preço, qual dos tipos de ações é mais variável? 4) O número de carros vendidos por cada um dos vendedores de um negócio de automóveis durante um mês particular, em ordem crescente: 2, 4, 7, 10, 10, 10, 12, 12, 14, 15. Determinar (a) a média, (b) a mediana, (c) a moda, (d) o desvio padrão R: a) 9,6; d) 3,95.
5) Em conjunto com uma auditoria anual, uma firma de contabilidade pública anota o tempo necessário para realizar a auditoria de 50 balanços contábeis. Calcular (a) a média, (b) o desvio padrão, para o tempo de auditoria necessário para esta amostra de registro. R: a) 43,2; b)12,28. Tempo necessário para a auditoria de balanços contábeis. Tempo de auditoria. Nº de balanços. (min.) (f i) 10 |-- 20 3 20 |-- 30 5 30 |-- 40 10 40 |-- 50 12 50 |-- 60 20 Total 50
4) Os salários semanais de 50 funcionários de uma indústria alimentícia, em reais, foram os seguintes:
34
100 104 116 120
122 126 128 128
130 134 138 140
140 146 150 150
152 156 156 156
160 160 162 162
164 170 170 176
176 176 178 180
180 184 186 186
188 190 190 192
192 194 196 196
200 216 200 218 200 210
a) Construa uma distribuição de frequências, com h = 20 e limite inferior para a primeira classe igual a 100. b) Quantos funcionários tem um salário semanal situado entre R$ 120,00 (inclusive) e R$ 160,00 (exclusive)? 17 funcionários c) Que porcentagem de funcionários tem um salário semanal situado entre R$ 180,00 (inclusive) e R$ 200,00 (exclusive)? 26% d) Qual o salário médio semanal destes funcionários utilizando o item a? 166,4 e) Determine o desvio padrão e o coeficiente de variação da distribuição. 28,76; 17,28% 5) A distribuição das alturas de um grupo de pessoas apresentou uma altura média de
182 cm e um desvio padrão de 15 cm, enquanto que a distribuição dos pesos, apresentou um peso médio de 78 kg, com um desvio padrão de 8 kg. Qual das duas distribuições apresentou maior dispersão? Por quê?
11.
PROBABILIDADE
11.1 INTRODUÇÃO Encontramos na natureza dois tipos de fenômenos: determinísticos e aleatórios. Os fenômenos determinísticos são aqueles em que os resultados são sempre os mesmos, qualquer que seja o número de ocorrências. Nos fenômenos aleatórios, os resultados não serão previsíveis, mesmo que haja um grande número de repetições do mesmo fenômeno. Nos experimentos aleatórios, mesmo que as condições iniciais sejam as mesmas, os resultados finais de cada tentativa do experimento, serão diferentes e não previsíveis, por isso, é conveniente dispormos de uma medida para o estudo de tais situações. Esta medida é a probabilidade. 11.2 EXPERIMENTO ALEATÓRIO. ESPAÇO AMOSTRAL. EVENTO Antes de passarmos à definição de probabilidade, é necessário fixarmos os conceitos de experimento, espaço amostral e evento. Um experimento aleatório é o processo de coleta de dados relativos a um fenômeno que acusa variabilidade em seus resultados. EXEMPLOS: a) lançamento de uma moeda honesta; b) lançamento de um dado; c) determinação da vida útil de um componente eletrônico;
35 Espaço amostral é o conjunto de todos os resultados possíveis de um experimento. Vamos denotá-lo por . EXEMPLOS: 1) No caso do lançamento de um dado, = 2) Uma lâmpada é ligada e observada até queimar anotando-se os tempos decorridos, = Quando o espaço amostral consiste em um número finito ou infinito numerável de eventos, é chamado espaço amostral discreto; e quando for todos os números reais de determinado intervalo, é um espaço amostral contínuo. Um evento é um subconjunto de um espaço amostral EXEMPLO: Nos exemplos anteriores 1 e 2. Qual seria um possível evento para cada um dos exemplos?
11.3 DEFINIÇÕES DE PROBABILIDADE Seja “A” um evento de um experimento aleatório, definimos a probabilidade de “A”, denotada por P(A), P(A)
Número de casos favo ráveis Número de casos possíveis
que é a definição clássica de probabilidade. EXEMPLO: Na jogada de um dado, qual a probabilidade de aparecer face 3 ou face 5? Solução: EXEMPLO: Consideremos o experimento que consiste em lançar uma moeda 15 vezes. Suponhamos que o número de caras obtido tenha sido 10. Determine a probabilidade do evento cara: Solução:
11.4 OPERAÇÕES COM EVENTOS ALEATÓRIOS Consideremos um espaço amostral finito . Sejam A e B dois eventos de . As seguintes operações são definidas. a) UNIÃO O evento união de A e B equivale à ocorrência de A, ou de B, ou de ambos. Contém os elementos do espaço amostral em que estão em pelo menos um dos dois conjuntos. Represente pelo diagrama de Venn-Euler a operação união A B.
36 EXEMPLO: Se A é o conjunto dos alunos de um Estabelecimento que frequentam o curso de Contabilidade e B é o conjunto de alunos do mesmo estabelecimento que fazem Ciência da Computação, então: A B =
b) INTERSECÇÃO O evento intersecção de dois eventos A e B equivale à ocorrência de ambos. Contém todos os pontos do espaço amostral comuns a A e a B. Represente pelo diagrama de Venn-Euler a operação de interseção A B.
EXEMPLO: Seja A o conjunto de alunos de uma Instituição que frequentam o Ensino Médio, e B o conjunto dos que frequentam um curso facultativo de interpretação musical. A interseção A B é dada por: A B =
c) EXCLUSÃO Dois eventos A e B dizem-se mutuamente exclusivos ou mutuamente excludentes quando a ocorrência de um deles impossibilita a ocorrência do outro. Os dois eventos não têm nenhum elemento em comum. Exprime-se isto escrevendo A B = . O diagrama a seguir ilustra esta situação. EXEMPLO: Na jogada de um dado, seja A o evento “aparece número par” e B o evento “aparece número ímpar”. Então AB =
37 d) NEGAÇÃO A negação do evento A, denotada por A é chamada evento complementar de A. Represente pelo diagrama de Venn - Euler a operação A - B.
EXEMPLO: Se, na jogada de um dado, o evento A consiste no aparecimento de face par, seu complementar é dado por: A REGRAS BÁSICA S
Se A e B são dois eventos do espaço amostral , então valem as seguintes regras básicas: 0 P(A) 1 P(A) = 0 o evento é impossível e P(A) = 1 o evento é certo. P() = 1 Se A e B são eventos mutuamente excludentes, A B = , então: P(AB) = P(A) + P(B). Se A B , então: P(AB) = P(A) + P(B) – P(AB). P(A) = 1- P(A). Se é o vazio, então P( ) =0. EXERCÍCIO: Consideremos os alunos matriculados na disciplina de Estatística. Temos _____ homens com mais de 25 anos, _____ homens com menos de 25 anos, ____ mulheres com mais de 25 anos, ____ mulheres com menos de 25 anos. Uma pessoa é escolhida ao acaso dentre os ____. Os seguintes eventos são definidos: A: a pessoa tem mais de 25 anos; C: a pessoa é um homem; B: a pessoa tem menos de 25 anos; D: a pessoa é uma mulher. Calcular: P(BD) e P(AC).
LISTA DE EXERCÍCIOS 1. Quais dos valores abaixo não podem ser probabilidades? 0; 2 ; 0,001; -0,2; 3/2; 2/3. 2. Um estudo de 500 vôos da American Airlines selecionados aleatoriamente mostrou que 430 chegaram no horário (com base em dados do Ministério dos transportes). Qual é a probabilidade de um vôo da American Airlines chegar no horário? 3. Em uma pesquisa entre estudantes de uma faculdade, 1162 afirmaram que “colaram”
nos exames, enquanto 2468 afirmaram não “colar”. Selecionado aleatoriamente um desses estudantes, determine a probabilidade de ele ou ela ter “colado” em um exame.
4. A MasterCard International efetuou um estudo de fraudes em cartões de créditos; os resultados estão agrupados na tabela a seguir.
38
Tipo de fraude Cartão roubado Cartão falsificado Pedidos por correio/telefone Outros
Nº de cartões 243 85 52 46
Selecionado aleatoriamente uma caso de fraude nos casos resumidos na tabela, qual a probabilidade de a fraude resultar de um cartão falsificado? . R: 0,2. 5. Se IP (A)= 2/5, determine IP( A) . 6. Determine IP(A) , dado que IP (A)= 0,228. 7. Com base em dados do Centro Nacional de Examinadores Forenses, se escolhermos aleatoriamente uma pessoa que se submete ao exame para exercício da advocacia, a probabilidade de obter alguém que seja aprovado é 0,57. Ache a probabilidade de alguém que seja reprovado. 8. Os pesquisadores estão preocupados com declínio do nível de cooperação por parte dos entrevistados em pesquisas. A tabela mostra o resultado de uma pesquisa feita com 359 pessoas.
a) b) c) d)
Faixa etária Respondem Não respondem Total 18-21 73 11 84 22-29 255 20 275 Total 328 31 359 Qual probabilidade de obter alguém que não queira responder? R: 0,086. Qual probabilidade de obter alguém na faixa etária 22-29? R: 0,766. Determine a probabilidade de obter alguém na faixa etária 18-21 ou alguém que recuse responder. R: 0,29. Determine a probabilidade de obter alguém na faixa etária 18-21 que não recuse responder. R: 0,203.
11.5 PROBABILIDADE CONDICIONAL Pense no seguinte experimento. Num lançamento de um dado tem-se:
Ω = {1, 2, 3, 4, 5, 6}
1º Experimento: Seu colega tem o conhecimento que a face voltada para cima é par! Pergunta : Qual é a probabilidade de ser maior que 3?
Ωcondicional = {2, 4, 6} Resposta : 2/3 11.5.1 NOTAÇÃO DEPENDÊNCIA DE EVENTOS Dados dois eventos A e B, a probabilidade condicional de A dado B é o número P(A ∩ B) / P(B). Representado pelo símbolo P(A│B). Tem-se simbolicamente,
39
P(A│B) =
P ( A B ) P ( B )
No exemplo x = 2n, onde n = 1, 2, 3, ...
P(x > 3│x é par} P ( A B )
P(A│B) =
P ( B ) 2
P(x > 3│x é par}=
P ( x 3 xépar ) P ( xépar )
2 = 6 3
3
6
OBS: Dados dois eventos A e B, a probabilidade condicional de B dado A é o número P(A ∩ B) / P(A). Representado pelo símbolo P(B│A). Tem -se simbolicamente,
P(B│A) =
P ( A B ) P ( A)
Exemplo 1 : Sendo P(A) =
P(A│B) =
P ( A B ) P ( B )
1 3
, P(B) =
3 4
, P(A U B) =
11 12
. Calcular a P(A│B).
, deve-se calcular P(A ∩ B).
Regra da soma para eventos quaisquer: P(A U B) = P(A) + P(B) – P(A ∩ B) 11 12 11
1 3 1
12 3 2 12
3 4 3 4
P ( A B ) P ( A B )
P ( A B )
P ( A B )
1 6
1
Logo, P(A│B) =
P ( A B ) P ( B )
1 4 4 2 = 6 * 3
6 3
18
9
4
A partir da Probabilidade Condicional obtém-se o TEOREMA DO PRODUTO. Quando não há independência:
P(A ∩ B) = P(A)* P(B│A). Para P(A) > 0 P(A ∩ B) = P(B)* P(A│B). Para P(B) >0 Exemplo 2: Duas bolas vão ser retiradas da urna que contém 2 bolas brancas, 3 pretas e 4 verdes. Qual é a probabilidade de que ambas: a) Sejam verdes
40 P(V1 ∩ V2) = P(V1)* P(V2│V1) P(V1 ∩ V2) =
4 3 1 * 9 8 6
b) Sejam da mesma cor P(P1 ∩ P2) + P(B1 ∩ B2) + P(V1 ∩ V2) = P(P1)* P(P2│P1) + P(B1)* P(B2│B1) + P(V1)* P(V2│V1) = 3 2 2 1 4 3 * * * 9 8 9 8 9 8
20 72
4 18
2º Experimento: Qual é a probabilidade de comer uma goiaba dado que você assinou a lista de presença? Esses eventos são independentes, pois não existe nenhuma relação entre esses eventos. 11.6 NOTAÇÃO DE INDEPENDÊNCIA DE EVENTOS Quando os eventos são independentes a ocorrência de um não depende da do outro, a probabilidade de ambos ocorre é igual ao produto das probabilidades simples de cada um ocorrer separadamente. P ( A ¦ B)
P(A B) P(B)
P ( A)
Consequência da equação anterior, P(A ∩ B) = P(A) * P(B)
Exemplo 3: Laçam-se 3 moedas. Verificar se são independentes os eventos: A: saídas de cara na 1° moeda; B: saída de coroa na 2° e na 3° moeda.
Ω = {(CCC), (CCK), (CKC), (KCC), (KKK), (KKC), (KCK), (CKK)} A = {(CCC), (CCK), (CKC), (CKK)} P ( A) B = {(KKK), CKK)} P ( B)
2 8
4 8
1 2
1 4
P(A ∩ B) = P(A) * P(B) 1 1 1 P(A ∩ B) = * 2 4 8
Como (A ∩ B) = {(CKK)} =
1 8
OBSERVAÇÕES: 1 - Para verificar se 3 eventos A, B e C são independentes, verifica-se as 4 proposições são satisfeitas: 1. P(A ∩ B ∩ C) = P(A) * P(B) * P(C) 2. P(A ∩ B) = P(A) * P(B) 3. P(A ∩ C) = P(A) * P(C) 4. P(B ∩ C) = P(B) * P(C)
41
Se apenas uma não for satisfeita, os eventos não são independentes. 2 – Se A e B são mutuamente exclusivos, então A e B são dependentes pois se A ocorre, B não ocorre, isto é, a ocorrência de um evento, condiciona não ocorrência de outro.
Exemplo 4: Sejam A e B eventos tais que P(A) = 0,2; Calcule P considerando A e B: a. Mutuamente exclusivo;
P(B) = P;
P(A U B) = 0,6.
A∩B=0
P(A U B) = P(A) + P(B) – P(A ∩ B) 0,6 = 0,2 + P – O P = 0,4 b. Independente A e B independentes P(A ∩ B) = P(A) * P(B) P(A ∩ B) = 0,2 * P(B)
Como P(A U B) = P(A) + P(B) – P(A ∩ B) 0,6 = 0,2 + P - 0,2P P = 0,4 / 0,8 P = 0,5 LISTA DE EXERCÍCIOS
1.
2.
Considere a experiência que consiste em pesquisar famílias com três crianças, em relação ao sexo das mesmas, segundo a ordem do nascimento. Enumerar o espaço amostral correspondente. Enumerar os eventos a) Ocorrência de dois filhos do sexo masculino; b) Ocorrência de pelo menos um filho do sexo masculino; c) Ocorrência de no máximo duas crianças do sexo feminino. Na questão 1 do exercício 4, se soubermos que o jovem sorteado é do sexo masculino, qual é a probabilidade de que não seja diabético?
Notação: P(Nd │M) – Probabilidade condicional de não ser diabético dado que é masculino. a. Escolhe-se entre 3 casais, um componente de cada um. Qual a probabilidade de que: i. Todos sejam do mesmo sexo? ii. Dois sejam homem e uma mulher?
42
12 VARIÁVEL ALEATÓRIA Os resultados de um experimento ou são naturalmente numéricos, ou podem ser codificados numericamente (por exemplo ruim=0 e bom=1). A essa representação numérica de resultados denominamos de variável aleatória. Uma VA é então uma função que associa elementos do espaço amostral ao conjunto de números reais, conforme abaixo ilustrado.
OBSERVAÇÕES: 1. Apesar da tradição desta terminologia, na verdade uma VA é uma função cujo domínio é S e contradomínio é R . 2. Nas aplicações de estatística, é muito mais conveniente trabalhar com números e não com eventos. 3. Convenciona-se representar funções, variáveis aleatórias, espaço amostral e contradomínio por letras MAIÚSCULAS, e os valores pontuais do espaço amostral e contradomínio por letras MINÚSCULAS. 12.1
VARIÁVEL ALEATÓRIA DISCRETA E CONTÍNUA
12.2 EXEMPLO DE VA DISCRETA Considere o lançamento simultâneo de duas moedas . O espaço amostral é S = {(Ca,Ca), (Ca,Co), (Co, Ca), (Co,Co)}. Se X representa o número de caras , podemos associar um valor numérico para cada evento do espaço amostral, conforme abaixo:
43
Ponto Amostral (Ca,Ca) (Ca,Co) (Co,Ca) (Co,Co) 12.3
X 2 1 1 0
FUNÇÃO DE PROBABILIDADE OU FUNÇÃO DE DENSIDADE DE PROBABILIDADE (FDP)
Cada variável aleatória X, seja discreta ou contínua, é quantificada por uma Função de Densidade de Probabilidade ( fdp ). A fdp é a função que associa a cada ponto do espaço amostral de uma VA, a probabilidade de ocorrência de tais pontos. No caso da VA X acima, a função de probabilidade de X, denotada por P{X=x} determina a distribuição de probabilidades da variável X conforme mostrado abaixo:
Pto Amostral (Ca,Ca) (Ca,Co) (Co,Ca) (Co,Co)
X 2 1 1 0
½ ½ ½ ½
x½ x½ x½ x½
P{X} =¼ =¼ = ½ =¼ =¼
X 0 1 2
P{X} ¼ ½ ¼ 1
∑
Ao definir a FUNÇÃO DE DENSIDADE DE PROBABILIDADE, estabelecemos uma correspondência unívoca entre os valores que a Variável Aleatória X assume (x1, x2, ..., xn) , e os valores da variável P (p1, p2, ..., pn). Observe que sempre teremos ∑ pi = 1 no caso de VA Discreta. Assim, a função p(x) = P{X = xi} determina a distribuição de probabilidade da variável aleatória X, sendo no caso do exemplo denominada de função de probabilidades de X . Esta denominação é adotada para Variáveis DISCRETAS, enquanto para Variáveis CONTÍNUAS permanece a denominação de FUNÇÃO DE DENSIDADE DE PROBABILIDADE [f(x)].
Características da fdp: VA Discreta Faixa de Aplicabilidade x = a, a+1, ...,b Condições
b
p(x) ≥ 0, p( x ) 1 x a
12.4
VA Contínua
a≤x≤b f(x) ≥ 0,
b
a
f ( x )dx
1
FUNÇÃO DE REPARTIÇÃO OU FUNÇÃO DE DISTRIBUIÇÃO ACUMULADA (FDA)
É uma outra forma de representar uma distribuição de probabilidades de uma variável aleatória. Define-se Função de Distribuição Acumulada ou Função de Repartição da variável aleatória X no ponto x, como sendo a probabilidade de que X assuma um valor menor ou igual a x , isto é:
44
F(x) = P{X x}) FDA
VA Discreta
VA Contínua
x
F(x)=P{X x}
F(x) = p( x )
F(x) = ax f ( x )dx
x a
No caso do exemplo de lançamento de duas moedas para verificar o nº de caras, calculamos a FDA como sendo:
x 0 1 2
P{x} ¼ ½ ¼
x 0 1 2
F(x) ¼ ¾ 1
Da definição F(x)=P{X x} decorre imediatamente que, para x 1 ≤ x2 contidos no espaço amostral da VA X:
P{x1 < X ≤ x2} = F(x2) – F(x1) Para uma VA Discreta valem ainda as seguintes relações: P{x1 ≤ X ≤ x2} = F(x2) – F(x1 - 1) P{x1 ≤ X < x2} = F(x2 - 1) – F(x1 - 1) P{x1 < X < x2} = F(x2 - 1) – F(x1) NOTAS SOBRE VA CONTÍNUA: a) A probabilidade da VA Contínua X é sempre definida em um intervalo de valores de X, por exemplo, (x 1,x2). b) A probabilidade da VA Contínua é medida pela área sob a curva da função densidade em um determinado intervalo: P{x1 X x 2 } xx f(x)dx. c) Observe-se que para a VA Contínua X, a fdp f(x) não mede a pr obabi lidade no ponto x . Mostra-se facilmente que P{X=x} = P{x X x} = F(x)-F(x) = 0, onde utilizamos o seguinte artifício para representamos (X = x) (x X x). Por considerarmos a probabilidade de um ponto como igual a zero, decorre imediatamente que para uma VA Contínua P{x1 < X < x2} = P{x1 X < x 2} = P{x1 < X x2} = P{x1 X x2} = F(x2) – F(x1) 2
1
12.5
VALOR ESPERADO DE UMA VARIÁVEL ALEATÓRIA
Define-se VALOR ESPERADO (ou ESPERANÇA MATEMÁTICA ou MÉDIA) de uma variável aleatória X como a média ponderada de longo prazo de x em relação à F UNÇÃO DE DENSIDADE DE PROBABILIDADE (fdp).
45
VALOR ESPERADO
VA Discreta
E{X} =
x p( x )
VA Contínua
b
x
b
a x f ( x ) dx
x a
No nosso exemplo, E{X} = 0.(1/4) + 1.(1/2) + 2.(1/4) = (1/2) + (1/2) = 1 cara.
12.6
VARIÂNCIA E DESVIO PADRÃO DE UMA VARIÁVEL ALEATÓRIA
di a dos desvi os quadr áticos da Define-se VARIÂNCIA para uma VA como a mé variável em relação à sua própria média. Matematicamente, é expressa por:
VARIÂNCIA V{X} =
VA Discreta
VA Contínua
( x E{ x}) 2 p( x )
b 2 a ( x E { x}) f ( x ) dx
b
2
σx
x a
O DESVIO PADRÃO é definido como a raiz quadrada positiva da VARIÂNCIA:
DESVIO PADRÃO DesvPad{X} = NOTA: V{X}
σ 2x
Alternativamente,
E{X } 2
VA Discreta e σ
σx
a
Variância
X 0 1 2
P{X} ¼ ½ ¼ 1
VA Contínua
σ2
pode
ser
calculada
por
μ 2x
No exemplo dado:
∑
A Variância V{X} = (0-1)2.(1/4) + (1-1)2.(1/2) + (2-1)2.(1/4) = (1/4) + (1/4) = 1/2 , e DesvPad{X} = 0,707
13. MODELOS DE DISTRIBUIÇÕES DE PROBABILIDADE Até o momento, construímos como exemplo a distribuição de probabilidade de uma variável discreta (nº de caras no lançamento de duas moedas), empregando nosso conhecimento para o cálculo das probabilidades envolvidas. Veremos adiante alguns MODELOS PROBABILÍSTICOS PADRÕES, que nos auxiliarão em diversas situações práticas. Nosso problema passa a ser determinar qual modelo é o mais adequado para a situação em estudo.
46
13.1 DISTRIBUIÇÃO BINOMIAL Trata-se de uma distribuição de probabilidade adequada aos experimentos que apresentam apenas dois r esul tados possíveis: sucesso ou fracasso . Fornece a base para inferências sobr e proporções .
HIPÓTESES DO MODELO BINOMIAL 1. O experimento é repetido n vezes nas mesmas condições. 2. Os resultados das repetições são independentes, ou seja, uma repetição não interfere nas subseqüentes. 3. Cada repetição admite apenas dois resultados: sucesso ou fracasso . 4. As probabilidades de sucesso “ p” e de insucesso “ q” ( q=1-p) se mantêm constantes durante as repetições. Por exemplo: a) Lançar uma moeda 5 vezes e observar o número de caras. b) Numa linha de produção, observar 10 itens tomados ao acaso e verificar o número de defeituosos. c) Verificar o número de bits que não estão afetados por ruído num pacote com n bits. Define-se a VARIÁVEL BINOMIAL X como o número de sucessos em n repetições do experimento. A expressão geral da Distribuição Binomial é:
n x nx p q x
P{X x}
NOTAS: 1. O nome BINOMIAL se deve ao fato da expressão acima corresponder ao termo geral do desenvolvimento do BINÔMIO DE NEWTON. 2. Para p=0,5 a distribuição é simétrica. Para P<0,5, a distribuição tem inclinação para a direita. 3. No caso de n grande ( n 30 ) e p não muito pequena nem muito grande (valores centrais, com alguns autores recomendando np>5 e nq>5), a DISTRIBUIÇÃO BINOMIAL pode ser aproximada pela DISTRIBUIÇÃO NORMAL, que será vista adiante. PRINCIPAIS CARACTERÍSTICAS DA DISTRIBUIÇÃO BINOMIAL 2 Média μx = E{X} = np e Variância x = V{X} = npq. No EXCEL Função DISTRBINOM(núm_s ; tentativas ; probabilidade_s ; cumulativo), onde núm_s : número de sucessos tentativas : número de tentativas independentes probabilidade_s : probabilidade de sucesso em uma tentativa cumulativo : um valor lógico que define o tipo de distribuição: VERDADEIRO (1): retorna o valor da função de probabilidade acumulada P(X num_s) FALSO (0): retorna o valor da função de probabilidade no ponto num_s: P(X = num_s)
47
EXEMPLO: Uma moeda não viciada é lançada 5 vezes. Encontre a probabilidade de: a) dar exatamente 3 caras b) pelo menos uma cara c) no máximo 2 caras d) calcular o valor esperado e o desvio padrão SOLUÇÃO: Seja X a variável BINOMIAL com os parâmetros: n=5, p=1/2 (e portanto q=1/2). 3
2
a) Desejamos P{X = 3} = C(5,3)x(1/2) x(1/2)
3
5! 1 1 P{ X 3} 3 ! 2 ! 2 2
2
e
portanto P{X = 3} = 10 x (1/2)5 = 10/32 = 31,25% No EXCEL, a chamada à função DISTRBINOM(3;5;50%;0) fornece o valor 0,3125.
b) Desejamos P{X 1} que é o mesmo que 1 – P{X < 1}, equivalente a 1 – P{X = 0} = 1 – 0,03125 = 96,88% No EXCEL, a função 1-DISTRBINOM(0;5;50%;0) fornece o valor 0,96875. c) Desejamos P(X 2) que equivale a P{X = 0} + P{X = 1} + P{X = 2} = 50% No EXCEL, a chamada à função DISTRBINOM(2;5;50%;1) fornece o valor 0,5000. d) E{X} =np e portanto E{X} = 2,5 caras , e V{X} = npq = 5/4 = 1,25 . Logo DesvPad{X} = 1,12 caras .
13.2DISTRIBUIÇÃO DE POISSON Considere as situações em que se avalia o número de ocorrências de um determinado evento por unidade de tempo, de comprimento, de área ou de volume (genericamente denominados de área de oportunidade). Em muitos casos, conhece-se o número de sucessos, mas às vezes é muito difícil ou até mesmo impossível determinar o número de fracassos. Imagine o número de automóveis que passam por uma esquina: pode-se anotar o número de veículos que passaram num determinado intervalo de tempo, mas não se pode determinar quantos deixaram de passar. A distribuição de Poisson é aplicada nos tipos de situações em que nos interessa o número de vezes em qu e um evento pode ocorr er dur ante um i nter valo de tempo ou em determinado ambiente físico (área de oportunidade). Tomando como referência o número de ocorrências em determinado intervalo de tempo, em um processo de Poisson podem ser observados eventos discretos num intervalo de tempo, de tal forma que, reduzindo suficientemente este intervalo, tenhamos:
HIPÓTESES DO MODELO DE POISSON 1. A probabilidade de observar apenas um sucesso no intervalo é estável. 2. A probabilidade de observar mais que um sucesso no intervalo é zero. 3. A ocorrência de um sucesso em qualquer intervalo é independente da ocorrência de sucesso em qualquer outro intervalo.
48 A distribuição de Poisson é caracterizada apenas pelo parâmetro λ , que representa o valor esperada ou média, do número de sucessos por intervalo t. Em outras palavras, λ é a taxa de ocorrência dos eventos no intervalo de tempo. A função de probabilidade da distribuição de Poisson é :
P{X
x}
e λ λ x x!
onde: e é uma constante (base do logaritmo neperiano) valendo aproximadamente 2,718... λ é o número esperado de sucessos no intervalo considerado x é o número de sucessos (x = 0, 1, 2,
...,∞.)
PRINCIPAIS CARACTERÍSTICAS DA DISTRIBUIÇÃO DE POISSON 2 Média μx = E{X} = λ e Variância x = V{X} = λ . No EXCEL Função POISSON(x ; média ; cumulativo), onde x : número de sucessos mé dia : valor esperado no intervalo cumulativo : um valor lógico que define o tipo de distribuição: VERDADEIRO (1): retorna o valor da função de probabilidade acumulada P(X x) FALSO (0): retorna o valor da função de probabilidade no ponto x: P(X = x) EXEMPLO: As consultas a um banco de dados ocorrem de forma independente e aleatória, à base de 3 consultas por minuto. Calcule as probabilidades: a) no próximo minuto ocorrerem exatamente 3 consultas b) no próximo minuto ocorrerem menos de 3 consultas c) nos próximos dois minutos, ocorrerem mais do que 5 consultas SOLUÇÃO: Seja X a variável Poisson com ocorrência média de 3 consultas por minuto (λ=3)
a) Desejamos P(X = 3) = [e-3. 33 ]/3! = 22,4% No EXCEL, a chamada à função POISSON(3;3;0) fornece o valor 0,22404. b) Desejamos P(X < 3) = P(X 2) = P(X=0) + P(X=1) + P(X=2) = 42,32% No EXCEL, a chamada à função POISSON(2;3;1) fornece o valor 0,42319. c) Observe que a unidade de tempo alterou de 1 para 2 minutos. Como a taxa média é de 3 por minuto, então em dois minutos teremos λ=6. Desejamos assim P(X > 5) = 1 – P(X 5) = 1 – 0,44568 = 55,43% No EXCEL, a chamada à função 1 - POI SSON(5; 6;1) fornece o valor 0,55432. NOTA: A DISTRIBUIÇÃO DE POISSON aparece com destaque no estudo das filas .
49
13.3. DISTRIBUIÇÃO NORMAL É considerada a distribuição de probabilidades mais importante, pois permite modelar uma i nf in idade de fenômenos natur ais e, além disso, possibilita realizar aproximações para calcular probabilidades de muitas variáveis aleatórias que têm outras distribuições, tais como a BINOMIAL (n 30, np>5 e nq>5). É também conhecida como distribuição de GAUSS, LAPLACE ou LAPLACEGAUSS, e é muito importante também na inferência estatística, como será observado até o final do curso. A distribuição Normal é caracterizada por uma FUNÇÃO DE DENSIDADE DE PROBABILIDADE cujo gráfico descreve uma cur va em f orma de sino , que evidencia maior probabilidade de a VA assumir valores próximos aos valores centrais. Função Densidade de Probabilidade da Distri buição NORM AL
1
f(x)
2π
σ
e
1 x μ 2 2 σ
Uma VA terá Distribuição Normal se sua FDP for da forma abaixo, onde: μ = média da distribuição
= desvio padrão da distribuição são constantes (3,1416... e 2,718...) π e e
PARÂMETROS DA DISTRIBUIÇÃO NORMAL Média ou Valor Esperado μx = E{X} = μ e Variância
2
x
= V{X} =
2
PRINCIPAIS CARACTERÍSTICAS: 1. Teoricamente, a curva prolonga-se de –∞ a +∞, sendo que lim f(x) =0 para x tendendo a ∞. 2. A área total sob a curva é igual a 1, ou seja:
f(x)dx
1
3. A curva é simétrica em torno de μ, o que faz com que média = mediana = moda . Adicionalmente, temos também que P(X < μ - a) = P(X > μ + a).
50
4. A curva tem dois pontos de inflexão, respectivamente em μ- e μ+ . Cerca de 68% dos valores recaem no intervalo de um desvio padrão de cada lado da média, 95% recaem no intervalo média 2 desvios e 99,7% recaem no intervalo média 3 desvios.
Considerando a enorme dificuldade de calcularmos probabilidades pela integração da Função de Densidade de Probabilidade ( fdp) para as infinitas combinações de valores de μ e ·, utiliza-se a DISTRIBUIÇÃO NORMAL PADRÃO ou R EDUZIDA, definida conforme a seguir.
13.3.1 DISTRIBUIÇÃO NORMAL PADRÃO Seja Z a variável com distribuição normal com média = 0 e variância = 1 , geralmente denotada por N(0;1). Neste caso (lembrando que desvio-padrão = variância = 1 ) a fdp de Z será
f ( z)
1 2
1
e
z2 2
com a forma:
Observe-se a conveniência de termos a média igual a zero e o desvio padrão igual a 1, fazendo com que esta distribuição passe a representar os valores de zi como número de desvios em relação à média (origem). Assim, esta distribuição nos permite de desvios em relação à média . trabalhar com valores relativos
13.3.2 TRANSFORMAÇÃO DE UMA DISTRIBUIÇÃO NORMAL N(μ; 2) PARA A NORMAL PADRÃO (OU R EDUZIDA) N(0;1) Qualquer distribuição normal com média μ e desvio padrão pode ser transformada, para efeito de cálculo de probabilidades, na distribuição normal padrão, através de uma mudança de variável conforme a seguir.
z
x
TABELAS DA FUNÇÃO NORMAL PADRÃO Há vários tipos de tabelas que fornecem as áreas (probabilidades) sob a curva NORMAL PADRÃO. O tipo mais comum é a tabela de FAIXA CENTRAL. Este tipo de tabela fornece a área sob a curva normal padrão entre z=0 e qualquer valor positivo de z. A simetria em torno de z=0 permite-nos obter a área entre quaisquer valores de z,
51 sejam positivos ou negativos, não sem razoável esforço na identificação correta de intervalos. No Capítulo Tabelas Estatísticas , apresentamos uma Tabela da Distribuição Acumulada da Normal Padrão, de uso muito mais fácil que as tabelas de faixa central encontradas na maioria da bibliografia recomendada. Na nossa tabela, podemos obter diretamente a probabilidade P(Z z).
EXEMPLOS DE USO DA TABELA a) Calcule P(z < 0,85) A área solicitada é exatamente a área fornecida pela tabela. Basta procurar a linha que contenha o valor 0,8 e sua interseção com a coluna que contenha o valor 0,05. (lembrando que 0,85 = 0,8 + 0,05). Logo, P(z < 0,85) = 0,8023 ( ou 80,23% ). b) Calcule P(0 < z < 1,25) O valor procurado corresponde a P(z<1,25) – P(z<0). Da tabela, tiramos que P(z<1,25)=0,8944 e P(z<0)=0,5. Logo, P(0
2,39) Observe que o valor tabelado é P(z<2,39). Como a área total sob a curva vale 1, então P(z>2,39)=1-P(z<2,39). Logo, P(z>2,39) = 1 – 0,9916 = 0,0084 ou 0,84% d) Calcule P(z=1) Considerando que a probabilidade é medida pela área sob a curva definida por um intervalo, P(z=1) pode ser escrita como P(1 z 1). Isto reduz o intervalo a um só ponto e portanto a área é zero. Outra forma de se obter este resultado é pela utilização do conceito da FUNÇÃO DE DISTRIBUIÇÃO ACUMULADA, pois P(1 z 1) = F(1) – F(1) = 0. e) Calcule P(-2,55
Nos exemplos anteriores, foram fornecidos os valores do intervalo para que fossem calculadas as probabilidades associadas ao intervalo. Existem aplicações em
52 que devemos determinar os valores de z a partir do conhecimento das probabilidades associadas a estes valores.
MAIS EXEMPLOS DE USO DA TABELA g) Sabendo que P(z
FUNÇÕES DO EXCEL PARA A DISTRIBUIÇÃO NORMAL O Excel disponibiliza as seguintes funções para cálculos com a Distribuição Normal : Função DIST.NORMP( z ) , onde z: valor da VA Normal Padrão ou Reduzida. Esta função retorna a probabilidade P(-∞ < Z < z) = P(Z < z) , para qualquer valor de z , da mesma forma que a tabela apresentada no final deste capítulo. Para um intervalo genérico P(aa), usa-se 1 – P(za) = 1 – DIST.NORMP(a). Aplicável ao exemplo “c” acima. Função DIST.NORM( x ; média ; desv_padrão ; cumulativo) , onde x: valor da VA Normal média: média da VA X desv_padrão: desvio padrão da VA X cumulativo: um valor lógico que define o tipo de distribuição: VERDADEIRO (1): retorna o valor da função de distribuição acumulada (FDA) F(x) = P(X x) FALSO (0): retorna o valor da função densidade de probabilidade (fdp) no ponto x: f(x) É a função mais completa para tratamento de distribuição normal. Observe que no caso dos parâmetros média=0, desvio=1 e cumulativo=1 ou verdadeiro, esta função retorna o mesmo valor da DIST.NORMP. Função INV.NORMP( probabilidade ) Retorna o valor z da VA Normal Padrão, abaixo do qual se tem a probabilidade informada. É o inverso da função DIST.NORMP ( z)
53 No caso do exemplo “g” , a função inversa registrada como INV.NORMP(0,3015) retorna exatamente - 0,520091. Para o caso da sugestão apresentada, INV.NORMP(0,30)= -0,524401
Função INV.NORM( probabilidade ; média ; desv_padrão) Como no caso acima, é o inverso da função geral DIST.NORM(), aplicável a qualquer VA Normal X, desde que conhecidos sua média e desvio padrão. Função PADRONIZAR( x ; média ; desv_padrão) Retorna o desvio padrão normalizado z, considerando os argumentos x, média e desvio padrao, utilizando a fórmula já apresentada:
z
x
13.4 APROXIMAÇÃO DA BINOMIAL PELA NORMAL Se Y admite distribuição binomial de probabilidades, mas o número de r epetições do experimento égr an de (n 30), com a probabilidade p de sucesso não muito distante de 0,5, podemos, com pequena margem de erro, calcular as probabilidades da distribuição binomial Y através das probabilidades obtidas de uma distribuição normal X com as condições a seguir impostas. Alguns autores indicam uma boa aproximação se np > 5 e nq > 5. 1. média de X = média de Y = nxp. 2. variância de X = variância de Y = nxpxq. 3. correção de continuidade : P( Y = y ) da binomial equivale a P( y-0,5 < X < y+0,5 ) da normal, P( Y < y ) da binomial equivale a P( X < y-0,5 ) da normal P( Y > y ) da binomial equivale a P( X > y+0,5 ) da normal
EXEMPLO: Um teste tipo múltipla escolha é constituído de 50 questões , cada uma com 4 alternati vas , das quais uma apenas é correta. Calcule a probabilidade de que um aluno, respondendo ao acaso às questões, acerte exatamente 15 qu estões . Seja p = sucesso = ¼ = 0,25 e portanto q =1-p = 0,75 com n = 50 repetições. Logo, np=12,5 que é >5 e nq=37,5 que também é >5, propiciando assim uma boa aproximação. Estamos interessados em P(X = 15). Pela distribuição binomial, temos que calcular 50 (0,25)15 (0,75)35 , o que calculado pelo Excel fornece a probabilidade 15
P( X 15)
8,88%. Uma distribuição normal com média = nxp = 12,5 e variância = nxpxq = 9,375 pode ser usada como aproximação para cálculo da probabilidade P(14,5 < X < 15,5), o que calculado pelo Excel fornece o valor 9,32%. Observe que o erro relativo, calculado sobre o valor obtido pela distribuição binomial, foi de 4,94%.
54