LICENCIATURA EM BIOLOGIA
Instituto Federal de Educação, Ciências e Tecnologia de Alagoas Departamento de Educação a Distância Universidade Aberta do Brasil
Instituto Federal de Educação, Ciências e Tecnologia de Alagoas Departamento de Educação a Distância Universidade Aberta do Brasil
Unidades Unidade 1 - Conceitos prévios em Estatística
Introdução Histórica: O que é a estatística População e Amostra Censo x Amostragem Dado e Variável Atividades
Unidade 2 - Ferramentas necessárias necessárias ao Estudo de Estatística
Números Aproximados e Arredondamento de dados Fração Porcentagem Somatórios Atividades
Unidade 3 - Obtenção de Dados
Etapas do Método Estatístico Estatístico Apresentação Tabular Análise e avaliação dos resultados obtidos Tomada de Decisão Aplicação do método estatístico através de um projeto de pesquisa Elaboração de um questionário Um aplicação de questionário Codificação dos dados
Unidade 4 - Técnicas de Amostragem
Técnicas estatísticas de abordagem Amostragem Casual ou Aleatória Simples Amostragem Proporcional Estratificada Amostragem de Conglomerados Amostragem Sistemática Atividades
Unidade 5 - Séries Estatísticas
Série Temporal ou Cronológica Série Geográfica ou Territorial Série Específica ou Qualitativa Série Mista, Conjugada ou Composta Série de Distribuição de Freqüências Atividades
Unidade 6 - Distribuição de Frequências
Definições Básicas Tipos de Freqüências Distribuição de Freqüência para dados agrupados em intervalos de classe Atividades
Unidade 7 - Gráficos Estatísticos
Gráficos de Linha Gráficos de colunas ou em barras Gráficos de colunas ou em barras múltiplas Gráfico de colunas comparativas Gráficos de setores Gráfico Pictorial - Pictograma Gráfico polar Cartograma Atividades
Unidade 8 - Medidas de Posição
Média Aritmética Simples (dados não agrupados) Média Aritmética Ponderada (dados agrupados) Mediana Moda Emprego das medidas de posição Atividades
Unidade 9 - Medidas de Variabilidade
Amplitude total Desvio Desvio Médio Variância e Desvio Padrão Interpretação do Desvio Padrão Coeficiente de variação Atividades
Unidade 10 - Introdução a Probabilidade
Métodos de Contagem Conceitos Básicos Regras básicas de probabilidade Regras Básicas do Calculo das Probabilidades Distribuição de Probabilidades Atividades
Unidade 11 - Correlação e Regressão
Correlação Linear Coeficiente de correlação de Pearson Regressão – Reta de Regressão Atividades
Introdução
1.1
Introdução Histórica
As idéias fundamentais de estudos estatísticos como: contagem, enumeração, registros de dados, número de nascimentos e de óbitos, estimativas de estoques e recenseamentos, já se encontravam presentes nas civilizações antigas. Além da finalidade social e econômica, existia também a bélica. Por meio da estatística , o Estado sabia quantos bens possuía, como estavam distribuídos e conhecia também sua população. Essas informações auxiliavam a cobrança de impostos e também o recrutamento militar, pois, com guerras constantes, era de suma importância avaliar o armamento , saber de quantos jovens o Estado podia contar para treinamento. A partir do século XVI, foi que surgiram as primeiras informações registradas e organizadas de fatos sociais em tabuas, isto é, batizados, casamentos, nascimentos, etc.. O termo estatística surge da expressão em latim statisticum collegium palestra sobre os assuntos do Estado, de onde surgiu a palavra em língua italiana statista, que significa "homem de estado", ou político, e a palavra alemã Statistik , designando a análise de dados sobre o Estado. A palavra foi proposta pela primeira vez no século XVII, em latim, por Schmeitzel na Universidade de Lena e adotada pelo acadêmico alemão Godofredo Achenwall. Aparece como vocabulário na Enciclopédia Britânica em 1797, e adquiriu um significado de coleta e classificação de dados, no início do século 19. De acordo com a Revista do Instituto Internacional de Estatística, "Cinco homens, Hermann Conring,Gottfried Achenwall, Johann Peter Süssmilch, John Graunt e William Petty já receberam a honra de serem chamados de fundadores da estatística, por diferentes autores . Alguns autores dizem que é comum encontrar como marco inicial da estatística a publicação do "Observations on the Bills of Mortality" (1662) de John Graunt. As primeiras aplicações do pensamento estatístico estavam voltadas para as necessidades de Estado, na formulação de políticas públicas, fornecendo dados demográficos e econômicos. A abrangência da estatística aumentou no começo do século XIX para incluir a acumulação e análise de dados de maneira geral. Hoje, a estatística é largamente aplicada nas ciências naturais, e sociais, inclusive na administração pública e privada. O primeiro levantamento estatístico de que se tem conhecimento se deve a Heródoto e se refere a um estudo da riqueza da população do Egito, cuja finalidade era averiguar quais eram os recursos humanos e econômicos disponíveis para a construção das pirâmides, isso no ano de 3050 a. C. No ano de 2238 a. C., o Imperador Chinês Yao ordenou a realização de uma Estatística com fins industriais e comerciais. No ano de 1400 a.
C., o famoso faraó egípcio Ramsés II ordenou um levantamento das terras do Egito. Existem ainda, outros casos de Estatísticas no período antigo da civilização. Estatística é a ciência que trata do delineamento, coleta, organização, sumarização, apresentação e análise de dados, bem como, na obtenção de conclusões válidas e tomadas de decisões em diversos campos, a saber, engenharias, campo da saúde, biologia, farmácia, biofísica etc. Algumas dessas ciências usam a estatística aplicada tão extensivamente que elas têm uma terminologia especializada:
Bioestatística; Contabilometria; Controle de qualidade; Estatística comercial; Estatística econômica; Estatística engenharia; Estatística física; Estatística populacional; Estatística psicológica; Estatística social (para todas as ciências sociais); Física quântica; Pesquisa operacional; Análise de processo e quimiometria (para análise de dados da química analítica e da engenharia química).
Estatística forma uma ferramenta chave nos negócios e na industrialização como um todo. É utilizada a fim de entender sistemas variáveis, controle de processos (chamado de "controle estatístico de processo" ou CEP), custos financeiros (contábil) e de qualidade e para sumarização de dados e também tomada de decisão baseada em dados. Em nessas funções ela é uma ferramenta chave, e é a única ferramenta segura. O crescimento rápido e sustentados no poder de processamento dos computadores a partir da segunda metade do século XX teve um forte impacto na prática da estatística. Os modelos estatísticos mais antigos eram quase sempre lineares, mas os computadores modernos junto com algoritmos numéricos apropriados, causaram um aumento do interesse nos modelos não-lineares (especialmente redes neurais e árvores de decisão) assim como na criação de novos tipos, como o modelo linear generalizado e o modelo multi-nível. O aumento na capacidade de computação também tem levado à popularização de métodos que demandam muitos cálculos baseados em resampling, como testes de permutação e bootstrap, enquanto técnicas como o sampling de Gibbs tem feito com que os métodos de Bayes fiquem mais fáceis. A revolução informática também tem levado a um aumento na ênfase na estatística "experimental" e "empírica". Um grande
número de softwares estatísticos, de uso tanto geral como específico estão disponíveis no mercado. Na medida em que nossa sociedade se tornou muito mais diversificada, o que comprova a grande importancia dessa ciencia antiga. Há um século, H. G. Wells dizia: “Raciocinar estatisticamente será um dia tão nece s-
sário quanto à habilidade de ler e escrever”. Hoje, problema não é de escassez de informação, mas como utilizar essas informações abundantes disponíveis para tomar as melhores decisões. Segundo Fisher (R. A. Fisher) Estatística é o estudo das populações, das variações e dos métodos de redução de dados A Estatística desempenha duas grandes funções: Descritiva e Indutiva ou Inferencial. a) Descritiva – descreve um conjunto de dados variáveis, reduzindo-os a um pequeno número de medidas que contém toda a informação relevante. Utiliza número para descrever fatos. Somente descreve e avalia certo grupo (amostra), sem tirar quaisquer conclusões ou inferências sobre um grupo maior (população). b) Indutiva ou Inferencial – diz respeito à análise e interpretação de dados amostrais. Consiste me obter e generalizar conclusões sobre a população a partir de uma amostra. Utiliza-se da estimação de parâmetros e verificação de hipóteses, esta por meio, da aplicação dos testes de significância . Auxilia no delineamento de experimentos e levantamento para, dentro de uma precisão estipulada, obterse a informação desejada livre da influência de fatores perturbadores. A Estatística fornece os preceitos da casualização, repetição, controle local , os delineamentos experimentais e os métodos de amostragem, ou seja, no rmas lógicas que garantam a validez das comparações entre tratamentos e aumentem a precisão dessas comparações.
1.2
População x Amostra População (N): Conjunto de todos os elementos relativos a um determinado fenômeno que possuem pelo menos uma característica em comum, a população é o conjunto Universo, podendo ser finita ou infinita. População (universo) é a totalidade dos itens considerados no estudo
1. Finita - apresenta um número limitado de observações, que é passível de contagem.
2. Infinita - apresenta um número ilimitado de observações que é impossível de contar e geralmente esta associada a processos.. Uma população pode, mediante processos operacionais, ser considerada infinita, pois a mesma irá depender do tamanho da amostra. Se a freqüência relativa entre amostra e população for menor do que 5% ela é considerada infinita, se a freqüência relativa for maior do que 5% ela é considerada finita.
Amostra (n): É um subconjunto da população e deverá ser considerada finita, a amostra deve ser selecionada seguindo certas regras e deve ser representativa, de modo que ela represente todas as características da população como se fosse uma fotografia desta. Amostra é a parte da população selecionada para análise
Amostra
População
Parâmetros: são medidas populacionais quando se investiga a população em sua totalidade, neste caso é impossível fazer inferências, pois toda a população já foi investigada. Estatísticas ou Estimadores são medidas calculada para descrever uma característica de apenas uma amostra da população, torna-se possível neste caso utilizarmos as teorias de inferências para que possamos fazer conclusões sobre a população
População
Amostra Estatísticas ou Estimadores para estimar atitudes
Parâmetros para estimar atitudes
Conclusões sobre a População a partir da Amostra Parâmetros
Estimador
( valores reai s)
Média
( valores estimados) X
2
Variância
S 2
Desvio Padrão
S ^
Proporção
p
Exemplos:
1. Níveis de glicose no sangue de um grupo de 20 pacientes (amostra) selecionados aleatoriamente de uma lista de pacientes diabéticos de um hospital Público (população). 2. Tempos de resposta a um estímulo de um grupo de 30 ratos tipo rato-de-telhado (Rattus rattus) (amostra) que, por suposição, representam todos os ratos tipo rato-de-telhado (Rattus rattus) existentes (população). 3. Números de horas semanais dedicadas ao estudo de um grupo de 32 estudantes de graduação do IFAL (amostra) escolhidos aleatoriamente do conjunto total de estudantes de graduação do IFAL (população).
1.3
Censo x Amostragem
Pesquisa Estatística: É qualquer informação retirada de uma população ou amostra, podendo ser através de Censo ou Amostragem.
Censo: É a coleta exaustiva de informações das "N" unidades populacionais. Amostragem: São o processo de retirada de informações dos "n" elementos amostrais, no qual deve seguir um método criterioso e adequado (tipos de amostragem).
1.4
Dados e Variáveis
Dados estatísticos: é qualquer característica que possa ser observada ou medida de alguma maneira. As matérias-primas da estatística são os dados observáveis. Variável: É aquilo que se deseja observar para se tirar algum tipo de conclusão, geralmente as variáveis para estudo são selecionadas por processos de amostragem. Os símbolos utilizados para representar as variáveis são as letras maiúsculas do alfabeto, tais como X, Y, Z, ... que pode assumir qualquer valor de um conjunto de dados. As variáveis podem ser classificadas dos seguintes modos: Deste modo, é fundamental estabelecermos o tipo de Variável , pois a sua identificação determinará o tipo de estatística utilizada Tipos de Variáveis
Qualitativas (ou atributos): São características de uma população que não pode ser medida. Nominal: são utilizados símbolos, ou números, para representar determinado tipo de dados, mostrando, assim, a qual grupo ou categoria eles pertencem. Ordinal ou por postos: quando uma classificação for dividida em categorias ordenadas em graus convencionados, havendo uma relação entre as categorias do tipo “maior do que”, “menor do que”, “igual a”, os da dos por postos consistem de valores relativos atribuídos para denotar a ordem de primeiro, segundo, terceiro e, assim, s ucessivamente. Exemplos:
a) A cor dos olhos de estudantes de um curso de biologia – variável qualitativa nominal. b) Coleção de livros de biologia – variável qualitativa nominal.
c) Sexo dos estudantes de uma instituição, isto é, masculino ou feminino - variável qualitativa nominal. d) Grau de instrução de pessoas que trabalham em um hospital – variável qualitativa ordinal. e) Relação de classificados em um concurso público – variável qualitativa ordinal.
Quantitativas: São características populacionais que podem ser quantificadas, sendo classificadas em discretas e contínuas. Discretas: são aquelas variáveis que pode assumir somente valores inteiros nu m con junto de valores. É gerada pelo processo de contagem, como o número de veículos que passa em um posto de gasolina, o número de estudantes nesta sala de aula. Exemplo:
a) Número de filhos por casal – variável quantitativa discreta. b) Número de pontos feitos em um paciente de um hospital – variável quantitativa discreta. c) Número de equipamentos em um laboratório - variável quantitativa discreta. d) Número de estudantes que cursam Licenciatura em Biologia - variável quantitativa discreta. Contínuas: são aquelas variáveis que podem assumir um valor dentro de um intervalo de valores. É gerada pelo processo de medição. Neste caso serve como exemplo o volume de água em um reservatório ou o peso de um pacote de cereal. Exemplo:
a) Número de alimentos, em quilogramas, ingerida por estudantes num restaurante do IFAL, Campus Maceió - variável quantitativa continua. b) Quantidade de dinheiro gasto por turistas em Maragogi – variável quantitativa continua. c) Volume de refrigerante, em ml, contido em um copo - variável quantitativa contínua.
Atividade 1.
Uma Empresa tem 3.500 clientes cadastrados. Para melhor atendê-los, foi pesquisada a preferência em relação ao tempo de duração da viagem, ao preço dos pacotes, ao número de acompanhantes, ao número de passeios e à qualidade dos serviços prestados em uma viagem. Foram consultadas, de modo imparcial, 600 pessoas. a) b) c) d) e)
2.
Qual a população pesquisada? Quantas pessoas tem a população estatística envolvida nessa pesquisa? A amostra pesquisada foi de quantas pessoas? Quais foram às variáveis qualitativas pesquisadas? Quais foram às variáveis quantitativas pesquisadas? Classifique-as como discreta ou contínua.
Classifique a variável como qualitativa, quantitativa discreta ou quantitativa contínua. a) População: estudantes do IFAL. Variável: cor dos cabelos b) População: funcionários do IFAL. Variável: idade c) População: computadores produzidos por uma indústria de informática. Variável: número de peças usadas na fabricação d) População: pacientes de um hospital de Alagoas Variável: número de leitos ocupados e) População: jogadores de basquete de um clube brasileiro Variável: massa dos jogadores f) População: usuários de internet no Brasil Variável: provedor usado
3.
Para pesquisar o refrigerante preferido dos estudantes de um dos Campi do IFAL com 2.100 alunos, foram selecionados, de modo imparcial, 650 estudantes. Com base nessas informações, responda: a) b) c) d)
4.
Qual a população dessa pesquisa? Quantas pessoas têm a população dessa pesquisa? A amostra dessa pesquisa é formada de quantas pessoas? Qual variável foi estudada nessa pesquisa?
Bernadete é dona de uma loja de brinquedos. Para ampliar a qualidade da loja, Bernadete resolveu pesquisar o perfil dos clientes em relação à renda mensal, ao modelo de brinquedo preferido, ao número de brinquedos que cada cliente compra e à qualidade dos serviços prestados pela loja. Dos 2.000 clientes cadastrados nessa loja, 1.200 foram entrevistados: a) b) c) d)
Qual a população dessa pesquisa? Quantas pessoas tem a população dessa pesquisa? A amostra pesquisada foi de quantas pessoas? Determine as variáveis pesquisadas e classifique-as como qualitativa, quantitativa contínua ou quantitativa discreta.
Ferramentas necessárias ao Estudo de Estatística
Apresentaremos alguns cálculos básicos que serão de extrema importância no estudo da Estatística.
2.1 Números Aproximados e Arredondamento de dados A norma NBR 5891 da Associação Brasileira de Normas Técnicas (ABNT) estabelece as regras fixas de arredondamento na numeração decimal, em uso na atualidade. Essas regras estão de acordo com a Resolução 886/1966 do IBGE.
Sinais convencionais utilizados:
0,00 Dado numérico igual a zero resultante de arredondamento de dado numérico originalmente positivo.
- 0,00 Dado numérico igual a zero resultante de arredondamento de dado numérico originalmente negativo.
O arredondamento dos dados numéricos deve respeitar as diferenças significativas (absolutas e relativas) existentes entre eles.
No arredondamento do dado numérico, quando o primeiro algarismo a ser abandonado for 0, 1, 2, 3 ou 4, deve ficar inalterado o último algarismo a permanecer. Exemplos: 9,2377 (arredondado para número inteiro resulta 9); 9,2377 (arredondado para número com uma casa decimal resulta 9,2); 21,0509 (arredondado para número com duas casas decimais resulta 21,05).
No arredondamento do dado numérico, quando o primeiro algarismo a ser abandonado for 6, 7, 8 ou 9, deve-se aumentar de uma unidade o último algarismo a permanecer. Exemplos: 399,85 (arredondado para número inteiro resulta 400); 399,86 (arredondado para número com uma casa decimal resulta 399,9); 9,2377 (arredondado para número com duas casas decimais resulta 9,24).
Quando o primeiro algarismo a ser abandonado no arredondamento é 5, há dois procedimentos:
Se após o algarismo 5 seguir em qualquer casa um número diferente de zero (0), aumenta-se em uma unidade o algarismo que antecede o 5;
Exemplos: 237,85001 (arredondado para número com uma casa decimal resulta 237,9); 5,5256 (arredondado para número com duas casas decimais resulta 5,53)
Se após o algarismo 5 não seguir, em qualquer casa um número diferente de zero (0), ao algarismo que antecede o 5 será acrescentada uma unidade, se for impar, e permanecerá como está, se for par. Exemplos: 246,35 (arredondado para número com uma casa decimal resulta 246,4, pois o número que antecede o 5 é impar); 246,85 (arredondado para número com uma casa decimal resulta 246,8, pois o número que antecede o 5 é par, desta forma, ele fica inalterado); 12,1250 (arredondado para número com duas casas decimais resulta 12,12, pois o número que antecede o 5 é par); Observação: Nos softwares de computadores (como a planilha Excel) e calculadoras cientificas, porém, não é aplicado o critério indicado neste item. Nesse caso, se o primeiro algarismo a ser abandonado for 5, o arredondamento será feito com o aumento de uma unidade ao algarismo que antecede o 5.
Exemplos: 246,35 (arredondado para número com uma casa decimal resulta 246,4); 246,85 (arredondado para número com uma casa decimal resulta 246,9); 12,1250 (arredondado para número com duas casas decimais resulta 12,13);
2.2 Fração É uma parte do todo ou seja um par ordenado onde o segundo número é diferente de zero.
a b
, com a Є IN e b Є IN*. (a pertence ao conjunto dos números naturais e b
pertence ao conjunto dos números naturais não nulos (com exclusão do zero).
Fração Própria – é aquela onde o numerador é menor que o denominador como por exemplo:
3 2 13 , etc. , , 5 7 17
Fração imprópria é aquela onde o numerador é igual ou maior que o denominador. Exemplo:
7 4 12 , etc. , , 2 4 4
Fração aparente é a fração onde o numerado é múltiplo do denominador. Exemplo:
12 4
representa o número 3 pois 12:4 = 3; se o numerador é zero , a fração
apresenta o número zero. Assim
0 4
0 . Todo número natural pode ser apresentado
por uma fração com denominador 1. Assim 7 pode ser apresentado por
7 1
.
Frações Equivalentes – duas frações são equivalentes quando os produtos do numerador de um pelo denominador da outra são iguais. 1
Exemplo: para
2
e
2
onde temos: 1 x 4 = 2 x 2
4
Simplificação de frações - Basta dividir ambos os termos por um divisor comum. Exemplo:
3 6
33 63
1 2
Fração irredutível é aquela que os números são primos entre si (isto é , não possui outro divisor comum a não ser o número 1). Exemplo:
7 17
é uma fração irredutível, pois 7 e 17 são números primos entre si.
Comparação de frações - Para compararmos duas ou mais frações deverão reduzi-la ao mesmo denominador e lembrar que, de duas frações com o mesmo denominador, a maior é aquela que contém o maior numerador.
Operações com frações
Adição e subtração a) Frações homogêneas – conserva-se o denominador e adicionam-se ou subtraem os numeradores. Exemplo:
2 5
7 5
9 5
ou
7 3
2 3
5 3
b) Frações heterogêneas – reduzem-se as frações ao mesmo denominador, obtendo-se dessa forma frações homogêneas. Exemplo:
4 5
2 3
43 15
25 15
12 15
10 15
22 15
4/
Reduzindo ao mesmo denominador – para isso, vamos calcular o mínimo múltiplo comum dos denominadores como no exemplo acima:
mmc de 3 e 5, isto é, mmc(3,5)=15 3
5
3
1
5
5
1
1
3x5
Logo m.m.c de 3 e 5 é 3x5 =15 Observe que reduzimos ao mesmo denominador 3 e 5 para 15.
Multiplicação de frações - Produto de numeradores por numeradores e denominadores por denominadores.
Exemplo:
3 7
4 3
3 4 73
12 21
, isto é, 3 x 4 = 12 e 7 x 3 = 21 o que resulta em
12 21
.
O processo da multiplicação pode ser facilitado usando a simplificação pelo cancelamento dos fatores comuns dos numeradores e dos denominadores. Exemplo: 2 3
3
, nesse caso é possível simplificar 3 por 3 ou seja 3:3 =1 ficando dessa forma 2 5
X 1 = 2 e 1 X 5 = 5 o que resulta em
5
.
Divisão de frações - Produto da primeira pelo inverso da segunda.
Exemplo:
2
1 2
3 7
1 2
7 3
1 7 23
7 6
Potenciação de Frações - Devemos elevar o numerador e o denominador a esse expoente. 2
2 4 2 Exemplo: 2 . 25 5 5 2
Nota: Sempre que possível simplificar o resultados como vimos no tópico de simplificação de frações.
2.3 Porcentagem ou Percentagem O calculo da porcentagem é uma operação das mais antigas, em termos de cálculos comerciais e financeiros. A expressão por cento é indicada geralmente por meio do sinal %, quando efetuamos um cálculo de porcentagem, na verdade estamos efetuando um
simples calculo de proporção. Podemos dizer também que são razões que consistem em considerar um total qualquer igual a 100% e, através de uma regra de três simples, estabelecemos qualquer relação com as parcelas que compõem o total. Uma forma de cálculo é a seguinte: Porcentage m
Valor x Percentual
100
Denominamos razões percentuais as razões cujos conseqüentes (ou denominador) sejam iguais a 100. Representação: Em fração;
30 100
(trinta por cem ou vinte sobre cem);
20 100
(vinte por cem ou vinte sobre
cem), Em forma unitária: 0,30 ( zero virgula trinta ou zero virgula três); 0,20 (zero vírgula vinte ou zero virgula dois). Em forma percentual:
30 100
corresponde a 30% (trinta por cento);
20 100
corresponde a
20% (vinte por cento). Exemplos:
1) Em uma classe de 30 estudantes, 15 foram aprovados. Qual a taxa percentual de aprovação? Valor
Percentual
30
-------
100%
15
------
X (%)
onde: 30X = 100 x 15 30X = 1500
X = 1500/30 = 50%
Logo, foram aprovados 50% dos estudantes.
2) Ao comprar um livro , obtive um desconto de R$3,00. Qual o preço do livro sabendo que a taxa de desconto foi de 5%? Valor 3
Percentual -------
5%
X
------
100(%)
5X = 300 X = 300/5 = 60, 60 , isto é, o preço do livro foi R$60,00.
2.4 Somatórios Muitas vezes necessitamos escrever expressões que envolvam somas com muitos termos ou elementos, ou cujos termos ou elementos obedecem a certa lei de formação. Por exemplo: 1 + 2 + 3 + 4 +....+ 50 Simbolizaremos por termo,
x50
x1
o primeiro termo, x 2 o segundo termo,
o qüinquagésimo termo. Assim, poderemos representar
xi
x3
o terceiro
como sendo o i-
ésimo termo da soma. Chamaremos de n o número de termos da soma. Desta forma, na ilustração, n=50. A soma de n termos pode ser simbolicamente representada representada por n
xi i 1
No caso do exemplo anterior termos 50 termos, então n=50 e a soma desses cinqüenta termos ou números será representada por 50
xi i 1
Vejamos as partes do símbolo do somatório O símbolo
é a letra grega sigma maiúscula.
A instrução para somar
O primeiro elemento dos termos a serem somados
n
xi i 1
O n é o último termo ou elemento a ser somado é o nome dos termos ou
x
elementos a serem somados
i é uma observação individual
ou índice para cada termo
Lê-se: “Somatório de xi , para i variado de 1 até n” ou “soma de xi , para i variado de 1 a n” 5
Exemplo: Sendo x1 7; x2 3; x3 8; x4 2; x5 1 , calcule
xi . i 1
Solução: 5
x
i
x1 x2 x3 x4 x5 7 3 8 2 1 21, isto é,
i 1
x
i
21
Propriedades:
I
Se cada elemento da soma for multiplicado por um número (ou uma constante), os elementos da soma podem ser somados, e depois a soma será multiplicada pelo número (ou constante). constante).
cx
II
i
c xi
2 x
2 xi
i
A soma de um número (ou constante) sobre n termos é igual a n vezes o número (ou constante).
c nc 10
2 10 x2 20 i 1
III
O somatório da soma (ou diferença) é igual à soma (ou diferença) de somatórios.
( x y ) x y i
IV
i
O somatório de xi
i
2
i
x
2 i
x1 x2 x3 2
Observação:
2
x
2
2 i
xn
2
( xi )2
Quando não houver possibilidades de dúvida, podemos eliminar os índices. Assim:
x , x
n
2
serão usados, ao inves de
n
x , x i
i 1
i
i 1
2
Atividade 1. Qual o resultado de 3/4 + 4/5: a. b. c. d.
31/20 30/20 22/20 1/4
2. a) b) c) d)
Quanto é 6/12 X 2/9: 1/9 2/3 3/5 1/25
3. Eu uma classe de 50 estudantes faltaram 15. Qual a quantidade de estudantes presentes em porcentagem? a) 30% b) 70% c) 25% d) 35% 4. Por quanto devo vender um objeto que me custou R$ 150, para ter um lucro de 20% sobre o custo? a) R$ 170,00 b) R$ 180,00 c) R$ 185,00 d) R$ 190,00 5. a) b) c) d)
Calcule: 2% de 458,94 33% de 280 100,4% de 110 0,5% de 238
10 Sendo X : x1 7; x2 3; x3 8; x4 2; x5 1 Y : y1 3; y2 1; y3 1; y4 6; y5 2
Calcular: a)
xi
b)
yi
c)
e)
( x y ) x y ( x 1)
f)
x
g)
y
d)
i
i
i
i
2 i
i
i
2
Obtenção de Dados
A polêmica em torno de dados estatísticos é comum. Basta que seja divulgado os resultados de uma pesquisa de intenção de votos, por exemplo, para que alguns candid atos envolvidos saiam contestando sua validade. A Estatística é um instrumento eficiente para a compreensão e interpretação das realidades e não deve ser subestimada. Realmente, existem pesquisas feitas de forma incorreta e que, por isso, não são confiáveis. Mas, em geral, quando um estudo estatístico é feito com bastante critério, seus resultados permitem obter conclusões e prever tendências sobre fatos e fenômenos estudados. Entretanto, um estudo bem feito não elimina o erro, mas limita-o a uma margem de erro, procurando torná-lo o menor possível.
3.1 Etapas do Método Estatístico Vamos discutir nesta unidade a importância de cada etapa do método estatístico e como falhas na sua execução poderá levar a resultados enganosos Quando buscamos tomar decisões do nosso dia a dia estamos direta ou indiretamente fazendo um levantamento de dados observados. A informação obtida de cada elemento da população (ou da amostra) é gravada ou arquivada e apresentada na ordem em que as entrevistas ou medidas são realizadas. Ao decidir, por exemplo, pela compra de um determinado bem, procuramos veirificar se esse bem satisfaz as nossas espectativas, se o seu preço é compativel com o nosso orçamento, além de outras situações ou caracteristicas. Para um estudo estatístico confiável depende do planejamento e da correta execução das etapas da pesquisa. Desde a mais simples até a mais complexa pesquisa de mercado deve ser planejada para evitar falhas de todos os tipos, desde a escolha incorreta do método a ser usado até a importância das informações obtidas para o processo d ecisório.
3.1.1 O que devemos pesquisar – primeiramente, é preciso definir com clareza quais os objetivos da pesquisa que queremos realizar, ou seja, o que se pretende apurar, que tipo de problema está se buscando detectar.
Objetivo – quais perguntas a pesquisa vai responder. EXEMPLO: Objetivo Geral: conhecer o perfil de trabalho dos funcionários de um determinado hotel, para orientar políticas de gestão de pessoas.
Para podermos dar seqüência a esta pesquisa, precisamos especificar melhor o que queremos conhecer da população de funcionários desse hotel, ou seja, os objetivos específicos. Alguns destes objetivos específicos poderiam ser:
Conhecer o tempo médio de serviço dos funcionários neste hotel. Conhecer a distribuição do grau de instrução dos funcionários. Verificar o interesse dos funcionários em participar de programas de treinamento. Avaliar o grau de satisfação dos funcionários com o trabalho que exercem no hotel. Verificar se existe associação entre o grau de satisfação do funcionário com a sua produtividade. A elaboração dos objetivos específicos deve ser feita, de tal maneira, que forneça uma primeira indicação das características que precisamos observar. Por exemplo, para atingir aos objetivos do problema em questão, precisamos levantar as seguintes características de cada funcionário: tempo de serviço, grau de instrução, interesse em participar de treinamento, grau de satisfação com o trabalho e produtividade, etc. 3.1.2 Qual o Público-alvo?
Chamamos de publico alvo ou população alvo ao conjunto de elementos que queremos abranger em nossa pesquisa. São os elementos para os quais desejamos que as conclusões vindas da pesquisa sejam válidas. No exemplo anterior, a população alvo que será definida são todos os funcionários do hotel. Entretanto, se a coleta de dados for feita no próprio local de tr abalho e no período de uma semana, os funcionários que neste período estão de férias ou de licença ficam de fora do levantamento. Desta forma, as conclusões baseadas nesses dados não valem, necessariamente, para todos os funcionários do hotel. Assim, definimos como população acessível, ou simplesmente como população, o conjunto de elementos que queremos abranger em nossa pesquisa e que são passiveis de serem observados, com respeito às características que pretendemos levantar. Realizando adequadamente a pesquisa, podemos garantir que os resultados serão validos para este conjunto de elementos.
3.1.3 Como desenvolveremos o plano de pesquisa
Vejamos algumas questões importantes a. b. c. d.
Qual método de pesquisa será usado Qual o Universo da Pesquisa Qual a Amostra Já existem pesquisas anteriores sobre o tema? Elas servem de referencia para as pesquisas futuras? Que aspectos devem ser aprimorados ou modificados na nova pesquisa? e. De quanto tempo se dispõe para fazer a pesquisa? Que grau de precisão ele exige? f. Quais os fatores relacionados ao objeto de estudo, ou que variáveis estão envolvidas no problema em questão? 3.1.4 Como a pesquisa será feita – è necessário elaborar uma estratégia para fazer o levantamento de dados. 3.1.4.1
Quais os dados significativos para a pesquisa?
3.1.4.2
Existem dados disponíveis em algum órgão especializado, como por exemplo IBGE ou outros?
3.1.4.3
Se não, como os dados serão obtidos? Diretamente, por exemplo, por meio de questionários ou de entrevistas?
3.1.4.4
A coleta abrangerá toda a população pesquisada ou será parcial, isto é, será feita a partir de uma amostra da população?
3.1.4.5
Deve-se considera que a escolha da amostra é fator muito importante para o sucesso da pesquisa. Ela precisa retratar da melhor forma possível a população pesquisada.
3.1.4.6
Em muitas pesquisas, os dados são obtidos por meio de entrevistas e questionários. Alguns cuidados devem ser tomados na elaboração das perguntas. Neste contexto, deve-se evitar questões abertas do tipo: “Qual sua opinião sobre a situação econômica brasileira?”
È mais conveniente limitar as respostas. Por exemplo: Na sua opinião a situação econômica brasileira: ( ) vai melhorar
( ) vai piorar
( ) não sabe/não respondeu
As vezes é interessante apresentar uma questão filtro, para que não se perguntem coisas que o individuo não tenha condição de responder. Por exemplo: Você lê jornal? ( ) sim
( ) não
Veja que a resposta dessa questão determina o rumo da entrevista, pois se for sim, pode-se perguntar: Quais jornais? Com que freqüência você lê? Etc. Se for não, pode-se perguntar: Por quê? Etc.
As perguntas devem ser claras e simples, a fim de não criar constrangimentos ao entrevistado. A entrevista precisa ser curta, para não deixar o entrevistado entediado. Evita questões do tipo: o
Você toma banho todos os dias?
o
Qual a sua renda mensal?
Informações pessoais podem ser obtidas de forma indireta, com questões do tipo: o
Tem casa própria? Automóvel? Eletrodomésticos?
o
Quanto gasta com energia? E com água?
3.1.5 Organização e apresentação dos dados – Os dados coletados devem ser organizados em tabelas que facilitem a visualização e o cálculo de medidas estatísticas (médias, desvios e amplitude da amostra, etc.).
As tabelas podem ser representadas por meio de gráficos que permitem um exame ainda mais rápido e fácil dos resultados da pesquisa
3.2 Apresentação tabular Consiste em dispor os dados em linhas e colunas distribuídas de modo ordenado. A elaboração de tabelas obedece à Resolução nº 886, de 26 de outubro de 1966, do Conselho Nacional de Estatística. As normas de apresentação são editadas pela Fundação Brasileira de Geografia e Estatística (IBGE). IBGE. Centro de Documentação e Disseminação de Informações. Normas de apresentação tabular. 3. ed. Rio de Janeiro: IBGE, 1993. Tabela é a forma não discursiva de apresentar informações, das quais o dado numérico se destaca como informação central.
3.2.1 Representação esquemática
Recomendações gerais – Recomenda-se que: uma tabela seja elaborada de forma a ser apresentada em uma única página o número de células com dado numérico seja superior ao número de células com sinal convencional a classificação outros ou outras quando existir, indique um dado numérico proporcionalmente inferior aos dados numéricos indicados pelas demais classificações existentes as tabelas de uma publicação apresentam uniformidade gráfica como, por exemplo, nos corpos e tipos de letras e números, no uso de maiúsculas e minúsculas e nos sinais gráficos utilizados. 3.2.2 Elaboração geral
3.2.2.1
Topo ou Título – identificação da tabela. O título deve responder as seguintes questões: - O que? (Assunto a ser representado (Fato)); - Onde? (O lugar onde ocorreu o fenômeno (local)); - Quando? (A época em que se verificou o fenômeno (tempo)).
3.2.2.2
Número – toda a tabela deve ter número, inscrito no topo, sempre que um documento apresentar duas ou mais tabelas, facilitando a identificação e localização. A numeração deve ser arábica e seqüencial. Tabela 1 – Tabela 2 –
3.2.2.3
Moldura – elemento fundamental para estruturar a tabela. É composta apenas de traços horizontais; o primeiro separa o topo, o segundo para separar o espaço do cabeçalho e o terceiro para separar o rodapé. A moldura não deve conter traços verticais que a delimitem à esquerda e à direita.
3.2.2.4
Cabeçalho – elemento obrigatório para identificação do conteúdo das colunas. Recomenda-se que a identificação com palavras seja feita por extenso, sem abreviações. O cabeçalho, que é a apresentação do que ta tabela está procurando representar, deve conter o suficiente para que sejam respondidas as seguintes questões: O quê? (referente ao fato, Onde? (referente ao lugar), Quando? (referente ao tempo).
3.2.2.5
Indicador de linha – a identificação do conteúdo das linhas deve ser feita de forma concisa e clara. Recomenda-se que a identificação com palavras seja feita por extenso, sem abreviações.
3.2.2.6
Corpo: parte da tabela composta por linhas e colunas. Linhas: parte do corpo que contém uma seqüência horizontal de informações. Colunas: parte do corpo que contém uma seqüência vertical de informações. Coluna Indicadora: coluna que contém as discriminações correspondentes aos valores distribuídos pelas colunas numéricas.
3.2.2.7
Casa ou célula: parte da tabela formada pelo cruzamento de uma linha com uma coluna.
3.2.2.8
Unidade de medida – deve aparecer inscrita no espaço do cabeçalho ou nas colunas indicadoras. A indicação da expressão quantitativa ou metrológica dos dados numéricos deve ser feita com símbolos ou palavras entre parênteses.
(m) ou (metro) (t) ou (tonelada) (R$) ou (real) Quando uma tabela contiver dados numéricos divididos por uma constante, esta deve ser indicada por algarismos arábicos, símbolos ou palavras, entre parênteses, precedendo a unidade de medida quando for o caso. (1 000 t) ou (1000t) = indica dados numéricos em toneladas que foram divididos por mil (R$1.000) ou (R$ 1.000) = dados em real que foram divididos por mil (%) ou (percentual) = dados numéricos proporcionais a cem (%o) ou (por mil) = dados numéricos proporcionais a mil (1 / 1000) = dados numéricos que foram multiplicados por mil 3.2.2.9
.. ... x
Sinal convencional – a substituição de um dado numérico deve ser feita, sempre que necessário por um dos sinais abaixo:
Dado numérico igual a zero não resultante de arredondamento Não se aplica dado numérico Dado numérico não disponível Dado numérico omitido a fim de evitar a individualização da informação
0 0,0
Dado numérico igual a zero resultante de arredondamento de um dado numérico originalmente positivo
0,00 etc. -0 -0,0 -0,00 etc.
Dado numérico igual a zero resultante de arredondamento de um dado numérico originalmente negativo
3.2.2.10
Rodapé: É o espaço aproveitado em seguida ao fecho da tabela, onde são colocadas as notas de natureza informativa (fonte, notas e chamadas).
3.2.2.11
Chamada – uma tabela deve ter chamada, inscrita em qualquer um de seus espaços, sempre que houver necessidade de se remeter algum de seus elementos a uma nota específica.
Notas: Sinais convencionais utilizados: ... Dado numérico não disponível. .. Não se aplica dado numérico. A remissiva atribuída a algum dos elementos de uma tabela deve ser feita com algarismos arábicos em destaque: entre parênteses, entre colchetes, exponencial. (1) Percentual de pessoas de 15 anos ou mais de idade procurando trabalho, em relação às pessoas de 15 anos ou mais de idade economicamente ativas, na semana de referência. 3.2.2.12
Fonte – toda a tabela deve ter fonte, inscrita na primeira linha do seu rodapé, para identificar o responsável (pessoas física ou jurídica) ou responsáveis pelos dados numéricos ( Fonte ou Fontes). A identificação deve ser feita por extenso. Quando todas as tabelas forem retiradas de uma única fonte, já identificada na própria publicação, é dispensável aparecer em cada uma das tabelas. Recomenda-se que, em tabelas com dados numéricos extraídos de um documento, a identificação da fonte indique a referência bibliográfica do documento Exemplo Fonte: Pesquisa Industrial – 1982-1984. Dados gerais, Brasil. Rio de Janeiro: IBGE, v.9, 410p.
3.2.2.13
Nota geral – uma tabela deve ter nota geral, inscrita no seu rodapé, logo após a fonte, sempre que houver necessidade de se esclarecer o seu conteúdo geral (Nota ou Notas). Notas: Sinal convencional utilizado: - Dado numérico igual a zero não resultante de arredondamento.
3.2.2.14
Nota específica – a nota específica (quando esta existir) deve aparecer logo após a nota geral. Quando houver mais de uma, estas devem ser distribuídas obedecendo à ordem de numeração da chamada.
3.2.3 Apresentação de tempo – toda a série temporal consecutiva deve ser apresentada, em uma tabela, por seus pontos, inicial e final, ligados por hífen ( - ). Quando uma tabela contiver dados numéricos de um período temporal diferente do ano civil, isto deve ser indicado no título, em nota geral ou nota específica. 1981-1985 = indica dados numéricos para os anos de 1981, 1982, 1983 ,1984 e 1985. OUT 1991-MAR 1992 = indica dados numéricos para os meses de outubro, novembro e dezembro de 1991 e janeiro, fevereiro e março de 1992. 30.05.1991-06.06.1991 = indica dados numéricos para os dias 30 e 31 de maio de 1991 e 1, 2, 3, 4, 5 e 6 de junho de 1991. 1981/1985 = apresenta dados numéricos para os anos de 1981 e 1985, não sendo apresentados dados numéricos de pelo menos um dos anos desta série temporal. 1988, 1990, 1991 = apresentam dados numéricos para os anos de 1998, 1990 e 1991. Safra 91/92 = apresenta dados numéricos de uma safra iniciada em 1991 e terminada em 1992. 3.2.4 Apresentação de classe de freqüência – deve ser apresentada em uma tabela sem ambigüidade, por extenso ou com notação. W a menos de Z w|---- z. = 15 a menos de 30 bovinos por km². Mais de W a Z w----| z. = Mais de ¼ a ½. W|----| z. = 40 a 49 anos. Arredondamento numérico – os dados numéricos devem ser arredondados, em uma tabela, sempre que houver necessidade de apresentá-los com um menor número de algarismos. Isto deve ser indicado em nota geral ou nota específica. Notas – Dados numéricos arredondados. Sinais convencionais utilizados: 0,00 Dado numérico igual a zero resultante de arredondamento de dado numérico originalmente positivo. O arredondamento dos dados numéricos deve respeitar as diferenças significativas (absolutas e relativas) existentes entre eles. 9,2377 = arredondado para número inteiro resulta 9 9,2377 = arredondado para número com uma casa decimal resulta 9,2 9,2377 = arredondado para número com duas casas decimais resulta 9,24 399,85 = arredondado para número inteiro resulta 400 399,85 = arredondado para número com uma casa decimal resulta 399,9
Quando houver divergência entre a soma das parcelas arredondadas e o total arredondado, pode-se incluir uma nota geral esclarecendo a divergência. 3.2.5 Arredondamento de dado numérico – os dados numéricos devem ser arredondados, em uma tabela, sempre que houver necessidade de apresentá-los com um menor número de algarismos. Isto deve ser indicado em nota geral ou nota específica. Exemplo Nota: Dados numéricos arredondados. O arredondamento dos dados numéricos deve respeitar as diferenças significati vas (absolutas e relativas) existentes entre eles. No arredondamento do dado numérico, quando o primeiro algarismo a ser arre dondado for 0, 1, 2, 3 ou 4, deve ficar inalterado o último algarismo a permanecer. Exemplo 9,2377 – arredondado para o número inteiro = 9 9,2377 - arredondado para número com casa decimal = 9,2 21,0509 - arredondamento para número com duas casas decimais = 21,05 No arredondamento do dado numérico, quando o primeiro algarismo a ser aban donado for 5, 6, 7, 8 ou 9, deve-se aumentar de uma unidade o último algarismo a permanecer Exemplo 399,85 – arredondado para o número inteiro = 400 399,85 - arredondado para número com casa decimal = 399,9 9,2377 - arredondamento para número com duas casas decimais = 9,24 Quando em uma tabela, depois de feito o arredondamento dos dados numéricos, houver divergência entre a soma das parcelas arredondadas e o total arredondado, deve ser adotado um dos seguintes procedimentos · Inclusão de uma nota geral esclarecendo a divergência Exemplo Nota: As diferenças entre a soma das parcelas e respectivos totais são provenientes do critério de arredondamento. · Correção na parcela (ou parcelas) em que for menor o valor absoluto da razão entre a diferença de arredondamento (dado numérico original menos dado numérico corrigido) e o dado numérico original. Exemplo: Dado numérico original Dado numérico arredondado 7,6 7,6 11,6 11,6 20,2 20,2 ------------------
39,4 · Porém:
39 8 + 12 + 20 = 40
3.2.6 Diagramação da tabela – toda a tabela que ultrapassar as dimensões da página deve obedecer a: cada página deve ter o conteúdo do topo e o cabeçalho da tabela ou o cabeçalho da parte cada página deve ter uma das seguintes indicações: continua para a primeira; conclusão para a última e continuação para as demais cada página deve ter colunas indicadoras e seus respectivos cabeçalhos o traço horizontal da moldura que separa o rodapé deve ser apresentado somen te em cada página que contenha a última linha da tabela o conteúdo do rodapé só deve ser apresentado na página de conclusão. Quando a tabela ultrapassar a dimensão da página em número de linhas e tiver poucas colunas, pode-se ter o centro apresentado em duas ou mais partes, lado a lado, na mesma página, separando-se as partes por um traço vertical duplo e repetindo-se o cabeçalho. Quando for grande o número de colunas e poucas linhas pode-se ter o centro apresentado em duas ou mais partes, uma em baixo da outra, na mesma página, repetindo-se o cabeçalho das colunas indicadoras e os indicadores de linha.
3.3
Análise e avaliação dos resultados obtidos
Depois de feitas a coleta e a apresentação dos dados, parte-se agora para a análise dos resultados. Esta é a fase mais importante do projeto de pesquisa: obter conclusões a partir da pesquisa, para: 1. Encaminhar soluções para os problemas detectados. Por exemplo: - o número de acidentes de trabalho num hotel é maior em determinados setores. 2. Verificar a validade de hipóteses. Por exemplo: - um produto será bem aceito pelos hospedes? 3. Estabelecer parâmetros para a população como concentração de renda, nível de emprego, condições de moradia, saúde, educação, etc.
3.4
Tomar as decisões
Uma das etapas mais difíceis de um trabalho de pesquisa, por isso requer que todos os passos anteriores sejam bem aplicados e analisados.
3.5
Aplicação do método estatístico através de um projeto de pesquisa
Nesta seção apresentaremos um exemplo de um projeto de pesquisa relativamente bem simples, desenvolvido co a participação de launos da disciplina de Estatística do Curso de Gestão Ambiental do IFAL, semestre 2009-2, com finalidade puramente acadêmicas: O problema de pesquisa: a relação de um estudante do IFAL e o curso que está fazendo. Objetivo geral: Num curso do IFAL, conhecer melhor a relação entre o estudante e o cur-
so que esta fazendo. Em particular, no Curso de Gestão Ambiental do IFAL. Objetivos específicos:
I. Avaliar o grau de satisfação do estudante com o curso que está realizando. II. Verificar se existe associação entre o grau de satisfação do estudante com o seu desempenho no curso. III. Levantar os aspectos positivos e negativosdo curso, na visão do estudante. População: Estudantes que estavam cursando as três últimas fases do Curso de Gestão
Ambiental do IFAL, semestre 2009-2. Amostra: Optamos por um processo rápido e fácil para a seleção da amostra. Tomamos
três disciplinas obrigatórias das três últimas fases e aplicamos o questionário em sala de aula. A amostra foi, então, formada pelos estudantes presentes nos dia de aplicação dos questionários. Forma de mensuração das variáveis 1 Satisfação com o curso: uma avaliação numérica numa escala de 1 (um) a 5 (cin-
co), de acordo com o grau que o estudante julgar que melhor se adapte à sua satisfação com o curso em questão, complementando com avaliações de aspectos específicos do curso, como seu corpo docente, recursos materiais disponíveis e sue conteúdo curricular. Desempenho do estudante : Índice de aproveitamento acumulado, calculado pela
instituição, em função dos conceitos (ou notas) obtidos pelo estudante nas disciplinas 1
Estatiistica Aplicada as Ciências Sociais. Pedro Alberto Barbetta, pagina 29
cursadas. Então, os dados relativos a esta variável são dados secundários, isto é, devem ser solicitados da instituição. Aspectos positivos e negativos do Curso: serão observados de duas maneiras: I. Avaliações numéricas, numa escala de um (1) a cinco (5, de acordo com o grau que o estudante julgar que lhe melhor se adapte a sua concordância com alguns aspectos do curso. II. Deixar o estudante descrever livremente o principal aspecto positivo e negativo do curso. Nesta segunda situação, as categorias destas duas variáveis serão cri adas após a realização de uma analise das repostas dos questionários, isto é, as respostas similares serão agrupadas numa única categoria.
Técnicas de Amostragem
Neste capitulo apresentaremos as técnicas de amostragem mais utilizadas no cotidiano de estatistica. A amostragem é bastante usada em nossa vida diaria, por exemplo, para verificar o temprero de um alimento em preparação, podemos provar (observar) uma pequena porção deste alimento. Estamos fazendo uma amostragem, ou seja, extraindo do todo (população) uma parte (amostra), com o proposito de avaliarmos (inferirmos) sobre a qualidade de tempero de todo o alimento. Num aeroporto internaciona, a escolha dos passageiros, para a revista da bagagem, é feita por amostragem. Nas pesquisas cientificas, em que se quer conhecer algumas caracteristicas de uma população, também é muito comum se observar apenas uma maostra de seus elementos e, a partir dos resultados dessa amostra, obter valores aproximados, ou estimativas, para as caracteristicas populacionais de interesse. Este tipo de pesquisa é usualmente cahmado de levantamento por amostragem. Existem técnicas adequadas para recolher amostras, de forma a garantir (tanto quanto possivel) o sucesso da pesquisa que ser quer realizar e dos resultados esperados. Num levantamento por amostragem, a seleção dos elementos que serão efetivamente observados, deve ser feita sob uma metodologia bem adequada, de tral forma que os resultados da amostra sejam informativos para avaliar caracteristicas de toda a população pesquisada. Exemplos: 1.
2.
3.
Numa pesquisa sobre lincenciados em biologia no Estado de Alagoas, a população pode ser definida como todas as pessoas que se formaram em biologia no estado, no momento da pesquisa. O principal pârametro a ser avaliado deve ser a percentagem de pessoas que atuam no Estado. Numa pesquisa eleitoral, a três dias de uma eleição municipal, a população pode ser definida como todos eleitores com domicilio eleitoral no municipio. Os principais parâmetros devem ser as percentagens de votos de cada candidato à prefeitura, no momento da pesquisa. Para planejar politicas de recursos humanos em empresas, com milhares de funcionarios, podemos realizar uma pesquisa para avaliar alguns parâmetros da população de funcionarios destas empresas, tais como: tempo médio de serviço dos funcionários na empresa, percentagem de funcionários com nível de instruçãosuperior, percentagem de funcionários com interesse num certo programa de treinamento, etc..
Nos exemplos acima podemos perceber a dificuldade em pesquisar toda a população. São situações típicas em que se recomenda utilizar amostragem. Observe a figura abaixo.
O processo de amostragem
POPULAÇÃO:
AMOSTRA:
Todos os funcionários dos hotéis
Alguns funcionários do hotel
A inferência estatística
Estimativa de parâmetros populacionais Tempo de serviço no hotel Percenta em de funcionários com nivel de instru ão su erior etc.
FIG – Ilustração de um levantamento por amostragem – exemplo 3
O termo inferencia estatistica refe-se ao uso apropriado dos dados da amostra para se ter algum conhecimento sobre os parâmetros da população. Os valores calculados a partir dos dados da amostra, com o objetivo de avaliar parâmetros desconhecidos, são chamados de estimativas desses parâmetros. Por que devemos estudar técnicas de amostragem?
Economia – O levantamento de dados sobre uma parte da população é mais econômico que o levantamento de dados sobre toda a população. Tempo – O levantamento de dados sobre uma parte da população é mais rápido que o levantamento de dados sobre toda a população. Confiabilidade dos dados – Quando se pesquisa um número reduzido de elementos, pode-se dar mais atenção aos casos individuais, evitando erros nas rspostas Operacionalidade – É muito mais fácil realizar operações de pequena escala. Um dos problemas típicos nos grandes censos é o controle dos entrevistadores. Um problema fundamental da amostragem é garantir que as unidades escolhidas representem a população. Por exemplo, se a população em foco são os turistas que viajam ao exterior, um critério de seleção que exclua pessoas com mais de 50 anos pode produzir informações não representativas, principalmente se a caracteristica em foco for algo como a renda ou o consumo potencial do entrevistado ou de sua familia.
Evidentemente, há várias maneiras se se extrair uma maotra de n unidades de um apopulação de N elementos ou objetos. No entanto, os vários modos de seleção das possíveis unidades de analise são agrupadas em dois processos básicos: o aleatório e o não-aleatório (também denominados respectivamente de probabilistico e nãoprobabilistico). Obviamente cada um deles tem suas vantagens e usos especificos. Deve-se haver critério para a seleção desses elementos; cada elemento da população deve ter a amesma chance de ser escolhido para garantir à amostra o caráter de represenatividade. As técnicas para a determinação da amostragem são:
Amostragem casula ou aleatória simples; Amostragem proporcional estratificada; Amostragem sistemática.
4.1 Amostragem Casual ou Aleatória Simples Para a seleção de uma amostra casual ou aleatória simples precisamos ter uma lista completa dos elementos da população (ou de unidades de amostragem apropriadas). Este tipo de amostragem consiste em selecionar a amostra através de um sorteio, sem restrição. É sempre recomendavel que a amostra contenha no mínimo 10% da população pesquisada. Inicialmente, devemos listar ou numerar de 1 a N a população a ser analisada, e posteriormente selecionar uma amostra de n elementos da população mediante um sorteio. Para evitar o desconforto de se escrever os números em pedaços de papel (todos iguais), dobrá-los (todos iguais), colocá-los em uma urna e retirá-los um a um, podemos utilizar tabelas para esse fim; são as chamadas tabelas de números aleatórios. A amostargem aleatória simples tem a seguintes propriedade: qualquer subconjunto da população, com o mesmo número de elemntos, tem a mesma probabilidade de fazer parte da amostra. Em aprticular, temos que cada elemento da população tem a mesma probabilidade de pesrtencer à amostra. 2
2
Estas propriedades podem ser verificadas através do cálculo de probabilidade. A probabilidade de um elemento particular da população pertencer à amostra e é dada por n/N.
As tabelas de números aleatórios facilitam o processo de seleção de uma amostra aleatória.Estas tabelas são formadas por sucessivos sorteios de algarismos do conjunto {0, 1, 2, 3, 4, ..., 9}. A leitura da tabela pode ser da direita para esquerda ou vice-versa, de cima para baixo ou vice-versa, na diogonal, ou formando um caminho qualquer. O caminho sempre dever ser definido com antecedência. Exemplo: Com o objetivo de estudar algumas caracteristicas dos funcionários de uma escola, vamos extratir uma amostra aleatória simples de tamanho cinco. A listagem dos funcionários da escola é apresentado a seguir. 3
Aristoteles Bernardo Emilio Francisco Gabriel Joana José de Souza Maria Cristina
Anastacia Cardoso Ercilio Felicio Getulio Joaquim Josefa Mauro
Arnaldo Carlito Ernesto Fabricio Heraldo Joaquina Josefina Paula
Bartolomeu Claudia Endevaldo Geraldo João da Silva José da Silva Maria José Paulo Cezar
Para utilizar uma tabela de números aleatória, precisamos associar cada elemnto da população a um número. Vejamos (1) Aristoteles (5) Bernardo (9) Emilio (13) Francisco (17) Gabriel (21) Joana (25) José de Souza (29) Maria Cristina
(2) Anastacia (6) Cardoso (10) Ercilio (14) Felicio (18) Getulio (22) Joaquim (26) Josefa (30) Mauro
(3) Arnaldo (7) Carlito (11) Ernesto (15) Fabricio (19) Heraldo (23) Joaquina (27) Josefina (31) Paula
(4) Bartolomeu (8) Claudia (12) Endevaldo (16) Geraldo (20) João da Silva (24) José da Silva (28) Maria José (32) Paulo Cezar
Para extrairmos uma amostra alaeatória simples de tamanho n=5, basta tomar cinco números aleatórios do conjunto {1, 2, ..., 32}. Números aleatórios extraídos da tabela 8, 30, 16, 2, 9 Amostra da população de funcionários (Claudia, Anastacia,Emilio).
3
Mauro,
Geraldo,
Para facilitar a exemplificação das técnicas de amostragem, usaremos populações pequenas. Contudo, não se costuma usar amostragem aleatória em população muito pequena
Na realidade, estamos interessados na observação de certas variáveis associadas aos elemntos da amostra. No exmplo, poderiamos estar interessados na variável tempo de serviço no hotel, em anos completos. Denominaremos esta variável de X. Para cada funcionário da amostra, temos um valor para a variável X. O conjunto desse valores, observado na amostra de funcionários, é chamada de amostra aleatória simples da variável X. Amostra aleatória simples de funcionários:
{Claudia, Geraldo, Emilio}
Mauro, Anastacia,
Amostra aleatória simples da variável X
{ X 1 , X 2 , X 3 , X 4 , X 5}
X 1 é o tempo de serviço da Claudia, X2 é o tempo de serviço do Mauro, etc.
4.2 Amostragem Proporcional Estratificada A amostragem prporcional estratificada considera a população dividida em subconjuntos, em que cada subconjunto recebe o nome de estrato. Cada subconjunto (chamado estrato) tem uma caracteristica comum entre seus elementos. Estes estratos devem ser internamente mais homogêneos do que a população toda, com respeito às variáveis em estudo. Por exemplo, para estudar o interesse dos funcionários, de uma grande empresa, em realizar um programa de treinamento, podemos estratificar esta população por nivel de instrução ou pelo nivel hierárquico, ou ainda, por setor de trabalho.
Exemplo: Suponha uma escola com 84 funcionário, em que 25 pessoas são do sexo feminino e as 59 restantes são do sexo masculino. A população é constituida de pelo menos 84 funcionários: N=84 (100%). Um dos estratos é constituído pelos funcionários do sexo masculino: N 1 59 (70%) , o outro estrato é constituido pelos funcionários de sexo feminino: N 1 25(30%) .
A composição dos elementos da amostra deve manter a mesma proporcionalidade dos estratos, do estrato N 1 serão retirados 70% dos elementos da amostra e o estrato N 2 serão retirados 30% dos elementos da amostra. Desta forma, tomaremos n=9. Assim,
Estrato Homens
Proporção da população 59/84=0,70 (ou 70%)
Sugrupo da amostra
Mulheres
25/84=0,30 (ou 30%)
n1 0,30x9 3
n1 0,70x9 6
Sendo dos nove elementos da amostra : 6 homens e 3 mulheres.
4.3 Amostragem de Conglomerados Conglomerados são divisões populacionais tendo em conta a proximidade física dos elementos. Por exemplo, a população brasileira pode ser conglomerada em Estados (Alagoas, Bahia, Ceará, etc.); a alagoana pode ser conglomerada em cidades de Alagaos (Maceió, Arapiraca, Maragogi e outras); a cidade de Maceio, em bairros (Tabuleiro, Pajuçara, Ponta Verde, etc.); os bairros são conglomeráveis em quarteirões etc. A vantagem dos conglomerados é a proximidade fisica dos individuos, fato que facilita a coleta de dados (não se precisa ter uma listagem completa da população).
4
Grupos foram escolhidos .
Observe-se que estratificar e conglomerar são etapas facilitadoras da amostragem. Definidos os estratos ou conglomerados, os elementos a inspecionar serão mais representativos se escolhidos mediante os critérios estabelecidos para a amostragem aleatória. Exemplo: Considere o problema de selecionar uma amostra de domicilios de uma cidade. Podemos tomar as ruas como conglomerados, como indicado no quadro abaixo, onde A1 representa o primeiro domicilio da rua A, A2 o segundo, e assim por diante.
Ruas A B C D E
Domicilios A1, A2, A3, A4, A5, A6 B1, B2, B3, B4, B5, B6, B7, B8, B9, B10, B11, B12, B13, B14 C1, C2, C3, C4, C5, C6, C7, C8, C9, C10 D1, D2, D3, D4 E1, E2, E3, E4, E5, E6, E7, E8
Selecionar uma amostragem de conglomerados, selecionando três ruas (primeiro estagio) e, nas ruas selecionadas, uma fração de amostragem de 50% de domicilios (segundo estagio).
4.4 Amostragem Sistemática A amostragem sistemática toma por base de seleção algum critério de escolha dos elemntos. Exemplos que podem ser citados desta amostragem: os prédios de uma rua, os funcionários de um hotel, as linhas de produção, etc.. A amostragem sistematica é adequada a situações em que os individuos tendem a se suceder no tempo, como clientes em filas de banco, espectadores em bilheterias de teatros e eleitores aguardando sua vez de votar.
Exemplo: Uma empresa matém um arquivo contendo os registros de antigos parceiros. Entre um total de 10.000 fichas, podemos tirar de forma sistemática uma ficha a cada 10, totalizando uma amostragem de 1.000 fichas. Para garantir a mesma probabilidade para cada ficha da amostra, deverá ser feito um sorteio da primeira ficha entre as 10 primeiras.
Intervalo de seleção: N/n
Nesse exemplo, o intervalo de seleção é 10, de acordo com o cálculo 10.000/1.000 = 10. Supondo que a primeira ficha sorteada foi a de número 4, as fichas que compõem a amostra são: {4, 14, 24, 34, 54, 64, ...., 9.984, 9.994}
Atividade 1. Uma escola de ensino fundamental tem 1.000 alunos matriculados, sendo 200 na 1ª série, 150 na 2ª série, 150 na 3ª série, 120 na 4ª série, 110 na 5ª série, 100 na 6ª série, 90 na 7ª série e 80 na 8ªsérie. Obtenha uma amostra proporcional estratificada de 60%. 2. Em uma academia há 450 pessoas matriculadas, sendo 220 no período da manhã, 180 à tarde e 50 à noite. Obtenha uma amostra proporcional estratificada de 65%.
Séries Estatísticas
Uma série estatística é um conjunto de dados ordenados segundo uma característica comum, as quais servirão posteriormente para se fazer análises e inferências.
6.1 Série Temporal ou Cronológica: É a série cujos dados estão dispostos em correspondência com o tempo, ou seja, varia o tempo e permanece constante o fato e o local.
Produção de Petróleo Bruto no Brasil de 1976 a 1980 Anos 1976 1977 1978 1979 1980
Produção (1000 m³) 9 702 9 332 9 304 9 608 10 562
Fonte: Conjuntura Econômica (fev. 1983)
6.2 Série Geográfica ou Territorial: É a série cujos dados estão dispostos em correspondência com o local, ou seja, varia o local e permanece constante a época e o fato. População Urbana do Brasil em 1980 Região
Norte Nordeste Sudeste Sul Centro-Oeste Total
População(x 1000) 3 037 17 568 42 810 11 878 5 115 80 408
Fonte: Anuário Estatístico (1984
6.3 Série Específica ou Qualitativa: É a série cujos dados estão dispostos em correspondência com a espécie ou qualidade, ou seja, varia o fato e permanece constante a época e o local.
População Urbana e Rural do Brasil em 1980 (x 1000)
Localização Urbana Rural Total
População 80 408 38 566 118 974
Fonte: Anuário Estatístico (1984) Número de passageiros de cruzeiros que partiram do Cabo Canaveral – Flórida, 1998 Cruzeiro Canaveral Carnival Disney Premier Royal Caribbean Sun Cruz Cassinos Sterling Cruises Topaz Internacional Shipping
Total de Passageiros 152.240 480.924 73.504 270.361 106.161 453.806 15.782 28.280
Fonte: McClave, 2001, p.61.
6.4 Série Mista ou Composta: A combinação de duas ou mais séries estatísticas constituem novas séries denominadas compostas e apresentadas em tabelas de dupla entrada. O nome da série mista surge de acordo com a combinação de pelo menos dois elementos
Local + Época = Série Geográfica Temporal Local + Especifica = Série Geográfica Especifica
População Urbana do Brasil por Região de 1940 a 1980 (x 1000)
Anos
1940 1950 1960 1970 1980
REGIÕES N NE 406 3 381 581 4 745 958 7 517 1 624 11 753 3 037 17 567
SE 7 232 10 721 17 461 28 965 42 810
S 1 591 2 313 4 361 7 303 11 878
CO 271 424 1 007 2 437 5 115
Fonte: Anuário Estatístico (1984)
Número de Quartos e de Hotéis em Cidades dos EUA-1995 Cidade Las Vegas Orlando Los Angeles Chicago Washington D.C. Nova York Atlanta São Diego Anahein –Santa Ana São Francisco
Quartos 93.719 84.982 78.597 68.793 66.505 61.512 58.445 44.655 44.374
Hotéis 231 311 617 378 351 230 370 352 351
42.531
294
Fonte: McClave, 2001, p.64.
6.5 Série de Distribuição de Freqüências: A Quarta e última espécie de série estatística é, de longe, a mais importante e a mais utilizada em estatística. Na distribuição de freqüência, os dados são ordenados segundo um critério de magnitude, em classes ou intervalos, permanecendo fixos o fato, o local e a época. Isto é, embora o fenômeno estudado seja único, este poderá sofrer uma subdivisão em classes
Exemplo: Altura dos estudantes do Curso de Gestão Ambiental – 2009
Altura (m) 1,50 |--- 1,60 1,60 |--- 1,70 1,70 |--- 1,80 1,80 |--- 1,90 1,90 |--- 2,00
N° de alunos 14 29 37 18 2
A quantidade de vezes que um determinado dado ou valor é repetido na amostra é chamada de freqüência absoluta ou freqüência simples e será indicada por f i.
Atividade Pesquise na internet ou em revistas séries estatísticas e classifique cada uma.
Distribuição de Frequências
Distribuição de Freqüências
Para que uma variável estudada seja observada mais adequadamente, podemos dispor ordenadamente seus valores em uma tabela. Essa tabela é chamada de distribuição de freqüências ou tabela de freqüências.
6.1 Definições básicas
Freqüência absoluta ou freqüência ( ): é a quantidade de vezes que um determinado
dado ou valor é repetido na amostra.
Dados brutos: são valores ou os dados originais ainda não numericamente organi-
zados após a coleta ou digitação. Rol: é a ordenação dos valores ou dados obtidos (dados brutos) em ordem cres-
cente ou decrescente de grandeza numérica ou qualitativa. Distribuição de Freqüência é uma série estatística onde os dados se encontram
dispostos em categorias ou classes juntamente com as respectivas freqüências. Dessa forma, podemos dividir as distribuições de freqüências em dois tipos: distribuição de freqüência de dados agrupados sem intervalo de classes e distribuição de freqüências de dados agrupados em intervalos de classe. Exemplo 6.1:
Construir a distribuição de freqüências para as idades, em anos, de um grupo de amigos do IFAL. Tabela 6.1 – Idades de 20 amigos do IFAL- dados brutos 14 15
16
16
16
14
14
15
17
14
15 16
17
17
16
15
14
15
15
15
Colocando em ordem crescente (rol) as idades, temos Tabela 6.2 – Idades de 20 amigos do IFAL - rol 14
14
14
14
14
15
15
15
15
15
15
15
16
16
16
16
16
17
17
17
Tabela 6.3 - Distribuição de idade de 20 amigos do IFAL Idade (em anos)
Freqüência ( fi )
14
5
15
7
16
5
17
3
Observação: De acordo com os dados organizados podemos ver facilmente que:
O grupo de amigos pesquisados é formado de 20 pessoas;
A pessoa mais velha tem 17 anos e a mais nova tem 14 anos;
A maioria tem 15 anos (7 pessoas);
A minoria tem 17 anos (3 pessoas).
6.2 Tipos de freqüências 6.2.1 Freqüência relativa
O quociente obtido entre a freqüência absoluta ( ) e o número de elementos (n) da
=
amostra é chamado de freqüência relativa:
Para que a interpretação dos dados se torne mais clara, a frequência relativa, geralmente, é apresentada na forma de percentagem e é indicada por ( ) (%).
Exemplo 2: Os dados abaixo referem-se ao número de horas trabalhados por uma equipe de enfermeiros em um hospital durante 2 fins de semana. Construir a tabela de distribuição de freqüências com freqüências relativas em percentagem correspondente aos dados fornecidos. Tabela 6.4 – Número de horas trabalhadas por uma equipe de 30 enfermeiros 6 6 8
8 8 7
2 7 7
7 7 7
10 6 6
5 5 10
6 2 5
7 7 5
2 8 5
10 10 5
Colocando os dados em ordem crescente, temos: Tabela 6.5 – Número de horas trabalhadas por uma equipe de 30 enfermeiros - Rol 2 6 7
2 6 7
2 6 8
5 6 8
5 7 8
5 7 8
5 7 10
5 7 10
5 7 10
6 7 10
Tabela 6.6 – Distribuição de frequencias em horas trabalhadas (de 30 enfermeiros de um hospital)
Tempo (em horas) 2
Freqüência ( ) 3
5
6
6
5
7
8
8
4
10
4
Total (n)
30
Freqüência Relativa ( ) (%)
= 303 = 0,10 → 10% = 306 = 0,20 → 20% = 305 = 0,1667 → 16,67% = 308 = 0,2667 → 26,67% = 304 = 0,1333 → 13,33% = 304 = 0,1333 → 13,33%
O que diferencia a freqüência absoluta ( ) da freqüência relativa ( ) é o fato de que, na absoluta, trabalhamos com o número de elementos, enquanto que, na relativa, trabalhamos com percentual de elementos. 6.2.2 Freqüências Acumuladas
A soma da freqüência absoluta do elemento considerado com todos os anteriores é chamada de freqüência absoluta acumulada e pode ser indicada por ou .
A soma da freqüência relativa do elemento considerado com todos os anteriores é chamada de freqüência relativa acumulada e pode ser indicada por ou .
As freqüências acumuladas tanto absolutas quanto relativas contribuem para a interpretação dos dados organizados em uma tabela de distribuição de freqüências. É a soma da freqüência simples deste elemento com as freqüências simples anteriores da série.
Fi f 1 f 2
f i
È a divisão da freqüência acumulada deste elemento, pelo número total de elementos da série.
FR i
Fi n
= + + + + + = 3 + 6 + 5 + 8 + 4 + 4 = 30 = 30
Observe que a soma das freqüências é:
1
2
3
4
5
6
Vejamos com o exemplo anterior.
A tabela abaixo referem-se ao número de horas trabalhados por uma equipe de enfermeiros em um hotel durante 2 fins de semana. Construir a tabela de distribuição de freqüências acumuladas, tanto absoluta quanto relativa. Tabela 6.7 – Distribuição de frequencia acumulada (de horas trabalhadas por uma equipe de 30 enfermeiros) Tempo (em horas) 2 5 6 7 8 10 Total
Freqüência ( ) 3 6 5 8 4 4 n=30
(Freqüência acumulada)
3 9 (=3+6) 14 (=3+6+5 ou =9+5) 22 (=3+6+5+8 ou =14+8) 26 (=3+6+5+8+4 ou =22+4) 30 (=3+6+5+8+4+4 ou =26+4)
Tabela 6.8 – Distribuição de frequencias relativas (de horas trabalhadas por uma equipe de 30 enfermeiros)
Tempo (em Freqüência (%) (Freqüência Relativa acumulada) horas) Relativa ( ) (%) 2 10 10 (=à primeira ) 5 20 30 (=10+20) 6 16,67 46,67 (=10+20+16,67) ou (=30+16,67) 7 26,67 73,34 (=10+20+16,67+26,67) ou (=46,67+26,67) 8 13,33 86,67 (=10+20+16,67+26,67+13,33) ou (=73,34+13,33)
10
13,33
Total
100%
100 (=10+20+16,67+26,67+13,33+13,33) (=86,67+13,33)
ou
Observando os dados das tabelas, podemos concluir que:
A freqüência acumulada 14 poderá ser encontrada fazendo a soma da freqüência
acumulada anterior (9) com a freqüência correspondente à linha que queremos encontrar (5). A maior freqüência relativa apresentada é 26,67%, que corresponde a 8 enfermeiros que trabalharam 7 horas. A menor freqüência relativa apresentada é 10%, que corresponde a 3 enfermeiros que trabalharam 2 horas. 30% dos enfermeiros trabalharam menos do que 6 horas. 73,34% dos enfermeiros correspondem a 22 enfermeiros que trabalharam 7 ou menos que 7 horas.
Exemplo 6.2: Considere a distribuição agrupada sem intervalo de classe:
Tabela 6.9 – distribuição de frequencias sem intervalos xi
f i
2
3
3
7
4
8
6
6
7
1
Total
25
Freqüência relativa do primeiro elemento f r 1
f 1 n
3 25
0,12 ou 12%
Freqüência relativa do segundo elemento f r 2
f 2 n
7 25
0,28 ou 28%
Da mesma forma determinamos a freqüência relativa dos outros elementos f r 3
f 3
f r 4
f 4
f r 5
n
n
8 25
f 5 n
6 25
0,32 ou 32% 0,24 ou 24% 1
25
0,04
ou
4%
6.3 Distribuição de Freqüência para dados agrupados em intervalos de classe Utiliza-se este tipo de distribuição quando o número de observações é grande e o numero de valores distintos que assume a variável também é grande; os resultados obtidos deverão ser dispostos em classes ou categorias que assumam amplitudes dentro das quais se incluirão os dados. Devemos escolher apropriadamente o tamanho dos intervalos 6.3.1 Elementos de uma Distribuição de Freqüência 6.3.1.1
Classes
São intervalos ou subdivisões dos elementos do conjunto. As classes são sempre definidas por dois limites – inferior e superior. Na tabela 6.1 as alturas de estudantes de um acampamento esta representada por uma distribuição de cinco classes, isto é, Tabela 6.10: Distribuição de freqüência das alturas de 50 estudantes Altura dos estudantes (m) Freqüência (fi) 1,50 |--- 1,60 6 Primeira classe 1,60 |--- 1,70 11 Segunda classe 1,70 |--- 1,80 19 Terceira classe 1,80 |--- 1,90 10 Quarta classe 1,90 |--- 2,00 4 Quinta classe Total 50 Vemos que a primeira classe é a que vai de 1,50m a 1,60m; a segunda classe vai de 1,60m a 1,70m e assim por diante. A quinta classe vai de 1,90m a 2,00m.
6.3.1.2
Intervalo de Classe
Existe uma diferença sutil entre o que entendemos por classe e por intervalo de classe! Um exemplo simples elucidará o fato: se tomarmos, a quarta classe do nosso exemplo (a altura dos estudantes) de distribuição de freqüências, vemos que esta classe vai de 1,80m a 1,90m. Tabela 6.11: Distribuição de freqüência das alturas de 50 estudantes Altura dos estudantes (m) 1,50 |--- 1,60 1,60 |--- 1,70 1,70 |--- 1,80 1,80 |--- 1,90 1,90 |--- 2,00 Total
Freqüência (fi) 6 11 19 10 4 50
Primeira classe Segunda classe Terceira classe Quarta classe Quinta classe
Eis a questão: um estudante que está medindo exatamente 1,90m integrará esta quarta classe? Ora, se olharmos atentamente, vemos que este valor 1,90m também faz parte da quinta classe (como limite inferior!). E então? O estudante com 1,90m será computado na terceira ou na quarta classe? Aí é que entra o conceito de intervalo de classe! Dependendo da nomenclatura utilizada pela questão para construir as classes, teremos definidos os intervalos de classe, e saberemos responder à questão colocada. São as seguintes Limite inferior (Linf): o número menor é o limite inferior da classe (1,50 |--- 1,60, em que 1 =1,50 é o limite inferior da primeira classe).
Limite superior (Lsup): o número menor é o limite inferior da classe (1,50 |--- 1,60, em que 1 =1,60 é o limite superior da primeira classe).
Este símbolo utilizado “| --- “ estabelece a inclusão do limite inf erior e a exclusão
do limite superior do intervalo de classe. O intervalo 1,50 |--- 1,60 indicam inclusão do limite inferior 1,50 (ou seja, a partir da altura 1,50m exatos o estudante está incluído nessa classe) e indica exclusão do limite superior (significa que a partir da altura 1,60m exatos a criança está excluída dessa classe). Segundo a resolução 886/1966 do IBGE, os intervalos de classe devem empregar o símbolo de inclusão e exclusão (|---) entre os valores extremos de um intervalo.
A amplitude de um intervalo de classe ( ℎ ) é a diferença entre o limite superior ( ) e o limite inferior ( ) de uma classe. ℎ = − Na tabela 6.1: ℎ = 1,60 − 1,50 = 0,10 ℎ = 1,70 − 1,60 = 0,10 ℎ = 1,80 − 1,70 = 0,10 ℎ = 1,90 − 1,80 = 0,10 ℎ = 2,00 − 1,90 = 0,10 6.3.1.3
Amplitude de um intervalo de classe ( )
1
2
3
4
5
Neste caso, as amplitudes de cada intervalo são iguais, porém, não é obrigatório que elas sejam; podemos ter eventualmente amplitudes diferentes 1 2 3
ℎ ≠ℎ ≠ℎ ≠⋯
Embora as amplitudes possam ser diferentes, é mais conveniente que as classes mantenham amplitudes iguais, pois facilita a visualização do fato pesquisado e agiliza os cálculos realizados.
6.3.1.4
)
Amplitude total da distribuição (
Amplitude total da distribuição ( ) é a diferença entre o Limite Superior da última classe ( ) e o Limite Inferior da primeira classe ( ):
= − Na tabela 6.1 temos que: = 2,00 − 1,50 = 0,50 6.3.1.5 Amplitude Amostral ( ) Amplitude amostral ( ) é a diferença entre o Valor Máximo ( ) e o Valor Mínimo ( ) dos dados colhidos na amostra: = − No exemplo 2, observamos que o valor da amplitude amostral é:
= − =
6.3.1.6
)
Ponto Médio de uma classe (
Ponto médio de uma classe ( ) é o ponto que, por situar-se numa posição média da distribuição de valores do intervalo de classe, divide o intervalo em duas partes iguais:
= 2+ Na tabela 1 temos que:
= O ponto médio da segunda classe é: = O ponto médio da quinta classe é: = O ponto médio da primeira classe é:
2
= 1,55
1,70+1,60
2
2
2,00+1,90
5
= 1,65 = 1,95
1,60+1,50
1
2
6.3.2 Construindo uma distribuição de freqüências com intervalos de classe
Quantas classes serão necessárias para representar o fato? Existem vários critérios que podem ser utilizados a fim de possuirmos uma idéia do melhor número de classes, porém tais critérios servirão apenas como indicação e nunca como regra definitiva, pois caberá sempre ao pesquisador estabelecer o melhor número, levando-se em conta o intervalo de classe apropriado e a facilidade para os posteriores cálculos numéricos. É importante a escolha do número de classes e da amplitude. Se o número de observações é pequeno, devemos restringir a amplitude; por outro lado, se o número de observações é grande, as amplitudes também serão maiores. Passaremos, por meio dos passos descritos abaixo, a conhecer a maneira convencional utilizada na elaboração de uma distribuição de freqüências com intervalos de classes. 1°Passo: Definir o número de classes. Para se determinar o número de classe (k) a partir do número de elementos observados ( ), podemos citar duas maneiras distintas:
a) Regra de Sturges: b) Regra da raiz quadrada:
= 1 + 3,3 × log () =
Empiricamente os agrupamentos devem definir a ordem de grandeza do número de intervalos; o valor efetivo é o número inteiro mais conveniente, em torno do valor calculado. 2°Passo: Definir a amplitude amostral. A amplitude amostral, conforme visto anteriormente, nada mais é senão o próprio tamanho do conjunto. É a diferença entre seu maior elemento (ou valor) e seu menor elemento (ou valor). Teremos que
= − 3°Passo: Definir a amplitude do intervalo de classe. Teremos que:
ℎ =
Ou seja, a amplitude do intervalo de classe será o quociente entre a amplitude amostral (segundo passo) e o número de classes das distribuição (primeiro passo). Como se verifica nestes passos, a forma usual de trabalharmos com distribuições de freqüências agrupados em intervalos de classes são orientadas no sentido de termos todas as suas classes com a mesma amplitude.
4°Passo: Escolher os limites de classe Os intervalos de classe são determinados da seguinte forma:
: ⊢ + ℎ 2 : + ℎ ⊢ + 2ℎ 3 : + 2ℎ ⊢ + 3ℎ 1°
°
°
E assim por diante
5°Passo: Construir a tabela de distribuição de freqüências.
Exemplo 6.3: O quadro a seguir apresenta os dados de concentração de progesterona em exames de pacientes de um laboratório, é medida em ng/ml. Construir a distribuição de freqüências em intervalos de classes e os pontos médios de cada intervalo.
Tabela 6.12: concentração de progesterona de pacientes de um laboratório 7,62 25,14 9,07 6,33 11,57 11,31 52,22 36,25 15,12 11,44 7,80 17,85 7,57 7,74 6,73 29,53 8,96 60,50 8,88 10,99 12,01 12,61 19,80 7,90 19,01 57,05 39,00 5,94 15,65 8,22 71 6,93 8,70 8,56 19,80 15,38 7,60 9,00 12,00 70
8,38 12,49 17,48 7,54
Fazendo o rol, temos: Tabela 6.13: concentração de progesterona de crescente 5,94 7,57 7,9 8,88 11,31 6,33 7,6 8,22 8,96 11,44 6,73 7,62 8,38 9 11,57 6,93 7,74 8,56 9,07 12 7,54 7,8 8,7 10,99 12,01
pacientes de um laboratório em ordem 12,49 12,61 15,12 15,38 15,65
17,48 17,85 19,01 19,8 19,8
25,14 29,53 36,25 39,00 52,22
57,05 60,5 70,00 71,00
1°Passo: Iremos determinar o numero de classes utilizando a Regra de Sturges
= 1 + 3,3 × log44 = 1 + 3,3 × 1,644439 = 1 + 5,426647 = 6,426647 Como o número de classe é sempre um número inteiro e utilizando os critérios de arredondamento, então = 6
2°Passo: Iremos determinar a amplitude amostral da distribuição:
= − = −, = , ℎ
3°Passo: Determinar a amplitude do intervalo de classe ( ).
ℎ = = 65,06 = 10,84 6
Convencionar como amplitude das classes o valor imediatamente superior ao encontrado, considerando o número de decimais dos dados. Desta fo rma,
ℎ = 10,90 4°Passo: Escolher os limites de classe. Como são seis classes, temos então:
: ⊢ + ℎ 5,94 ⊢ 5,94 + 10,90 5,94 ⊢ 16,84 2 : + ℎ ⊢ + 2ℎ 5,94 + 10,90 ⊢ 5,94 + 2 × 10,90 16,84 ⊢ 27,74 3 : + 2ℎ ⊢ + 3ℎ 5,94 + 2 × 10,90 ⊢ 5,94 + 3 × 10,90 27,74 ⊢ 38,64 4 : + 3ℎ ⊢ + 4ℎ 38,64 ⊢ 49,54 5 : + 4 ⊢ + 5ℎ 49,54 ⊢ 60,44 6 : + 5ℎ ⊢ + 6ℎ 60,44 ⊢ 71,34 1°
°
°
°
°
°
5°Passo: Construir a distribuição de freqüências. Tabela 6.14 – Distribuição de frequencias com intervalos de classes e ponto médio Intervalos de Classes
⊢ 16,84 16,84 ⊢ 27,74 27,74 ⊢ 38,64 38,64 ⊢ 49,54 49,54 ⊢ 60,44 60,44 ⊢ 71,34 5,94
Total
Freqüência ( ) 30
Ponto Médio ( )
= 5,94 +216,84 = 11,39 = 22,29 = 33,19 = 44,09 = 54,99 = 65,89 1
6 3 1 2 2 44
2 3 4 5 6
Atividade 1. Os dados abaixo representam o número de filhos por família de 32 famílias entrevistadas em um determinado hospital de Maceió: Tabela 6.15 – Número de filhos de 32 familias 0 1 1 2
1 2 3 2
2 1 2
0 3 3
3 2 1
3 4 3
0 1 0
1 3 2
4 1 2
2 2 1
Organize os dados e construa a tabela de distribuição de freqüências com dados agrupadas sem intervalos de classes. 2. O quadro a seguir apresenta as notas obtidas por 132 pessoas, em um exame de seleção para candidatos a professor de Biologia de uma determinada cidade. Agrupeas em ordem crescente e depois construa uma distribuição de freqüências com intervalos de classe. Tabela 6.16 – Notas de 132 candidatos de um exame de seleção 78 83 77 74 79 77 76 82 74 80 76 80 75 84 77 76 83 76 81 82 79 75 78 82 79 81 85 78 78 75 85 79 76 75 85 80 82 84 75 79 77 80 78 75 72 79 78 71 85 79 80 73 76 75 85 80 75 79 76 78 80 82 76 80 77 79 78 74 84 76 74 79 74 76 88 74 77 84 77 83 77 74 82 80 74 73 80 75 77 84 76 77 74 77 77 72 86 76 79 76 70 73 76 71 86 85
75 81 79 80 78 81 82 76 73 78 79 79 79
77 79 81 79 87 70 84 71 73 79 78 80 89
Determine também; a) b) c) d)
A porcentagem de candidatos com nota abaixo de 79. A porcentagem de candidatos com notas no intervalo 74 O ponto médio de cada intervalo de classe. A freqüência relativa da quinta classe.
3. As notas obtidas por 50 alunos de uma classe foram: 1 2 3 4 5 6 6 7 7 8 2 3 3 4 4 6 6 7 8 8 2 3 4 4 5 6 6 7 8 9 2 3 4 5 5 6 6 7 8 9 2 3 4 5 5 6 7 7 8 9
a. Complete a distribuição de freqüência abaixo: NOTAS
xi
f i
0 —2
1
1
2 —4
....
....
4 —6
....
....
6 —8
....
....
....
....
8 — 10
∑f i = 50
b. Agora responda: I. Qual a amplitude amostral? II. Qual a amplitude da distribuição? III. Qual o número de classes da distribuição? IV. Qual o limite inferior da quarta classe? V. Qual o limite superior da classe de ordem 2? VI. Qual a amplitude do segundo intervalo da classe?
⊢ 80.
c. Complete: I. h3 = .... II. n = .... III. l1 = .... IV. L3 = .... V. x2 = .... VI. f 5 = ....
4.
Complete a distribuição abaixo, determinando as freqüências simples:
xi
f i
Fi
2
....
2
3
....
9
4
....
21
5
....
29
6
....
34
∑ f i = 34
Gráficos Estatísticos
Gráfico é uma forma de apresentação de dados estatísticos, com o objetivo de produzir no investigador ou no público em questão uma impressão mais rápida e compreensível do problema pesquisado, através dos gráficos podemos interpretar melhor as séries estatísticas. O gráfico deve ser composto de simplicidade, clareza e veracidade, ou seja deve expressar a verdade e possibilitar um claro entendimento da pesquisa ao público interessado. Diagramas: são gráficos de no máximo duas dimensões; para sua construção, em geral, fazemos uso do sistema cartesiano.
Vamos apresentar os gráficos mais utilizados na hotelaria.
7.1 Gráfico em linha Constitui uma aplicação do processo de representação de funções num sistema de coordenadas cartesianas. Fazemos uso de duas retas perpendiculares; as retas são o eixo x (eixo das abscissas) e o eixo y (eixo das ordenadas). Exemplo 7.1: Para o melhor entendimento vamos considerar a seguinte série estatística:
Tabela 7.1 Entrada de turistas argentinos no Brasil. ANOS
QUANTIDADE (x1.000)
1994
787,117
1998
1.467,922
1999
1.548,571 Fonte: OMT
1800 1600 1400 1.467,92
1200
1.548,57
1000 800 600
787,117
400 200 0 1994
1998
1999
Grafico 7.1
Vamos considerar os anos como eixo x (abscissas) e as quantidades como ordenadas (eixo y). Assim um ano dado e sua respectiva quantidade formam um par ordenado.
7.2 Gráfico em colunas ou em barras É a representação de uma série por meio de retângulas, dispostos verticalmente (gráfico em colunas) ou na forma horizontal (gráfico em barras). Exemplo 7.2: Tabela 4.2 Visita de Turistas Estrangeiros ao Brasil ANOS
Número de Turistas (em milhões)
1994
1,8
1998
4,8
1999
5,1
2000
5,2
Fonte: Embratur
Veja abaixo as representações gráficas em colunas e barras em duas e três dimensões: Número de Turistas (em milhões) 6 5 4,8
4
5,1
5,2
1999
2000
3 2 1
1,8
0 1994
1998
Gráfico 2
Número de Turistas (em milhões) 6 5 1994
4
1998
3
1999
2
2000
1 0 1994
1998
1999
2000
Gráfico 3
Número de Turistas (em milhões) 2000
5,2
1999
1994
5,1
1998
1998
4,8
1994
1999 2000
1,8
0
1
2
3
Gráfico 4
4
5
6
Número de Turistas (em milhões) 2000
1994
1999
1998
1998
1999 2000
1994 0
1
2
3
4
5
6
Gráfico 5
7.3Gráficos em colunas ou em barras múltiplas Este tipo de gráfico é geralmente empregado quando queremos representar dois ou mais fenômenos estudados num mesmo gráfico com a finalidade de comparação. Exemplo 7.3:
Tabela 7.3 Clientes de um restaurante de um hotel Idade (anos)
Até 25
Hóspedes? Sim 20
Não 31
De 31 até 45 Mais de 45
49 41
70 49
70 60 50 40
Hóspedes? Sim
30
Hóspedes? Não
20 10 0 A té 2 5
De 2 6 até 3 5
Mais de 3 5
Grafico 6
A construção do gráfico em colunas (ou barras) associa a variação ocorrida em relação a hóspedes a uma cor de retângulos (azul), e a variação ocorrida a não hóspedes a outra cor (vermelha); dessa forma, é possível a visualização e comparação das variações ocorridas nesses dois casos. Este gráfico também poderia ter sido construído em barras múltiplas.
7.4 Gráfico de colunas comparativas a. Colunas Justapostas (gráfico comparativo) Exemplo 7.4: População Urbana do Brasil por Região de 1940 a 1980 (x 1000)
Gráfico 7
b. Colunas Sobrepostas (gráfico comparativo) Exemplo 7.5: População Urbana do Brasil por Região de 1940 a 1980 (x 1000)
Gráfico 8
7.5 Gráficos em Setores Gráfico construído com base em um círculo, e é empregado sempre que desejamos ressaltar a participação do dado no total. O total é representado pelo círculo, que fica dividido em tantos setores quantas são as partes. Obtemos cada setor por meio de uma regra de três simples e direta, lembrando que o total da série corresponde a 360º. O gráfico em setores só deve ser empregado , quando há, no máximo sete dados; Se a série já é apresentada de forma percentual, obteremos os seguintes valores em graus multiplicando por 3,6.
Exemplo 7.6: Criação de gado nos Estados da Região Sudeste.
Tabela 7.4 – Quantidade de cabeças de gado dos estados da região Sudeste ESTADOS
QUANTIDADE (1.000 cabeças)
Minas Gerais
3.363,7
Espírito Santo
430,4
Rio de Janeiro
308,5
São Paulo
2.035,9
Total
6.138,5
Utilizando a regra de três: 6.138 -------- 360º 3.363,7-------- X
X 1 = 197º X 2 = 25º X3 = 18º X4 = 120º Com esses dados (valores em graus), marcamos num círculo de raio arbitrário, com um transferidor , os arcos correspondentes , obtendo o gráfico abaixo:
QUANTIDADE (1.000 cabeças)
Minas Gerais Espírito Santo Rio de Janeiro São Paulo
Grafico 9
7.6 Gráfico Pictorial – Pictograma Tem por objetivo despertar a atenção do público em geral, muito desses gráficos apresentam grande dose de originalidade e de habilidade na arte de apresentação dos dados. Podem ser representados por diferentes formas de figuras, tais como pessoas, objetos, etc. Exemplo 7.7:
a) Evolução da matricula no Ensino Superior no Brasil de 1968 a 1994 (x 1000)
Grafico 10
b) Evolução da frota nacional de carros à álcool de 1979 à 1987
Gráfico 11
c)
Os métodos mais eficientes para deixar de fumar segundo 30.000 fumantes entrevistados no Canadá
Gáfico 12
d) Devastação de Matas: extração de madeiras no Brasil
Grafico 13
7.7 Gráfico Polar É o tipo de gráfico ideal para representar séries temporais cíclicas, ou seja, toda a série que apresenta uma determinada periodicidade. Como construir um gráfico polar
a. Traça-se uma circunferência de raio arbitrário (preferencialmente, a um raio de comprimento proporcional a média dos valores da série); b. Constrói-se uma semi-reta (de preferência horizontal) partindo do ponto 0 (pólo) e com uma escala (eixo polar); c. Divide-se a circunferência em tantos arcos forem as unidades temporais; d. Traça - se semi-retas a partir do ponto 0 (pólo) passando pelos pontos de divisão;
e. Marcam-se os valores correspondentes da variável, iniciando pela semi-reta horizontal (eixo polar); f. Ligam-se os pontos encontrados com segmentos de reta; g. Para fechar o polígono obtido, emprega-se uma linha interrompida.
Grafico 14
7.8 Cartograma É a representação de uma carta geográfica. Este tipo de gráfico é empregado quando o objetivo é o de figurar os dados estatísticos diretamente relacionados com as áreas geográficas ou políticas Dados absolutos (população) – usam-se pontos proporcionais aos dados. Dados relativos (densidade) – usa-se hachaduras.
Tabela 7.5 – População dos estados da Região Sul Estado
População (hab.)
Área (m²)
Densidade
Paraná
9.137.700
199.324
45,8
Santa Catarina
4.461.400
95.318
46,8
Rio Grande do Sul
9.163.200
280.674
32,6
Fonte: IBGE
Grafico 15
Atividade 1) Utilizar um gráfico de setores e o gráfico de colunas para representar a série abaixo: Tabela 7.6 – Meios de transportes utilizados por estudantes do IFAL
Meio de transporte
Número de estudantes (%)
Automóveis
20
Ônibus
58
Bicicletas
18
Moto
4
TOTAL
100
2. Represente a série abaixo usando o gráfico em linhas Tabela 7.7 - Comércio exterior Brasil 1984-1993
ANOS
Exportação
1984
141.737
1985
146.351
1986
133.832
1987
142.378
1988
169.666
1989
177.033
1990
168.095
1991
165.974
1992
167.295
1993
182.561
3) Usando o gráfico em barras, represente a tabela: Tabela 7.8 - Produção de ovos de galinha Brasil – 1992 Regiões
Quantidade (1.000 dúzias)
Norte
57.297
Nordeste
414.804
Sudeste
984.659
Sul
615.978
Centro-Oeste
126.345
4) A tabela abaixo representa o desmatamento detectado pela Secretaria de Meio Ambiente do Mato Grosso (SEMA), (SEMA), no período de 2003 a 2005, faça os gráficos de setores e de coluna: Tabela 7.9 ÀREA DESMATADA REGIÕES
( km 2 )
Centro-Norte
13520
Noroeste
5792
Extremo Norte
5212
Nordeste
3575
Sudoeste
1791
Sudeste
1444
Sul
695
TOTAL
5) Os dados a seguir referem-se aos casos e incidência (por 100.000 habitantes) de tuberculose pulmonar por faixa etária no município X em 2002. Desenhe o grafico de colunas para essa distribuição. d istribuição. Tabela 7.10
Faixa etária (anos)
fi
0 – 4
8
5 – 14
7
15 – 24
7
25 – 44
19
45 – 64
22
65 +
9
Total
72
Medidas de Posição
Medidas de Posição
Vimos anteriormente a sintetização de dados sob a forma de tabelas e gráficos. Agora vamos aprender o cálculo de medidas que possibilitam representar um conjunto de dados de forma reduzida, ressaltando as tendências de cada conjunto isoladamente ou em confronto com outros. Tais medidas são chamadas de Medidas de Posição. As medidas de posições mais importantes são as medidas de tendência central que recebem tal dominação pelo fato de que os dados observados tenderem, em geral, a se agrupar em torno de valores centrais. Dentre as medidas de tendência central veremos:
Média Aritmética Mediana Moda
8.1 Média Aritmética Simples (dados não agrupados) A média aritmética simples de um conjunto de valores é igual ao quociente entre a soma desses valores e o número total deles. Sendo x1 , x2 , x3 ,
, xn os n valores da variável x, a média aritmética simples
desses valores e representada por X é definida por X
x
i
n
Exemplo 8.1 – Determine a média aritmética simples dos conjuntos de valores 3, 4, 5, 6, 7. X
3 4 5 6 7 5
25 5
5
8.2 Média Aritmética Ponderada (dados agrupados) Quando os dados estiverem agrupados numa distribuição de freqüência, usaremos a média dos valores x1 , x2 , x3 , absolutas: f 1 , f 2 , f 3 ,
, f n
, xn ponderados pelas respectivas freqüências
Assim: X
f x f i
i
, onde
f n i
i
Exemplo 8.2 - Dados agrupados sem intervalos de classe
Os dados da distribuição de freqüências representam o número de filhos por família de 32 famílias entrevistadas em um determinado ambulatório médico. Determine a média aritmética dos dados da distribuição. Tabela 8.1 – Número de filhos por familia
X
f x f i
i
i
61 32
Nº de filhos por Famílias ( f i ) família ( x i )
xi f i
0 1 2 3 4 Total
0 8 20 21 12 61
4 8 10 7 3 N=32
1,9
Exemplo 8.3 - Dados agrupados com intervalo de classe
Foi feito um estudo sobre a concentração de nitratos na água de 100 bueiros que deságuam em uma lagoa. Os resultados são apresentados na Tabela 8.2. Determine a média aritmética dessa distribuição (nesse caso, o x i é o ponto médio da classe): Tabela 8.2 – Concentração de nitrato na água de 100 bueiros Concentração de Ni- Número de bueiros trato (mg/l) ( f i )
x i
xi f i
140 |--- 160 160 |--- 180 180 |--- 200
150 170 190
1050 3400 6270
7 20 33
200 |--- 220 220 |--- 240 240 |--- 260
25 11 4 100
X
210 230 250
f x f i
i
i
19500 100
5250 2530 1000 19500
195
Logo, a média de concentração de nitrato na água é de 195mg/l
8.3 Mediana É o elemento que ocupa a posição central de um conjunto de dados, cujos valores estão colocados na ordem crescente. A mediana é representada por Md.
8.3.1 Determinação da Mediana para dados não agrupados
Quando o número de elementos for ímpar, a mediana será o elemento de ordem n 1 n 1 , iso é, Md Elemento que está na posição 2
2
Quando o número de elementos for par, a mediana será a média aritmética dos elementos de ordem
n 2
e
n
2
1.
n n Elemento que está na posição Elemento que está na posição 1 2 2 Md
2
Exemplo 8.3 - Determine a mediana dos conjuntos de valores abaixo:
X (2, 3, 5, 6, 7, 8, 9) Y (1, 2, 4, 5, 6, 7, 8, 9) Como o número de elementos do conjunto X é ímpar (n = 7), a mediana é o elemento de ordem
n 1 2
7 1 2
8 2
4 , isto é, a mediana é o 4º elemento do conjunto, logo Md=6
Observamos que 50% dos elementos estão abaixo da mediana e 50% estão acima. No conjunto Y, o número de elementos é par (n = 8), a mediana é a média dos elementos de ordem
n 2
8 2
4 e
n 1 2
8 2
1 4 1 5
Tomando então a média dos elementos que estão nas posições 4º e 5º, respectivamente, temos que a mediana é n n Elemento que está na posição Elemento que está na posição 1 2 2 5 6 5,5 Md
2
2
8.3.2 Determinação da Mediana para dados agrupados sem intervalo de classe
Se os dados se agrupam em uma distribuição de freqüência, o cálculo de mediana se processa de modo semelhante a aquele dos dados não agrupados, implicando, porém, a determinação prévia das freqüências acumuladas, pois é ela que indica onde está a posição da mediana. Exemplo 8.4 - Determine a mediana da distribuição abaixo: Tabela 8.3 - Distribuição de frequencia do número de filhos por familia
Nº de Filhos
f i
Fac
0
3
3
1
2
5
2
4
9
3
6
15
4
3
18
5
2
20
Σ
20
-
Como n = 30, n é par, logo a mediana será a média aritmética entre os elementos de ordem n 2
20 2
10 e
n
2
1
20 2
1 11 .
Assim, o 10º elemento corresponde a 3 e o 11º elemento corresponde a 3, logo: n n Elemento que está na posição Elemento que está na posição 1 2 2 3 3 3 Md
2
8.3.3 Cálculo da mediana para dados agrupados com intervalo de classe Nesse caso a mediana é determinada pela seguinte fórmula:
n F ac an t hi Md l inf 2 f i Onde:
n 2
é a posição da mediana
l inf – Limite inferior da classe mediana F ac an t – Freqüência acumulada anterior a classe mediana
f i – Freqüência absoluta da classe mediana
hi – amplitude do Intervalo da classe mediana
2
Exemplo 8.5 - Determine a mediana da distribuição abaixo: Tabela 8.4 Tempo Serviço
de
f i
Fac
2 |― 6
4
4
6 |― 10
7
11
10 |― 14
13
24
14 |― 18
9
33
18 |― 22
5
38
Σ
38
1º passo: calcular a posição da mediana, isto é,
n 2
38 2
19 , logo a mediana está na dé-
cima nona posição. 2º passo: pela F ac identifica-se a classe que contém a mediana ( F ac = 24, cuja classe é 10 |― 14).
3º passo: Determinar a freqüência acumulada anterior a freqüência da classe da media-
na, isto é, F ac an t 11 4º passo: Limite inferior da classe mediana, isto é,
l inf 10
5º passo: Determinar a freqüência absoluta da classe mediana, isto é,
f i 13
6º passo: Determinar a amplitude do intervalo da classe mediana, isto é,
hi 14 10 4 7º passo: utiliza-se a fórmula
n F ac an t hi , Md l inf 2 f i
n F ac an t 19 11 2 hi 10 4 10 2,7 12,7 Logo, Md l inf f i 13 Dizemos então que 50% dos dados da distribuição está abaixo de 12,7 e os outros 50 % estão acima.
8.4 Moda É a mais simples das medidas de centro: é o valor que ocorre com maior freqüência num conjunto de valores, isto é, é o valor que aparece em maior número de vezes . É representada por Mo. 8.4.1 Dados agrupados
Neste caso a moda é facilmente reconhecida de acordo com a definição, basta procurar o valor que mais se repete. Exemplo 8.6 - Determine a moda no conjunto de valores: 2, 3, 4, 4, 5, 6, 7.
Como o número 4 ocorre mais vezes, então a Mo = 4.
Quando na série não existe valor que apareça mais vezes que outros, dizemos então que a série não possui moda, isto é, ela é amodal . Quando existe uma única moda, a série é modal . Quando existem duas modas a série é bimodal . Quando existe mais de duas modas a série chamasse multimodal .
8.4.2 Dados agrupados sem intervalo de classe
A determinação da moda é imediata, bastando localizar na tabela o valor que tem maior freqüência.
Exemplo 8.7 - Vejamos: Determine a moda dos valores da tabela abaixo: Tabela 8.5 Pontos
f i
0
2
1
5
2
9
3
7
5
6
6
4
Σ
33
Mo = 2, pois o valor 2 aparece nove vezes, isto é, possui a maior freqüência (9).
8.4.3 Dados agrupados com intervalo de classe
A moda, nesse caso, é determinada através do método de C ZUBER, cuja fórmula é a seguinte:
Mo l inf
d 1 d 1 d 2
hi
Onde:
l inf – Limite inferior da classe modal d 1 – é a diferença entre a frequencia simple da classe modal e a frequencia simples anterior a classe modal, isto é, d 1
f Mo f an t
d 2 – é a diferença entre a frequencia simple da classe modal e a frequencia simples posterior a classe modal, isto é, d 2
f Mo f po st
hi – amplitude do Intervalo da classe modal
Exemplo 8.8 - Determine a moda para a distribuição abaixo: Tabela 8.6 Idades
f i
20 |― 25
5
25 |― 30
8
30 |― 35
11
35 |― 40
6
40 |― 45
3
n
33
1º passo: indica-se a classe modal. No caso, a 3ª classe (30 |― 35) , pois, tem a maior freqüência (11). 2º passo: Determinar a freqüência simples (ou absoluta) anterior a freqüência da classe
modal, isto é, f an t 8 , e a freqüência simples (ou absoluta) posterior a freqüência da classe modal, isto é, f po st 6 , 3º passo: Determinar d 1 e d 2 , isto é
d 1 f Mo f an t 11 8 3 e d 2 f Mo f post 11 6 5
4º passo: Limite inferior da classe modal, isto é,
l inf 30
5º passo: Determinar a amplitude do intervalo da classe modal, isto é, hi 6º passo: aplica-se a fórmula de C ZUBER
Mo l inf
d 1 d 1 d 2
Logo, Mo l inf
hi d 1
d 1 d 2
hi 30
3 35
5 30 1,9
35 30 5
Portanto, Mo=31,9
8.5 Emprego das Medidas de Tendência Central
A Média é utilizada quando: a) Desejamos obter a medida de posição que possui a maior estabilidade. b) Houver necessidade de um tratamento ulterior.
A Mediana é utilizada quando: c) Desejamos obter o ponto que divide a distribuição em partes iguais. d) Há valores externos que afetam de uma maneira acentuada a m édia. e) A variável em estudo é salário.
A Moda é utilizada quando: a) Desejamos obter uma medida rápida e aproximada de posição. b) A medida de posição deve ser o valor mais típico da distribuição.
Atividade 1- O quadro a seguir apresenta a faixa de renda dos pescadores de Marechal Deodoro. Determine a média de salários, o salário mais freqüente e o salário mediano dos pescadores. Faixa de Renda: de 50 à R$200 de 201 à R$350 de 351 à R$500 de 501 à R$700
f i 32 24 7 1
Fonte: Alunos de Gestão Ambiental - 2007.1 2-
Use a distribuição de freqüência dada abaixo, para determinar a idade média, a idade mais freqüente e a idade mediana dos habitantes de Medicine Bow,Wyoming. Idade
Freqüência
0 --- 9
57
10 --- 19
68
20 --- 29
36
30 --- 39
55
40 --- 49
71
50 --- 59
44
60 --- 69
36
70 --- 79
14
80 --- 89
8
(Fonte: U.S. Bureau of the Census)
3.
A tabela abaixo apresenta a distribuição de freqüências dos dados de peso em kg de 20 crianças submetidas a um determinado tratamento no Hospital de clinicas de Uberlândia, MG, 2006. Determine a freqüência relativa e as freqüências acumuladas e o peso médio dessas crianças. Pesos ( em kg) 38,5 |− 43,5 43,5 |− 48,5 48,5 |− 53,5 53,5 |− 58,5 58,5 |− 63,5 Total
freqüência 3 4 7 4 2
Fonte: Hospital de clinicas de Uberlândia, MG – 2006
4.
Os dados a seguir referem-se aos casos e incidência (por 100.000 habitantes) de tuberculose pulmonar por faixa etária no município X em 2002. Determinar as freqüências relativas e acumuladas, a idade média, a idade mais freqüente e a idade mediana dos habitantes com tuberculose desse município.
Faixa etária (anos)
fi
0 – 4
8
5 – 14
7
15 – 24
7
25 – 44
19
45 – 64
22
65 +
9
Total
72
5.
Os dados a seguir referem-se aos salários de uma empresa. Determinar as freqüências relativas e acumuladas e a média dos salários dessa empresa. Salários (R$)
f i
500 700
18
700 900
31
900 1.100
15
1.100 1.300
3
1.300 1.500
1
1.500 1.700
1
1.700 1.900
1
Total
= 70
Medidas de Variabilidade
Medidas de Variabilidade
As medidas de tendencia central descritas anteriomente sãi uteis por identificarem um valor “tipico” em um conjunto de dados. Por outro lado, as medidas de variabilidade dizem respeito à descrição d eum conjunto de valores em termos da variabilidade existenet entre os itens incluidos dentro do conjunto. São diponiveis diversas tecnicas para a medida da variabilidade em um conjunto de dados. Serão descritos neste capituo a amplitude total, o desvio médio, a variância, o desvio-padrão e o coeficeinte de variação.
9.1 Amplitude total A amplitude total, ou AT , é a diferença entre o maior valor e o menor valor de uma distribuição de freqüência ou de uma série AT X max X min
X max maior valor observado na série X min menor valor observado na série
9.1.1 Amplitude total para dados não agrupados Exemplo 9.1: O peso atingido por dois grupos de recém-nascidos prematuros de extremo baixo peso foi registrado em dez semanas consecutivas, conforme tabela abaixo. Determinar a amplitude total de cada uma delas Amplitude total de A = 670 – 560 = 110g Amplitude total de B = 900 – 330 = 570g
A amplitude total é fácil de calcular porque só usa dois números do conjunto de dados.
Tabela 9.1 – Peso de dois grupos de recem-nascidos prematuros
Grupo A
Grupo B
560
330
560
420
570
480
580
520
610
570
630
670
630
670
Média = 615g
670
770
Média = 615g
Mediana = 620g
670
820
Mediana = 620g
Moda = 670g
670
900
Moda = 670g
9.1.2 Amplitude total para dados agrupados sem intervalo de classe Exemplo 9.2: Os dados da distribuição de freqüências representam o número de filhos por família de 32 famílias entrevistadas em um determinado hospital. Vamos determinar a amplitude total desta distribuição
Tabela 9.2 – Distribuição do número de filhos por familia Nº de filhos por família (xi) 0 1 2 3 4 Total
Famílias ( f i ) 4 8 10 7 3 N=32
Amplitude total = 4 - 0 = 4
9.1.3 Amplitude total para dados agrupados com intervalo de classe
A expressão AT X max X min para os dados agrupados com intervalos de classe é escrita da seguinte forma: AT Lmax Lmin
Lmax Limite superior da última classe Lmin Limite inferior da primeira classe
Exemplo 9.3: Foi feito um estudo sobre a concentração de nitratos na água de 100 bueiros que deságuam em uma lagoa. Os resultados são apresentados na Tabela:
Tabela 9.3 – Concentração de nitrato por bueiros Concentração de Nitrato Número de bueiros ( f i ) (mg/l) 140 |--- 160 7 160 |--- 180 20 180 |--- 200 33 200 |--- 220 25 220 |--- 240 11 240 |--- 260 4 n 100 AT Lmax Lmin 260 140 120 mg/l
Conhecer apenas a amplitude total da distribuição é levar em consideração somente os extremos, sem considerar os termos internos, e, nesse caso, o resultado não representa se há equilíbrio ou não na distribuição dos termos da série.
9.2 Desvio Para aprender a calcular medidas de variação que usem todos os valores do conjunto de dados, primeiro você precisa saber o que é um desvio O desvio de cada valor x é a diferença entre o valor de x e a média do conjunto de dados. Em uma população, o desvio de cada valor x é: x
Em uma amostra, o desvio de cada valor x é: x x Exemplo 9.4: Do exemplo 9.1, temos que:
Tabela 9.4 – Tabela de Desvios x
x
x
x
560
-55
330
-285
560
-55
420
-195
570
-45
480
-135
580
-35
520
-95
610
-5
570
-45
630
15
670
55
630
15
670
55
670
55
770
155
670
55
820
205
670
55
900
285
( x ) 0 A soma dos desvios é sempre zero.
9.3 Desvio Médio 9.3.1 Desvio Médio para dados não agrupados
O desvio médio, ou DM, é baseado na diferença entre cada valor de um conjunto de dados e a média do conjunto de dados. O que é calculado é a média destes desvios em valores absolutos (módulo). Utilizando a população temos: DM
Utilizando a amostra temos: DM
x N
x x n
Exemplo 9.5: Durante certo mês, foi feito um estudo para determinar a concentração de progesterona na saliva de pacientes de determinado hospital, conformes os dados a seguir: 8, 11, 5, 14, 8, 11, 16, 11. A média aritmética é 10,5 ng/ml. Assim, a tabela dos desvios é dada por:
Tabela 9.5 – Concentração de progesterona na saliva de pacientes
x
x
x
5 8 8 11 11 11 14 16
-5,5 -2,5 -2,5 0,5 0,5 0,5 3,5 5,5 Total
5,5 2,5 2,5 0,5 0,5 0,5 3,5 5,5 21,0
Utilizando os cálculos da tabela, o desvio médio é calculado da seguinte forma: DM
x 21,0 2,625 2,6 ng / ml N
8
Desta forma, podemos dizer que, em média, as concentrações de progesterona na saliva de pacientes, diferem por 2,6 ng/ml da média aritmética do grupo, em ambas as direções. 9.3.2 Desvio Médio para dados agrupados
Para dados agrupados em uma distribuição de freqüências, o desvio médio é dado por: : DM
DM
f x i
N
f i x x n
se utilizarmos a população;
se utilizarmos a amostra.
Exemplo 9.6: Os dados da distribuição de freqüências representam o número de filhos por família de 32 famílias entrevistadas em um determinado hospital. Vamos determinar o desvio médio desta distribuição.
Tabela 9.6 – Número de filhos por familia Nº de filhos por família (x) 0 1 2 3 4 Total
Famílias ( f i )
xf i
x
f i x
4 8 10 7 3 N=32
0 8 20 21 12
1,9 0,9 0,1 1,1 2,1
7,6 7,2 1 7,7 6,3 29,8
A média é dada dividindo
xf 61 i
xf por N, isto é, 1,90625. Logo, o desvio médio é dai
do por: DM
f x 29,8 0,93 i
N
32
9.3.3 Desvio Médio para dados agrupados em intervalos de classe
Para dados agrupados em uma distribuição de freqüências em intervalos de classe, o ponto médio de cada classe é tomado pra representar todas as medidas incluídas no intervalo de classe. Assim, o desvio médio é dado como a expressão anterior. : DM
DM
f x i
N
f i x x n
se utilizarmos a população;
se utilizarmos a amostra.
Exemplo 9.7: Os dados, da distribuição de freqüências abaixo, representam o um estudo sobre a concentração de nitratos na água de 100 bueiros que deságuam em uma lagoa. A média de concentração de nitrato na água é 195mg/l. O desvio médio é calculado da seguinte forma, partindo dos cálculos da tabela:Os resultados são apresentados na Tabela: DM
f x 1960 19,60 i
N
100
Tabela 9.7: Folha de calculo para determinar o desvio médio para dados agrupados em intervalos de classe
Concentração de nitrato (mg/l) 140 |--- 160 160 |--- 180 180 |--- 200 200 |--- 220 220 |--- 240 240 |--- 260
Nº de bueiros Ponto Médio ( x ) ( f i )
x
f i x
7 20 33 25 11 4 100
45 25 5 15 35 55
315 500 165 375 385 220 1960
150 170 190 210 230 250
9.4 Variância e Desvio Padrão A Variância é similar ao desvio médio no sentido de que é também baseado nas diferenças entre cada valor do conjunto de dados e a média aritmética do conjunto de dados. Ela difere do desvio médio uma vez que aquelas diferenças são elevadas ao quadrado antes de serem somadas. Para uma determinada população, a variância populacional:é representada pela letra grega minúscula 2 (ler “sigma quadrado” ou “sigma dois”), sendo dadas pelas formulas:
2
2
( x )
2
, para dados não agrupados.
N
f ( x )
2
i
N
, para dados agrupados sem intervalos de classe.
f i xi , para dados agrupados em inou 2 2 N N N tervalos de classe, onde xi indica o ponto médio de cada intervalo de classe. f i ( xi ) 2
f i xi
2
Exemplo 9.8: Para os dados de concentração de progesterona nos pacientes do exemplo 9.2, a média aritmética é 10,5 ng/ml. Considerando os dados como sendo uma população estatística de interesse, a variância é determinada como segue, a partir da tabela 9.8.
2
( x ) N
2
86 8
10,75
Tabela 9.8 – Calculo para determinar a Variância para dados não agrupados
x
x
5 8 8 11 11 11 14 16
-5,5 -2,5 -2,5 0,5 0,5 0,5 3,5 5,5 Total
( x ) 2 30,25 6,25 6,25 0,25 0,25 0,25 12,25 30,25 86,00
Ao contrario da situação para outras estatísticas amostrais, a variância para uma amostra não é, em termo computacional, exatamente equivalente à variância da população. Antes, o denominador da fórmula da variância da amostra é ligeiramente diferente. Essencialmente, é introduzido um fator de correção nesta expressão, de tal forma que a variância amostral seja um estimador não tendencioso da variância populacional. A variância da amostra é representada por s², e suas fórmulas são dadas por:
s
2
( x x)
2
n 1
s 2
, para dados não agrupados
f i ( x x) 2 n 1
2 f x 2 1 i 2 , para dados agrupados f i x ou s n 1 n
sem intervalo de classe.
s 2
f ( x x) i
i
n 1
2 2 ou s
1
f x 2
f x n 1 i
2 i
i
n
i
,para dados agrupados
em intervalos de classe, onde x i indica o ponto médio de cada intervalo de classe. Exemplo 9.9: Para os dados, da distribuição de freqüências do exemplo 9.4, que representam a concentração de nitratos na água de 100 bueiros que deságuam em uma lagoa, a média do valor das concentrações de nitratos é 195 mg/l. Considerando aqueles dados como sendo uma amostra estatística de interesse, a variância é determinada como segue, a partir da tabela 9.9:
s
2
f ( x x) i
i
n 1
2
58700 99
592,93
Tabela 9.9: Folha de calculo para determinar a variância para dados agrupados em intervalos de classe Concentração de nitrato (mg/l) 140 |--- 160 160 |--- 180 180 |--- 200 200 |--- 220 220 |--- 240 240 |--- 260
( f i )
Ponto Médio x x ( x )
( x x) 2
f i ( x x) 2
7 20 33 25 11 4 100
150 170 190 210 230 250
2025 625 25 225 1225 3025
14.175 12.500 825 5.625 13.475 12.100 58.700
-45 -25 -5 15 35 55
Em geral, é difícil interpretar o significado do valor da variância porque as unidades nas quais tal valor é expresso não são as mesmas do que as das observações do conjunto de dados. Por esta razão, a variância não é muito utilizada para representar algo que ocorreu com os dados pesquisados. Desta forma, a mais utilizada é a medida relacionada com a raiz quadrada da variância, representada pela letra grega para a população (ou s para a amostra) e chamada de desvio padrão, é o que se utiliza com mais freqüência. As fórmulas são:
x
2
Desvio padrão populacional para dados não agrupados:
N
x x
2
Desvio padrão amostral para dados não agrupados s
n 1
f x
2
Desvio padrão populacional para dados agrupados:
f x i
2 i
N
f i xi N
s
i
f x 2
f x n 1
2 i
i
n
N
2
Desvio padrão amostral para dados agrupados s 1
i
i
f i x x n 1
2
ou
ou
O desvio padrão é particularmente a medida mais usada na comparação de diferenças entre conjuntos de dados, por ter grande precisão, uma vez que é utilizada em conjunção com numerosos métodos de inferência estatística. O desvio padrão determina a dispersão dos valores em relação à média. Exemplo 9.10: Para os dados, da distribuição de freqüências do exemplo 9.1, temos o peso atingido por dois grupos de recém-nascidos prematuros de extremo baixo peso, que foram registrados em dez semanas consecutivas. A média é 615g. Considerando aqueles dados como sendo uma amostra estatística de interesse, o desvio-padrão é determinado como segue, a partir da tabela.
x
2
A
N
x
18850
301850
2
B
N
10
10
188,50 13,73 g
30185 549,41g
Tabela 9.10: Indica os desvios padrões de cada grupo de prematuros Grupo A
Grupo B
x
x ( x )²
560
-55
560
-55
570
-45
580
-35
610
-5
630
15
630
15
670
55
670
55
670
55
3025 3025 2025 1225 25 225 225 3025 3025 3025 18850
x
x ( x )²
330
-285
420
-195
480
-135
520
-95
570
-45
670
55
670
55
770
155
820
205
900
285
81225 38025 18225 9025 2025 3025 3025 24025 42025 81225 301850
9.5Interpretação do Desvio Padrão Há varias regras que permitem compreender o que revela o desvio-padrão. A Figura abaixo mostra que para dados distribuídos de modo (pelo menos aproximadamente) simétrico, tem-se:
–4
68% das observações feitas estão a um desvio padrão da média (diz-se que estão entre menos um e mais um desvio padrão da média), denominada de zona de neutralidade ou normalidade. 95% das observações feitas estão a dois desvios padrão da média (diz-se que estão entre menos dois e mais dois desvios padrão da média). 99% das observações feitas estão a três desvios padrão da média (diz-se que estão entre menos três e mais três desvios padrão da média).
–3
–2
–1
0
1
2
3
4
9.6 Coeficiente de Variação (C.V.) Trata-se de uma medida relativa de dispersão, útil para a comparação em termos relativos do grau de concentração em torno da média de séries distintas. È dado por:
C .V
100
ou
C .V
s x
100
Exemplo 9.11: Num hospital, o salário médio dos homens é de R$4.000,00, com desvio-padrão de R$1.500,00, e o das mulheres é em média de R$3.000,00, com desviopadrão de R$1.200,00. Então: C .V
Para os homens
s
x
C .V
Para as mulheres
1.500 4.000
s
x
0,375
1.200 3.000
0,4
Logo, podemos concluir que os salários das mulheres apresentam maior dispersão relativa que os dos homens. Para obtermos o resultado do C.V. em porcentagens, basta multiplicarmos o resultado por 100. No caso: C.V. para homens 37,5% C.V. para mulheres 40% Exemplo 9.12: Para os dados, da distribuição de freqüências do exemplo 9.7, que a média é 615g e o desvio padrão para A e B são, respectivamente, 13,73g e 549,41g. Considerando esses dados como sendo uma amostra estatística de interesse, o coeficiente de variação é determinado como segue, CV A
CV B
13,75
549,41
615
615
100 2,24%
100 89,33%
Logo, o grupo mais homogêneo é o grupo A.
Atividade 1. O quadro a seguir apresenta a faixa de renda dos pescadores de Marechal Deodoro. Determine o desvio médio, variância, desvio padrão, coeficiente de variação e o intervalo da zona de neutralidade. Faixa de Renda:
fi
de 50 à R$200
32
de 201 à R$350
24
de 351 à R$500
7
de 501 à R$700
1
2. O quadro a seguir apresenta a faixa etária dos pescadores de Marechal Deodoro. Determine o desvio padrão, o coeficiente de variação, o intervalo da zona de neutralidade e a amplitude dos 95% centrais desta distribuição. Faixa Etária:
fi
de 15 à 25:
6
de 26 à 30:
5
de 31 à 40:
17
de 41 à 50:
21
de 51 à 60:
13
de 61 à 70
13
Total
75
Introdução a Probabilidade
10.1
Métodos de Contagem
Os problemas de contagem são, em muitas vezes, considerados difíceis entre estudantes e professores, apesar das técnicas matemáticas necessárias serem bastante elementares: essencialmente, o conhecimento das operações aritméticas de soma, subtração, multiplicação e divisão. O objetivo principal deste material é levar o estudante a trabalhar com problemas de contagem e a ver que, afinal de contas, tais problemas podem ser resolvidos com raciocínios simples na grande maioria dos casos, sem exigir o uso de fórmulas complicadas. Veja os exemplos abaixo. Exemplo 10.1. Um quadro com a forma abaixo vai ser pintado utilizando duas cores das tres cores dadas.
Figura 10.1
a. Liste todos os possíveis quadros. Quantos são eles? Solução. È importante ter um procedimento sistemático para listar todos os possíveis quadros, sem repeti-los. Desta forma, devemos identificar as diferentes decisões a serem tomadas e examinar todas as possibilidades para cada um deles. No caso deste problema, uma forma natural para planejar o preenchimento do quadro é:
Escolher a cor a ser utilizada para parte externa do circulo; Em seguida, escolher a cor interna para o círculo. A primeira decisão pode ser feita de 3 modos diferentes, já que a cor externa pode ser qualquer uma das disponíveis. Uma vez tomada esta decisão, a cor escolhida não pode mais ser usada para o circulo interno. Por exemplo, se a cor amarela for escolhida para a parte externa, a cor interna deverá ser verde ou branca. Então, podemos listar todos os possíveis quadros, que são 6, de acordo com a figura abaixo.
Cor externa amarela
Cor externa branca
Cor externa verde
Figura 10.2
Um fato importante, que pode ser explorado na contagem eficiente do número possível de quadro, é o seguinte: as cores disponíveis para pintar o circulo mudam de acordo com a escolha da parte externa, mas a sua quantidade é sempre a mesma, já que, qualquer que seja a cor externa escolhida. Portanto, poderíamos ter empregado o seguinte raciocínio para contar o número de possíveis quadros. Sem listá-los. A cor externa pode ser escolhida de três formas diferentes. Qualquer que seja esta escolha, a cor do circulo pode ser escolhida de duas formas. Logo, o número total de possibilidades é 2+2+2=3x2=6. procedimento acima nos mostra o Principio Multiplicativo ou Principio Fundamental da Contagem: Se uma decisão decisão
D1 pode ser tomada de p modos e, qualquer que seja esta escolha, a
D2 pode ser tomada de q modos, então o número de maneiras de se tomarem
consecutivamente consecutivamente as decisões D1 e D2 é igual a pq.
Podemos ilustra o Principio Multiplicativo com o auxilio de uma árvore de enumeração como mostra a Figura 10.3 a seguir. Cor do circulo Cor externa
Figura 10.3
Problemas
1) De acordo com o quadro abaixo, quantos são os possíveis quadros no caso em que 4 cores estão disponíveis?
2) Quantas são as formas de pintar o quadro a seguir utilizando 3 cores diferentes dentre 4 dadas?
De acordo com o exemplo e os problemas acima, você deve ter percebido qual é a estratégia para resolver problemas de contagem: I. Postura: Devemos sempre nos colocar no papel da pessoa que está fazendo a ação solicitada pelo problema e ver que decisões devemos tomar. Nas diversas situações, nós nos solocamos no papel da pessoa que deveria colorir o quadro. II. Divisão: devemos, sempre que possível, dividir as decisões a serem tomadas em decisões mais simples, correspondentes às diversas etapas do processo de decisão. Colorir o quadro foi dividido em colorir cada região. III. Não adiar dificuldades: Pequenas dificuldades adiadas costumam se transformar em imensas dificuldades. Se uma das decisões a serem tomadas for mais restrita que as demais, essa é a decisão que deve ser tomada em primeiro lugar. Uma das principais aplicações das técnicas de contagem é a resolução de problemas simples de Probabilidade. O interesse dos matemáticos no estudo sistemático de probabilidades é relativamente recente e tem suas raízes no estudo dos jogos de azar. O termo probabilidade é usado de modo muito amplo na conservação diária para sugerir certo grau de incertezas sobre o que ocorreu no passado, o que ocorrerá no futuro ou o que está ocorrendo no presente. O estudante poderá ficar contente porque acha que sua “probabilidade“ de passar nas p rovas é grande. Os testes diagnósticos são uma aplicação à medicina de probabilidade e baseasse no seguinte: Uma suspeita de que um paciente padeça de certa enfermidade, que há uma incidência da enfermidade na população (probabilidade de que a enfermidade atinja uma pessoa escolhida ao acaso.. Como ajuda ao diagnostico da enfermidade, fazemos o paciente passar por uma série de provas (testes) que dão como resultado : Positivo(+) ou Negativo (-). A idéia de probabilidade desempenha papel importante em muitas situações que envolvam uma tomada de decisão. Suponhamos que um empresário deseja lançar um novo produto no mercado. Ele precisará de informações sobre a “probabilidade” de s ucesso para seu novo produto. Os modelos probabilísticos podem ser úteis em diversas áreas do conhecimento humano, tais como: Biologia, Economia, Administração, Engenharia e outros ramos da ciência. Para avaliar a probabilidade de um evento, podemos basear-nos em duas escolas de pensamento. 1º. A escola objetiva ou clássica, na qual as regras do calculo das probabilidades devem ser aplicadas somente a eventos que podem ser repetidos indefinidamente sob as mesmas condições. Tais fundamentos garantem que se duas pessoas, iso-
ladas e acuradamente, determinassem a probabilidade de certo evento, chegariam ao mesmo resultado. Por exemplo: Uma probabilidade associada ao fato de se receberem duas figuras em um jogo de cartas, ou de ganhar numa loteria em que 15000 pessoas possuam bilhetes, pois os “exper imentos” podem ser repetidos sob as mesmas condições, e diferentes pessoas avaliariam com os mesmos valores tais possibilidades. Adeptos dessa escola jamais cogitariam atribuir a “prob abilidade” de que o Flamengo ganhe no seu próximo jogo ou de que João seja pr imeiro homem a pisar em Marte. Tais eventos não resultam de experimentos que possam ser repetidos sob as mesmas condições. 2º. Para a avaliação desses experimentos, deveremos valer-nos dos fundamentos da “escola subjetiva” ou personalista. Tal escola considera que a probabilidade de
certo evento é medida pelo grau de crença que cada pessoa atribui à ocorrência desses eventos. Evidentemente, neste caso, teremos diferentes “possibilidades”
para um mesmo evento. Mesmo admitindo a dificuldade originada por diferentes probabilidades ao mesmo evento, os defensores dessa escola crêem que as pessoas que se utilizam sistematicamente das probabilidades subjetivas conseguem tomar decisões acertadas.
10.2 Conceitos básicos 10.2.1 Experimento Aleatório
Experimento Aleatório é aquele que poderá ser repetido sob as mesmas condições indefinidamente. Tal experimento apresenta variações de resultados, não sendo possível afirmar a priori qual será sua determinação antes que o mesmo tenha sido realizado. É possível entretanto, descrever todos os possíveis resultados – as possibilidades. A palavra Fenômeno significa experimento e a palavra aleatório significa causal. As principais características de um experimento aleatório são:
Pode ser repetido indefinidamente sob as mesmas condições; Em qualquer repetição do experimento, não sabemos, com certeza, qual particular resultado, de todos os possíveis, irá ocorrer, embora posamos precisar quais sejam esses possíveis resultados. Perguntas como as seguintes ilustram algumas situações imprevisíveis:
Quantas pessoas ganharão o premio da Mega Sena da próxima semana?
Lançando dois dados, qual será a soma dos pontos das faces superiores?
Quantos automóveis estarão circulando na cidade de Maceió em 2015?
Lançando uma moeda, que face ficará para cima , cara ou coroa?
O sorteio dos números das Mega Sena, o lançamento dos dois dados e da moeda e a determinação do número de carros que circularão em Maceió em 2015 são fenômenos que podem apresentar dois ou mais resultados: eles são considerados fenômenos aleatórios. 10.2.2 Espaço Amostral
Os resultados de uma experiência que envolve um fenômeno aleatório dependem do interesse do pesquisador, isto é, e que o observador deseja focalizar sua atenção. Como descrever matematicamente uma experiência desse tipo e seus resultados? Parece natural nós falarmos de conjunto de resultados possíveis para um experimento aleatório. Assim, utilizaremos conuntos para descrever esses possíveis resultados. O conjunto de todos os possíveis resultados de um experimento aleatório chamará Espaço Amostral e representaremos pela letra S. Um espaço amostral S associado a uma experiência é um conjunto de tal modo que: 1º.)todo resultado possível da experiência está em S; 2º.)todo elemento de S é algum resultado da experiência. O número de elementos do espaço amostral S será indicado pó n(S). Exemplo 10.2: Uma letra da palavra honestidade é sorteada ao acaso. Qual o espaço amostral desse experimento?
S={h, o, n, e , s, t, i , d, a} Exemplo 10.3: Retirar uma carta de um baralho comum de 52 cartas. Se o interesse do jogador for observar o naipe da carta, qual o espaço amostarl?
S={ouros, copa, paus, espada} 10.2.3 Evento É comum os pesquisadores estarem interessados em avaliar um resultado ou grupo de resultados possíveis do espaço amostral. Os grupos de resultados que podem interessar a alguém de algum modo são chamados Eventos. Podemos dizer também que, qualquer conjunto de resultados de um experimento será denominado de evento. Como evento é um subconjunto de S, indicaremos os eventos por letras maiúsculas: A, B, C, etc.
Exemplo 10.4: Seja o experimento lançar um dado e seja A o evento sair um número par. Assim,
Espaço amostral S={1, 2, 3, 4, 5, 6} Evento A={2, 4, 6}
Evento simples é aquele formado por um único elemento do espaço amostral, entretanto o evento que possui mais de um elemento é denominado de composto. Diante do que foi exposto sobre o conceito de eventos, notamos que S (espaço amostral) e o conjunto vazio também são eventos e são chamados respectivamente de evento certo e evento impossível. Assim, o evento obter um naipe na retirada de uma carta é um evento certo, enquanto que obter um oito no lançamento de uma dado constitui um evento impossível. Como evento é um conjunto, podemos realizar com eles as operações de união e intersecção de conjuntos. Logo, A B - é o evento que ocorre se A ocorrer ou B ocorrer ou ambos ocorrerem. A B - é o evento que ocorre se A e b ocorrerem.
A - (lê-se A traço) é o evento que ocorre se A não ocorrer.
Exemplo 10.5: Seja E o experimento sortear um cartão dentre dez cartões numerados de 1 a 10. Sejam os eventos: A={sair o número cinco} e B={sair um número par}, então:
S={1, 2, 3, 4, 5, 6, 7, 8, 9, 10} A={5}, B={2, 4, 6, 8, 10}
A B {5, 2, 4, 6, 8, 10} A B (evento impossível)
A {1, 2, 3, 4, 6, 7, 8, 9, 10} , B {1, 3, 5, 7, 9} Dois eventos A e B são denominados mutuamente exclusivos se eles não puderem ocorrer simultaneamente, isto é, A B . No exemplo anterior A e B são mutuamente exclusivos, pois a ocorrência de A impede a ocorrência de B e vice-versa ( A B ).
10.3
Regra Básica de Probabilidade
A preocupação maior será avaliar a probabilidade dos eventos. Para isto, iremos admitir que todos os elementos do espaço amostral têm a mesma chance, ou seja, os resultados são igualmente prováveis. Insto significa que, se N for o número de elementos de S, então a probabilidade de cada evento simples ocorrer será dada por S {a1 , a2 , a3 ,
1 N
. Isto é, se
, an } é um espaço amostral equiprovável, então a probabilidade de
cada evento simples é p(ai )
1 n
.
Simbolizando um evento qualquer do espaço amostral de um experimento pela letra A, define-se a probabilidade desse evento ocorrer como: p( A)
nA N
,
onde A é um subconjunto do espaço amostral, n A é o número de modos como A pode ocorrer (ou total de pontos da amostra designada A) e N é o total de pontos possíveis do experimento em questão (ou total de elementos da população que originou a amostra A). Exemplo 10.6: No lançamento de um dado se aposta na face ímpar. Qual a pr obabilidade de vitoria?
Solução: No lançamento de um dado, o espaço amostral é: S={1, 2, 3, 4, 5, 6} Desse espaço amostral, são impares os pontos do subconjunto A={1, 3, 5} Como o número de elementos de S é 6 e o número de elementos de A é 3. Temos que, a probabilidade de vitoria é: p( A)
3 6
1 2
0,5 50%
Ou seja, obtêm a chance de vitoria dividindo o total de números ímpares no lançamento de um dado isolado, pelo total de resultados que ele pode apresentar. Exemplo 10.7: Em genética utilizamos a mesma linha de raciocínio.Qual a probabilidade de um casal ter dois filhos do sexo feminino?
Solução: O nascimento da primeira filha não afeta a chance de o segundo filho ser do sexo feminino, pois a segregação dos alelos de um gene é tão ao acaso quanto jogar uma moeda para cima e obter “cara” ou “coroa”. Portanto:
Probabilidade ser menina
de X X
1 2
Probabilidade de ser menina 1 2
1 4
Resultado 1/4 ou 25%
10.4 Regras Básicas do Calculo das Probabilidades
Para maior facilidade na solução de problemas de probabilidades, devemos entender as seguintes propriedades e regras: 1ª A probabilidade de um evento A deve ser um número maior ou igual a zero e menor ou igual a 1, isto é, 0 P ( A) 1 . 2ª A probabilidade do evento certo é igual a 1, isto é, P ( S ) 1 . 3ª A probabilidade do evento impossível é igual a zero, isto é, P ( ) 0 . 4ª Regra da Soma das Probabilidades. Se A e B são dois eventos mutuamente exclusivos (ou excludentes), isto é, A B , então P ( A B) P ( A B) P ( A) P ( B)
5ª Se A e B não forem mutuamente exclusivos (ou não excludentes), então: P ( A B) P ( A) P ( B) P ( A B)
6ª Se A é o evento complementar de A, então: P ( A) 1 P ( A)
Exemplo 10.8: Seja a experiência de lançar um dado. Dados os eventos A={sair o número 3}, b={sair o número par} e C={sair um número ímpar}. Determinar:
a) P ( A) ; b) P ( B) ; c) P (C ) ;
d) P ( A B) ; e) P ( A C ) ; f) P ( A) . Solução: Como S= {1, 2, 3, 4, 5, 6}; A={3}, B={2, 4, 6}; C={1, 3, 5}, então:
a) P ( A)
1 6 3
b) P ( B) c) P (C )
6 3 6
1
1
2
2
d) P ( A B) P ( A) P ( B) e)
P ( A C )
1 6
1 2
2 3
, observe que A B .
numero de elementos de A C numero de elementos de S
1 6
,
observe
que
A C {3}
f) P ( A) 1 P ( A) 1
1 6
5 6
, observe que A {1,2,4,5,6} .
Exemplo 10.9: Qual a probabilidade de um casal ter dois filhos, sendo um menino e uma menina?
Solução: Para responder esta questão, utilizaremos as duas regras Probabilidade de ser menina (1ºFilho)
X
1
x
2
1 4
1 4
2 4
Probabilidade de ser menina OU (2ºFilho) + 1
Probabilidade de ser menina (1ºFilho)
X
Probabilidade de ser menina (2ºFilho)
1
x
1
2
2
1 2
Resultado 1/2 ou 50% 10.4.1 Probabilidade Condicional
2
Se A e B são eventos de um espaço amostral S, com P ( B) 0 , então a probabilidade condicional do evento A, tendo ocorrido o evento B, é indicada por P ( A / B) e definida pela expressão: P ( A / B)
P ( A B) P ( B)
Podemos encontrar uma expressão mais pratica para o cálculo da probabilidade condicional: P ( A / B)
numero de elementos de A B número elementos do eevnto B
Exemplo 10.10: A tabela 1 apresenta o número de clientes de uma cantina de um hospital. Qual a probabilidade de um cliente da cantina ser não-paciente do hospital, dado que tem até 30 anos? Tabela 10.1 – Clientes de uma Cantina.
Paciente? Idade
Sim
Não
Total
Até 30 anos
22
30
52
De 31 a 40 anos
49
70
119
Mais de 40 anos
29
40
69
Total
100
140
240
Solução:
A={cliente da cantina com idade até 30 anos} B={cliente do cantina não-paciente do hospital} De acordo com a tabela 10.1, dos 240 clientes pesquisados, 140 são nãopacientes, dos quais 30 têm até 30 anos. Isso significa que a probabilidade de se escolher um cliente da cantina e ele: a. Não ser paciente do hospital, é 140 (casos favoráveis) dividido por 240 (total de possibilidades), isto é, 140/240=7/12=0,5833=58,33%. b. Além de não ser paciente do hospital, ter idade até 30 anos, é 30 (casos favoráveis) dividido por 240 (total de possibilidades), isto é, 30/240=1/8=0,125=12,5%.
Nestas condições, a probabilidade de um cliente da cantina não ser paciente do hospital com idade de até 30 anos é dada por: 30 P ( A / B)
P ( A B) P ( B)
30 240 30 3 240 21,43% 140
240 140
140
14
240
Em síntese, o que a probabilidade condicional revela é quanto mais informação se tiver, menor será o espaço amostral de análise. No exemplo, em vez de considerar todos os 240 clientes da cantina, basta avaliar os 140 não-pacientes do hospital. 10.4.2 Regra do produto
A partir da definição de probabilidade condicional, podemos explicitar P ( A B) e encontrar a regra do produto para dois eventos, assim: P ( A B) P ( B) P ( A / B) ou P ( A B) P ( A) P ( B / A)
Então, a probabilidade da ocorrência simultânea de dois eventos de um mesmo espaço amostral é igual à probabilidade de um deles ocorrer, pela probabilidade condicional do outro, dado o primeiro. Exemplo 10.11: Retirar sem reposição duas células de uma amostra de 10 células, onde 4 são benignas. Qual a probabilidade de que ambas sejam malignas? Solução: Sejam os eventos
A={a 1ª célula ser maligna} B={a 2ª célula ser maligna} Desta forma, precisamos avaliar P ( A B) . P ( A B) P ( A) P ( B / A)
6
5
1
10 9
3
Observe que P ( B / A) é a probabilidade de a 2ª célula ser maligna, dado que a 1ª foi maligna.
10.4.3 Regra do produto para dois eventos independentes
Dois eventos são considerados de independentes se a probabilidade de ocorrência de um não altera a chance de ocorrência do outro. Em termos matemáticos, isso permite escrever que P ( A / B) P ( A) , assim como que P ( B / A) P ( B) . Por
outro
lado, fazendo algumas transformações elementares em P ( A B) permitem escrever P ( A B) P ( B) P ( A / B) . Nessa equa P ( A / B) P ( B)
ção, fazer P ( A / B) P ( A) permite escrever que, para eventos independentes: P ( A B) P ( B) P ( A)
Exemplo 10.12: Retira-se com reposição duas cartas de um baralho com 52 cartas. Qual a probabilidade de que ambas sejam de copas?
Solução: Sejam os eventos: A={a 1ª carta é de copas} B={a 2ª carta é de copas} Como A e b são independentes, a ocorrencia de um deles não está vinculado à ocorrência do outro. Veja que, o processo é com reposição, desta forma, o espaço amostral não é alterado para o cálculo da probabilidade do outro evento. Assim, P ( A B) P ( B) P ( A)
10.5
13 13
52 52
1 6
Distribuição de Probabilidades
Apresentaremos três modelos teóricos de distribuição de probabilidade, aos quais um experimento aleatório estudado possa ser adaptado, o que permitirá a solução de grande número de problemas práticos. 10.5.1 Variáveis aleatórias
Suponhamos um espaço amostral S e que a cada ponto amostral seja atribuído um número. Fica, então, definida uma função chamada variável aleatória. Muitas vezes não estamos interessados propriamente no resultado de um experimento aleatório, mas em alguma característica numérica a ele associada. Essa característica será chamada variável aleatória. Assim, se o espaço amostral relativo ao "lançamento simultâneo de duas moedas" é S = {(c,c), (c,k), (k,c), (k,k)} e se X representa o "número de caras" que aparecem, a cada ponto amostral podemos associar um número para X, de acordo com a tabela abaixo (X é a variável aleatória associada ao número de caras que foi observado):
Tabela 10.2 – lançamento simultâneo de duas moedas Ponto Amostral
X
( c,c )
2
( c,k )
1
( k,c )
1
( k,k )
0
Logo podemos escrever: Tabela 10.3 – Probabilidade de sair cara Números de caras ( X)
Probabilidade (X)
2
1/4
1
2/4
0
1/4
Total
4/4 = 1
10.5.2 Variável Aleatória Discreta
Uma variável aleatória é denominada discreta quando se refere a experimentos dos quais resultam valores contáveis ou pontos específicos em dado intervalo. Uma variável aleatória discreta conveniente é o conjunto dos números naturais, N={0, 1, 2, 3, ..., n,...}. A possibilidade de contar, de descrever variáveis por números, é estatisticamente muito relevante. Mas, felizmente ou infelizmente, nem tudo são números. Há coisas que simplesmente não se pode expressar por números. Como por exemplo, imagine se você perguntar a um visitante: “Você se lembra de algum comercial sobre roupas veiculados na TV local?” A resposta, nesse caso, não é um número; é um simples sim ou não. Você
pode taquigrafar o não com n e o sim com um s, assim como pode atribuir zero a quem diz não e um a quem diz sim. Cada uma dessas formas tem suas virtudes e defeitos. As atribuições n e s são auto-explicáveis; com os números zero e um podem-se fazer contas. 10.5.3 Variável Aleatória Continua
Diz-se que a variável aleatório é continua quando relativa a coisas mensuráveis, a eventos que podem assumir qualquer valor numérico em dado intervalo. É especialmente adequada a medidas de tempo, distâncias, velocidades, volumes e pesos. Você poderá usar uma variável continua para monitorar o tempo entre atendimentos no laboratório de analises clinicas, assim como pode para determinar a distancia do ambulatório médico aos locais de exames. Exemplo 10.3: Consideremos a distribuição de freqüências relativa ao número de acidentes diários na Rodovia do SOL durante o mês de nov/97:
Tabela 10.4 – Distribuição do número de acidentes diários na Rodovia do Sol Número de acidentes
Frequência
0
22
1
5
2
2
3
1
Podemos então escrever a tabela de distribuição de probabilidade: Tabela 10.5 – Probabilidade do numero de acidentes Número de acidentes (X)
Probabilidade (X)
0
0,73
1
0,17
2
0,07
3
0,03
Total
1,00
Construímos acima uma tabela onde aparecem os valores de uma variável aleatória X e as probabilidades de X ocorrer que é a tabela de distribuição de probabilidades.
Atividade Descreva o espaço amostral para os experimentos das questões 1 e 2:
1 Escolher dois estudantes, entre 4, para serem o presidente e o tesoureiro da comissão de formatura. Se cada comissão é representada por um para ordenado em que o 1º nome é o do presidente e o 2º é o do tesoureiro, o que significa o par (Maria, João) nesse experimento? 2.
Faz-se um levantamento em famílias com 3 crianças e registra-se o sexo (M ou F) das crianças em ordem decrescente de idade. O que significa a seqüência (MFF) nesse experimento?
3.
Estilo de vida é um fator que agrega o modo como as pessoas vivem, como se vêem e como querem que os outros as vejam . È também função de variáveis como renda, ocupação, instrução e convivio social. Alguns estilos são especialmente interessantes para quem gerencia atrações (ambientalistas gostam de zôos e passeios ecológicos, etc). A tabela a seguir mostra o resultado de um teste de identificação de estilo de vida com 150 pessoas aleatoriamente selecionadas. Estilo de vida Pesquisado
Tipo A
Tipo B
Total
Homem
78
42
120
Mulher
19
11
30
Total
97
53
150
a) Escolhendo um dos questionários preenchidos pelos entrevistados sobre preferências por atrações turísticas, qual a probabilidade de ele se referir a alguém: i) Do estilo de vida A? ii) Do sexo feminino? iii) Do Estilo B, dado que é mulher? iv) Do sexo masculino ou que tenha estilo de vida Tipo B? b) Os eventos sexo feminino e tipo A são mutuamente excludentes? c) Os eventos tipo A e sexo masculino são independentes 2) Ao inspecionar 10.000 caixas de frutas recebidas dos produtores ECD e HND, um atacadista constata o seguinte: Caixas com Frutas Fornecedor Caixas recebidas
Danificadas
Muito Maduras
ECD
6000
200
840
HND
4000
365
295
Total
10000
565
1135
Se o atacadista colocar à venda as 10.000 caixas nas condições recebidas: a) Qual a probabilidade de uma caixa selecionada ao acaso: i) Conter frutas danificadas? ii) Conter frutas muito maduras? iii) Ser do fornecedor HND ou do ECD? b) Selecionada uma caixa com frutas muito maduras , qual a probabilidade de ser de HND? c) Qual a probabilidade de uma caixa conter frutas danificadas ou muito maduras, supondo esses eventos mutuamente excludentes?
Correlação e Regressão
Em muitas situações do dia a dia, torna-se interessante e útil estabelecermos uma relação entre duas ou mais variáveis. A matemática estabelece vários tipos de relações entre variáveis, as relações funcionais e as correlações. As relações funcionais são relações matemáticas expressas por sentenças matemáticas. São exemplos já vistos anteriormente: a) Área do retângulo (A = a.b) é a relação entre os lados do retângulo; b) Densidade de massa (dm = m/V) é a relação entre a massa e o volume de um corpo; c) Perímetro de uma circunferência (C = 2pi.R) é a relação entre o cumprimento da circunferência e o valor do raio. Pretende-se mostrar nesta unidade a natureza das relações estatísticas e verificar quais variáveis explicam ou modificam os fenômenos estudados, onde se pode avaliar, estimar e prever suas ocorrências futuras. Em razão disto, temos como objetivos mostrar como:
Relacionar variáveis especificas, fato fundamental na tomada de decisões;
Determinar e explicitar as relações entre as variáveis que caracterizam os eventos;
Avaliar a qualidade das relações entre as variáveis;
Obter equações que relacionam as variáveis;
Analisar estatisticamente as referidas equações.
As analises em questão terão por base os modelos de regressão e seus coeficientes de correlação. Observe-se que os referidos modelos são complementares, não antagônicos. Isto é, enquanto o modelo de regressão define a relação matemática entre as variáveis, o coeficiente de correlação simplesmente diz quão forte é essa relação. Relações estatísticas e correlações
São relações estabelecidas após uma pesquisa. Com base nos resultados da pesquisa, fazem-se comparações que eventualmente podem conduzir (ou não) à ligação entre as variáveis. Exemplo: relação entre a idade e a estatura de uma criança ou a relação entre a classe social de uma pessoa e o atendimento num hospital particular.
Em se tratando de licenciatura em biologia, podemos estabelecer relações que envolvem variáveis como classe social, idade, sexo, cultura, situação econômica, salário, peso, altura, etc. No estudo estatístico, a relação entre duas ou mais variáveis denomina-se correlação.
A utilidade e importância das correlações entre duas variáveis podem conduzir à descoberta de novas situações e de novos métodos, cujas estimativas são vitais em tomadas de decisões em pesquisas.
11.1
Correlação Linear
Correlação linear é uma correlação entre duas variáveis, cujo gráfico aproxima-se de uma linha reta. È uma linha de tendência, pois procura acompanhar a tendência da distribuição de pontos, que pode corresponder a uma reta ou uma curva. Por outro lado é, também, uma linha média, porque procura deixar a mesma quantidade de pontos abaixo e acima da linha reta. O sinal positivo do coeficiente de correlação linera indica que o sentido da correlação corresponde a uma reta de inclinação decrescente, e o sinal negativo corresponde a uma reta de inclinação crescente. 8 7 6 5 4 3 2 1 0 1
2
3
Figura 11.1
4
5
6
8
Correlação linear perfeita negativa, isto é, r=-1
7 6 5 4 3 2 1 0 1
2
3
4
5
6
Fraca correlação negativa, r<0
8 7 6 5 4 3 2 1 0 0
1
2
3
4
5
6
7
Forte correlação positiva, r>0
8 7 6 5 4 3 2 1 0 0
1
2
3
4
5
6
7
Ausência de correlação linear, r=0
4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 0
1
11.2
2
3
4
5
6
7
Coeficiente de correlação de Pearson
O coeficiente de correlação linear pode ser apresentado como uma medida de correlação, pois tem como objetivo indicar o nível de intensidade que ocorre na correlação entre as variáveis. O coeficiente de correlação linear pode ser pos itivo ou negativo. Coeficiente de correlação de Pearson (r) é dado por:
=
− − − 2
2
2
2
Onde: r = o coeficiente de correlação de Pearson n = o número de dados os de observações
= a variável independente = a variável dependente O valor do coeficiente de correlação r tem variação entre +1 e -1, ou seja, está limitado entre os valores do intervalo 1,+1 .
−
Propriedades do Coeficiente de Correlação Linear
Carece de unidades de medidas (adimensional). È invariante para as transformações lineares (mudança de origem e de escalas) das variáveis. Só assume valores compreendidos ente -1 e +1. Quando |r| está próximo de um valor, afirma-se que há uma relação linear muito forte entre as variáveis. Quando 0, pode-se afirmar que não há relação linear entre ambas as variáveis . Desta forma, diz-se que as variáveis são não-correlacionadas.
≈
Portanto, afirmar que = ±1 é o mesmo que dizer que as observações de ambas as variáveis estão perfeitamente alinhadas.
11.3 Regressão – Reta de Regressão (ou Reta de Mínimos Quadrados ou Reta de Ajuste) Um dos maiores problemas para o investigador de fenômenos humanos ou físicos é o estabelecimento de um modelo matemático que descreve e explique o fenômeno ocorrido na vida real, com boa aproximação. A busca de uma relação funcional entre as variáveis observadas que descrevem o fato é uma tarefa de muitos pesquisadores em diversas áreas do conhecimento. Assim, por exemplo, o pediatra tem interesse em estabelecer uma relação funcional entre o peso de a altura do bebê; um economista busca encontrar uma função que explique o comportamento das vendas em função do preço; o médico tem interesse em relacionar através de uma função o volume do plasma sanguíneo e a superfície dos corpos dos pacientes, etc. Seja Y uma variável que queremos estudar e cujo comportamento futuro desejamos descobrir. É fácil identificarmos uma série de variáveis : ( 1 , X2 , X 3 , , Xn que influenciará o comportamento de Y, a variável dependente do modelo. A Estatística oferece meios de chegarmos à função entre a variável dependente (Y) e as variáveis independentes ( 1 , X 2 , X 3 , , Xn através da análise de regressão. Quanto maior o numero de variáveis explicativas, mais completo será o modelo. Todavia, sua solução será também mais complexa e difícil. Em razão disso, nós apenas utilizaremos o modelo de duas variáveis: a variável dependente Y e a variável independente X. Portanto, apresentaremos o estudo da função linear (ajustamento de uma reta) que é dada por:
⋯
= +
⋯
Onde
= constante (ponto em que a reta corta o eixo dos y) = constante = coeficiente de regressão. Y = variável dependente X= variável independente
Sendo a e b os parâmetros da equação da reta , estes podem ser calculados por meio das expressões: a
n
x y x y n x x i
i
i
2 i
i
2
e
i
y b n
i
x a
i
n
Uma maneira simples para auxiliar na determinação da função entre as variáveis dependentes e independentes é a construção do gráfico denominado “diagrama de di spersão”. Para construirmos o d iagrama de dispersão devemos coletar uma amostra de valores X e Y: 1 , 1 , 2 , 2 , 3 , 3 , , , , e depois marcar esses pontos no sistema de coordenadas cartesianas.
⋯
Um exemplo simples consiste em considerar uma população formada por estudantes do curso de Biologia, definindo sobre ela as variáveis X altura medida em centimetro s Y altura medida em metros
Veja que não é necessário fazer grandes esforço para intuir que a função entre ambas é dada por: Y
X 100
Obter essa função é menos evidente quando o que medimos sobre o mesmo grupo de estudantes é: X altura medida em centimetro s Y peso medido em quilos
O fato é que, uma vez conhecida a altura xi de um estudante, não é certo que possamos determinar, de modo exato, seu peso yi (por exemplo, dois estudantes que medem 1,72 m podem pesar, respectivamente, 62 e 65 quilos). No entanto, alguma rela-
ção entre eles devem existir, pois parece muito mais provável que um individuo de 2 m pese mais que outro cuja altura é 1,30 m. Pode nos parecer mais ou menos aproximada uma relação entre ambas as variáveis. Exemplo 11.1: Em um grupo de pacientes de um hospital, mediu-se as quantidades antropométricas peso e idade, obtendo-se os seguintes dados:
Tabela 11.1 - Resultados das medições X (idade)
12
8
10
11
7
7
10
14
Y (peso)
58
42
51
54
40
39
49
56
Responda: a) Existe uma relação linear importante entre essas variáveis? b) Calcule a reta de regressão da idade em função do peso e a do peso em função da idade.
Solução:
a) Para sabermos se há uma relação linear entre as variáveis em estudo, calcularemos o coeficiente de correlação de Pearson. Para isto elaboraremos uma tabela contendo nas colunas as variáveis dependentes ( y i ), 2
2
as independentes ( xi ) e os produtos xi yi , xi e yi . Tabela 11.2 – Relação estre as variaveis X e Y 2
2
X (idade) ( xi )
Y (peso) ( y i ),
xi y i
xi
12
58
696
144
3364
8
42
336
64
1764
10
51
510
100
2601
11
54
594
121
2916
7
40
280
49
1600
yi
7
39
273
49
1521
10
49
490
100
2401
14
56
784
196
3136
79
389
3963
823
19303
Assim, o coeficiente de correlação de Pearson é:
r
8 3963 79 389 x y x y n x x n y y 8 823 79 8 19303 389 n
i
i
i
2
2
i
r
i
i
31704 30731 343 3103
2
2
i
2
i
973
2
1064329
973 1031,663
0,9431
Portanto o ajuste linear é muito bom. b) Iremos calcular agora os coeficientes da equação
= + a
b
n
x y x y n x x i
i
i
2
2 i
y
i
a
i
i
x
i
389
n n 8 Logo, Y 2,8367 20,6122 X
8 3963 79 389 8 823 79
2
2,8367
79 8
973 343
2,8367
48,625 2,8367 9,875 20,6122
Exemplo 11.2: Determine o coeficiente de correlação e a equação da reta de regressão da tabela abaixo, que trata de uma pesquisa entre o peso total do lixo descartado por dia com o peso do papel contido no lixo.
Tabela 11.2 – Relação do peso total do lixo descartado por dia e o peso papel contido no lixo Peso
to- 10,47 19,85 21,25 24,36 27,38 28,09 33,61 35,73 38,33 49,14
tal( xi ) Peso
do 2,43
5,12
6,88
6,22
8,84
8,76
7,54
8,47
9,35
11,43
papel ( y i )
Solução:
Para calcularmos o coeficiente de correlação de Pearson, necessitamos elaborar uma tabela contendo nas colunas as variáveis dependentes ( y i ), as independentes ( xi ) e os 2
2
produtos xi yi , xi e yi .
Tabela 11.3 – Calculos para construção da reta de ajuste 2
2
( xi )
( y i )
xi yi
xi
10,47
2,43
25,4421
109,621
5,9049
19,85
5,12
101,632
394,023
26,214
21,25
6,88
146,2
451,563
47,334
24,36
6,22
151,519
593,41
38,688
27,38
8,84
242,039
749,664
78,146
28,09
8,76
246,068
789,048
76,738
33,61
7,54
253,419
1129,63
56,852
35,73
8,47
302,633
1276,63
71,741
38,33
9,55
366,052
1469,19
91,203
49,14
11,43
561,67
2414,74
130,64
288,21
75,24
2396,68
9377,52
623,47
yi
r
23966,75 21684,92 10710,21 573,59
2281,83 6143317
2281,83 2478,57
0,9206
Portanto o ajuste linear é muito bom. Para encontrar a equação da reta precisamos determinar: a
n
x y x y n x x i
i
i
2
2 i
y b n
i
i
x a
i
n
i
23966,75 21684,92 93775,2 83065,0
7,52 0,213 28,82 1,38
Logo, Y 1,38X 0,213
2281,83 10710,21
0,213
Referências BARBETTA, Pedro Alberto. Estatístico aplicado ás Ciências Sociais, 2ª Edição, Editora da UFSC, Florianópolis – SC, 1998. BERQUÓ, E. S.; SOUZA, J. M. P. e GOTLIEB, S. L. D.. Bioestatística, Editora USP, São PauloSP, 1981. BRAULE, Ricardo. Estatística aplicada com excell para cursos de administração e economia, 1ª edição, Editora Campus, Rio de Janeiro, 2001. BUNCHAFT & KELLNER. Estatística sem Misté rios, vol. 1, 1ª edição, Editora Vozes, Petrópolis - RJ, 1997. BUSSAB, Wilton. Estatística Básica. Saraiva. 5a edição 2006. 540p. ISBN 8502034979 CRESPO, Antonio Arnot. Estatística fácil , 11ª edição, Editora Saraiva, São Paulo, 1994. FONSECA, Jairo Simon e MARTINS, Gilberto de Andrade. Curso de Estatística , 6ª edição, Editora Atlas, São Paulo, 1996. KAZMIER, Leonard J. . Estatistica Aplicada à Economia e Administração. Coleção Schaum. Editora McGraw-Hill do Brasil, São Paulo-SP, 1982 MANN, Prem S. Introdução à Estatística. LTC. 5a edição 2006, 774p. ISBN 852161506X McCLAVE, J. T., BENSON, P. G., SINCICH, T. Statistics for Business and economics . 8 ed. Nova Jersey: Prentice-Hall, 2001. MILONE, Guiseppe. Estatística Geral e Aplicada . Thomson Pioneira. 498p.1a edição 2003. ISBN 8522103399 MOORE, David S. A Estatística Básica e sua Prática. LTC. 3a edição 2005. 688p. ISBN 8521614438 PAGAMO, Marcello e GAUVREAU, Kimberlee. Principios de Bioestatística, 1ª edição, Editora Thomson, São Paulo-SP, 2004. RIUS DIAZ, Francisca e LOPEZ, Francisco Javier Barón. Bioestatística, 1ª edição, Editora Thomson, São Paulo-SP, 2007. TRIOLA, Mário F. Introdução à Estatística. LTC. 10a edição 2008. 722p. ISBN 8521615868