NOÇÕES DE ESTATÍSTICA: 1 Estatística descritiva e análise análise exploratória de dados: gráficos, diagramas, tabelas, medidas descritivas (posição, dispersão, assimetria e curtose). 2 Probabilidade. 2.1 Definições básicas e axiomas. 2.2 2.2 Probabilidade condicional e independência. 2.3 Variáveis aleatórias discretas e contínuas. 3 Inferência Inferência estatística. 4 Técnicas de amostragem. 4.1 Amostragem Amostragem aleatória simples. 4.2 Amostragem estratificada. 4.3 Amostragem Amostragem sistemática. 4.4 Amostragem Amostragem por conglomerados.
1. ESTATÍSTICA DESCRITIVA E ANÁLISE EXPLORATÓRIA EXPLORATÓRIA DE DADOS: GRÁFICOS, DIAGRAMAS, TABELAS, MEDIDAS DESCRITIVAS (POSIÇÃO, DISPERSÃO, DISPERSÃO, ASSIMETRIA E CURTOSE) Estatística Descritiva
A Estatística Descritiva pode ser definida d efinida como um conjunto de técnicas destinadas a descrever e resumir dados, a fim de que possamos tirar conclusões co nclusões a respeito de características de interesse. Em geral utilizamos a Estatística Descritiva na etapa et apa inicial da análise quando tomamos contato com os dados pela primeira vez. Objetivando tirar conclusões conclusõe s de modo informal e direto, a maneira mais simples seria a observação dos valores colhidos. co lhidos. Entretanto ao depararmos com uma grande massa de dados percebemos, imediatamente, que a tarefa t arefa pode não ser simples.Para tentar retirar dos dados informações a respeito do fenômeno sob estudo, é preciso aplicar algumas técnicas que nos permitam simplificar a informação daquele particular conjunto de valores. A finalidade da Estatística Descritiva é tornar as coisas mais fáceis de entender, de relatar e discutir. A média industrial Dow-Jones, a taxa de desemprego, o custo de vida, o índice pluviométrico, a quilometragem média por litro de d e combustível, as médias de estudantes são exemplos de dados dado s tratados pela Estatística Descritiva. Análise Exploratória
A análise exploratória de dados nos fornece um extenso repertório de métodos para um estudo e studo detalhado dos dados, antes de adaptá-los. Nessa abordagem, a finalidade é obter dos dados a maior quantidade possível de informação, que indique modelos mod elos plausíveis a serem utilizados numa fase posterior, a análise confirmatória de dados ou inferência estatística.
Áreas da Estatística
Se entender Estatística Estatíst ica como a Ciência dos Dados, será de grande valia o domínio que seu corpo de conhecimento pode oferecer. Primeiramente, como ponto de partida, pode-se dividir a Estatística em duas áreas: • Descritiva • Inferencial (Indutiva)
Alguns autores, como por po r exemplo, Marcos Nascimento Magalhães e Antonio Carlos Pedroso de Lima, dizem que a estatística, grosso modo, pode ser dividida em três áreas: Estatística descritiva; Probabilidade e Inferência estatística. Estatística Descritiva A Estatística Descritiva se preocupa preo cupa com a organização, apresentação e sintetização sintet ização de dados. Utilizam gráficos, tabelas e medidas descritivas como ferramentas. Utilizada na etapa inicial da análise, destinada a obter informações que indicam possíveis po ssíveis modelos a serem utilizados numa fase final que seria a chamada inferência estatística. Análise Exploratória de Dados - Prof. Pro f. Dr. Waldir Medri Estatística Inferencial A Estatística Inferencial postula um conjunto de técnicas t écnicas que permitem utilizar dados oriundos de uma amostra para generalizações sobre a população. pop ulação. Constitui esse conjunto de técnicas: a determinação do número núme ro de observações (tamanho da amostra); o esquema de seleção das unidades observacionais; o cálculo das medidas estatísticas; a determinação determin ação da confiança nas estimativas; a significância dos testes estatísticos; a precisão p recisão das estimativas; dentre outras. Essa generalização é feita a partir do processo de d e estimação das medidas estatísticas que podem ser calculadas, porém não sem antes se antecipar ante cipar um grau de certeza de que a amostra amost ra esteja fornecendo os dados que seriam de se esperar caso toda a população pop ulação fosse estudada. Nesse caso, o ramo da matemática que será utilizado para se avaliar tal grau de certeza é a probabilidade. Com ela teremos condições de mensurar m ensurar a fidedignidade de cada inferência feita com base na amostra. 2. PROBABILIDADE
A Probabilidade pode ser pensada como co mo o teoria matemática utilizada para estudar a incerteza oriunda de fenômenos que envolvem o acaso. Jogos de dados e de cartas, ou o lançamento de uma moeda para o ar enquadram-se na categoria cate goria do acaso. A maioria dos jogos esportivos também é influenciada pelo acaso até certo ponto. pon to. A decisão de um fabricante de cola de empreender uma grande campanha de propaganda visando a aumentar sua participação particip ação no mercado, a decisão de parar de imunizar pessoas p essoas com menos de vinte anos contra determinada doença, a decisão de arriscar-se a atravessar at ravessar uma rua no meio do quarteirão, todas utilizam a probabilidade p robabilidade consciente ou inconscientemente.
2.1 DEFINIÇÕES BÁSICAS E AXIOMAS
Definições Básicas Suponha que vamos realizar um experimento cujo resultado não pode ser predito de antemão. Entretanto, suponha que saibamos todos os possíveis resultados de tal experimento. Este conjunto de todos os resultados possíveis, que denotaremos por Ω, é chamado de espaço amostral do experimento. Assim, temos a seguinte definição: Definição 1. O conjunto Ω de todos os resultados possíveis de um determinado ex- perimento é chamado de espaço amostral. Exemplo 1. Se o experimento consiste em lançar uma moeda, então Ω = { Ca, Co}, onde Ca é “cara” e Co é “coroa”. Exemplo 2. Se o experimento consiste em lançar um dado e observar a face superior, então Ω = {1, 2, 3, 4, 5, 6}. Exemplo 3. Se o experimento consiste em lançar duas moedas, então Ω = {(Ca, Ca), (Ca, Co), (Co, Ca), (Co, Co)}, onde o resultado (a, b) ocorre se a face da primeira moeda é a e a face da segunda moeda é b. Exemplo 4. Se o experimento consiste em lançar dois dados e observar as faces superiores, então
onde o resultado (i, j) ocorre se a face i aparece no primeiro dado e a face j no segundo dado. Exemplo 5. Se o experimento consiste emmedir a vida útil de um carro, então um possível espaço
amostral consiste de todos os números reais não-negativos, isto é, Ω
[0; ∞).
=
Definição e Propriedades das Probabilidades
Há várias interpretações da probabilidade. Discutiremos as três mais correntes: Clássica: Baseia-se no conceito de equiprobabilidade, ou seja, de resultados equiprováveis.
Freqüentista: Baseia-se na freqüência relativa de um ”número grande” de realizações do experimento. Seja A um evento, então
Subjetiva : Baseia-se em crenças e/ou informações do observador a respeito do fenômeno em estudo. Por exemplo, seja o evento C “chove em Moscou”.
Não nos preocuparemos com o problema de como definir probabilidade para cada experimento. Assentaremos a base axiomática da teoria das probabilidades tal como foi erigida pelo matemático russo Kolmogorov, responsável pela base matemática solida da teoria.
AXIOMAS DA PROBABILIDADE Requisitos básicos
Para que se possa ter um conceito de probabilidade que seja isento de circularidade e independente de simetria é preciso que se adote uma construção matemática cuidadosa. Desse modo, é preciso definir uma série de conceitos básicos a partir dos quais se possa enunciar, de modo claro e sem ambigüidades, o que vem a ser a probabilidade de um evento. Os conceitos básicos a partir dos quais se constrói a definição de probabilidade são conhecidos como os axiomas da probabilidade, sendo o seu conhecimento importante não apenas para o entendimento dessa definição, mas também para compreender claramente as condições necessárias à sua aplicação.
Conceitos Básicos: Experimento Aleatório
Um experimento pode ser pensado como um teste para se demonstrar uma afirmativa, para examinar a validade de uma hipótese, ou para se determinar a eficácia de alguma coisa nunca tentada previamente. A conduta de um tal teste constitui um experimento. Um bom exemplo de experimento é o ato de jogar uma moeda sobre uma superfície plana e anotar o resultado (cara ou coroa), assim como o lançamento de um dado ou o sorteio cego de uma bola a partir de uma urna com múltiplas bolas coloridas. Um ingrediente fundamental na teoria da probabilidade é a noção de um experimento que, ao menos hipoteticamente, pode ser repetido sob condições essencialmente idênticas, porém conduzindo a resultados diferentes em tentativas diferentes. Em outras palavras, trata-se de uma situação onde, para todos os fins práticos, causas iguais geram (ou podem gerar) efeitos diferentes. Quando se diz ser possível repetir um experimento sob condições essencialmente idênticas, naturalmente está-se pensando no controle de um certo número de fatores. É claro que seria impossível controlar absolutamente todos os fatores em questão. Na realidade, são justamente esses fatores não controlados (também chamados de variáveis de confusão, variáveis estranhas ou variáveis espúrias) que irão constituir a aleatoriedade do fenômeno. Esta é uma forma de visualizar o conceito. Tome-se, por exemplo, o caso do lançamento de uma moeda. De um lançamento para o outro, não se pode garantir que as condições sejam exatamente as mesmas. A exata posição inicial dos objetos e personagens envolvidos, bem como a intensidade e direção precisas da força de lançamento, não serão rigorosamente as mesmas. As condições gerais, contudo, tais como a moeda, o indivíduo que faz o lançamento e a mesa, podem ser idênticas, mas muitos fatores simplesmente não serão cont rolados. Caso tudo fosse absolutamente controlado, então poder-se-ia supor que os resultados seriam os mesmos, ou talvez nem assim, visto que, aparentemente, existem incertezas fundamentais no universo, tais como as que são evidenciadas no fenômeno quântico.
Espaço Amostral
Um espaço amostral é o conjunto de todos os possíveis resultados de um experimento aleatório, ou de todos os resultados considerados possíveis. Assim, o espaço amostral do lançamento de uma moeda seria uma coleção de resultados que inclui: cara, coroa, a moeda cair em pé , a moeda ser despedaçada por uma bala perdida, um pássaro apanhar a moeda em pleno ar e fugir com ela, a moeda ser acidentalmente engolida pelo experimentador e outros. Excluindo os resultados muito inverossímeis, é perfeitamente razoável considerar apenas cara e coroa. O espaço amostral costuma ser designado pela letra grega ômega (), de modo que, no exemplo do lançamento de uma moeda: {cara, coroa}. Já no caso da medida da pressão arterial sistólica de um indivíduo, o espaço amostral seria uma faixa plausível de valores contínuos, como, por exemplo, a faixa de 50 mmHg a 250 mmHg ( 50,250
Evento
Um evento é um subconjunto do espaço amostral, ou seja, uma coleção de resultados possíveis que pode ser igual ou menor do que o espaço amostral como um todo. Desse modo, se o espaço amostral do lançamento de um dado comum de seis faces for {1, 2, 3, 4, 5, 6}, ent ão qualquer combinação desses resultados será um evento. Assim, diversos eventos podem ser identificados, tais como a ocorrência de cada face específica ({1}, {2}, {3}, {4}, {5} ou {6}), a ocorrência de uma face par ({2, 4, 6}) ou ímpar ({1, 3, 5}), a ocorrência de valores abaixo de "3" ({1, 2}) e outros.
Álgebra
Álgebra é um conjunto de eventos de um espaço amostral, conjunto esse definido pelas seguintes duas propriedades fundamentais:
Para qualquer evento pertencente à álgebra, o seu complementar (tomado em relação ao espaço amostral) também pertence à álgebra; Se dois eventos pertencem à álgebra, a sua união também pertence à álgebra.
O primeiro postulado implica em dizer que, se se está interessado na ocorrência de um evento, então, automaticamente, se estará interessado na sua não-ocorrência. Já o conjunto dos dois tem como conseqüências que, para toda álgebra:
O evento vazio (nenhum evento ocorreu) pertence à álgebra;
O espaço amostral pertence à álgebra (algum evento da álgebra necessariamente ocorrerá);
Se dois conjuntos pertencem à álgebra então a sua interseção também pertence à álgebra;
Se um número qualquer de eventos pertence à álgebra, então as operações lógicas entre eles (operações de conjunto - complementos, uniões, interseções e diferenças simétricas) também pertencem à álgebra; Uma álgebra pode ter um número infinito de eventos; Qualquer número finito de operações com eventos (operações de conjunto - complementos, uniões, interseções e diferenças simétricas) apresenta resultados que pertencem à álgebra; Quando todos os resultados de um número infinito (porém enumerável) de operações com eventos (operações de conjunto - complementos, uniões, interseções e diferenças simétricas) apresentam resultados que pertencem à álgebra, esta última passa a ser denominada de sigmaálgebra.
As afirmativas acima funcionam como uma verdadeira lista de itens a serem verificados para que faça sentido o uso da expressão "álgebra de eventos".
Axiomas de Kolmogorov
Em 1933 o matemático russo Andrei Nikolaevich Kolmogorov (1903 - 1982) lançou as bases axiomáticas da probabilidade e desenvolveu toda uma teoria que constituiu um enorme avanço na área, estabelecendo um marco histórico. Não obstante o nível avançado de matemática necessário para uma compreensão aprofundada do assunto, os seus princípios básicos são relativamente simples e intuitivos, permitindo que se tenha uma boa compreensão dos conceitos e suas aplicações práticas. Essencialmente, os axiomas de Kolmogorov estabelecem que: 1°) Associados aos possíveis resultados de um experimento aleatório, existe sempre um espaço amostral e uma álgebra de eventos; 2°) Para todo evento da álgebra, existe um número não-negativo (maior ou igual a zero), chamado de probabilidade, que se atribui a tal evento; 3°) A probabilidade do espaço amostral é igual a 1; 4°) Para quaisquer dois eventos disjuntos (que não compartilham nenhum resultado) a probabilidade da união deles é igual à soma das suas probabilidades; 5°) O 4° Axioma é verdadeiro para infinitas uniões, desde que todos os pares de eventos sejam disjuntos. A aplicação da lógica matemática aos postulados acima leva às seguintes propriedades fundamentais da probabilidade:
A probabilidade de qualquer evento é sempre um número maior ou igual a zero e menor ou igual a um; A probabilidade de um evento impossível é zero; Se a ocorrência de um evento implica na ocorrência de um segundo, então a probabilidade do primeiro é menor do que a probabilidade do segundo; A probabilidade da união de dois eventos é igual à probabilidade do primeiro mais a probabilidade do segundo menos a probabilidade da ocorrência simultânea dos dois.
A importância do Conceito de Partição
A partição de um conjunto é uma coleção de conjuntos tal que a sua união é igual ao conjunto original, e que a interseção de quaisquer dois deles é vazia. Ao se particionar um evento, é possível se calcular a sua probabilidade somando-se a probabilidade dos eventos da partição. Para isso é necessário apenas dispor-se das probabilidades dos elementos da partição (vide Axiomas 4° e 5°). Através do particionamento de conjuntos, é possível não apenas se calcular a probabilidade de eventos a partir de outras probabilidades já conhecidas mas também deduzir diversas propriedades e implicações do próprio conceito de probabilidade.
2.2 PROBABILIDADE CONDICIONAL E INDEPENDÊNCIA Probabilidade Condicional
Permite analisar o resultado de um experimento aleatório (cálculo de probabilidades), quando existe intervenção no espaço amostral (e.g., quando temos informação incompleta). Exemplos:
Num experimento em que um dado é lançado duas vezes, sabe-se que a soma dos dois resultados vale 9. Qual a probabilidade de que o primeiro resultado tenha sido 6?
Um objeto é detectado por um radar. Qual a probabilidade de que seja um avião?
Qual a probabilidade de que o paciente esteja doente, dado que o teste deu negativo?
Exemplos: Suponha que em uma sala de aula com 15 meninos e 10 meninas, um aluno é escolhido ao acaso para realizar uma tarefa na aula de 4a. feira. Um outro aluno é escolhido aleatoriamente para realizar a mesma tarefa na aula de 6a. feira. Dado o resultado da escolha de 4a. feira, qual a probabilidade de que na 6a. feira o aluno escolhido seja do sexo masculino? Duas respostas são possíveis, dependendo do resultado de 4a. feira: 1. Um menino foi escolhido na 4a. feira ⇒ P[outro menino ser escolhido na 6a. feira ] = 14/24 2. Uma menina foi escolhida na 4a. feira
⇒
P[um menino ser escolhido na 6a. feira ] = 15/24
Estas são probabilidades condicionais! Nota: Se não tivéssemos nenhuma informação sobre o resultado de 4a. feira, a resposta seria 15/25 Se sabemos que um determinado evento B ocorreu, então o espaço amostral para outro evento subsequente é reduzido para os resultados possíveis à luz desta informação, ou seja, os resultados pertencentes a B. Para determinar a probabilidade da ocorrência de um outro evento A, devemos considerar o conjunto de resultados em B que também resultam na ocorrência de A ⇒ este é o evento AB. Probabilidade Condicional
Definição Sejam A e B dois eventos associados a um experimento aleatório E e definidos em um espaço amostral Ω.
A expressão P [A|B ] representa a probabilidade de ocorrência do evento A, dado que o evento B ocorreu. Regra do Produto ⇒ P [AB ] = P [A|B ]P [B ] = P [B |A]P [A] Probabilidade condicional é função probabilidade (satisfaz os três axiomas):
... e, portanto, também satisfaz as propriedades decorrentes dos axiomas:
Independência de Eventos
Dois eventos aleatórios A e B são independentes se, e somente se:
Quando dois eventos são independentes, a ocorrência de um não exerce nenhuma influência na probabilidade de ocorrência do outro. Nota: Independência é hipótese (não é de natureza estatística) Exemplos:
Propriedades
2.3 VARIÁVEIS ALEATÓRIAS DISCRETAS E CONTÍNUAS
Variável é o conjunto de resultados possíveis de um fenômeno (ou observação, ou característica). Para os fenômenos: - sexo - dois resultados possíveis: masculino e feminino; (não pode ser medida: é um atributo) - número de filhos tidos de um grupo de casais - resultados possíveis: 0, 1, 2, 3, 4, 5, ..., n; - peso de pessoas adultas - resultados possíveis: 60 kg, 59,3 kg, 75,3 kg, 65,3 kg, ...; pode tomar um infinito número de valores num certo intervalo. TIPOS DE VARIÁVEIS 1. Variável Qualitativa: quando seus valores são expressos pôr atributos ou qualidade. Exemplos: . População: Estudantes universitários do Estado do Pará. Variáveis: sexo, profissão, escolaridade, religião, meio onde vivem (rural, urbano). . População: População dos bairros periféricos do município de Belém Variáveis: tipo de casa, existência de água encanada (sim, não), bairro de origem.
Variáveis qualitativas que não são ordenáveis recebem o nome de nominais. Exemplo: religião, sexo, raça, cor. Raça do Paraense - 2001 Raça Frequência Branca Negra
Parda Outra Total Fonte: Fictícia Variáveis qualitativas que são ordenáveis recebem o nome de ordinais. Exemplo: nível de instrução, classe social. Classe social do Paraense - 2001 Classe social Frequência Classe A Classe B Classe C Classe D Total Fonte: Fictícia 2. Variável Quantitativa: quando seus valores são expressos pôr números. Esses números podem ser obtidos pôr um processo de contagem ou medição. Exemplos: . População: Todos os agricultores do Estado do Pará. Variáveis: número de filhos tidos, extensão da área plantada, altura, idade. . População: População dos bairros periféricos do município de Belém Variáveis: número de quartos, área da casa em m 2, número de moradores da casa. A variável quantitativa dividi-se em: 1. Variável Discreta: são aquelas que podem assumir apenas valores inteiros em pontos da reta real. É possível enumerar todos os possíveis valores da variável. Exemplos: . População: Universitários do Estado do Pará. Variáveis: número de filhos, número de quartos da casa, número de moradores, número de irmãos. 2. Variável Contínua: são aquelas que podem assumir qualquer valor num certo intervalo (contínuo) da reta real. Não é possível enumerar todos os possíveis valores. Essa variáveis, geralmente, provém d e medições. . População: Todos os agricultores do Estado do Pará. Variáveis: idade, renda familiar; extensão da área plantada (em m 2 ) , peso e altura das crianças agricultoras.
EXPERIMENTO ALEATÓRIO
São aqueles que, repetidos em idênticas condições, produzem resultados diferentes. Embora não se saiba qual o resultado que irá ocorrer num experimento, em geral, consegue-se descrever o conjunto de todos os resultados possíveis que podem ocorrer. As variações de resultados, de experimento para experimento, são devidas a uma multiplicidade de causas que não podemos controlar, as quais denominamos acaso. Exemplos de Experimentos Aleatórios a) Lançar uma moeda e observar a face de cima. b) Lançar um dado e observar o número da face de cima. c) Lançar duas moedas e observar as seqüências de caras e coro as obtidas. d) Lançar duas moedas e observar o número de caras obtidas e) De um lote de 80 peças boas e 20 defeituosas, selecionar 10 peças e observar o número de peças defeituosas. f) De um baralho de 52 cartas, selecionar uma carta, e observar seu naipe. g) Numa cidade onde10% dos habitantes possuem determinada moléstia, selecionar 20 pessoas e observar o número de portadores da moléstia. h) Observar o tempo que um aluno gasta para ir de ônibus, de sua casa até a escola. i) Injetar uma dose de insulina em uma pessoa e observar a qunatidade de açúcar que diminuiu. j) Sujeitar uma barra metálica a tração e observar sua resistência. Exemplo 2: Consideremos os dados relativos ao aproveitamento num curso de Matemática para o 1º período de Administração 2003/2 da Faculdade UNIVILA, apresentados abaixo de forma ligeiramente diferente das tabelas de freqüências anteriores, apenas para ilustrar outra maneira de preparar uma tabela de freqüência. 3. INFERÊNCIA ESTATÍSTICA
Inferência Estatística é o estudo de técnicas que possibilitam a extrapolação, a um grande conjunto de dados, das informações e conclusões obtidas a partir de subconjuntos de valores, usualmente de dimensões muito menores. Deve-se notar que se tivermos acesso a todos os elementos que desejamos estudar, não é necessário o uso das técnicas de inferência estatística; entretanto, elas são indispensáveis quando existe a impossibilidade de acesso a todo o conjunto de dados, por razões de natureza econômica, ética ou física. Fases do Trabalho Estatístico
O trabalho estatístico é um método científico, que consiste das cinco etapas básicas seguintes: 1- Coleta e crítica de dados 2- Tratamento dos dados 3- Apresentação dos dados
4- Análise e interpretação dos resultados 5- Conclusão
Vamos tratar cada uma dessas etapas: Coleta e crítica dos dados
Após definirmos cuidadosamente o problema que se quer pesquisar, damos início á coleta dos dados numéricos necessários à sua descrição. A coleta pode ser direta ou indireta. A coleta é direta quando feita sobre elementos informativos de registro obrigatório (nascimentos, casamentos e óbitos, importação e exportação de mercadorias), elementos pertinentes aos prontuários dos alunos de uma escola ou, ainda, quando os dados são coletados pelo próprio pesquisador através de inquéritos e questionários.
A coleta direta de dados pode ser classificada relativamente ao fator tempo em: a) Contínua – quando feita continuamente, tal como a de nascimentos e óbitos e a de freqüência dos alunos às aulas. b) Periódica – quando feita em intervalos constantes de tempo, como os censos e as avaliações mensais dos alunos. c) Ocasional – Quando feita extemporaneamente, a fim de atender a uma conjuntura ou a uma emergência, como no caso de epidemias que assolam ou dizimam rebanhos inteiros. A coleta é indireta quando é inferida de elementos conhecidos (coleta direta) e/ou do conhecimento de outros fenômenos relacionados com o fenômeno estudado. Como por exemplo, podemos citar a pesquisa sobre a mortalidade infantil, que é feita através de dados colhidos por uma coleta direta.
Obtidos os dados, eles devem ser cuidadosamente criticados, à procura de possíveis falhas e imperfeições, a fim de não incorrermos em erros grosseiros ou certo vulto, que possam influir sensivelmente nos resultados.
A crítica é externa quando visa às causas dos erros por parte do informante, por distração ou má interpretação das perguntas que lhe foram feitas; è interna quando visa observar os elementos originais dos dados da coleta. Tratamento dos dados
Nada mais é do que a soma e o processamento dos dados obtidos e a disposição mediante critérios de classificação Pode ser manual ou eletrônica. Apresentação dos dados
Por mais diversa que seja a finalidade que se tenha em vista, os dados devem ser apresentados sob forma adequada – tabelas e gráficos – tornando mais fácil o exame daquilo que está sendo objeto de tratamento estatístico. Análise dos resultados Após a apresentação dos dados devemos calcular as medidas típicas convenientes para fazermos uma análise dos resultados obtidos, através dos métodos da Estatística Indutiva ou Inferencial, e tirarmos desses resultados conclusões e previsões. Conclusão
É de responsabilidade de um especialista no assunto que está sendo pesquisado, que não é necessariamente um estatístico, relatar as conclusões de maneira que sejam facilmente entendidas por quem as for usar na tomada de decisões. 4. TÉCNICAS DE AMOSTRAGEM
Uma amostragem será probabilística se todos os elementos da população tiverem probabilidade conhecida, e diferente de zero, de pertencer à amostra. Desta forma, a amostragem probabilística implica um sorteio com regras bem determinadas, cuja realização só será possível se a população for finita e totalmente acessível. Consideraremos aqui as seguintes técnicas de amostragem: 1 – Amostragem Aleatória Simples 2 – Amostragem Proporcional Estratificada 3 – Amostragem Sistemática
4.1 AMOSTRAGEM CASUAL OU ALEATÓRIA SIMPLES
Este tipo de amostragem é equivalente a um sorteio lotérico. A Amostragem Aleatória Simples é constituída de elementos retirados ao acaso da população. Então todo elemento da população tem probabilidade fixa de ser amostrado. Por isso é que a esse tipo de amostragem tende a produzir amostras representativas. Esta técnica é usada quando a identificação dos elementos da população é extremamente difícil, porém pode ser relativamente fácil dividir a população em conglomerados (subgrupos) heterogêneos representativos da população global. A seguir, é descrito o procedimento de execução desta técnica: 1. Seleciona uma amostra aleatória simples dos conglomerados existentes; 2. Realizar o estudo sobre todos os elementos do conglomerado selecionado. São exemplos de conglomerados: quarteirões, famílias, organizações, agências, edifícios, etc. Exemplo: Estudar a população de uma cidade, dispondo apenas do mapa dos quarteirões da cidade.
Neste caso, não temos a relação dos moradores da cidade, restando o uso dos subgrupos heterogêneos (conglomerados). Para realizar o estudo estatístico sobre a cidade, realizaremos os seguintes procedimentos: 1. Numerar os quarteirões de 1 a n; 2. Escrever os números de 1 a n em pedaços de papel e colocá-los em uma urna; 3. Retirar um pedaço de papel da urna e realizar o estudo sobre os elementos do conglomerado selecionado. Exemplo: Geralmente são considerados aleatórios os seguintes processos:
• A chegada de carros a um posto de pedágio • As chamadas telefônicas numa grande mesa de operação • A chegada de clientes aos caixas de um supermercado • A produção de qualquer processo mecânico • Sucessivos lances de moeda ou de dado • Tempo de serviço em estações de pedágio É de máxima importância dar cuidadosa atenção à maneira como se escolhem os itens, bem como se eles são igualmente prováveis. Exemplo: Imagine que 500 clientes estão cadastrados em sua empresa e você precisa obter uma amostra aleatória de 2% dos cadastros. O que você faria?
Como queremos uma amostra de 2% dos cadastros, precisamos sortear 10 deles. Faremos isso seguindo os seguintes passos: 1 – Numeramos os cadastros de 001 a 500. 2 - Para o sorteio exibiremos duas opções: a) Escreva os números de 001 a 500, em pedaços iguais de um mesmo papel, colocando-os dentro de uma caixa. Agite sempre a caixa para misturar bem os pedaços de papel e retire, um a um, dez números que formarão a amostra. b) Coloque em uma urna, bolas numeradas de zero a nove, inclusive, misture bem e retire uma. Anote o número dessa bola que será o primeiro dígito do número do cadastro que será amostrado. Volte a bola retirada à urna, misture bem e retire outra. O número dessa segunda bola será o segundo dígito do número do cadastro que será amostrado. O procedimento deverá ser repetido até completar os três dígitos da numeração utilizada. Como a população é constituída por 500 cadastros, devem ser desprezados os números maiores do que 500, bem como os números que já foram sorteados e o número 000. O sorteio deverá ser repetido até se conseguir a amostra de 10 cadastros. O processo de seleção exige que se atribuam números consecutivos aos itens listados escolhendo-se depois, aleatoriamente, os números dos itens que comporão a amostra. Conceitualmente, podemos usar cartas, dados, fichas numeradas ou bolas numeradas para gerar números aleatórios para gerar números aleatórios correspondentes aos números de nossa listagem. Na prática, tais dispositivos são empregados raramente, por várias razões. Uma dela é que cada dispositivo deixa algo a desejar; os métodos não são perfeitamente aleatórios. As cartas, por exemplo, podem aderir umas às outras, impedindo um embaralhamento perfeito. As arestas de um dado podem estar desgastadas. E sempre há o perigo de as bolas de uma urna não terem sido convenientemente misturadas. Em vista disso, e porque a amostragem aleatória é vital para a inferência estatística, existem tabelas especialmente elaboradas, chamadas Tabelas de Números Aleatórios, construída de modo que os dez algarismos (0 a 9) são distribuídos ao acaso nas linhas e colunas. Na tabela de números aleatórios os dez algarismos 0,1,2,...,7,8,9, podem ser lidos isoladamente ou em grupos; podem ser lidos em qualquer ordem, como por colunas, num sentido ou noutro, por linhas, diagonalmente etc., e podem ser considerados aleatórios. A opção de leitura, porém, deve ser feita, antes de iniciado o processo. Para usar uma tabela de números aleatórios devemos: 1 – Fazer uma lista dos números da população 2 – Numerar consecutivamente os itens na lista, a começar do zero,
3 – Ler os números na tabela de números aleatórios de modo que o número de algarismos em cada um seja igual ao número de algarismos do último número da sua listagem. 4 – Desprezar quaisquer números que não co rrespondam a números da lista ou que sejam repetições de números lidos anteriormente. Continue o processo até ter o número desejado de observações. 5 – Usar os números assim escolhidos para identificar os itens da lista a serem incluídos na amostra.
EXEMPLO DE UMA TABELA DE NÚMEROS ALEATÓRIOS (retirada de: STEVENSON, William J. Estatística aplicada à administração, São Paulo: Harbra, 1981)
3690 0813 6477 0772 5692
2492 6790 5289 2160 9870
7171 6858 4092 8236 3583
7720 1489 4223 0812 8997
6509 2669 6454 4195 1533
7549 3743 7632 5589 6566
2330 1901 7577 0830 8830
5733 4971 2816 8261 7271
4730 8280 9202 9232 3809
2080 1039 7227 8506 5086
3828 3382 0104 6348 0303
7880 7600 4141 4612 7423
0586 1077 1521 8252 3298
8482 4455 9104 1062 3979
7811 8806 5563 1757 2831
6807 1822 1392 0964 2257
3309 1669 8238 2983 1508
2729 7501 4882 2244 7642
0092 0935 2605 7277 5484
1629 5565 3973 9889 3900
0377 2315 8204 0390 3485
3590 8030 4143 5579 0741
2209 7651 2677 4620 9069
4839 5189 0034 5650 5920
6332 0075 8601 0210 4326
1490 9353 3340 2082 7704
3092 1921 8383 4664 6525
6905 8387 4094 4951 9047
7127 5323 1957 3781 0199
5933 3753 0163 5101 5068
1137 1859 9717 1815 7447
7583 6043 4118 7068 1664
6450 0294 4276 6379 9278
5658 5110 9465 7252 1708
7678 6340 8820 1086 3625
3444 9137 4127 8919 2864
7274 9192 0554 8231 3995
9512 4011 1690 5627 9677
0074 0255 6333 1815 7765
6677 5458 1931 7171 3194
8676 6942 9433 8036 3222
0222 8043 2661 1832 4191
3335 6201 8690 2031 2734
1976 1587 2313 6298 4469
1645 0972 6999 6073 8617
2402 5295 5177 7315 5775
6250 7385 1191 3365 7517
9362 5474 2106 7203 8974
7373 2123 3351 1231 3961
4757 7035 5057 0546 2183
1716 9983 0967 6612 5295
1942 5192 4538 1038 3096
0417 1840 1246 1425 8536
5921 6176 3374 2709 9442
5500 3251 4675 3543 3521
2276 8902 1435 6130 8772
6307 8843 2192 4247 6612
2346 2112 0874 4859 0721
1285 8567 2897 2660 3899
7000 8131 0262 7852 2999
5306 8116 5092 9096 1263
0414 5270 5541 0578 7017
3383 5994 4014 0097 8057
5573 7478 3339 5505 6381
9396 7569 2854 8474 2086
3464 7551 9691 3167 5457
1706 3380 9562 8552 7703
9204 2152 3252 5409 2758
3389 5411 9848 1556 2963
5678 2647 6030 4247 8167
2589 7242 8472 4652 6712
0288 2800 2266 2953 9820
Exemplo: Imagine que 500 clientes estão cadastrados em sua empresa e você precisa obter uma amostra aleatória de 2% dos cadastros. Como você usaria a tabela de números aleatórios para extrair essa amostra?
Depois de numerar os cadastros podemos escolher, por exemplo, percorrer a última coluna da tabela de cima para baixo lendo os três primeiros algarismos de cada linha. Os números obtidos dessa forma são: 473, 828, 920, 923, 380, 272, 750, 488, 224, 764, 309, 192, 838, 466, 652, 344, 913, 412. Desprezando os números que são maiores do que 500 (e eventuais repetições) devemos tomar para a amostra os cadastros de números: 473, 380, 272, 488, 224, 309, 192, 466, 344, 412. Dispondo-se de uma lista precisa dos itens da população, é relativamente simples escolher uma amostra aleatória com o auxilio de uma tabela de números aleatórios. Na realidade, a lista não precisa conter todos os itens. As locações dos itens podem constituir uma alternativa, como por exemplo, os quarteirões de uma cidade, ou os arquivos de uma firma etc. 4.2 AMOSTRAGEM ESTRATIFICADA
Muitas vezes a população se divide em subpopulações, denominadas de Estratos. Como é provável que a característica em estudo dessa população apresente, de estrato em estrato, um comportamento heterogêneo e, dentro de cada estrato, um comportamento homogêneo, convém que o sorteio dos elementos da amostra leve em consideração tais estratos. A amostra proporcional estratificada é composta por elementos proveniente de todos os estratos. Exemplo: Vamos obter uma amostra proporcional estratificada de 10% para a pesquisa da estatura de 90 alunos de uma escola onde 54 são meninos e 36 são meninas.Temos aqui dois estratos, sexo masculino e sexo feminino. a) O primeiro passo é determinar o tamanho da amostra em cada estrato: Sexo M
Po ula ão 54
F
36
Total
90
10% 10 × 54 = 5,4 100 10 × 36 = 3,6 100 10 × 90 = 9 100
Amostra 5
4 9
b) Numeramos os alunos de 01 a 90, sendo que de 01 a 54 correspondem meninos e de 55 a 90 meninas. c) obtemos uma amostra aleatória ou sistemática de cada sexo e reunimos as informações numa só amostra, denominada amostra estratificada.
4.3 AMOSTRAGEM SISTEMÁTICA
Quando os elementos da população já se acham ordenados, não há necessidade de construir um sistema de referência. São exemplos os prontuários médicos de um hospital, os prédios de uma rua, as linhas de produção etc. Nestes casos, a seleção dos elementos que constituirão a amostra pode ser feita por um sistema imposto pelo pesquisador. A Amostragem Sistemática é constituída de elementos retirados da população segundo um sistema preestabelecido. Exemplo 1: Imagine que 500 clientes estão cadastrados em sua empresa e você precisa obter uma amostra aleatória de 2% dos cadastros. Como você obteria uma amostra sistemática? Precisamos obter uma amostra de tamanho 10. Para obter a amostra podemos dividir 500 por 10, e obter 50. Sorteamos um número entre 1 e 50, inclusive, para ser o primeiro cadastro da mostra e a partir desse número, contamos 50 cadastros e retiramos o último para fazer parte da amostra. Procedemos dessa forma até completarmos os 10 cadastros da amostra. Exemplo 2: No caso de uma linha de produção, podemos, a cada dez itens produzidos, retirar um para pertencer a uma amostra da produção diária. Neste caso, estaríamos fixando o tamanho da amostra em 10% da população. É preciso especial cuidado com o sistema de seleção. Não forme uma amostra com as primeiras p essoas de uma fila ou, se são atendidos 10 clientes por dia, não escolha para a amostra, o décimo de cada dez clientes. Estes procedimentos podem determinar amostras tendenciosas. Recomenda-se sempre sortear o primeiro elemento que será selecionado para a mostra e, a partir daí, usar o sistema de seleção. 4.4 AMOSTRAGEM POR CONGLOMERADOS
É utilizada quando a população pode ser dividida em subpopulações (conglomerados) heterogêneos representativos da população global. A amostragem é feita sobre os conglomerados, e não mais sobre os indivíduos da população.