FACULDADE PITÁGORAS DE LINHARES Prof. Esp. Thiago Magalhães CORRELAÇÃO E REGRESSÃO LINEAR Introdução Suponha que um inspetor de segurança queira determinar se existe uma relação entre o número de horas de treinamento para um funcionário e o número de acidentes envolvendo este mesmo funcionário. Ou suponha que uma psicóloga queira saber se existe uma relação entre o número de horas que uma pessoa dorme a cada noite e o tempo de reação da pessoa. Como você determinaria se a relação existe? Nesta etapa, você estudará como descrever que tipo de relação, ou correlação, existe entre duas variáveis quantitativas e como determinar se a correlação é significante.
Definição Uma Correlação é uma relação entre duas variáveis. Os dados podem ser representados por pares ordenados (x,y), onde x é a variável independente (ou explanatória) e y é a variável dependente (ou resposta).
DIAGRAMA DE DISPERSÃO É um gráfico no qual cada ponto plotado representa um par observado de valores para as variáveis estudadas (X ,Y), num sistema de eixos cartesianos. Através do diagrama de dispersão podemos ter uma idéia do tipo de relação entre as variáveis estudadas. A variável independente (explanatória) x é medida pelo eixo horizontal, e a variável dependente (resposta) y é medida pelo eixo vertical. Um diagrama de dispersão pode ser usado para determinar se existe uma correlação linear (linha reta) entre duas variáveis. Os diagramas de dispersão mostram diversos tipos de correlação. A seguir temos alguns exemplos exemplos de diagramas de dispersão. dispersão.
Estatística e Probabilidade
Página 58
FACULDADE PITÁGORAS DE LINHARES Prof. Esp. Thiago Magalhães
Consideremos uma amostra aleatória, formada por dez dos 60 alunos do 3º Período de Engenharia da Faculdade Pitágoras e pelas notas obtidas por eles em Cálculo 2 e Estatística: Notas No
Cálculo 2 (X)
Estatística (Y)
01
5,0
6,0
02
8,0
9,0
03
7,0
8,0
04
10,0
10,0
05
6,0
5,0
06
7,0
7,0
07
9,0
8,0
08
3,0
4,0
09
8,0
6,0
10
2,0
2,0
Estatística e Probabilidade
Página 59
FACULDADE PITÁGORAS DE LINHARES Prof. Esp. Thiago Magalhães Representando, em um sistema cartesiano ortogonal, os pares ordenados , obtemos uma nuvem de pontos que denominamos diagrama de
dispersão. Esse diagrama nos fornece uma idéia grosseira, porém útil da correlação existente: 12 10 a c i t s í t a t s E
8 6 4 2 0 -3
2
7
12
Cálculo 2
Construindo o diagrama de dispersão Um gerente de marketing conduziu um estudo para determinar se há uma relação entre o dinheiro gasto com propaganda e as vendas da empresa. Os dados são mostrados na tabela. Coloque os dados em um diagrama de dispersão e determine se parece haver uma correlação linear positiva ou negativa ou se parece não haver correlação linear.
Estatística e Probabilidade
Página 60
FACULDADE PITÁGORAS DE LINHARES Prof. Esp. Thiago Magalhães Solução O diagrama de dispersão é mostrado à direita. A partir do diagrama de dispersão, parece haver uma correlação linear positiva entre as variáveis.
Interpretação: Lendo da esquerda para a direita, conforme os gastos com propaganda aumentam, as vendas tendem a aumentar.
Coeficiente de correlação Interpretar a correlação usando um diagrama de dispersão pode ser subjetivo. Uma maneira mais precisa de se medir o tipo e a força de uma correlação linear entre duas variáveis é calcular o coeficiente de correlação. Embora a fórmula para o coeficiente de correlação amostral seja dada, é mais conveniente usar uma ferramenta tecnológica para calcular esse valor.
O Coeficiente de Correlação é uma medida da força e direção de uma relação linear entre duas variáveis. O símbolo r representa o coeficiente de correlação amostral. Uma fórmula para r é:
O nome formal de r é "Coeficiente de Correlação de Pearson". Este nome é em homenagem ao estatístico inglês Karl Pearson (1857-1936). Onde n é o número de pares de valores observados. Observe-se que . A partir dos valores de , podemos verificar o tipo da correlação
existente entre as variáveis estudadas, conforme tabela seguinte: Valor de 0,0 0,1 |----| 0,3 0,4 |----| 0,6 0,7 |----| 0,9 0,99 1,0
Correlação nula fraca media forte fortíssima perfeita
Estatística e Probabilidade
Página 61
FACULDADE PITÁGORAS DE LINHARES Prof. Esp. Thiago Magalhães Exemplo: Encontre o coeficiente de correlação para os dados da tabela de notas obtidas pelos 10 alunos de Engenharia nas disciplinas de Cálculo 2 e Estatística: (X)
(Y)
XY
X2
Y2
5
6
30
25
36
8
9
72
64
81
7
8
56
49
64
10
10
100
100
100
6
5
30
36
25
7
7
49
49
49
9
8
72
81
64
3
4
12
9
16
8
6
48
64
36
2
2
4
4
4
65
65
473
481
475
r
10.473 65.65 10.481 652 10.475 652
505 585 525
0,911
CORRELAÇÃO POSITIVA E CORRELAÇÃO NEGATIVA O valor de r está sempre entre – Se as variáveis x e y crescem no mesmo sentido, isto é, quando x cresce, y também cresce, diz-se que as duas variáveis têm correlação positiva e o valor de r está próximo de 1. Então, notas de Cálculo 2 e notas de Estatística dos alunos tem correlação positiva, porque quando uma das variáveis cresce, a outra , em média, também cresce. Se as variáveis x e y variam em sentido contrário, isto é, quando x cresce, em média y decresce, diz-se que as duas variáveis têm correlação negativa e o valor de r está próximo de -1. Se r está próximo a 0, isso não significa que não há relação linear.
Estatística e Probabilidade
Página 62
FACULDADE PITÁGORAS DE LINHARES Prof. Esp. Thiago Magalhães Observe os dados da Tabela abaixo Consumo individual de proteínas de origem animal, em gramas, e coeficiente de natalidade, em 14 países. País
Consumo de
Coef. de
proteínas
natalidade
Formosa
4,7
45,6
Malásia
7,5
39,7
Índia
8,7
33,0
Japão
9,7
27,0
Iugoslávia
11,2
25,9
Grécia
15,2
23,5
Itália
15,2
23,4
Bulgária
16,8
22,2
Alemanha
37,3
20,0
Irlanda
46,7
19,1
Dinamarca
56,1
18,3
Austrália
59,9
18,0
Estados Unidos
61,4
17,9
Suécia
62,6
15,0
Fonte: Castro (1961)
50 45 40 35 30 25 20 15 10 5 0 0
20
40
60
Eixo x = consumo de proteínas Eixo y = coeficiente de natalidade
Estatística e Probabilidade
Página 63
FACULDADE PITÁGORAS DE LINHARES Prof. Esp. Thiago Magalhães ANÁLISE DE REGRESSÃO Muitas vezes é de interesse estudar a relação de dois ou mais atributos ou variáveis simultaneamente. Nesses casos presume-se que pelo menos duas observações são feitas sobre cada elemento da amostra. A amostra consistirá, então, de pares de valores, um valor para cada uma das variáveis, designadas, X e Y. Um indivíduo “i” qualquer apresenta o par de valores (X i; Yi). O objetivo
visado quando se registra pares de valores (observações) em uma amostra, é o estudo das relações entre as variáveis X e Y. Para a análise de regressão interessam principalmente os casos em que a variação de um atributo é sensivelmente dependente do outro atributo. O problema consiste em estabelecer a função matemática que melhor exprime a relação existente entre as duas variáveis. Simbolicamente a relação é expressa por uma equação de regressão e graficamente por uma curva de regressão.
REGRESSÃO LINEAR O processo de regressão linear consiste em determinar a equação da reta que melhor se ajusta ao conjunto de pontos de uma distribuição. No processo de regressão linear é aconselhável expressar y em função de x obtendo uma equação do tipo y = ax + b. Neste caso, x é a variável independente e y é a variável dependente, isto é, y é estimado em função de x. A equação obtida é denominada equação de regressão de y sobre x. Usa-se essa equação quando se deseja obter valores de y que correspondem a valores de x não constantes da tabela.
A equação de uma reta de regressão para uma variável independente x e uma variável dependente y é y mx b , onde ˆ
y ˆ
é o valor y previsto para um
dado valor x. A inclinação m e a interseção y b são dadas por
onde é a média dos valores y no conjunto de dados e é a média dos valores x. A linha de regressão sempre passa pelo ponto
Estatística e Probabilidade
Página 64
FACULDADE PITÁGORAS DE LINHARES Prof. Esp. Thiago Magalhães EXEMPLO: Determinar a equação da reta que melhor se ajusta aos pontos da tabela:
Completando a tabela com os valores necessários para os cálulos de a e de b, temos:
Calculando m e b, sendo n = 8 (números de pares)
– –
– –
Assim, a reta de regressão de y sobre x é .
Aplicações das linhas de regressão Após encontrar a equação de uma linha de regressão, você pode usar a equação para prever valores y sobre a amplitude de dados se a correção entre x e y é significante. Por exemplo, um executivo de publicidade poderia projetar as vendas da empresa com base nos gastos de propaganda. Para prever valores y, substitua o valor x dado na equação de regressão e então calcule , o valor y previsto.
Estatística e Probabilidade
Página 65
FACULDADE PITÁGORAS DE LINHARES Prof. Esp. Thiago Magalhães Prevendo valores usando equações de regressão A equação de regressão para os dados sobre gastos com propaganda (em milhares de dólares) e vendas da empresa (em milhares de dólares) é:
Use essa equação para prever as vendas esperadas da empresa para os seguintes gastos com propaganda.
Solução Para prever as vendas esperadas pela empresa, substitua cada gasto com propaganda por x na equação de regressão. Depois, calcule .
Interpretação
Quando os gastos com propaganda somam $ 1.500, as vendas da empresa são cerca de $180.155.
Quando os gastos com propaganda somam $ 1.800, as vendas da empresa são cerca de $195.373.
Estatística e Probabilidade
Página 66
FACULDADE PITÁGORAS DE LINHARES Prof. Esp. Thiago Magalhães Quando os gastos com propaganda somam $ 2.500, as vendas da empresa são cerca de $ 230.884. Valores de previsão são significantes somente para valores x na (ou próximos à) faixa dos dados. Os valores x do conjunto original de dados variam de 1,4 a 2,6. Portanto, não seria apropriado usar a linha de regressão y = 50,729x + 104,061 para prever as vendas da empresa por gastos com propaganda, tais como 0,5 ($ 500) ou 5,0 ($ 5.000).
Estatística e Probabilidade
Página 67
FACULDADE PITÁGORAS DE LINHARES Prof. Esp. Thiago Magalhães Exercícios de Aplicação 1. É esperado que a massa muscular de uma pessoa diminua com a idade. Para estudar essa relação, uma nutricionista selecionou 18 mulheres, com idade entre 40 e 79 anos, e observou em cada uma delas a idade (X) e a massa muscular (Y).
Massa Muscular (Y)
Idade (X)
82.0
71.0
91.0
64.0
100.0
43.0
68.0
67.0
87.0
56.0
73.0
73.0
78.0
68.0
80.0
56.0
65.0
76.0
84.0
65.0
116.0
45.0
76.0
58.0
97.0
45.0
100.0
53.0
105.0
49.0
77.0
78.0
73.0
73.0
78.0
68.0
a) Construa o diagrama de dispersão e interprete-o. b) Calcule o coeficiente de correlação linear entre X e Y. c) Determine a equação da reta de regressão para a relação entre as variáveis Y: massa muscular (dependente) e X: idade (independente).
Estatística e Probabilidade
Página 68
FACULDADE PITÁGORAS DE LINHARES Prof. Esp. Thiago Magalhães d) Considerando a reta estimada dada no item (c), estime a massa muscular média de mulheres com 50 anos.
2 - A tabela abaixo mostra o faturamento de uma empresa (R$x1000) Mês
JAN FEV MAR ABR MAI
Faturamento 2,1
2,0
2,6
2,9
3,1
JUN 3,5
a) Determinar o coeficiente de correlação de Pearson. b) Estimar o faturamento para julho, pela equação da reta de regressão 3 - Observou-se que o volume mensal de lixo gerado em uma cidade, em função do número de dormitórios das residências, é o seguinte (em m 3): No Dormitórios
1
2
3
4
Volume de lixo 0,15 0,29 0,45 0,57
a) Calcular e interpretar o coeficiente de correlação. b) Representar o gráfico de dispersão dessa relação. c) Determinar a equação da reta de regressão. d) Estimar o volume de lixo para uma residência com 5 dormitórios. 4 - A função de demanda de um produto está representada na tabela abaixo: Preço (R$) Demanda
56,00 60,00 63,00 68,00 74,00 100
93
87
81
75
(un.)
a) Determinar a equação da reta de regressão. b) Estimar a demanda se o preço for R$ 80,00.
Estatística e Probabilidade
Página 69
FACULDADE PITÁGORAS DE LINHARES Prof. Esp. Thiago Magalhães 5 - Os gastos com propaganda e o respectivo volume de vendas gerado, de um certo produto, são dados abaixo: Gastos com
20
40
10
100
70
propaganda (em milhares de R$) Volume de vendas 1.110 1.250
1.000 1950 1600
(em milhares de R$)
a) Determinar o coeficiente angular e linear da reta de regressão. b) Determinar a equação da reta de regressão. c) Calcular o coeficiente de correlação de Pearson. Interpretar esse valor. d) Estimar o volume de vendas para um gasto de R$ 150.000,00 em propaganda.
e) Caso não se faça nenhum investimento em propaganda, qual o volume de vendas esperado?
f) Se a expectativa de vendas for de R$ 1.500.000,00, quando se deve investir em propaganda para esse produto?
6 - Suponha que uma cadeia de supermercados tenha financiado um estudo sobres gastos com mercadorias para famílias de classe média. O estudo se limitou a famílias com renda líquida entre 8 e 20 salários mínimos. Obteve-se a seguinte equação: , onde:
Estimar a despesa de uma família com renda mensal líquida de 15 s.m.
Estatística e Probabilidade
Página 70
FACULDADE PITÁGORAS DE LINHARES Prof. Esp. Thiago Magalhães 7 - Para cada uma das amostras faça o diagrama de dispersão e, se uma equação linear parecer apropriada, determine os seus parâmetros e calcule o coeficiente de correlação.
8 - Os dados abaixo forma colhidos de cinco fábricas diferentes de uma determinada indústria:
a) Calcule o coeficiente de correlação. b) Ajuste uma função linear da forma para o custo total dessa indústria.
Estatística e Probabilidade
Página 71
FACULDADE PITÁGORAS DE LINHARES Prof. Esp. Thiago Magalhães Gabarito 1. a)
120
r 110 a l u c 100 s u M a 90 s s a 80 M 70 60 40
50
60
70
80
Idade No gráfico de dispersão entre a variável massa muscular e idade, pode-se observar que há um forte indício de relação linear decrescente entre as variáveis em estudo. Nota-se que a massa muscular das pessoas diminui à medida que a idade aumenta.
b) - 0,837 , Segundo o resultado da correlação obtida, pode-se notar que há uma forte correlação linear entre a variável massa muscular e idade. Nota-se que à medida que a idade da pessoa aumenta a massa muscular diminui, o que é coerente com o gráfico de dispersão apresentada anteriormente.
c) d) 2. a) 0,9717
b) 3,76
3. a) 0,9986
Estatística e Probabilidade
Página 72
FACULDADE PITÁGORAS DE LINHARES Prof. Esp. Thiago Magalhães b)
o 0,6 x i L 0,5 o 0,4 d e 0,3 m0,2 u l o 0,1 V 0 0
1
2
3
4
5
Nº de Dormitórios c) d) 0,72 4. a) b) 5. a) b) c) d) R$ 2.452,63 e) R$ 878,18 f) R$ 59,24 6. 4,8 7.
4000 3500 3000
l a t 2500 o T o 2000 t s u 1500 C
1000 500 0 0
20
40
60
80
Tamanho
Estatística e Probabilidade
Página 73
FACULDADE PITÁGORAS DE LINHARES Prof. Esp. Thiago Magalhães Obs. Uma Equação Linear não parece ser apropriada.
Obs. Uma equação linear parece ser apropriada. Logo:
8. a) b)
Estatística e Probabilidade
Página 74