You are on page 1of 14

Prof. Paulo Ricardo B.

Guimares
Anlise de Regresso

1. Introduo

Os modelos de regresso so largamente utilizados em diversas reas do
conhecimento, tais como: computao, administrao, engenharias, biologia, agronomia,
sade, sociologia, etc. O principal objetivo desta tcnica obter uma equao que explique
satisfatoriamente a relao entre uma varivel resposta e uma ou mais variveis
explicativas, possibilitando fazer predio de valores da varivel de interesse. Este
relacionamento pode ser por uma equao linear ou uma funo no linear, conforme figura
abaixo:

Figura 1: formas lineares e no lineares de relao entre pares de variveis


LINEAR NO LINEAR

2. Regresso linear simples

Se uma relao linear vlida para sumarizar a dependncia observada entre duas
variveis quantitativas, ento a equao que descreve esta relao dada por:

Y = a + b X

Esta relao linear entre X e Y determinstica, ou seja, ela afirma que todos os
pontos caem exatamente em cima da reta de regresso. No entanto este fato raramente ir
ocorrer, ou seja, os valores observados no caem todos exatamente sobre esta linha reta.
Existe uma diferena entre o valor observado e o valor fornecido pela equao. Esta
diferena denominada erro e representada por , uma varivel aleatria que quantifica
a falha do modelo em ajustar-se aos dados exatamente. Tal erro pode ser devido ao efeito,
dentre outros, de variveis no consideradas e de erros de medio. Incorporando esse erro
equao acima temos:

Y = a + bX +

que denominado modelo de regresso linear simples. a e b

so os parmetros do modelo.
A varivel X, denominada varivel regressora, explicativa ou independente,
considerada uma varivel controlada pelo pesquisador e medida com erro desprezvel. J Y,
denominada varivel resposta ou dependente, considerada uma varivel aleatria, isto ,
existe uma distribuio de probabilidade para Y em cada valor possvel de X. muito
freqente, na prtica, encontrarmos situaes em que Y tenha distribuio Normal. Este
um dos principais pressupostos para aplicao desta tcnica.

Exemplo 1: O preo de aluguel de automveis de uma agncia definido pela seguinte
equao: Y = 8 + 0.15 X, onde Y = Taxa de aluguel (R$); X = distncia percorrida (km).

Assim, a taxa de aluguel inicia com o preo de R$ 8,00 e vai aumentando medida
que a distncia percorrida aumenta. Assim, se fosse percorrida uma distncia de 100 km, a
taxa de aluguel seria de 8 + 0,15 x 100 = R$ 23,00. No entanto, como essa equao foi
obtida baseada em dados de automveis de diversas marcas certamente haver uma
variao no preo, por causa de diversos outros fatores. Assim, essa equao ter uma
margem de erro, que devida a esses inmeros fatores que no foram controlados.


Exemplo 2: Um psiclogo investigando a relao entre o tempo que um indivduo leva para
reagir a um certo estmulo e sua idade obteve os seguintes resultados:


Tabela 1: Idade (em anos) e tempo de reao a um certo estmulo (em segundos)

Y - Tempo de reao (segundos) X - Idade (em anos)
96 20
92 20
106 20
100 20
98 25
104 25
110 25
101 25
116 30
106 30
109 30
100 30
112 35
105 35
118 35
108 35
113 40
112 40
127 40
117 40


Figura 2: diagrama de disperso entre a idade (X) e o tempo de reao (Y)

80
90
100
110
120
130
140
15 20 25 30 35 40 45
IDADE
T
E
M
P
O


A partir da representao grfica desses dados, mostrada na figura acima, possvel
visualizar uma relao linear positiva entre a idade e o tempo de reao. O coeficiente de
correlao de Pearson para esses dados resultou em r = 0,768, bem como seu respectivo
teste de significncia em t
cal
= 5,09, que comparado ao valor tabelado t
tab
,
5%
= 2,1 , fornece
evidncias de relao linear entre essas duas variveis, ou seja, h evidncias de
considervel relao linear positiva entre idade e tempo de reao.
Podemos, ento, usar um modelo de regresso linear simples para descrever essa
relao. Para isso, necessrio estimar, com base na amostra observada, os parmetros
desconhecidos a e b deste modelo. O mtodo de estimao denominado Mnimos
Quadrados Ordinrios (MQO) freqentemente utilizado em regresso linear para esta
finalidade e ser apresentado mais adiante.

Continuando a anlise dos dados do exemplo, possvel obter o seguinte modelo de
regresso linear simples ajustado:

Y = 80,5 + 0,9X

Figura 3: reta de regresso ajustada aos dados

80
90
100
110
120
130
140
15 20 25 30 35 40 45
IDADE
T
E
M
P
O

Como a variao dos dados em X no inclui x = 0, no h interpretao prtica do
coeficiente a = 80,5. Por outro lado, b = 0,9 significa que a cada aumento de 1 ano na idade
das pessoas, o tempo de reao mdio (esperado) aumenta em 0,9 segundos.

Assim, se: x = 20 anos, teremos y = 98,5 seg.
Para x = 21 anos, y = 99,4 seg.
x = 22 anos, y = 100,3 seg.
Assim, de ano para ano, o aumento no tempo de reao esperado de 0,9 segundos.

Exemplo 3:
Uma certa pea manufaturada por uma companhia, uma vez por ms, em lotes que variam
de tamanho de acordo com as flutuaes na demanda. A tabela abaixo contm dados sobre
tamanho do lote e nmero de horas gastas na produo de 10 recentes lotes produzidos sob
condies similares. Estes dados so apresentados graficamente na figura 4, tomando-se
horas-homem como varivel dependente ou varivel resposta (Y) e o tamanho do lote
como varivel independente ou preditora (X).

Tabela 2 - Tamanho de lote e nmero de horas gastas na produo de cada lote.

Lote (i) Horas (Y
i
) Tamanho do lote (X
i
)
1 73 30
2 50 20
3 128 60
4 170 80
5 87 40
6 108 50
7 135 60
8 69 30
9 148 70
10 132 60

Figura 4 - Relao estatstica entre Y e X, referente aos dados da tabela 2.
DIAGRAMA DE DISPERSO ENTRE TAMANHO DO LOTE (X)
E HORAS(Y)
0
50
100
150
200
0 20 40 60 80 100
TAMANHO DO LOTE
H
O
R
A
S

A figura sugere claramente que h uma relao linear positiva entre o tamanho do
lote e o nmero de horas, de modo que, maiores lotes tendem a corresponder a maiores
nmeros de horas-homem consumidas. Porm, a relao no perfeita, ou seja, h uma
disperso de pontos sugerindo que alguma variao no nmero de horas no dependente
do tamanho do lote. Por exemplo, dois lotes de 30 unidades (1 e 8) demandaram
quantidades um pouco diferentes de horas. Na figura foi traada uma linha (reta) de
relacionamento descrevendo a relao estatstica entre horas e tamanho do lote. Ela indica a
tendncia geral da variao em horas-homem quando h trocas no tamanho do lote.
Observa-se que grande parte dos pontos da figura no cai diretamente sobre a linha
de relacionamento estatstico. A disperso dos pontos em torno da linha de relacionamento
representa a variao em horas que no associada ao tamanho do lote, e que usualmente
considerada aleatria. Relaes estatsticas so geralmente teis, mesmo no tendo uma
relao funcional exata.

3. Mtodo dos mnimos quadrados ordinrios (MQO)

Para estimar os parmetros do modelo necessrio um mtodo de estimao. O
mtodo estatstico utilizado e recomendado pela sua preciso, o mtodo dos mnimos
quadrados que ajusta a melhor equao possvel aos dados observados.

Com base nos n pares de observaes (y
1
,x
1
) , (y
2
,x
2
) ,... , ( y
n
, x
n
) , o mtodo de
estimao por MQO consiste em escolher a e b de modo que a soma dos quadrados dos
erros,
i
(i=1 ,..., n), seja mnima.

Para minimizar esta soma, que expressa por:

( )

=
= =
n
I
i i
n
i
i
bX a y SQ
1 1
2


devemos, inicialmente, diferenciar a expresso com respeito a a e b e, em seguida,
igualar a zero as expresses resultantes. Feito isso, e aps algumas operaes algbricas, os
estimadores resultantes so:

=
2
2
x n x
x y n y x
b
i
i i


x b y a =


onde y a mdia amostral dos y
i
s e x a mdia amostral dos x
i
s.



Logo, E(Y | x) = a + bx o modelo de regresso linear simples ajustado, em que
E(Y|x), denotado tambm Y

por simplicidade, o valor mdio predito de Y para qualquer


valor X = x que esteja na variao observada de X.

No exemplo 2, as estimativas dos parmetros resultaram em a = 80,5 e b = 0,9. Veja
como esses valores foram obtidos:

= 600
i
X

= 2150
i
Y n = 20

= 65400
i i
Y X

30 = X 5 , 107 = Y

=19000
2
i
X

9 , 0
1000
900
) 30 .( 20 19000
30 . 5 , 107 . 20 65400
2 2
2
= =

x n x
x y n y x
b
i
i i



5 , 80 30 . 9 , 0 5 , 107 = = = x b y a

No exemplo 3 as estimativas dos parmetros a e b so:

= 500
i
X 0 110

=
i
Y n = 10

= 61800
i i
Y X

50 = X 110 = Y

= 28400
2
i
X

2
3400
6800
) 50 .( 10 28400
50 . 110 . 10 61800
2 2
2
= =

x n x
x y n y x
b
i
i i



10 50 . 2 110

1
= = = x y a

Assim, a equao de regresso linear entre X e Y ser dada por:

Y = 10 + 2 X +

Interpretando o modelo acima, poderemos observar que, aumentando o tamanho do
lote em uma unidade, o nmero de horas gastas na produo ser aumentado de 2 horas.

Obtendo a reta de regresso com ajuda da planilha Excel, teremos que selecionar a opo
REGRESSO no mdulo de Anlise de dados (em ferramentas):



A sada fornecida pela planilha a seguinte:


Observe que o Excel fornece, alm dos coeficientes de correlao, a Anova da regresso
para testar a sua significncia e os coeficientes estimados com seus respectivos testes de
significncia.


4. Anlise de Varincia da Regresso


Para verificar a adequao do modelo aos dados, algumas tcnicas podem ser
utilizadas. A anlise de varincia da Regresso uma das tcnicas mais usadas. Assim,
podemos analisar a adequao do modelo pela ANOVA da regresso a qual geralmente
apresentada como na tabela abaixo:

Fonte de Variao g.l. S.Q. Q.M. F p-valor
Regresso p-1 SQreg SQreg/p-1
Resduos n-p SQres SQres/n-p
QMreg/QMres

Total n-1 SQtotal Sqtotal/n-1

Onde:

- SQreg = soma dos quadrado devido regresso:
SQreg =

n
i
i
y Y
1
2
) (
)

- SQres = soma dos quadrado devido aos erros:
SQres = SQtotal Sqreg =

n
i
i i
Y y
1
2
) (
)

- SQtotal = soma dos quadrados totais:
SQtotal =

n
i
i
y y
1
2
) (

- p = nmero de variveis do modelo
- n = numero de observaes.


Caso o p-valor seja inferior ao nvel de significncia estabelecido ento
consideramos a regresso como significativa.
Uma maneira auxiliar de medir o ganho relativo introduzido pelo modelo usar o
coeficiente de determinao o qual definido por R
2
que calculado por SQreg/SQtotal.


Para os exemplos 2 e 3, a tabela da ANOVA seria construda de seguinte forma:

Exemplo 2:
SQreg =

= =
+ =
n
i
i
n
i
i
x y Y
1
2
1
2
) 5 , 107 9 , 0 5 , 80 ( ) (
)
= 810
Para obter a soma de quadrados acima, deveremos substituir em x
i
todos os valores
de Idade da tabela 1.
SQtotal =

= =
=
n
i
i
n
i
i
y y y
1
2
1
2
) 5 , 107 ( ) ( =1373
Para obter a soma de quadrados acima, deveremos substituir em y
i
todos os valores
de tempo de reao da tabela 1.

SQres = 1373 810 =563

Fonte de Variao g.l. S.Q. Q.M. F p-valor
Regresso 1 810 810
Resduos 18 563 31,27
25,90 <0,01
Total 19 1373

O que indica que a regresso entre X e Y significativa. O modelo Y = 80,5 +0,9 X
pode ser considerado adequado para realizar predies de Y. O coeficiente r
2
de
determinao para esse modelo de 0,59 o que representa um poder apenas razovel de
explicao dos valores de tempo de reao pela Idade. Muito provavelmente outras
variveis estejam influenciando o tempo de reao.


Exemplo 3:

SQreg =

= =
+ =
n
i
i
n
i
i
x y Y
1
2
1
2
) 110 2 10 ( ) (
)
= 13600
Para obter a soma de quadrados acima, deveremos substituir em x
i
todos os valores
do tamanho do lote da tabela 2.
SQtotal =

= =
=
n
i
i
n
i
i
y y y
1
2
1
2
) 5 , 107 ( ) ( =13660
Para obter a soma de quadrados acima, deveremos substituir em y
i
todos os valores
de nmero de horas gastas da tabela 2.

SQres = 13660 13600 = 60


Fonte de Variao g.l. S.Q. Q.M. F p-valor
Regresso 1 13600 13600
Resduos 8 60 7,5
1813,33 <0,01
Total 9 13660

O que indica que a regresso entre X e Y significativa. O modelo Y = 10 + 2 X
pode ser considerado de boa qualidade para realizar predies de Y. O coeficiente r
2
de
determinao para esse modelo de 0,996.


5. Erro padro de estimao e intervalos de predio


O erro padro da estimao um desvio padro condicional, na medida em que
indica o desvio padro da varivel dependente Y, dado um valor especfico da varivel
dependente X. O erro padro baseado em dados amostrais dado por:

2
)

=

n
Y y
u




Para fins de clculo, mais conveniente uma verso alternativa da frmula:

( )
2 2
1 r S
y u
=
onde
( )
n
y y
S
n
i
y

=
1 2


O erro padro pode ser usado para estabelecer um intervalo de predio para a
varivel dependente, dado um valor especfico da varivel independente.
Uma vez que o erro padro de estimao est baseado em dados de amostra,
apropriado o uso da distribuio t de Student com n-2 graus de liberdade. Assim, um
intervalo de predio para a varivel dependente Y, em anlise de regresso simples :

] . [
2 / ; 2
^
u n
t Y




Para os dados do exemplo 2 teramos o erro padro da estimao dado por:

Dado que =
2
y
S 68,65 e r
2
= 0,5911 ento

( ) ( ) 683 , 6 5911 , 0 1 65 , 68 1
2 2 2
= = = r S
y u


E o intervalo de predio, com 95% de confiana, para um valor de Y=112 seria:

[ ] 03 , 126 ; 96 , 97 ] 68 , 6 . 10 , 2 112 [ ] . [
2 / ; 2
^
= =
u n
t Y



Ou seja, para uma pessoa com 35 anos, o tempo de reao predito estaria entre
97,96 e 126,03 segundos, com 95% de confiana.

Para os dados do exemplo 3 teramos o erro padro da estimao dado por:

Dado que =
2
y
S 1366 e r
2
= 0,996 ento

( ) ( ) 3 , 3 996 , 0 1 1366 1
2 2 2
= = = r S
y u



E o intervalo de predio, com 95% de confiana, para um valor predito de Y= 110 seria:

[ ] 62 , 117 ; 37 , 102 ] 3 , 3 . 31 , 2 110 [ ] . [
2 / ; 2
^
= =
u n
t Y



Ou seja, para um lote de tamanho 50, seriam necessrias de 102,37 a 117,62 horas,
com 95% de confiana.

6. Anlise de Resduos

Os desvios e
i
= y
i
-
i
y ( i = 1, ..., n) so denominados resduos e so considerados
uma amostra aleatria dos erros. Por este fato, uma anlise grfica dos resduos , em geral,
realizada para verificar as suposies assumidas para os erros
i
.
Para verificao dos pressupostos necessrios para ajuste de um modelo de
regresso necessrio realizar uma Anlise de Resduos. Os 3 tipos de resduos mais
comumente utilizados so:
Resduos brutos;
Resduos padronizados;
Resduos estudentizados.



7. Ampliando seus conhecimentos

Anlise de Regresso Mltipla

A regresso mltipla envolve trs ou mais variveis, ou seja, uma nica varivel
dependente, porm duas ou mais variveis independentes (explicativas).
A finalidade das variveis independentes adicionais melhorar a capacidade de
predio em confronto com a regresso linear simples. Mesmo quando estamos
interessados no efeito de apenas uma das variveis, aconselhvel incluir as outras capazes
de afetar Y, efetuando uma anlise de regresso mltipla, por 2 razes:
a) Para reduzir os resduos. Reduzindo-se a varincia residual (erro padro da
estimativa), aumenta a fora dos testes de significncia;
b) Para eliminar a tendenciosidade que poderia resultar se simplesmente
ignorssemos uma varivel que afeta Y substancialmente.
Uma estimativa tendenciosa quando, por exemplo, numa pesquisa em que se deseja
investigar a relao entre a aplicao de fertilizante e o volume de safra, atribumos
erroneamente ao fertilizante os efeitos do fertilizante mais a precipitao pluviomtrica.
O ideal obter o mais alto relacionamento explanatrio com o mnimo de variveis
independentes, sobretudo em virtude do custo na obteno de dados para muitas variveis e
tambm pela necessidade de observaes adicionais para compensar a perda de graus de
liberdade decorrente da introduo de mais variveis independentes.

A equao da regresso mltipla tem a forma seguinte:

Y = a + b
1
x
1
+ b
2
x
2
++b
k
x
k
+ e
i
, onde:

a = intercepto do eixo y;
b
i
= coeficiente angular da i-sima varivel;
k = nmero de variveis independentes.
Enquanto uma regresso simples de duas variveis resulta na equao de uma reta, um
problema de trs variveis resulta um plano, e um problema de k variveis resulta um
hiperplano.

Tambm na regresso mltipla, as estimativas dos mnimos quadrados so obtidas pela
escolha dos estimadores que minimizam a soma dos quadrados dos desvios entre os valores
observados Y
i
e os valores ajustados Y

.

Na regresso simples:
b = aumento em Y, decorrente de um aumento unitrio em X.

Na regresso mltipla:
b
i
= aumento em Y se X
i
for aumentado de 1 unidade, mantendo-se constantes todas as
demais variveis X
j
.

extrado de http://www.erudito.fea.usp.br/PortalFEA/

8. Atividades de Aplicao

1. Os encargos dirios com o consumo de gs propano (Y) de uma empresa dependem da
temperatura ambiente (X). A tabela seguinte apresenta o valor desses encargos em funo
da temperatura exterior:

Temperatura (
o
C) 5 10 15 20 25
Encargos (dlares) 20 17 13 11 9


Seja Y =
0
+
1
X + o correspondente modelo de regresso linear.

(a) Determine, usando o mtodo dos mnimos quadrados, a respectiva reta de regresso
e represente-a no diagrama de disperso.
(b) Quantifique a qualidade do ajuste obtido e interprete.
(c) Determine um intervalo de confiana a 95% para os encargos mdios com gs
propano num dia em que a temperatura ambiente de 17
o
C.

2. Suponha que um analista toma uma amostra aleatria de 9 carregamentos feitos
recentemente por caminhes de uma companhia. Para cada carregamento registra-se a
distncia percorrida em Km (X) e o respectivo tempo de entrega (Y). Obteve-se:



(a) Estime, usando o modelo de regresso linear, o tempo esperado de entrega para uma
distncia de 1050 Km.
(b) Comente a afirmao o tempo de entrega explicado em aproximadamente 94% pela
distncia percorrida.

3. Seja Y o nmero de chamadas telefnicas atendidas num determinado servio de
atendimento a clientes decorridos X minutos aps as 8h30. Em determinado dia da semana
observaram-se os seguintes pares de valores:


Tempo aps 8h30 (min) 1 3 4 5 6
Nmero de chamadas atendidas 2 5 10 11 12

Seja Y =
0
+
1
X + o correspondente modelo de regresso linear.

(a) Estime
0
e
1
usando o mtodo dos mnimos quadrados e represente a correspondente
reta de regresso no diagrama de disperso.
(b) Determine o correspondente coeficiente de determinao, bem como o coeficiente de
correlao; como interpreta os valores obtidos?
(c) Estime a varincia do erro.
(d) Seja E [Y (2)] = E [Y | x = 2]. Estime E [Y (2)]; determine um intervalo de confiana
para E [Y (2)] com 95% de confiana.

You might also like