Correlaçã

Correlação: Diagrama de
dispersão
• Permite representar em simultâneo
variáveis de nível quantitativo;
• Permite ver se existe relação entre
elas;
• Se essa relação é linear ou não, e se
tem ou não outlieres que podem
distorcer os coeficientes de
correlação.
dispersão
dispersão
• Simple Scatter – Serve para representar duas
variáveis quantitativas.
Exemplo: Analisar o efeito que os níveis de stress
tem nas notas de uma disciplina.
• Overlay Scatter – Quando se pretende
representar no mesmo gráfico vários pares
de variáveis, em que se repete uma delas.
Exemplo: Supondo que os resultados de um
exame dependente não só dos níveis de
stress mas também do numero de horas de
estudadas.
dispersão
• Matrix Scatter – Quando existem vários
pares de variáveis. Permite ver todas
as combinações possíveis entre pares
de variáveis.
• A sua interpretação torna-se difícil
com mais de três variáveis
Correlação: Coeficiente R de
Pearson e R²
• Aplicável a variáveis de nível intervalo ou
rácio e exige:
a) Uma relação linear entre as duas variáveis;
b) Que os dados sejam oriundos de uma
distribuição normal bidimensional, para
poder se inferir.
NB: A violação da normalidade afecta pouco o
erro do tipo U e a potencia do teste,
especialmente para n > 30 (Jacob Cohen,
1988:109).
• Varia entre -1 e 1;
Pearson e R²
• O coeficiente igual a +1 significa que as
duas variáveis tem uma correlação
perfeita positiva, isto é, quando uma
aumenta a outra também aumenta em
media um valor proporcional;
• Quando o coeficiente é -1 significa que
uma relação linear negativa perfeita
entre ambas;
• Um coeficiente igual a zero significa que
não existe relação linear entre as
variáveis.
Pearson e R²
• Por convenção em ciências exactas
sugere-se:
Valor de R Nivel de associacao linear
R < 0.2 Muito baixa
0.2 < R < 0.39 Baixa
0.4 < R < 0.69 Moderada
0.7 < R < 0.89 Alta
0.9 < R < 1 Muito Alta
• Se um R for 0.8 e outro 0.4, tal não

significa que a primeira a associação
seja o dobro da primeira.
Pearson e R²
• A comparação dos dois coeficientes
deve ser feita em termos do seu valor
quadrático que se designa por
Coeficiente de determinação R², que
indica a percentagem de variação de
uma variável explicada pela outra.
• O R² varia de 0 a 1: Quanto mais próximo
de 1, maior a percentagem de variação
de uma variável que é explicada pela
outra.
Pearson e R²
Exemplo: Pretende-se testar:
H0: R = 0, isto é não existe correlação entre as
variáveis peso e altura.
H1: R ≠ 0, isto é, existe correlação entre as variáveis
peso e altura.
Pearson e R²
Pearson e R²
Os dados indicam-nos que a medida que a altura
aumenta o peso dos indivíduos também tende a
aumentar o que pressupõe-se que existe algum tipo
de correlação linear entre as variáveis.
Pearson e R²
Ambas as variáveis quantitativas tem distribuição
normal, pressuposto requerido para a utilização
inferencial do R de Pearson.
O nível de significância dos testes para a altura e
peso, levam a não rejeição da normalidade de
ambas as distribuições, para qualquer erro do tipo I
do analista.
Pearson e R²
Pearson e R²
• Como R = 0.341 significa que existe uma fraca associação
linear positiva entre as variáveis (peso e a altura);
• R² = 0.12 (12% da variação na altura é explicada pelo peso e
vice versa).
• No entanto como o nível de sig = 0.408 não se rejeita a
hipótese H0 da correlação ser zero no universo para qualquer
erro tipo I do analista.
• Em resumo: Existe fraca associação linear entre a altura e o
peso que não é estatisticamente significativa.
Coeficiente de correlação Ró
de Spearman
• Mede a intensidade da relação entre
variáveis ordinais. O SPSS usa em vez
do valor nele observado, apenas a
ordem da observação.
• Deste modo, este coeficiente não é
sensível a assimetrias na distribuição,
nem a presença de outliers, não
exigindo que os dados provenham de
duas populações normais.
de Spearman
• Aplica-se em variáveis
intervalares/rácio como alternativa ao
R de Pearson, quando neste ultimo se
viola a normalidade.
• Varia entre -1 e 1. Quanto mais
próximo estiver destes extremos, maior
será a associação linear entre as
variáveis.
de Spearman
• O sinal negativo da correlação significa
que as variáveis variam em sentido
contrario;
• Frequentemente o teste de Kendall’s Tau
B é apresentado como alternativa ao Ro
de Spearman quando se tem poucos
dados, e para situações em que varias
pessoas tem os mesmos valores numa ou
nas duas variáveis, ou seja quando
existem empates.
de Spearman
Exemplo: No SPSS Data Editor apresenta-se
os valores da autonomia no trabalho
(autonomi) e da especialização no
desempenho (especial), onde 1 = muito
baixa ate 5 = muito alta.
Pretende-se testar:
H0: Não há correlação ordinal entre as
variáveis.
H1: Há correlação ordinal entre as
variáveis.
de Spearman
de Spearman
• Existe uma relação linear moderada e negativa
entre as variáveis (Ró de Spearman = -0.450), sig =
0.072, a qual é estatisticamente significativa com
um erro tipo I de 0.10.
• Verifica-se ainda que 20% [=(-0.450)²x100%)] da
variação na autonomia é explicada pela
especialização, sendo que os restantes 80%
explicados por outros factores.
Regressão
• Regressão: Modelo estatístico usado
para prever o comportamento de
uma variável quantitativa (variável
dependente ou Y) a partir de uma ou
mais variáveis relevantes de natureza
essencialmente intervalo ou rácio
(variáveis dependentes), informando
sobre a margem de erro dessas
previsões.
Regressão
• Quando existe apenas uma variável X, o
modelo designa-se por regressão linear
simples (MRLS). Quando existe mais do que
uma variável X o modelo designa-se por
modelo de regressão múltipla (MRLM);
• Na regressão, a correlação que mede o grau
de associação entre duas variáveis é usada
para prever Y;
• Quanto maior for a correlação entre X e Y
melhor será a previsão;
• Quanto menor for essa correlação maior é a
margem de erro na previsão.
Regressão – MRLS
• A equação da recta do MRLS é dada:
y i     xi   i
• A utilização do MRLS carece da
verificação das seguintes hipóteses:
H1: Linearidade do fenómeno em
estudo.
H2: Para cada valor fixo de Y:
y  N (   x i ;  )
Regressão – MRLS
H3: As observações de Y são
independentes umas das outras;
H4:  i  N ( 0 ,  )
H5: As variáveis aleatórias residuais
referentes a duas observações
diferentes não estão correlacionadas,
sendo portanto independentes entre
si. Deste modo a sua co-variância é
zero, isto é: Cov ( i  j )  0 , para i ≠ j
Regressão – MRLS
Exemplo: Pretende-se analisar a relação entre preço
dos óculos de sol da marca A em unidades
monetárias, e as correspondentes quantidades
vendidas, numa amostra aleatória de 1200 vendas.
Regressão – MRLS (Exploração dos dados)
Sobrepõe-se o cursor no gráfico e dá-se dois clicks
que activam o “Chart Editor”, onde se pressiona “Add
Fit Line at Total”. No “Data Label Mode” sobrepõe-se
o cursor ao ponto mais afastado da recta que
assinala o ponto 7.
• A relação parece ser aproximadamente

linear visto que os pontos se concentrarem
com pequenos desvios em relação a recta
estimada, pelo que a hipótese de linearidade
parece não ser violada.
• Os dados apresentam outliers, observação
#7, que corresponde a um preço de 70 u.m e
a uma quantidade vendida de 80 unidades.
• A recta ajustada tem inclinação negativa, o
que significa que em media a maiores preços
estão associadas menores quantidades
vendidas e vice-versa.
• Se a recta ajustada fosse horizontal e a

relação entre X e Y não fosse linear, devia
procurar-se uma transformação dos dados
de modo a obter linearidade ou, em
alternativa, considerar outro método de
analise, como por exemplo a regressão não
linear;
• Se cada preço determinasse exactamente
cada quantidade vendida, todos os pontos
do gráfico se situariam na recta que tem
inclinação negativa
Regressão – MRLS (Estimação e
Previsão)
Previsão)
Previsão)
A previsão^ de Y em função a X, é dada pela
equação: Yi  210 . 444  1 . 578 X i
Esta recta alem de descrever formalmente a relação

entre X e Y, permite predizer o valor das vendas para
um preço. Assim por exemplo, para um preço
estimado de 110 unidades monetárias espera-se
vender em media 36.88 óculos.
Previsão)
• Interpretando β: Pode dizer-se que por
cada aumento de uma unidade no
preço dos óculos as vendas diminuem
em media 1.578 óculos.
• Interpretando o : Pode dizer-se que
para um preço nulo, as vendas são
medidas de 210.444 óculos.
Previsão)
• Em termos amostrais, interessa analisar a
qualidade obtida da recta estimada pelo
método dos mínimos quadrados.
• As medidas relativas a qualidade do
ajustamento, não se exprimem em unidade e
são: R e R².
• Verifica-se que quanto mais próximo o
coeficiente de correlação R de Pearson estiver
de -1 ou de +1, ou quanto mais perto o R²
estiver de 1, melhor é a qualidade do
ajustamento em termos amostrais.
Previsão)
• Assim, existe uma forte associação linear negativa,
significando que em media as vendas variam
inversamente ao preço.
• Verifica-se que 87.8% da variação media das
vendas são determinadas pelos níveis de preços,
sendo a restante variação 12.2% explicada por
outros factores não especificados e que estão
incluídos na variável aleatória εi.
Previsão)
• A qualidade do ajustamento deve também
ser analisada através dos teste de
inferência estatística, que permitem não só
saber se a relação estimada pode ser de
facto inferida para o universo, como ainda
conhecer a qualidade das predições feitas.
• Neste sentido utilizam-se os IC’s para a
previsão pontual e em media, assim como
os testes t e F.
Previsão)
• O teste t, testa as hipóteses dos parâmetros
do universo  e β serem iguais a um
determinado valor:
H0:  = 0, isto é, a recta de regressão passa
pela origem, ou ainda, testar que a preços
nulos correspondem vendas medias nulas.
H0: β = 0, isto é, o coeficiente do preço é zero,
ou ainda, testar que os preços não
influenciam a quantidade media vendida,
ou seja, que X não explica Y.
Previsão)
• Os valores de sig (sig = 0.000) para o teste t, levam
a rejeição de H0, para qualquer erro do tipo I do
analista, que quer dizer que os parâmetros
estimados são estatisticamente significativos no
universo e que o preço (X) explica vendas (Y).
• Na verdade, há 95% de confiança de β assumir
valores entre ]-1.970;-1.185 [ e  assumir valores
entre ] 182.435; 238.454[, IC’s que excluem o zero.
Previsão)
• O teste F valida em termos globais o
modelo e não cada um dos parâmetros
isoladamente.
• No nosso exemplo testa as hipóteses:
H0: A variação das vendas não são
explicadas pelos preços, isto é, R² = 0; ou β =
0.
H1: A variação das vendas são explicadas
pelos preços, isto é, R² ≠ 0; ou β ≠ 0.
Previsão)
• Como o nível de significância do teste
F é 0.000, qualquer que seja o erro do
tipo I do analista (p), chega-se a
conclusa do preço explicar a
variação observada nas vendas.

Correlaçã

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Correlaçã

Uploaded by

Copyright:

Available Formats

Correlação: Diagrama de

• Se um R for 0.8 e outro 0.4, tal não

• A relação parece ser aproximadamente

• Se a recta ajustada fosse horizontal e a

Esta recta alem de descrever formalmente a relação

You might also like