You are on page 1of 56

相關及線性迴歸

Correlation and
Linear regression
生物統計諮詢中心
蔡培癸
Linear Regression

比較 單變量迴歸 多變量迴歸
因變數
( Y) 一個連續型變數 一個連續型變數
自變數 一個自變數 多個自變數
( Xi )
連續型 連續型 / 類別 (dummy)

判定模 r ( 相關係數 ) , R2( 判定係數 ) , P-


式優劣 value
特別 可畫一對一線性
多重共線性問題
注意 迴歸線
Simple Linear Regression Analysis

● 如果 x 與 y 的關聯分佈圖呈現一近似直
線的關係,則我們假設兩者具有以下的
線性關係:

Y = β 0 + β1 X Slop 斜率
X 變動ㄧ單位所造成 Y
Intercept 截距 相對應的變動
當 X=0 時, Y 所相對應的

Simple Linear Regression Analysis
給定 n 個觀察到的樣本 (xi, yi), i=1, 2, 3,…n
我們可以估計出樣本迴歸線
100
( xi , yi ) 實際觀察到的yi與
90

eˆi = yi − yˆ i 預測值yˆ i之間的差


80
距稱為殘差值residual
70 ( xi , yˆ i )
eˆi = yi − yˆ i
60
yˆ = b0 + b1 xi
50 = yi − (b0 + b1 xi )
40

殘差值愈小表
®T¼Öªá¶O

30

20 示迴歸線與每
一觀察點愈接
200 400 600 800 1000

¦¬¤J

Simple Linear Regression Analysis

1. Regression equation :
yˆ = b0 + b1 xi
2. Pearson correlation coefficient :
n ∑ xy − ∑ x ∑ y cov(x, y ) cov(x, y )
r= = 2 2
[n ∑ x − ( ∑ x ) ][n ∑ y − ( ∑ y ) ]
2 2 2 2 S x Sy

3. Coefficient of determination ( R2 ) :
迴歸模式中可由該自變數解釋的變異程度
由 F test 檢定其解釋力 ( H0 : 迴歸可解釋變異量比
等於 0 )
Linear Regression

如何利用 Excel 作迴歸分析


與畫圖 ?
Simple Linear Regression Analysis
Simple Linear Regression Analysis
Simple Linear Regression Analysis




y

自變項
x
Simple Linear Regression Analysis
Linear Regression

如何利用 SPSS 作迴
歸分析與畫圖 ?
Linear Regression
Linear Regression
Linear Regression
Linear Regression
模式摘要

調過後的 變更統計量
模式 R R 平方 R 平方 估計的標準誤 R 平方改變量 F 改變 分子自由度 分母自由度 顯著性 F 改變
1 .796 a .633 .629 7.8792 .633 138.056 1 80 .0000
a.預測變數: (常數 ), X

係 數a
標準化係 迴歸係數 B 的 95% 信賴
未標準化係數 數 區間
模式 B 之估計值 標準誤 Beta 分配 t 顯著性 下限 上限
1 (常數 ) 3.099 1.949 1.590 .116 -.779 6.978
70
X .608 .052 .796 11.750 .0000 .505 .711
a.依變數 \ : Y
60

50
y=3.099+0.608*x 期末考成績 40

r=0.796 30

20

R2=0.633 10
0

P <0.0001
0 10 20 30 40 50 60 70 80

期中考成績
期刊文獻( 1 ) - 單變量線性
迴歸
相關分析對於變數的要求
● 透過相關分析我們可以了解兩變數之間是否
具有線性關係,分析時要注意:
● 兩個變數是否為常態分配?
● 是否有極端值 (outlier) 影響兩者的關係?

1. Pearson 相關係數只有在兩變數皆為常態分配
相關係數只有在兩變數皆為 ,且
沒有極端值的干擾
沒有 下,才能正確的描述兩變數間
的線性關係。
2. 在下結論前,用 scatterplot ( 散佈圖 ) 檢查一下
資料是否有上面兩個潛在問題。
相關分析
相關分析

單獨列出每
一個變數的
敘述性統計
描述性統計量
平均數 標準差 個數
相關 高中成績 6 .4 0 3 .1 3 10
高中成績 大學聯考成績 大學聯考成績 7 .2 0 2 .7 4 10
高中成績 Pe a rso n相 關 1 .0 00 .8 0 5**
顯 著 性 ( 雙 尾) . .0 0 5
叉積平方和 88 .4 0 0 6 2 .2 0 0
共變異數
個數
9 .8 22
10
6.91 1
10 相關係數與 P value
大 學 聯 考 成 績 Pe a rso n相 關 .8 0 5** 1.00 0
顯 著 性 ( 雙 尾) .0 0 5 .
叉積平方和 62 .2 0 0 6 7 .6 0 0
共變異數 6 .9 11 7.51 1
個數
**. 在 顯 著 水 準 為0 .0 1 時( 雙尾
10
) ,相關顯著。
10
計算共變數
極端數值對於相關係數的影響
14 相關

12 y=2.697+0.704*x 高中成績 Pe a rso n相 關


高中成績 大學聯考成績
1 .0 00 .8 0 5**
顯 著 性 ( 雙 尾) . .0 0 5
r = 0.805 **
10
叉積平方和 88 .40 0 62 .2 0 0
大學聯考成績

8
共變異數 9 .8 22 6.9 11
個數 10 10
6
P= 0.005 大 學 聯 考 成 績 Pe a rso n相 關 .8 0 5** 1.0 00
顯 著 性 ( 雙 尾) .0 0 5 .
叉積平方和 62 .20 0 67 .6 0 0
4 16
共變異數 6 .9 11 7.5 11
2 14
個數 y=6.770+0.180*x
10 10
0 2 4 6 8 10 12 **. 在 顯 著 水 準 為0 .0 1 時( 雙尾) ,相關顯著。

r = 0.193
12
高中成績

大學聯考成績
10

原先 P 顯著 / 高度相 8 P= 0.570
關 P 變不顯著 / 低度 相關
6

相關 高中成績 Pe a rso n相 關
高中成績 大學聯考成績
1 .00 0 .1 9 3
2
-2 0 2 4 6 8 10 12
顯 著 性 ( 雙 尾) . .5 7 0
個數 11 11 高中成績
大 學 聯 考 成 績 Pe a rso n相 關 .1 9 3 1.00 0
顯 著 性 ( 雙 尾) .5 7 0 .
個數 11 11
極端值的干擾
極端值的干擾

習慣上將
依變數置
於y軸
極端值的干擾

為了找出極
端值的
ID ,先將
圖形
double-
click( 在圖
上用滑點鼠
連點兩下 )
以進入圖形
編輯狀態
極端值的干擾

1. 以滑鼠勾選
point ID 功能

2. 將滑鼠指
向極端值,
會顯示此極
端值為第 11
個觀察值
Linear Regression vs Logistic Regression

比較 M ultiple Regression Logistic Regression


因 變 數 Y必 須 為 連 續 性 資 料 Y必 須 為 類 別 性 資 料 (/是
否)

自變數 可為連續性或類別資料 可為連續性或類別資料


類別資料需以虛擬變數 類別資料需設定參考組
表 示(Dummy variable)
注意 K個 水 準 的 類 別 資 料 需 設 Odds Ratio
事項 K- 1個 虛 擬 自 變 數 95% CI of Odds Ratio
Ex:性 別(0/1) 1個 P value(W aldstatistic)
血 型(A/B/O/AB) 3個 Accuracy of model=85.9%
x1 x2 x3 x1 x2 x3
NagelkerkeR2
A: ( 0 0 0 ) B: ( 1 0 0 )
O: ( 0 1 0 ) AB: ( 0 0 1 )
Multiple Regression

固定自變項假設
線性關係假設 ( linear relationship )
常態性假設 ( normality )
誤差獨立性假設 ( independence )
誤差等分散性假設 ( homoscedasticity )
多元共線性 : ( multicollinearality )

定義:若自變項間相關程度過高,
造成自變項與因變項共變分析上的
扭曲現象,稱之。
容忍值 ( tolerance ): 某一自變項無法被其他
自變項所解釋的殘差比 , 其值介於 0 ~ 1 ( 愈大愈
好)
變異數膨脹因子 VIF( variance inflation
factor )
與容忍值互為倒數 ( 愈小愈好)
若 tolerance< 0.2 且 VIF > 4 , 判定此自變數與其
他自變數間存在共線性
Multiple Regression

多元回歸的輸入模式
強制進入法 ( enter )
順向進入法 ( forward )
反向淘汰法 ( backword )
逐步分析法
( stepwise )
Multiple Regression : Example 1
Multiple Regression
Multiple Regression
Multiple Regression
Multiple Regression

模 式 摘 要b

調過後 變更統計量
模 的R平 估計的 R 平方 分子自 分母自 顯著性 Durbin-Watson
式 R R 平方
方 標準誤 改變量 F 改變 由度 由度 F 改變 檢定
1 a
.987 .974 .941 1.44 .974 29.715 5 4 .003 2.051
a.預測變數:(常數), 期末考, 性別, 缺席次數 , 作業分數 , 期中考
b. 依變數\ :學期總分

若樣本數太少,宜採用調整
後的 R 平方
變 異 數 分 析b
模式 平方和 自由度 平均平方和 F 檢定 顯著性
1 迴歸 309.274 5 61.855 29.715 .003a
殘差 8.326 4 2.082
總和 317.600 9
a.預測變數: (常數 ), 期末考 , 性別 , 缺席次數, 作業分數 , 期中考
b. 依變數 \ :學期總分
Multiple Regression
係 數a
標準
化係
未標準化係數 數 相關 共線性統計量
B 之估 標準 Beta
模式 計值 誤 分配 t 顯著性 零階 偏 部分 允差 VIF
1 (常數 ) 43.290 22.739 1.904 .130
性別 -.573 1.186 -.050 -.483 .654 -.442 -.235 -.039 .617 1.621
缺席次數 -2.182 .501 -.549 -4.36 .012 -.768 -.909 -.353 .413 2.423
作業分數 -7.E-02 .219 -.057 -.327 .760 .722 -.161 -.026 .214 4.680
期中考 .346 .180 .498 1.919 .127 .832 .692 .155 .097 10.266
期末考 .252 .249 .192 1.015 .368 .817 .453 .082 .183 5.450
a.依變數\ :學期總分
允差 < 0.2 , VIF > 4
共 線性 診 斷a
變異數比例
模式 維度 特徵值 條件指標 (常數 ) 性別 缺席次數 作業分數 期中考 期末考
1 1 5.387 1.000 .00 .00 .00 .00 .00 .00
2 .507 3.259 .00 .00 .39 .00 .00 .00
3 .102 7.275 .00 .53 .01 .00 .00 .00
4 2.785E-03 43.982 .05 .37 .03 .02 .19 .00
5 1.457E-03 60.797 .01 .01 .06 .22 .01 .15
6 1.637E-04 181.422 .94 .08 .51 .76 .80 .85
a.依變數 \:學期總分
同一特徵值上的變異數比例接近 1
Multiple Regression

殘 差 統 計 量a
最小值 最大值 平均數 標準差 個數
預測值 69.75 90.47 82.80 5.86 10
殘差 -1.38 1.48 8.53E-15 .96 10
標準化預測值 -2.225 1.308 .000 1.000 10
標準化殘差 -.957 1.027 .000 .667 10
a.依變數\:學期總分

殘差:
1. 殘差為觀察值與預測值的差,殘差愈大表示誤差愈
大。
2. 標準化殘差:若其絕對值 >1.96 ,表示為偏離值。
條件指標 ( CI % ):
1. < 30 :共線性問題緩和
2. 30-100 :具有中度至高度的共線

3. > 100 : 嚴重的共線性
零階相關 / 部分相關 / 標準化迴歸係數

零階相關: (zero-order correlation)


1. 忽略其他變數時,某 2 個變數之間的相關。
2. Ex: 2 變數間 pearson’s correlation( Xi vs Y ) ; ( Xi vs
Xj )
3. 零階相關表達的是一個自變數與
部分相關: (part correlation) Y 之間的全部關
係。
1. 扣除其他自變數對某個自變數的影響後,看該自變
數與因變數 (Y) 之間的相關。
2. 部分相關與迴歸係數反映單個自變數與 Y 的獨特
性,不能由其他自變數來解釋的關係。
標準化迴歸係數:
1. 可看出個別自變數對 Y 的重要性。 ( 值愈大對 Y 影
響愈大 )
2. 林清山 (1998)/ 榮泰生 (1997)
3. 有的學派指出:此種標準只適用於模式內僅 2 個自
建議:標準化迴歸係數搭配零階相關訊息,對模型
變數
Multiple Regression :加入 dummy variable
(2)
年齡 / 收入水準 / 婚姻 婚姻狀態  虛擬變
狀態 數





Multiple Regression :加入 dummy variable
(2)
Multiple Regression :加入 dummy variable
(2)
5 個自變數:
對生活滿意度 (Y) 之預測能力
模 式 摘要

變更統計量
R 平 調過後的 估計的 R 平方 F改 分子自 分母自 顯著性
模式 R 方 R 平方 標準誤 改變量 變 由度 由度 F 改變
1 .962 a .926 .900 .67 .926 35.235 5 14 .000
a.預測變數: (常數 ), 未婚, 收入水準, 離異, 鰥寡, 年齡

變 異 數 分 析b
模式 平方和 自由度 平均平方和 F 檢定 顯著性
1 迴歸 78.326 5 15.665 35.235 .000 a
殘差 6.224 14 .445
總和 84.550 19
a. 預測變數: (常數 ), 未婚 , 收入水準 , 離異 , 鰥寡 , 年齡
b. 依變數 \ :生活滿意度
Multiple Regression :加入 dummy variable
(2)
係 數a
標準
化係
未標準化係數 數 相關 共線性統計量
B 之估 Beta
模式 計值 標準誤 分配 t 顯著性 零階 偏 部分 允差 VIF
1 (常數 ) 2.328 1.235 1.885 .080
年齡 -.108 .040 -.316 -2.72 .017 -.370 -.588 -.197 .390 2.561
收入水準 1.029 .153 .674 6.718 .000 .649 .874 .487 .522 1.915
鰥寡 -1.912 .531 -.403 -3.60 .003 -.632 -.694 -.261 .421 2.374
離異 -.639 .553 -.135 -1.16 .267 -.295 -.295 -.084 .388 2.578
未婚 .851 .514 .179 1.657 .120 .435 .405 .120 .449 2.227
a.依變數 \:生活滿意度

結果:
1. 5 個自變數中 ,年齡、收入 、 婚姻中的鰥寡對比已
婚,
具有( Y )生活滿意度的預測力。
2. 鰥寡 、 離異 、 未婚皆是以 已婚為參考組 。
Multiple Regression :加入 dummy variable
(2)
只有 2 個自變數:
年齡 、 收入水準 對生活滿意度 (Y) 之預測能力
模式摘要

變更統計量
調過後的 估計的 R 平方 F 改變 異分子自
數 分 析b 分母自 顯著性
模式 R R 平方 R 平方 標準誤 改變量 變 由度 由度 F 改變
1 .884 a .781 模式
.755 1.04 平方和 自由度
.781 30.273 平均平方和
2 17 F 檢定
.000 顯著性
1
a.預測變數: (常數), 收入水準 , 年齡 迴歸 66.015 2 33.007 30.273 .000 a
殘差 18.535 17 1.090
總和 84.550 19
a.預測變數:(常數), 收入水準, 年齡
b. 依變數\ :生活滿意度

係 數a
標準化
未標準化係數 係數 相關 共線性統計量
B 之估 Beta 允
模式 計值 標準誤 分配 t 顯著性 零階 偏 部分 差 VIF
1 (常數 ) 4.324 1.359 3.181 .005
年齡 -.216 .041 -.630 -5.279 .000 -.370 -.788 -.599 .905 1.105
收入水準 1.288 .182 .844 7.067 .000 .649 .864 .803 .905 1.105
a.依變數 \ :生活滿意度
Multiple Regression :加入 variable (2)

5 個自變數:對生活滿意度係數
(Y) 之預測 a

標準
能力 未標準化係數 化係
數 相關 共線性統計量
B 之估 Beta
模式 計值 標準誤 分配 t 顯著性 零階 偏 部分 允差 VIF
1 (常數 ) 2.328 1.235 1.885 .080
年齡 -.108 .040 -.316 -2.72 .017 -.370 -.588 -.197 .390 2.561
收入水準 1.029 .153 .674 6.718 .000 .649 .874 .487 .522 1.915
鰥寡 -1.912 .531 -.403 -3.60 .003 -.632 -.694 -.261 .421 2.374
離異 -.639 .553 -.135 -1.16 .267 -.295 -.295 -.084 .388 2.578
未婚 .851 .514 .179 1.657 .120 .435 .405 .120 .449 2.227
a.依變數 \:生活滿意度

增加虛擬變數後,經過共變排除效果,年齡與收入的預
測力降低,但仍達顯著水準。
2 個自變數:對生活滿意度 係數 (Y) 之預測 a

能力 未標準化係數 標準化
係數 相關 共線性統計量
B 之估 Beta 允
模式 計值 標準誤 分配 t 顯著性 零階 偏 部分 差 VIF
1 (常數 ) 4.324 1.359 3.181 .005
年齡 -.216 .041 -.630 -5.279 .000 -.370 -.788 -.599 .905 1.105
收入水準 1.288 .182 .844 7.067 .000 .649 .864 .803 .905 1.105
a.依變數 \ :生活滿意度
Multiple linear regression
例:假設影響新生兒體重有如下的變數
Age: age of the mother in year
• LWT: weight on pounds at the last menstrual period
• RACE: race
• Smoke: smoking status during pregnancy
• PLE: history of premature labor
• HT: history of hypertension
• UI: presence of uterine irritability
• FTV: number of physician visits during the first trimester
• BWT: birth weight in grams
• 探討這些因子對新生兒體重影響。

43
• 針對母親體重、懷孕前體重等,個別與初生兒出生
體重作統計分析。
• 但每次只考慮一個因素對依變數的影響
t-test 、 ANOVA 、 correlation 皆為「單變量分
析 (univariate analysis) 」
• 只執行單變量分析是不足的,因…
– (1) 一個因素對依變數的影響可能來自另一因素。
– (2) 研究者有興趣探討的是在眾多因子中,最重要的 因
子。
– (3) 從一些已知的預設因素來預測依變數可能出現的數值。

44
• 因此進一步執行多變量分析 (multivariate
analysis) 考慮多個因數對依變數的統計
分析方法、透過迴歸模式 (regression
modeling) 以達成上述的條件

• 因初生兒出生體重為連續依變數 應選擇
線性迴歸作多變量分析。

45
*線性迴歸
Y = β0+ β 1X+ β 2Z
+ + ...E
– Y— 連續依變數 (continuous dependent variable)
– X’s— 連續自變數 (continuous independent variable)
– Z’s— 類別自變數 (categorical independent variable)
– E— 殘差 (residuals)
• PBL. 初生兒出生體重的範例
– BWT 為依變數, AGE 、 LWT 、 RACE 、 SMOKE 、 PLT 、
HT 、 UI 、 FTV 為自變數,
– 連續性— AGE 、 LWT 、 FTV
– 類別性— RACE 、 SMOKE 、 PLT 、 HT 、 UI

46
*線性迴歸中類別的自變數應如何處理 ?
1

•( 1 )當自變數只有兩類
– 建議以 0 、 1 編碼。
– 初生兒出生體重的範例
•SMOKE :不抽煙者為 0 ;抽煙者為 1
•PTL :沒有早產經驗為 0 ;有為 1
•HT :正常血壓為 0 ,有高血壓為 1
•UI :沒有子宮刺激為 0 ,有為 1

47
* 線性迴歸中類別的自變數應如何處理 ?2
( 2 )當類別變數多於兩類時
– 應以虛擬變數 (dummy variables) 來處理
– 虛擬變數設定原則:
• 1. 原類別變相有 K 層次,虛設 K-1 個虛擬變數
• 2. 每一虛擬變數居以 0 、 1 來設定
• 3. 選擇參考層時,應已有自然參考性質 ( 如對照組 ) 為佳;有層次
人數太少也不適合作參考層。
– 初生兒出生體重的範例
• RACE 有 3 類 (k=3) ,應設 2(k-1) 個虛擬變數,並以白人為參考層
(因人多)
• RACE RACE2 RACE3
• 1 0 0
• 2 1 0
• 3 0 1

48
*挑選自變數
• 視研究目的來作答用統計方法來決定
選入哪些自變數
• 常用挑選自變數的方法 : 所得結果會不
ㄧ致
– 向前挑選 (forward selection)- 詮釋較容易
– 向後挑選 (backward selection)- 所有自變數皆
被選入模式
– 逐步挑選 (stepwise selection)- 每ㄧ STEP 只能
選入或刪除ㄧ個 ( ㄧ組 ) 自變數,無法挑選
或刪除多個 ( 組 ) 自變數 49
*如何求得迴歸係數的估計值 ?
• 以最小平方法 (least square method) 來估
計回歸係數值。
• 初生兒出生體重的範例—以向前方法所
得最後模式 (final model)
BWT=2825.3+4.3LWT-468.2RACE2-
343.6RACE3-366.5SMOKE-516.5UI-
580.3HT

50
- Β0 的解讀
• 母親懷孕前體重為零磅 (LWT=0) ,白人
(RACE2=0 ; RACE3=0) ,不抽菸 (SMOKE=0) ,
沒有子宮刺激 (UI=0) ,沒有高血壓 (HT=0) 預期
初生兒的體重為 2825.3(β0) 公克。

• 由於母親體重不可能為零磅 β0 無實質意義

51
- LWT 之迴歸係數的解讀

• 考慮 ( 或調整 ) 其他在迴歸模式之
自變數 ( 含
RACE 、 SMOKE 、 UI 、 HT) 後
,母親懷孕前體重 (LWT) 相差 1
磅,預期初生兒體重高 4.3 公克。

52
-類別自變數的 ΒI 解讀 1

• 【 1 】類別變數只有 2 類,用 0 、 1 編 碼, βi 為
 考慮 ( 或調整 ) 其他迴歸模式之自變數後,具類別性
質比不據此類別性質,相差 βi 單位。
– 範例 1(SMOKE) -考慮 ( 或調整 ) 其他在迴歸模式之自變
數 ( 含 RACE 、 LWT 、 UI 、 HT) 後,抽菸的母親較沒有
抽菸的母親,預期初生兒體重少 366.50 公克

53
-類別自變數的 ΒI 解讀 2

– 範例 2(UI) -考慮 ( 或調整 ) 其他在迴歸模式之自變數


( 含 RACE 、 LWT 、 SMOKE 、 HT) 後,有子宮刺激
的母親較沒有子宮刺激的母親,預期初生兒體重少 516.5
公克
– 範例 3(HT) -考慮 ( 或調整 ) 其他在迴歸模式之自變數
( 含 RACE 、 LWT 、 SMOKE 、 UI) 後,有高血壓的母
親較沒有高血壓的母親,預期初生兒體重少 580.3 公克

54
-類別自變數的 ΒI 解讀 3

• 【 2 】當類別自變項多於兩類 (k) 時,設 (k-1) 虛


擬變數,便有 (k-1) 迴歸係數。 βi 為
 考慮 ( 或調整 ) 其他在迴規模式之自變數後,
其他類別與參考層比較,依變數差異 βi’s 單位
– 範例 4(RACE) -考慮 ( 或調整 ) 其他在迴歸模式之自變數
( 含 LWT 、 SMOKE 、 UI 、 HT) 後,黑人母親較白人
母親,預期初生兒體重少 468.2 公克。而其他種族的母親
較白人母親,預期初生兒體重少 343.6 公克。

55
*預測依變數的期望值
• 將自變數值帶入最後模式,便可得到依變數的
期望值 。
·
BWT=2825.3+4.3LWT-468.2RACE2-343.6RACE3-
BWT
366.5SMOKE-516.5UI-580.3HT
設 LWT=100 、 RACE=1 、 SMOKE=1 、 UI=1 、 HT=0
=2825.3+4.3(100)-468.2(0)-343.6(0)-366.5(1)-
516.5(0)-580.3(0)=2888.8

·
BWT
56

You might also like