You are on page 1of 46

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.

tw
或來電(02)2705-5066
本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
出版者的話 1

出版者的話

人類創造了科學技術,科學技術推動了人類的文明進程。兩者的
互動影響,今天已達到了前所未有的程度:人類的經濟發展和社會進
步的需要,為科學技術迅猛的創新,提供了強大的動力;科學技術的
發展,在急劇地改變著人類的思維方式、學習方式、工作方式、生活
方式、娛樂方式。科學技術已成為強大的社會生產力和巨大的社會資
本。現在,每個國家,每個地區,甚至每個單位,都把科學技術創
新、科學技術轉化為生產力作為頭等大事,搶占科學技術制高點,以
此來提高自己的綜合實力。
新中國成立 50 多年特別是改革開放 20 多年來,隨著經濟的蓬勃
發展,科學技術得到了長足的進步,兩彈一星、載人飛船、生物工
程、信息技術等正在大步追趕國際先進水平。科學技術轉化成的強大
生產力,對國民經濟發展和社會進步、對增強綜合國力產生了重大的
影響。
改革開放以來,在中國共產黨的"科教興國"方針的鼓舞下,舉國
上下,尊重科技,學習科技,普及科技,創新科技,應用科技,發展
科技,已蔚然成風。科技結碩果、神州盡彩虹的絢麗畫面,正在展示
於世人面前。自 16 世紀中葉中國科學技術失去世界領先地位後所形
成的中西科學技術的差距,現在正在縮小。重振中華科學技術雄風的
序幕已經拉開。
為了能使我國的科學技術水平在不久的將來趕上並達到世界先進
水平,我們不僅要自己進行科學技術創新,也要學習世界上一切國家
的先進科學技術;不僅要靠國內的科技工作者發展我國的科學技術,

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
2 Logistic 回歸模型──方法與應用

還要藉助海外學者特別是華人學者的力量。在這種思想的指導下,我
們萌生了組織海外學者編寫科技前沿叢書的想法。這一想法在海內外
學者中引起了強烈的反響:在他們中,有的出謀獻策,有的出資開
會,有的撰稿,有的審稿,有的願把稿酬作為基金,……海內外學者
的誠言樂行,極大地感染著我們,鼓舞著我們;這一想法得到了教育
部陳至立部長和分管我社的周遠清副部長的肯定和支持,這增加了我
們開展此項工作的決心和信心。根據各方面意見,經過反復研究,最
後將叢書定名為《當代科學前沿論叢》。《論叢》是我們獻給祖國母
親的 21 世紀的聖禮,企盼我國能在 21 世紀奪回三四百年前失去的科
學技術領先的地位。《論叢》如能在推動我國科學技術進步和"科教興
國"中有所作用,將是我們的最大欣慰。為了做好本《論叢》的出版工
作,我們邀請了國內一些著名科學家和在海外工作的部分優秀學者組
成《論叢》的專家委員會,幫助籌劃、組織和評議《論叢》的出版。
隨著學科的發展,專家委員會的成員可能會有所變化。我們向一切關
心和支持《論叢》出版工作的人士,表示衷心的感謝。由於缺乏經
驗,《論叢》出版後,編輯出版方面的不足,在所難免,誠望各方指
正。

高等教育出版社
2000 年 6 月

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
內容簡介 1

內容簡介

在社會科學諸如社會學、心理學、人口學、政治學、經濟學以及
公共衛生學當中,大量的觀測因變量是二分類測量(即 y=1 或 y=0)。
本書專題介紹了在分析二分類因變量時最常使用的統計分析模型
之一──logistic 回歸模型。本書深入淺出,理論聯繫實際,通過例題
分析,並結合計算機統計軟件的應用,詳細介紹、闡述了該模型及其
應用。同時,還介紹了如何將 logistic 回歸模型擴展到序次 logistic 回
歸模型和多項 logit 模型,以分析序次變量和多分類名義變量為因變量
的數據。
本書提供用 SAS 和 SPSS 進行具體例題分析的計算機程序及相關
數據,並對這兩種軟件的模型估計結果進行詳盡的解釋和對比分析。
本書的讀者對象為社會科學各專業的教師及研究生,以及社會科學專
業研究人員。

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
序 1

王濟川
1947 年出生。1982 年四川大學經濟系畢業。
1986 年於美國康乃爾大學獲社會學碩士學
位,1990 年獲該校博士學位。1989 年 9
月-1991 年 8 月於美國密執安大學人口研究
中心作博士後研究。現任美國俄亥俄州懷特
州立大學醫學院社區衛生系教授。
王濟川博士的主要研究領域為社會科學定量
分析方法、人口分析方法、毒品濫用及疾病
預防項目的評估。

郭志剛
1954 年出生。1982 年於中國人民大學工業
經濟系獲經濟學學士,1985 年於加拿大西
安大略大學獲社會學碩士,1990 年於中國
人民大學人口研究所獲法學博士。1992 年
10 月至 1994 年 1 月於美國布朗大學人口研
究中心作博士後研究。1985 年至 1999 年在
中國人民大學人口研究所工作。現任北京大
學社會學系教授。
郭志剛博士的主要研究領域為人口統計技
術、社會科學定量分析方法,以及人口、婚
姻、家庭、老年等社會問題的分析。曾編著
《社會科學研究的量化方法》、《社會統計
分析方法──SPSS 軟件應用》,並撰寫、編著、翻譯多部人口學研究著作,發表了大量
學術論文。

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
前 言

在過去的 20 年中,由於計算機技術和統計軟體的迅速發展,量化分析已經成為社會
科學各個學科領域中廣為應用的技術方法。在社會科學諸如社會學、心理學、人口學、
政治學、經濟學以及公共衛生學當中,logistic 迴歸模型是對二元因變數(dichotomous
dependent variable)(即 y = 1 或 y = 0)進行迴歸分析時最為普遍應用的多元量化分析方
法。根據 Hosmer 及其同事的統計(1991),在 1985~1989 年間,國際知名刊物《美國
公共衛生雜誌》上發表的文章中約有 20%(579 篇文章中的 113 篇)應用了 logistic 迴歸
模型。雖然 logistic 迴歸已經達到了如此流行的程度,但不少使用這一模型的人對於該模
型的性質和原理仍無法充分理解,在實際應用中常有困惑的問題,對於模型結果的闡述也
不一致。並且,在很多應用該方法的研究中連模型擬合優度(goodness of fit)的評估也被
忽略了。比如,在上述所統計的 113 篇文章中,只有 5%(6 篇文章)涉及到模型擬合優
度的評估 。
在現有的統計教科書中,一般都有 logistic 迴歸模型的內容。然而,在這些教科書中,
logistic 迴歸往往不是作為中心內容,也缺乏關於這種方法的詳盡討論。有關專著在國外
很少,國內尚無。國外的一些專著中對於 logistic 迴歸模型的實際應用,特別是結合統計
軟體執行模型並對模型結果進行解釋方面較為欠缺。本書的主要目的是提供對於 logistic
迴歸模型的深入專題介紹,專注於這一方法本身的討論,以及模型結果的詳細闡述。作者
儘量以深入淺出的手法,旁徵博引,理論聯繫實際,大量運用例題並結合計算機統計軟體
的使用,介紹和討論該模型的原理及運用。讀者在學習本書內容之前應對多元迴歸和統計
推斷的基礎知識有所瞭解。
本書將採用國際上廣泛使用的統計軟體 SAS(Statistics Analysis System)和 SPSS
(Statistics Package for Social Sciences)來分析書中的例題。本書將提供用這兩種軟體進

Hosmer. Taber, and Lemeshow. 1991.

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
2 前 言

行具體例題分析的計算機程序,並對於這兩種軟體的模型估計結果進行詳細的解釋和對比
分析。本書中例題的主要資料是由作者模擬設計的,其原始資料可從下列網址下載:
http:// www.hep.com.cn;http: //www.wright.edu/~jichuan.wang
http: //www.disa.pku.edu.cn∕課程
本書共由 8 章組成。
在第 1 章中,我們將首先討論分析二元因變數時所產生的問題,並討論經典的線性機
率模型(linear probability model, LPM)及其侷限性。然後介紹 logistic 迴歸模型。
在第 2 章中,我們將介紹 logistic 迴歸模型估計所用的最大概似估計法(maximum
likelihood estimation, MLE)、模型估計的假設條件,以及最大概似估計的性質。此外,
還將介紹對分組資料進行 logit 分析的加權最小平方法(weighted least squares, WLS)。
第 3 章介紹 logistic 迴歸模型的評估,討論各種擬合優度(goodness of fit),預測準
確性(predictive accuracy)和模型卡方統計(model chi-square statistic)。
第 4 章關注於 logistic 模型迴歸係數意義的闡釋。除了討論發生比率(odds ratio)、
預測機率(predicted probability)和互動影響(interactions)外,這一章還要討論使用各
種不同編碼時分類自變數迴歸係數的意義和解釋。
第 5 章討論 logistic 迴歸係數的統計推斷(statistical inference)。
第 6 章的內容涉及模型的選擇,討論建立模型過程中的策略。
第 7 章關於模型的診斷,討論多元共線性(multicollinearity)、有問題的資料架構
(problematic data configuration)、極端值(outliers)、特異影響案例(influential obser-
vations)和過離散分佈(overdispersion)等問題,以及這些問題的補救對策。
在最後一章中,我們將介紹與 logistic 迴歸類似的另外一種分析二元因變數的備選模
型──probit 模型。然後,將 logistic 迴歸模型擴展到次序 logistic 迴歸模型(ordered
logistic regression model)和多項式 logit 模型(multinomial logit model),這些模型分別
用以解決次序變數和多分類名義變數為因變數的問題。

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
目 錄

1 二元因變數與 logistic 迴歸模型

1.1 引言/ 2
1.2 線性機率模型(Linear Probability Model, LPM)/ 3
1.3 Logistic 迴歸模型/ 7

2 Logistic 迴歸模型估計

2.1 最大概似估計(Maximum Likelihood Estimation, MLE)/ 16


2.2 Logistic 迴歸模型估計的假設條件/ 20
2.3 最大概似估計的性質/ 21
2.4 模型估計的樣本規模/ 21
2.5 擬合 logistic 迴歸的示範模型/ 23
2.6 用分組資料作 logistic 迴歸分析/ 40

3 Logistic 迴歸模型評價

3.1 擬合優度(Goodness of fit)/ 68


2 2
3.1.1 皮爾遜 (Pearson )/ 68
3.1.2 離差(Deviance)/ 73
3.1.3 Hosmer-Lemeshow 擬合優度指標/ 77
3.1.4 訊息測量指標(Information Measures)/ 80

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
2 目 錄

3.2 Logistic 迴歸模型的預測準確性/ 86


3.2.1 類 R2指標(Analogous R2)/ 86
3.2.2 預測機率與測量值之間的關聯/ 90
3.2.3 分類表(Classification Table)/ 96
2
3.3 模型 統計(Model Chi-Square Statistic)/ 106

4 Logistic 迴歸係數解釋

4.1 發生比和發生比率(Odds and Odds Ratio)/ 111


4.2 按發生比率來解釋 logistic 迴歸係數/ 114
4.2.1 連續自變數的發生比率/ 115
4.2.2 二元自變數的發生比率/ 119
4.2.3 分類自變數的發生比率/ 121
4.3 用機率來解釋自變數的作用/ 133
4.4 預測機率/ 135
4.5 標準化係數/ 139
4.6 偏相關 (Partial Correlation)/ 146

5 Logistic 迴歸係數的統計推斷

5.1 Logistic 迴歸係數的顯著性檢驗/ 150


5.1.1 Wald 檢驗/ 151
5.1.2 概似比檢驗/ 153
5.1.3 檢驗係數子集/ 161
5.2 Logistic 迴歸參數的可信區間/ 166
5.2.1 Logistic 迴歸係數的可信區間/ 167

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
目 錄 3

5.2.2 發生比率的可信區間/ 169


5.2.3 事件機率的可信區間/ 173

6 建立模型

6.1 選擇變數/ 180


6.1.1 篩選自變數/ 181
6.1.2 模型的比較/ 188
6.1.3 逐步模型選擇法/ 190
6.1.4 排除有意義的變數和包括沒有意義的變數/ 212
6.2 非線性與非加性(Nonlinearity and Nonadditivity)/ 213
6.2.1 非線性/ 214
6.2.2 非加性/ 220

7 Logistic 迴歸診斷

7.1 過離散(Overdispersion)/ 228


7.2 空單元(Zero Cell Count)/ 232
7.3 完全分離 (Complete Separation)/ 233
7.4 多元共線性 (Multicollinearity)/ 236
7.5 特異值和特殊影響案例(Outliers and Influential Observa-
tions)/ 241
7.5.1 殘差影響的測量/ 241
7.5.2 檢查特異值和特殊影響案例/ 250

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
4 目 錄

8 Logistic 迴歸的替代模型及擴展

8.1 Probit 模型/ 270


8.1.1 Probit 模型的對數概似函數/ 270
8.1.2 擬合 probit 示範模型/ 271
8.1.3 Probit 模型的解釋/ 276
8.1.4 用分組資料建立 probit 模型/ 280
8.1.5 Logistic 迴歸模型與 probit 模型的比較/ 289
8.2 Logistic 迴歸擴展於多分類反應變數/ 291
8.2.1 累積 logistic 迴歸模型(Cumulative Logistic Regression
Model)/ 292
8.2.2 多項 logit 模型(Multinomial Logit Model)/ 307

參考文獻/

關鍵詞索引/

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
TABLE OF CONTEMTS

1 Dichotomous dependent variable and logistic regression model

1.1 Introduction / 2
1.2 Linear probability model (LPM)/ 3
1.3 Logistic regression model / 7

2 Estimation of logistic regression model

2.1 Maximum likelihood estimation (MLE)/ 16


2.2 Assumptions of logistic regression model estimation / 20
2.3 Properties of MLE / 21
2.4 Sample size for model estimation / 21
2.5 Examples of logistic regression models / 23
2.6 Logistic analysis with grouped data / 40

3 Evaluation of logistic regression model

3.1 Goodness of fit / 68


2
3.1.1 Pearson / 68
3.1.2 Deviance / 73
3.1.3 Hosmer-Lemeshow goodness of fit statistic / 77
3.1.4 Information measures / 80

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
2 TABLE Of CONTEMTS

3.2 Predictive accuracy of logistic regression model / 86


3.2.1 Measures of analogous R2/ 86
3.2.2 Association between predicted probability and observed
response / 90
3.2.3 Classification table / 96
3.3 Model Chi-square statistic / 106

4 Interpretation of logistic regression coefficients

4.1 Odds and odds ratio / 111


4.2 Interpretating logistic regression coefficients in odds ratio / 114
4.2.1 Odds ratio for continuous variable / 115
4.2.2 Odds ratio for indicator variable / 119
4.2.3 Odds ratio for categorical variable / 121
4.3 Interpretating effect on probability / 133
4.4 Predicted probabilities / 135
4.5 Standardized coefficients / 139
4.6 Partial correlation / 146

5 Statistical inference for logistic regression coefficients

5.1 Significance test of logistic regression coefficients / 150


5.1.1 Wald test / 151
5.1.2 Likelihood ratio test / 153
5.1.3 Testing a subset of coefficients / 161

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
TABLE OF CONTEMTS 3

5.2 Confidence intervals for logistic regression parameter


estimate / 166
5.2.1 Confidence intervals for logistic regression coefficient /
167
5.2.2 Confidence intervals for odds ratio / 169
5.2.3 Confidence intervals for predicted probabilities / 173

6 Model building

6.1 Variable selection / 180


6.1.1 Screening candidates of independent variables / 181
6.1.2 Model comparison / 188
6.1.3 Stepwise computer model selection / 190
6.1.4 Excluding relevant variables and including irrelevant
variables / 212
6.2 Nonlinearity and nonadditivity / 213
6.2.1 Nonlinearity / 214
6.2.2 Nonadditivity / 220

7 Logistic regression model diagnostics

7.1 Overdispersion / 228


7.2 Zero cell count / 232
7.3 Complete separation / 233
7.4 Multicollinearity / 236
7.5 Outliers and influential observations / 241

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
4 TABLE Of CONTEMTS

7.5.1 Residuals and measures of influence / 241


7.5.2 Detecting Outliers and influential observations / 250

8 Alternative model and extension of logistic regression

8.1 Probit model / 270


8.1.1 The log likelihood function of probit model / 270
8.1.2 Examples of probit model / 271
8.1.3 Interpretation of probit model / 276
8.1.4 Probit model with grouped data / 280
8.1.5 Comparison between the logistic regression and probit
models / 289
8.2 Extension of logistic regression to polytomous response
variables / 291
8.2.1 Cumulative logistic regression model / 292
8.2.2 Multinomial logit model / 307

Reference /

Subject index /

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
CHAPTER 1
二元因變數與
logistic 迴歸模型

引言
線性機率模型(Linear Probability Model, LPM)
Logistic 迴歸模型

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
2 Logistic 迴歸模型──方法及應用

1.1 引 言

線 性 迴 歸 模 型 (linear regression model) 在 定 量 分 析 的 實 際 研 究 中


也許是最流行的統計分析方法了。然而在許多情況下,線性迴歸會受
到限制。比如,當因變數是一個分類變數(categorical variable)而不是
一個連續變數(continuous variable)時,線性迴歸就不適用。實際上,
許多社會科學的觀察都只是分類的而不是連續的。比如,政治學中經
常研究的是否投票給某候選人。又如,經濟學研究中所涉及的是否銷
售或購買某種商品、是否簽訂一個合約等等。這種選擇量度通常分為
兩類,即「是」與「否」。在社會學和人口研究中,人們的社會行為
與生命事件的發生如犯罪、逃學、遷移、結婚、離婚、生育、患病等
等都可以按照二元變數來量測。在研究中,態度與偏好等心理現象經
常 也 是 按 幾 個 類 型 進 行 量 測 的 , 如 「 強 烈 反 對 」、「 反 對 」、「中
立」、「支持」和「強烈支持」。此外,雖然一些量測在理論上可以
是連續變數,比如某件事物對於人們生活的重要程度,但是在實際調
查中卻常常按次序分類(如:「不重要」、「重要」、「非常重要」)
進 行 量 測 。 還 有 的 時 候,人 們 甚 至 更 願 意 將 連 續 量 度 轉 換 為 類 型 劃
分。一種常見的情況就是當分析學生升學考試成績的影響因子時,考
試分數可以被劃分成兩類:錄取分數以上和錄取分數以下。只要選定
一 個分 界 點 , 連 續 變數 便 可 以 被 轉 換 為二 元 變 數 。
在 分 析 分 類 變 數 時,通 常 採 用 的 一 種 統 計 方 法 是 對 數 線 性 模 型
(log-linear model) 。在本 書中,我 們將提 供對數線 性模型 的一種特

Feinberg, 1985;Agresti, 1990

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
Chapter1 二元因變數與 logistic 迴歸模型 3

殊 形式 ──logistic 迴 歸 模 型 。當 對 數 線 性 模 型 中的 一 個 二 元 變 數 被當
作因變數並定義為一系列自變數的函數時,對數線性模型就變成了
logistic 迴歸模型。為了便利廣大讀者,我們將不從一般對數線性模型
的原理出發,而是按類似於線性迴歸模型的方式來描述 logistic 迴歸模
型。

1.2 線性機率模型
(Linear Probability Model, LPM)

我們知道,線性迴歸模型沒有對所使用的自變數值的量度加以限
制 ,只 是 要 求 每 個 自 變 數 不 能 是 其 它 自 變 數 的 完 全 線 性 組 合 (exact
linear combination), 並且自變 數不能 與誤差項 相關。 自變數 可以是連
續的,也可 以只取正數 和 0 值( 如百分比), 或者都是整 數(如一個
家 庭的 子 女 數 ), 另 外也 可 以 是 二 元 型 的( 如 男 性 取 1 值 , 女 性 取 0
值)。然而,因變數卻必須是連續的。由於對迴歸方程中的自變數、
迴歸係數及殘差(residual error)的取值並 無任何限制,因此作為一套
自變數 x 的函數的因變數 y 就必須能夠在負無窮 ∞至正無窮+∞之間
自由取 值。然 而,在 實際資 料中, y 可能 只在有 限區間 取值。 比如,
如果 y 是個人收入,測量值只是存在於一個相對很小的值域中(從最
低收入至最高收入之間)。如果我們假設收入是調查對象的年齡、受
教育年限、性別等變數的函數,那麼關於因變數為連續測量的假設也
許是個不錯的近似,因為所有的自變數也同樣是有一定限制的。換句
話說,沒有哪個自變數能真的取任何值。比如,年齡就被限制在壽命
的區間內;受教育年限可以在 0 至像 20 這樣的最大值中間;性別只能

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
4 Logistic 迴歸模型──方法及應用

被 測量 為 兩 個 值 ( 如 0 為 女 性 、1 為 男 性 ) 。 正因 為 如 此 , 即 使 因變
數 y( 收 入 )並 不 能 自 由 取 任何 值 , 假 設 因 變 數為 連 續 測 量 仍 可 被接
受 。但 是 , 如 果 因 變 數 y 只 取 分 類 值 ,尤 其 是 只 取 二 元 值 ( 即 0 或
1), 就 嚴 重 違反 有 關 連 續 測 量 的假 設 , 特 別 值 得給 予 注 意 。
讓我們用一個例子來看看,要是在線性迴歸模型中的因變數只取
0 和 1 兩個值會怎樣。假設用一個普通最小平方法(ordinary least squares,
OLS)線性迴歸模型來解釋是否購買某種家庭耐用消費品,如 VCD 的
消 費情 況 。 所 採 用 的迴 歸 方 程 為 :

yi = + xi + ei 1.2.1

其 中 xi 是 第 i 個 家 庭 的 年 收 入 , yi 是 一個 二 元 變 數 , 於是 有 :
當第 i 個家 庭 在 一 段 時 間 (如 某 年 ) 內 購 買 VCD 機 時 , yi =1,否
則 , yi =0。
假設隨機變數 xi 與殘差項 ei 無關(independent)。而殘差項 ei 是一
個平均值為 0 的隨機變數(random variable),且 ei 與 ej 無關,若 i j。
( 即殘 差 項 之 間 不 存在 相 關 ) 。
因 為 yi 只 能 取 值 為 0 或 1, 當 xi 已 給 定 的 情 況 下 , yi 的 期 望 值
(expected value) 為

E yi xi = E + xi + ei 1.2.2
= + xi

由於 yi 的 值 不 是 0 就 是 1, yi 的 期 望 值 實 際上 就 是 E( yi ∣ xi )=
P( yi = 1∣ xi ),它 可 以 解釋 為 對 於 第 i 個 家 庭 購買 VCD 的 條 件 機 率測
量 。所 以 , 公 式 1.2.2 等 號 的左 側 可 以 視 為 事 件發 生 的 機 率 。 正 因為

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
Chapter1 二元因變數與 logistic 迴歸模型 5

如此,因變數為二元型的線性迴歸模型也被稱為線性機率模型(linear
probability model, LPM), xi 每增 加 一 個 單 位 總 是導 致 事 件 發 生 的 機率
相 對增 加 一 個 固 定 的量 (Kmenta, 1986; Long, 1997) 。 迴 歸係 數 代表
相對於 xi 一個單位變化時的機率增量。與此對應,事件不發生的機率
應 該為
P yi = 0 xi = 1 + xi = 1 xi

從公 式 1.2.1, 我 們 可 以 得 出 線性 機 率 模 型 的 殘 差項 為

ei = yi xi

因為 yi 只 能 取 0 或 1, 那 麼
當 yi =0 時 ,有 ei= 0 xi = xi
當 yi =1 時 ,有 ei= 1 xi
令 f( ei )為 殘 差 項 的 密 度函 數 (density function), 我 們 定 義
當 yi =0 時 ,有 f( ei )= fi
當 yi =1 時 ,有 f( ei )=1 fi
殘差 的 期 望 值 等 於

E ei = fi × xi + 1 fi × 1 xi 1.2.3

因為 殘 差 的 期 望 值 假設 為 0, 根 據 公式 1.2.3, 我們 有

fi = 1 xi

按照 定 義 , ei 的 變 異 數 (variance), 等 於

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
6 Logistic 迴歸模型──方法及應用

e0i = fi xi 2 + 1 f i 1 xi 2
1.2.4
= 1 xi + xi 2 + + xi 1 xi 2

= + xi 1 xi
= P yi =1 x0i P yi = 0 xi

從公式 1.2.4 中可以看出,殘差的變異數與條件機率測量值有關,


因而也就與因變數的值變動有關。於是不同的測量值便有不同的變異
數 。在 統 計 中 , 這 稱為 變 異 數 的 異 質 性(heteroscedasticity) 。
由於公式 1.2.1 中因變數的特殊性質,線性機率模型(LPM)的估
計 和預 測 存 在 許 多 問題 :
第一,由於在線性機率模型中殘差的異質性,參數估計的變異數
將 是有 偏 的 。 因 此 ,任 何 假 設 檢 驗 , 比如 t 檢 驗 和 F 檢 驗 , 都 是 無效
的 ,即 使 樣 本 很 大 也是 如 此 。
第 二 , 由 線 性 機 率 模 型 估 計 的 事 件 機 率 值 (yi = + xi)在 遇 到 很 ‹

大 或很 小 的 xi 值 時 可 能 會超 出 [0, 1] 區 間 。
最後,線性機率模型最嚴重的問題是它的函數形式。因為線性機
率 模 型 是 線 性 的 , 即 無 論 xi 取 什 麼 值, 其 迴 歸 係 數 和 都應是常
數 。然 而 , 公 式 1.2.1 中 的 截距 和 斜 率 對於 所 有 xi 值 並 不 是 常 數,
而 是有 如 下 變 化 :
在 xi ≦ / 時 ,截 距 = 0 且 斜 率 = 0,
在 / ≦ xi ≦ (1 ) 時,截距= 且斜率= ,
在 xi ≧ (1 )/ 時, 截 距 =1 且 斜 率 =0。
圖 1.1 顯示 了 這 種 變 數 與自 變 數 之 間 的 關 係。 很 明 顯 , 以 二 元變
數作為因變數的模型在自變數與事件發生機率之間存在非線性關係。
而線性機率模型(LPM)不能擬合(fitting)這種非線性關係(見附註
1) 。

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
Chapter1 二元因變數與 logistic 迴歸模型 7

0 1 x

圖 1.1 線性機率模型的圖示

1.3 Logistic 迴歸模型

由於普通最小平方法模型的不適宜性,建議使用非線性函數來分
析二元因變數。事件發生的條件機率P( yi =1∣ xi )與 xi 之間的非線性
關係通常是單調函數,即隨著 xi 的增加P( yi =1∣ xi )也單調增加,或
者 是 隨 著 xi 的 減 少 P( yi =1∣ xi ) 也 單 調 減 少 。 一 個 選 擇 便 是 值 域 在
(0, 1)之間有著 S 形狀的曲線,這樣在 xi 趨近於負無窮大時,E( yi )
趨 近於 0, 在 xi 趨 近於 正 無 窮 大 時 ,E( yi ) 趨 近 於 1。 這 種 曲 線 類似
於一個隨機變數的累積分佈曲線。在二元因變數分析中曾使用多種分
佈 函數 (Cox, 1970) 。 然 而 ,最 常 用 的 函 數 則是 logistic 分 佈 。 另 一種
可供選擇的分佈函數是標準常態分佈(normal distribution),與之對應
的 是 probit 模 型 ( 將 在 第 7 章介 紹 ) 。 這 裡 我 們先 簡 要 地 描 述 一 下把
logistic 函 數 用 於 二 元 因 變數 分 析 的 理 論 依據 。
假 設 有 一 個 理 論 上 存 在 的 連 續 反 應 變 數 y*i 代 表 事 件 發 生 的 可 能
性 ,其 值 域 為 負 無 窮 至 正 無 窮 。 當 該 變 數 的 值 跨 越 一 個 臨 界 點 c(比
如 c =0), 便 導 致事 件 發 生 。 於 是有 :

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
8 Logistic 迴歸模型──方法及應用

當 y*i >0 時 , yi =1,


在其 他 情 況 下 , yi =0。
這裡 , yi 是 實 際 觀 察 到 的反 應 變 數 。 yi =1 表 示 事 件發 生 , yi =0 表
示 事 件 未 發 生 。 如 果 假 設 在 反 應 變 數 y*i 和 自 變 數 xi 之 間 存 在 一 種 線
性 關係 , 即

y*i = + xi + i 1.3.1

由公 式 1.3.1, 我 們 得 到

P yi = 1 xi = P + xi + i >0 1.3.2
=P i> xi

通常 , 假 設 公 式 1.3.1 中 誤 差 項 i 有 logistic 分佈 或 標 準 常 態 分 佈。
為 了取 得 一 個 累 積 分佈 函 數 (cumulative distribution function, CDF),一
個變數的機率需要小於一個特定值。所以,我們必須改變公式 1.3.2 中
不 等 號 的 方 向 。由 於 logistic 分 佈 和 常 態 分 佈 都 是 對 稱 的 , 因 此 公 式
1.3.2 可 以 改寫 為 :

P yi = 1 xi = P i + xi 1.3.3
=F + xi

其中 F 為 i 的累積分佈函數。分佈函數的形式決定於公式 1.3.1 中 i 的
假 設分 佈 。 如 果 假 設 i 為 logistic 分 佈 , 就 得 到 logistic 迴 歸 模 型 ; 如果
假設 i 為 標 準常 態 分 佈 , 就 得 到 probit 模 型 (Long, 1997) 。 因 為 y*i 不
能直接觀察,其量度既不能由 logistic 迴歸模型來決定,也不能由 probit

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
Chapter1 二元因變數與 logistic 迴歸模型 9

模 型來 決 定 。 在 probit 模 型 中 , 誤差 項 i 的 變異 數 為 1。 而 在 logistic 迴
2
歸模型中,誤差項 i 的變異數為 / 3 3.29 。 在 本 書 中 , 我 們 將 主 要
介 紹 logistic 迴 歸 模 型, 然 後 在 第 7 章 對 probit 模型 作 一 簡 要 介 紹 。標
2
準 logistic 分佈的平均值等於 0,變異數等於 / 3 3.29 。選擇這樣一個
變 異數 是 因 為 它 可 以使 累 積 分 佈 函 數 取得 一 個 較 簡 單 的公 式 :

P yi=1 xi = P i + xi 1.3.4
1
=
1+e i

這一 函 數 稱 為 Logistic 函 數 , 它具 有 S 型 的分 佈 , 圖 1.2 中 給 出它
的 圖形 。
如果我們將 i 在負無窮至 正無窮區間變化時的 函數值標示出來,
就 得到 了 圖 1.2 中 的圖 形 。 注 意 在 這一 圖 形 的 左 側 , 當 i 趨 近 於 負無
窮 時,logistic 函 數 有
P yi=1 xi = 1/ 1 + e
= 1/ 1+e
=0

1.0

0.5
p=1/ 1+

0.0
∞ / ∞

圖 1.2 logistic 函數的曲線圖

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
10 Logistic 迴歸模型──方法及應用

當 i 趨 近 於 正無 窮 時 ,logistic 函 數 有

P yi = 1 xi = 1/ 1 + e
= 1/ 1+e
=1

正如圖形所示,無論 i 為 任 何 值 ,logistic 函 數 P yi=1 xi =1/ 1+e i

的 值域 範 圍 均 在 0 至 1 之 間。logistic 函數 的 這 一 性 質 保 證了 由 logistic
模 型估 計 的 機 率 決 不會 大 於 1 或 小 於 0。logistic 函 數 的 另 一 個 性 質也
是 很有 用 的 , 即 這 個函 數 的 形 狀 對 於 研究 機 率 也 很 合 適。 如 圖 1.2 所
示 ,如 果 我 們 從 i= ∞ 開 始 向 右 移 動 ,當 i 增加時,這一函數的值
先是很緩慢地增加,然後轉向迅速增加,之後增加的速度又開始逐漸
減 緩, 最 後 當 i 趨 近 於 +∞ 時 , 函 數 值趨 近 於 1。logistic 函 數 的 S 型曲
線顯示, i 的作用對於某個案例發 生某一事件的機率是變化的 ,在 i

值很小時其作用也很小,然而在中間階段對應的機率增加很快,但是
在 i 值 增 加 到 一 定 程 度 以 後 , 機 率 就 保 持 在 幾 乎 不 變 的 水 準 了 。這
說 明, i 在 P yi=1 xi 接 近 於 0 或 1 時 的 作 用 要小 於 當 P yi=1 xi 處 於中
間階段時的作用。這種非線性函數的形式有助於解決線性機率模型所
不 能解 決 的 問 題 。 比如 , 就 前 面 例 題 中提 到 的 家 庭 購 買 VCD 的 機率
問 題而 言 , 並 不 是 家庭 收 入 每 增 加 一 定量 , 購 買 VCD 的 機 率 就 固定
增加一定值。實際情況是,家庭收入在某一段水準內變化時對購買機
率 的 變 化 影 響 較 大,而 較 低 或 較 高 收 入 對 購 買 機 率 的 變 化 影 響 都 不
大 。因 為 前 者 多 買 不起 , 後 者 則 差 不 多都 有 了 。
現在 讓 我 們 從 logistic 函數 轉 向 logistic 迴 歸 模型 , 它 才 是 我 們 真正
的 興趣 所 在 。 為 了 根據 logistic 函 數 取 得 logistic 迴歸 模 型 , 我 們 將 公式
1.3.4 重 寫 為:

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
Chapter1 二元因變數與 logistic 迴歸模型 11

1
P yi = 1 xi = + xi 1.3.5
1+e

其 實, 這 就 是 當 i 為( + xi ) 時 的 累 積分 佈 函 數 。 在 這 裡 , i 被
定 義為 一 系 列 影 響 事件 發 生 機 率 因 子 的線 性 函 數 , 即

i= + xi 1.3.6

其 中 xi 為 自 變 數 , 和 分 別為 迴 歸 截 距 和 迴 歸係 數 。 為 了 簡 化 ,這
裡 以一 元 迴 歸 為 例 。然 而 , 同 樣 的 原 則也 適 用 於 多 元 迴歸 。
將 事 件 發 生 的 條 件 機 率 標 記 原 則 定 為 P yi = 1 xi = pi, 我 們 就 能 得
到 下列 logistic 迴 歸 模 型

1
pi =
1+e + xi
e + xi
= 1.3.7
1+e + xi

其中 , pi 為 第 i 個 案 例發 生 事 件 的 機 率, 它 是 一 個 由 變 數 xi 構成
的非線性函數(non-linear function)。然而這個非線性函數可以被轉換
為 線性 函 數 (linear function) 。
首先 , 定 義 不 發 生 事件 的 條 件 機 率 為

e + xi
1 pi = 1 + xi
1+e
1
= 1.3.8
1 + e + xi

那 麼, 事 件 發 生 機 率與 事 件 不 發 生 機 率之 比 為

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
12 Logistic 迴歸模型──方法及應用

pi + xi
=e 1.3.9
1 pi

這個 比 被 稱 之 為 事 件的 發 生 比 (the odds of experiencing an event),


簡 稱為 odds。 我 們 將 在 第 4 章討 論 odds 及 其有 關 概 念 。odds 一 定 為正
值 ,因 為 0< pi<1 , 而 且 沒 有 上 界 。將 odds 取 自然 對 數 就 能 夠 得 到一
個 線性 函 數 :

pi
= + xi 1.3.10
1 pi

公式 1.3.10 將 logistic 函 數 做 了 自然 對 數 轉 換 , 這稱 作 logit 形式


(logit form), 也 稱 作 y 的 logit, 即 logit( y ) 。
這一轉換的重要性在於,logit( y )有許多可利用的線性迴歸模型
的性質。logit( y )對於其參數而言是線性的,並且與 x 的值有關,它
的 值域 為 負 無 窮 至 正無 窮 。 從 公 式 1.3.10 我 們可 以 看 出 , 當 odds 從 1
減少 到 0 時,logit( y ) 為負 值且絕 對值 越來 越大; 當 odds 從 1 增加到
正無窮時,它為正值且值越來越大。於是,我們就不為機率估計值會
超過機率值域的問題所困了。logit 模型的係數 和 可以按照一般迴歸
係數那樣來解釋。一個變數的作用如果是增加對數發生比(log odds)
的 話, 也 就 是 增 加 事件 發 生 的 機 率 。 反之 亦 然 。
就概念而言,公式 1.3.7 表現的是「logistic 迴歸」,因為它是 logistic
分 佈函 數 , 而 公 式 1.3.10 則表 現 的 是 「logit 模型 」, 因 為 它 採 用 的是
logit 形式 。 在 有 關 文 獻中 , 有 時 對 logistic 迴 歸 和 logit 模 型 是 根 據 所用
自變數是否為連續變數來劃分。有些研究人員將以分類自變數(categorical
independent variables)構成的 模型稱為 logit 模型, 而將既有分類自變數
又有連續自變數(continuous independent variables)的模型稱為 logistic 迴

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
Chapter1 二元因變數與 logistic 迴歸模型 13

歸模型。但有時為了方便,不管自變數是什麼類型,人們將 logistic 迴
歸 模型 統 稱 為 logit 模 型 。 人 們 平 常 也將 「logistic 迴 歸 」、「logistic 模
型 」、「logistic 迴 歸 模 型 」 及 「logit 模 型 」 的 稱謂 相 互 通 用 , 來 指同
一 個模 型 (Feinberg, 1985; DeMaris, 1992; Liao, 1994) 。 本 書 中 , 我 們統
一 稱 logistic 迴歸 模 型 。
儘管 線 性 迴 歸 分 析 的原 則 也 應 用 於 logistic 迴歸 模 型 , 但 我 們 應當
記住,logistic 迴 歸與 線性迴 歸是完 全不同 的。首 先,線 性迴歸 的結果
變數(outcome variable)(或稱因變數(dependent variable)或反應變數
(response variable)) 與 其 自 變 數 之 間的 關 係 是 線 性 的 ,而 logistic 迴
歸中結果變數與自變數之間的關係是非線性的,儘管非線性關係可以
被轉換為線性關係。其次,我們在線性迴歸中通常假設,對應自變數
xi 的 某 個 值 , 變 數 yi 的 測 量 值 結 果 為 常 態 分 佈 。 但 是 在 logistic 迴 歸
中,變數的測量值 yi 結果卻是二項分佈。最後,在 logistic 迴歸模型中
( 即公 式 1.3.10), 線 性迴 歸 模 型 中 有 的 殘差 項 在 此 並 不 存 在。
當有 k 個 自 變 數 時, 公 式 1.3.7 可擴 展 為 :

K
+ k xk i
e
pi = k=1
K 1.3.11
+ k xk i
1+e k=1

那麼 , 相 應 的 logistic 迴 歸 模 型將 有 下 列 形 式 :

pi K
= + k xki 1.3.12
1 pi k=1

其中,pi = P yi = 1 x1i , x2i , … , xKi 為在給定系列自變數x1i, x2i, …, xKi


的 值時 的 事 件 發 生 機率 。

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
14 Logistic 迴歸模型──方法及應用

一 旦 我 們 擁 有 各 個 案 例 的 觀 測 自 變 數 x1 至 xK 值 構 成 的 樣 本, 以 及
擁有其事件發生與否的測量值,我們就能夠使用這些訊息來分析和描
述 在特 定 條 件 下 事 件的 發 生 以 及 發 生 的機 率 。

附註:

Goldberger(1964)建議一種兩步驟程序來解決這一問題。在第一步中
先 採 用 最 小 平 方 法 (Least Squares) 將 yi 對 xi 進 行 迴 歸 分 析 ,估 計 出 係 數
和 。 這 一 步 產 生 出 公 式 yi = + xi + i 中 參 數 的 一 致 性 估 計 (consistent esti-
mate) 。 在第 二步 中 ,再 對 殘差 的變 異 數 Var( i ) 進行 估計 。 然後 , 採用
i 的標準誤差的倒數作為權數來進行加權最小平方法(weighted least squares,
WLS) 的 迴 歸 。 其 權數 i 的 計 算公 式 為 :

1/2
i = 1/SE i = 1/ i

1/2
= 1/ + xi 1 + xi

然 後 , 將 公 式 1.2.1 的 兩 側分 別 乘 以 權 數 i ,得到

* *
iy i = i+ ix i + ie i

可 以證 明(Goldberger, 1964), iei 有相 同的 變異 數, 因此再 用普 通最


小平方法將 i yi 對 i xi 迴歸便能夠得到無偏的參數估計和有效的統計檢

* *
i+ ix i 仍然可能超出 0

驗。然而,所得到的事件發生機率的估計值
至 1 的範圍。

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
CHAPTER 2
Logistic
迴歸模型估計

最大概似估計(Maximum Likelihood Estimation, MLE)


Logistic 迴歸模型估計的假設條件
最大概似估計的性質
模型估計的樣本規模
擬合 logistic 迴歸的示範模型
用分組資料作 logistic 迴歸分析

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
16 Logistic 迴歸模型──方法及應用

在第 1 章 對 logistic 迴 歸 模型 做 了 介 紹 以 後 ,現 在 我 們 來 介 紹 該模
型的估計。通常用來估計 logistic 迴歸模型的資料有兩種形式,即單個
案例資料與以分組形式構成的資料。單個案例資料,也稱微觀資料,
一般從抽樣調查中取得,每個案例的變數值反應一個觀察對象各方面
的 情況 , 如 x 為 自 變 數, y 為 取 值 0 或 1 的 反 應變 數 。 分 組 資 料 ,也
稱 宏 觀 資 料 ,來 自 於 匯 總 水 準。我 們 先 介 紹 用 微 觀 資 料 進 行 模 型 估
計, 然後 介 紹一 個轉 形 的 OLS 模 型 對分 組資 料 做 logistic 迴 歸 分析 ,並
用 分組 資 料 來 執 行 微觀 水 準 的 logistic 迴 歸 模 型 。

2.1 最大概似估計
(Maximum Likelihood Estimation, MLE)

在線性迴歸中估計未知總體參數時主要採用最小平方法。這一方
法的原理是根據線性迴歸模型選擇參數估計值,使因變數的測量值與
模型估計值之間的離差平方值為最小。而最大概似估計法則是統計分
析中另一常用模型參數估計方法。在線性迴歸分析中,最大概似估計
法可以得到與最小平方法相同的結果。與最小平方法相比,最大概似
估計法既可以用於線性模型,也可以用於更為複雜的非線性估計。由
於 logistic 迴歸是非線性模型,因此最大概似估計法是最常用的模型估
計 方法 。
在應用最大概似估計法之前,我們先要建立一個函數,稱為概似
函數(likelihood function)。這一函數將觀測資料的機率表述為未知模
型參數的函數。模型參數的最大概似估計是選擇能夠使這一函數值達
到最大的參數估計值。換句話說,這套參數估計能夠透過模型以最大

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
Chapter2 Logistic 迴歸模型估計 17

機率再現樣本觀測資料。下面,我們介紹如何透過最大概似估計法來
估 計 logistic 迴歸 模 型 的 參 數 。
假設有由 N 個案例構成的總體,Y1 , …, YN 。從中隨機抽取 n 個案
例作 為樣 本, 分別 為 y1, …, yn 。 設pi = P(yi = 1 xi 為 給定 xi 的 條件 下得
到 結果 yi =1 的 條件 機 率 ; 而 在 同 樣條 件 下 得 到 結 果 yi = 0 的 條 件 機率
為 P yi = 0 xi =1 pi。 於 是 , 得到 一 個 測 量 值 的 機率 為 :

P yi = pi yi 1 pi 1 yi
2.1.1

其中, yi = 1 或 yi = 0。式中 yi 或(1 yi )只是表示對於一個特定觀測,


哪 一項 機 率 是 有 關 的。 當 yi = 1 時 ,P ( yi ) = pi = P yi = 1 x , 否 則 P yi =
1 p i = P y i = 0 xi 。 因 為 各 項 觀 測 相 互 獨 立 , 所 以 它 們 的 聯 合 分 佈 可
以 表示 為 各 邊 際 分 佈的 乘 積 :

n
L = pi yi 1 pi 1 yi
2.1.2
i=1

式 2.1.2 也 稱 為 n 個 觀 測 的 概 似 函 數 。 在 第 1 章 中 講 過 ,pi =
+ xi + xi
e 1+e 。我們的目的是求出能夠使這一概似函數的值最大的
參數估計。也就是說,最大概似估計就是求解出具有最大可能取得所
給定的樣本觀測資料的參數估計。於是,最大概似估計的關鍵是估計
出參數 和 的值,並透過它們使式 2.1.2 取得最大值。然而,使概似
函數 L( )最大化的實際過程是非常困難的。一般方法是間接利用求
概 似函 數 的 自 然 對 數( 即 ln L ( ) ) 最 大 值 , 而不 是 直 接 對 概 似 函數
本 身求 最 大 。 因 為 ln L ( ) 是 L ( )的 單 調 函 數 ,使 ln L ( ) 取 得 最大
值的 值 同 樣 使 L ( )取 得 最 大 值 。透 過 分 析 ln L ( ) , 式 2.1.2 中 相乘
各 項 轉 換 為 對 數 項 的 相 加,於 是 使 得 數 學 運 算 變 得 較 為 容 易 。 以 式

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
18 Logistic 迴歸模型──方法及應用

1.3.10 作 為 示 範 , 其 logistic 迴 歸模 型 的 對 數 概 似 值為 :

n
L = pi yi 1 pi 1 yi

i=1
n
= yi pi = 1 yi 1 pi
i=1
n pi
= yi + 1 pi 2.1.3
i=1
1 pi
n e + xi
= yi + xi + 1 + xi
i=1
1+e
n
+ xi
= yi + xi 1+e
i=1

式 2.1.3 稱 為 對 數 概 似函 數 (log likelihood function) 。 為 了 估 計能


使 ln [L ( )] 最 大的 總 體 參 數 和 值 , 先分 別 對 和 求 偏 導 數 ,然
後 令它 等 於 0:

L n e + xi
= yi + xi 2.1.4
i=1
1+e
L n e + xi
= yi + xi xi 2.1.5
i=1
1+e

式 2.1.4 和 式 2.1.5 稱 為 概似 方 程 (likelihood equations) 。 如 果 模型


中有 k 個自變數,那麼就有 k + 1 個聯立方程來估計 和 1, 2, …, k 的
值。在線 性迴歸 中,概 似方程是 透過把 離差平方 和分別 對 和 求偏
導數後得到的,它對於未知參數都是線性的,因此很容易求解。但是
對於 logistic 迴歸,如式 2.1.4 和式 2.1.5 是 和 的非線性函數,所以求
解 十 分 困 難 。 實 際 上 ,不 求 助 於 現 代 計 算 機 技 術 , 幾 乎 是 無 法 求 解
的。最大概似估計法是利用疊代(iteration)計算完成的。其疊代程序
已經置於 logistic 迴歸軟體之中。所以,我們用不著關心具體的疊代方

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
Chapter2 Logistic 迴歸模型估計 19

法,因為計算機可以為我們處理好各種計算細節。對 logistic 迴歸模型


中最大概似估計方法感興趣的讀者,可參閱 McCullagh and Nelder (1983)
與 Eliason (1993) 。
由式 2.1.4 和式 2.1.5 提供的 和 值估計稱為最大概似估計(maximum
likelihood estimates) 。 按 照 一 般 統 計 標 記 原 則 , 我 們 用 加 「ˆ」 符 號 的



方法表示參數估計。於是,我們所感興趣的是 和 。它們是 和 的
模型估計值;而 pi 是條件機率 pi 的最大概似估計。這個值是在給定 xi

的條件下 yi =1 的條件機率的估計,它代表了 logistic 迴歸模型的擬合值


或預測值。當令偏導函數等於 0 時,由式 2.1.4 可以得到如下的結果:

n n
yi = pi 2.1.6

i=1 i=1

這意味著測量值 yi 之和等於預測機率之和。這一性質在評估模型
擬 合情 況 時 非 常 有 用, 我 們 將 在 第 3 章 看到 式 2.1.6 的 應 用。
最 大 概 似 估 計 的 漸 近 變 異 數 (asymptotic variance) 和 共 變 異 數
(covariance)可以由訊息矩陣的逆矩陣(inverse of the information matrix)
估 計出 來 。 訊 息 矩 陣實 際 上 是 ln L ( ) 二 階 導 數的 負 值 的 期 望 值 ,可
以 用下 列 形 式 表 示 :

2
L
I =E 2 2.1.7

訊息 矩 陣 的 逆 矩 陣 為:

1
I 2.1.8

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
20 Logistic 迴歸模型──方法及應用


和 漸近變異數的估計就是訊息矩陣的逆矩陣中對角線上的元
素 值, 而 對 角 線 以 外各 元 素 值 為 各 項 參數 之 間 的 共 變 異數 估 計 。

2.2 Logistic 迴歸模型估計的假設條件

Logistic 迴歸模型估計的一些假設條件與 OLS 迴歸中的十分類似。


首先,資料必須來自於隨機樣本。第二,因變數 yi 被假設為 K 個自變
數 xki k = 1, 2, …, K 的函數。第三,正如 OLS 迴歸,logistic 迴歸也對多
元共線性(multicollinearity)敏感。自變數之間存在的多元共線性會導
致 標準 誤 差 的 膨 脹 。
Logistic 迴 歸 模 型 還 有一 些 與 OLS 迴 歸 不 同 的假 設 。 第 一 ,logistic
迴 歸的 因 變 數 yi 是 二 分 變 數, 這 個 變 數 只 能 取值 0 或 1。 研 究 的 興趣
在於事件發生的條件機率,即P yi = 1 xki 。第二,正如公式 1.3.11 中所
定義的 ,logistic 迴歸 中因變 數和各 自變數 之間的 關係是 非線性 的。第
三 ,在 OLS 迴 歸 中 要 假 設 相同 分 佈 性 (homoscedasticity) 或 稱 變 異數
不 變, 類 似 的 假 設 在 logistic 迴 歸 中 卻 不 需 要。 最 後 ,logistic 迴 歸 也沒
有關於自變數分佈的假設條件。各自變數可以是連續變數,也可以是
離散變數,還可以是虛擬變數(dummy variable)。並且,也不需要假
設 它 們 之 間 存 在 多 元 常 態 分 佈 (multinormality)。 但 是, 自 變 數 之 間
如果存在多元常態分佈關係將能夠增加模型的功效(power),求解也
能 夠提 高 穩 定 性 (Tabachnick & Fidell, 1996) 。

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
關鍵詞索引

Deviance 殘差 243-244, 250, 254, 259, 261


Hosmer-Lemeshow 指標 77, 300
logit 12-13, 110, 115, 117, 118, 119, 125, 129, 133, 136, 137, 140, 141, 145, 150, 173, 174, 175,
214, 215, 216, 218, 218, 219, 222, 223, 224, 229, 232, 270, 277, 288, 290, 292, 294, 297, 298,
299, 299, 302, 307, 308, 309, 310, 311, 312, 313, 314, 315, 318, 318, 319, 320
logistic 函數 7, 9, 10, 12, 134, 136, 180, 214, 233, 289, 289, 290
logistic 迴歸 3, 8, 9, 10, 11, 12, 13, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 27, 28, 31, 33, 36, 37,
40, 41, 42, 53, 54, 57, 58, 59, 60, 61, 62, 64, 68, 69, 70, 72, 74, 75, 77, 78, 80, 80, 81, 86, 86,
87, 88, 90, 94, 97, 98, 99, 106, 110, 112, 113, 114, 115, 116, 120, 124, 125, 126, 127, 128, 130,
133, 134, 135, 135, 139, 140, 141, 143, 144, 145, 146, 150, 151, 166, 168, 169, 180, 181, 182,
185, 193, 212, 213, 214, 214, 216, 222, 228, 230, 231, 232, 233, 234, 235, 236, 241, 242, 244,
245, 246, 250, 251, 270, 271, 273, 276, 277, 278, 279, 280, 281, 281, 289, 290, 291, 292, 293,
294, 295, 297, 298, 299, 300, 302, 307, 309, 310, 315
Logistic 迴歸係數 150, 167
Logit 殘差 242, 244
probit 模型 7-9, 270, 271, 272, 273, 274, 275, 276, 277, 278, 280, 281, 285, 286, 287, 287, 289,
290, 291, 294, 307
Wald 檢驗 151, 160, 166
Z 統計量 151-152, 271

一劃
一致性 14, 21, 43, 68

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
330 Logistic 迴歸模型──方法及應用

一致性估計 14, 43
一般化 logit 模型 307
一階互動 221, 224

二劃
二元 logistic 迴歸 293, 315
二元反應變數 27, 54, 180, 270, 291, 294, 299, 313
二次項關係 219

四劃
互動作用 220-222, 224
分佈 274
分佈 74, 78, 79, 106, 108, 152, 153, 154, 162, 176, 189, 229, 232
分步 205-206
分組 205-206
分組資料 16, 40, 41, 42, 46, 47, 53, 54, 57, 58, 59, 60, 61, 62, 62, 63, 65, 180, 273, 276, 280,
281, 283, 284, 285, 286, 286, 288
分類表 36, 96, 97, 98, 99, 101, 103, 104, 105, 105
分類變數 2, 25, 41, 42, 63, 69, 114, 115, 121, 122, 124, 125, 126, 127, 129, 140, 147, 148, 153,
161, 162, 165, 233, 272, 276, 283, 285, 288, 302, 307, 311, 312, 313, 314
反應變數 7-8, 13, 16, 22, 23, 25, 27, 28, 29, 54, 68, 81, 90, 91, 93, 94, 95, 97, 101, 102, 150,
180, 181, 228, 233, 251, 270, 272, 273, 281, 291, 292, 293, 294, 296, 297, 298, 299, 300, 307,
308, 310, 311, 312, 313, 318
尺度分量 302
尺度因子 290
欠離散 229

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
關鍵詞索引 331

五劃
主影響 221, 224
加權最小平方法 14
功效 20, 53, 72, 80
可加性 221
可信度 167-169
可信區間 21-22, 150, 166, 167, 168, 169, 170, 171, 172, 173, 174, 175, 176
正確率 98, 101, 103, 104, 105
皮爾遜 273
皮爾遜 273-276, 284, 288
皮爾遜 68, 70, 70, 71, 74, 75, 76, 77, 78, 229, 230, 232, 232, 243, 244, 300

六劃
交互表 40, 54, 77, 94, 97, 181, 183, 184, 185, 186, 232
共變數 33, 37, 68, 75, 158, 284, 285, 289, 301, 302, 318
共變類型 68-71, 74, 75, 76, 77, 108, 157, 158, 159, 160, 164, 228, 229, 232, 273, 274, 284,
287, 288, 300, 315
同變異數性 44
名義測量 292
名義變數 121, 135, 181, 233
因子 2, 11, 23, 137, 138, 144, 222, 230, 236, 238, 239, 273, 275, 285, 290, 302, 310
多元共線性 20, 213, 228, 236, 237, 238, 239
多元常態分佈 20, 307
多分類反應變數 270, 291, 292, 307
多分類變數 114
多項 logit 模型 270, 292, 307, 308, 309, 310, 311, 312, 315, 318, 318, 319, 320, 321

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
332 Logistic 迴歸模型──方法及應用

次序相關指標 90, 92, 95


次序測量 214, 292, 292
次序變數 181, 214
自由格式 27, 32, 35

七劃
位置分量 302
完全分離 228, 233, 234, 235, 237, 239
貝葉斯訊息標準 82

八劃
空單元 228, 232, 233, 235, 237, 239
非加性 213-214, 220, 221
非標準化殘差 241, 244
非線性 6-7, 10, 11, 13, 16, 18, 20, 80, 118, 119, 213, 214, 215, 216, 219, 220, 221
非線性函數 10-11, 18

九劃
指定度 98, 101
相對風險 113, 121

十劃
效應編碼 124-125, 129, 130, 131, 131, 132, 133, 148, 314, 318
特異值 228-229, 241, 250, 251, 252, 259, 260, 261, 262
訊息測量指標 80, 84

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
關鍵詞索引 333

連結函數 214

十一劃
偏作用 134-135, 146, 221, 278, 279
偏相關 146-147
參照類 121-122, 124, 125, 126, 127, 128, 129, 131, 147, 164, 166, 216, 297, 309, 310, 311,
312, 313, 315
巢狀模型 77, 154, 155, 156, 157, 189
敏感度 98, 101
條件發生比率 172
異質因子 230
異變異數性 42, 44, 280, 281
第一類錯誤 150-151
第二類錯誤 151, 153
統計推斷 110, 150, 180
累積 logistic 迴歸模型 270, 292, 293, 294, 295, 297, 298, 299, 300, 302, 309, 310
累積分佈 7-9, 11, 271, 277, 290, 294
累積常態分佈 270, 278, 289
設計變數 124-126, 129, 148, 153, 181, 245
連結函數 Link Function 289, 301
連結函數 link function 302
連續變數 2, 12, 20, 23, 41, 75, 76, 110, 115, 116, 117, 118, 122, 125, 136, 146, 171, 172, 181,
214, 215, 220, 222, 233, 273, 292, 297, 311, 314

十二劃
最大概似估計 16-19, 21, 22, 36, 74, 89, 150, 160, 233

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
334 Logistic 迴歸模型──方法及應用

最小估計 44
單獨位置模型 302
普通最小平方法 4, 7, 14, 281
殘差 3-6, 13, 14, 41, 42, 43, 44, 44, 70, 72, 74, 87, 192, 192, 241, 242, 243, 244, 245, 246, 250,
251, 254, 255, 258, 259, 260, 261, 281
無效性 53
發生比 12, 28, 31, 41, 42, 46, 107, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121,
122, 124, 125, 126, 133, 134, 136, 137, 138, 140, 146, 150, 166, 169, 169, 170, 171, 172, 173,
231, 232, 238, 277, 280, 292, 294, 297, 298, 299, 300, 303, 305, 306, 307, 308, 310, 311, 315
發生比率 31, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 133, 137, 150,
167, 169, 169, 170, 171, 172, 231, 303, 315
結構方程模型 22, 236
虛擬變數 20, 23, 27, 63, 119, 121, 122, 124, 127, 129, 181, 215, 217, 218, 218, 219, 229, 273,
279, 280, 283, 297, 302, 312, 314
概似比 73, 81, 83, 87, 106, 153, 155, 156, 157, 163, 164, 181, 181, 315
概似函數 16-18, 73, 74, 154, 155, 156, 270, 271
準完全分離 234-235
過離散 71, 228, 229, 230, 231, 232, 273, 274

十三劃
零假設模型 83, 87, 106, 302
預測準確性 36, 68, 86, 89, 90, 96, 98, 103
預測機率 19, 69, 70, 75, 77, 78, 80, 90, 91, 93, 94, 97, 99, 103, 135, 136, 137, 141, 142, 167,
175, 241, 242, 277, 278
飽和模型 73-74, 82, 87, 157, 315

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
關鍵詞索引 335

十四劃
對比 41, 120, 124, 125, 127, 128, 129, 130, 166, 214, 261, 308, 310, 311, 315
對數概似函數 18, 73, 270, 271
對數線性模型 2-3, 32
槓桿度 244-246, 251, 257, 261
槓桿案例 241
槓桿點 251, 261, 262
漸近有效性 21
漸近常態性 21, 169
漸近無偏和有效 150
誤差平方和 74, 87
誤差項 3, 8, 9, 143, 212, 242, 281, 293
標記對比 125, 127, 130
標準化迴歸係數 139, 141
標準化殘差 241-242, 244, 245, 246
標準誤差 14, 20, 21, 31, 42, 44, 47, 47, 126, 150, 151, 153, 167, 168, 212, 213, 214, 228, 231,
233, 235, 236, 237, 239, 242, 271, 273, 274, 275, 311, 315
模型 106-108, 156, 157, 160, 162, 181, 205, 206, 212, 216, 223, 300

十五劃
線性函數 7, 10, 11, 11, 12, 18, 214, 229, 233
線性迴歸 2-5, 12, 13, 16, 18, 42, 74, 84, 86, 87, 106, 110, 119, 122, 135, 139, 145, 161, 180,
212, 213, 221, 222, 233, 236, 237, 238, 241, 242, 245, 251, 303
線性機率模型 3, 5, 6, 7, 10, 238
調整發生比率 116-117, 120, 169
學生化殘差 243-244, 250, 251, 255

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
336 Logistic 迴歸模型──方法及應用

機率界限 36, 96, 97, 101, 103, 104


機率離散變化法 136

十六劃
獨立於無關類型 308
錯誤否定率 98, 102
錯誤肯定率 98, 102
擬合優度 68, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 80, 86, 107, 108, 232, 272, 273, 274, 276,
287, 288, 291, 300, 302, 315
檢驗 71, 78, 156, 181

十七劃
簡化模型 155, 161
簡單對比 125

十八劃
離差 16, 18, 23, 27, 47, 53, 70, 71, 73, 74, 76, 77, 87, 99, 115, 117, 125, 130, 156, 157, 158,
159, 160, 162, 189, 212, 213, 214, 228, 236, 271, 314
離差統計值 158, 162
離差對比 125, 130
離散參數 229-230, 232, 274
離散變數 20, 136, 212
類確定係數 74, 88, 89, 303

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
關鍵詞索引 337

二十一劃
鑑別分析 99, 307

二十三劃
觀測資料對 90-92, 95

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
出版聲明
高等教育出版社(甲方)授予五南圖書股份有限公司(乙方)在臺灣地
區獨家出版發行本書繁體版的權利。未經對方許可,任何一方不
得將本書的上述權利轉讓第三方。甲方保證擁有上述權利,並保
證上述權利的行使不侵犯他人的版權。若因上述權利的行使侵犯
他人的版權,由甲方負全部責任,並賠償因此給乙方造成的經濟
損失。
國家圖書館出版品預行編目資料

Logistic 迴歸模型:方法及應用=Logistic
regression models:methods and application/
王濟川,郭志剛著.--二版.─臺北市:五
南, 2004 [民93]
面; 公分
參考書目:面
含索引
ISBN 978-957-11-3646-2 (平裝)
1.統計推論
511.7 93010421 5H03

Logistic迴歸模型―方法及應用
Logistic Regression Models:Methods and Application
作  者 ─ 王濟川 郭志剛
發 行 人 ─ 楊榮川
總 編 輯 ─ 龐君豪
主 編 ─ 穆文娟
責任編輯 ─ 田惠敏
出 版 者 ─ 五南圖書出版股份有限公司
地  址:106台北市大安區和平東路二段339號4樓
電 話:(02)2705-5066  傳 真:(02)2706-6100
網  址:http://www.wunan.com.tw
電子郵件:wunan@wunan.com.tw
劃撥帳號:01068953 
戶 名:五南圖書出版股份有限公司
台中市駐區辦公室/台中市中區中山路6號
電 話:(04)2223-0891 傳 真:(04)2223-3549
高雄市駐區辦公室/高雄市新興區中山一路290號
電 話:(07)2358-702  傳 真:(07)2350-236
法律顧問 元貞聯合法律事務所 張澤平律師
出版日期 2 0 0 3 年 3 月 初 版 一 刷
     2 0 0 8 年 8 月 二 版 三 刷
定  價 新 臺 幣 3 8 0 元

本試閱檔為五南所有。如欲購買此書,請至五南網站
※版權所有.欲利用本書全部或部分內容,必須徵求本公司同意※ www.wunan.com.tw
或來電(02)2705-5066

You might also like