Professional Documents
Culture Documents
tw
或來電(02)2705-5066
本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
自 序
SPSS 是社會科學有名的統計軟體,迄今亦在生物醫學大流行。特別是最近
幾年,各大學研究生人數逐年大增,基於學位學術撰寫的需要,多變量統計更是
不可或缺。
一般研究者從事研究時,常有的難題包括:
(1) 應該採用哪一種統計方法來檢定研究假定 (assumptions) 及假設 (hypoth-
esis)?
(2) 如何使用電腦統計程序,以正確且快速地分析研究資料?
(3) 統計程式所輸出的數據所代表的意義為何?又該如何解釋?
筆者在從事研究與教學之際,乃針對此問題,將各種類型的統計方法,以學
習者與使用者的觀點歸納整理,並以範例呈現,期使讀者在了解統計方法之後能
快速學會使用 SPSS,做最有效率的統計分析。
本書章節包括:平均數之假設檢定 (Hypothesis testing of means)、多變量變
異數分析 (Multivariate analysis of variance, MANOVA)、典型相關分析 (Canoni-
cal correlation analysis)、判別分析 (Discriminant analysis)、主成分分析 (Principal
component analysis)、因素分析 (Factor analysis)、集群分析 (Cluster analysis) 和多
元標度法 (Multidimensional scaling, MDS)。此外,結構方程模式 (Structural equa-
tion modeling, SEM),及階層線性模式 (Hierarchical linear model, HLM) 作者另有
STaTa 專書介紹。
多變量分析主要應用在:社會科學、生物學 (Biology)、經濟學 (Economics)、
工程學 (Engineering)、遺傳學 (Genetics)、市場行銷 (Marketing)、醫學 (Medi-
cine)、精神病學 (Psychiatry)、教育學、心理學、人管、生產管理。應用科系包
含:經濟系、風險管理系、航運管理、財務金融、會計、公共衛生、工業工程和
土木……。
有鑑於國內統計使用者眾多,可是目前較缺「理論、統計及方法論」系統性
的書,加上 SPSS v25 市面上鮮少有教科書來介紹新統計功能。並附上範例之資
料檔供讀者實作:
一、《高等統計:應用 SPSS 分析》一書,該書內容包括:描述性統計、樣
本數的評估、變異數分析、相關、迴歸建模及診斷、重複測量……。
I
本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
二、《多變量統計之線性代數基礎:應用 SPSS 分析》,該書內容包括:
平均數之假設檢定、MANOVA、典型相關分析、判別分析、主成分分
析、因素分析、集群分析、多向度量尺/多維標度法。
三、《邏輯斯迴歸分析及離散選擇模型:應用 SPSS》一書,該書內容包括:
邏輯斯迴歸、Probit 迴歸、多項式邏輯斯迴歸、Ordinal 迴歸、Poisson
迴歸、負二項迴歸等。
四、《多層次模型 (HLM) 及重複測量:使用 SPSS 分析》一書,該書內容包
括:線性多層次模型、panel-data 迴歸……。
五、《存活分析及 ROC:應用 SPSS》一書,該書內容包括:類別資料分析
( 無母數統計 )、logistic 迴歸、存活分析、流行病學、配對與非配對病
例對照研究資料、勝出比 (Odds Ratio) 的計算、篩檢工具與 ROC 曲線、
Cox 比例危險模型、Kaplan-Meier 存活模型、參數存活分析有六種模
型……。
研究者如何選擇正確的統計方法,包括適當的估計與檢定方法、與統計概念
等,都是實證研究中很重要的內涵,這也是本書撰寫的目的之一。期望籍由本書
的幫助讓研究者能正確且精準使用橫斷面之多變量統計迴歸。
張紹勳 林秀娟 敬上
II
本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
自 序
Chapter
01 多變量:統計概念的基礎 1
I
本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
1-5-2 特徵值 (Eigen value) 及特徵向量 (Eigen vector)...........................113
Chapter
02 統計基礎:一個和二個母群平均數之
Hotelling’s T2 檢定 (GLM 指令 ) 117
II
本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
Contents
Chapter
03 多變量變異數分析:獨立樣本
(GLM、MANOVA 指令 ) 187
III
本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
3-6 階層 (hierarchical) 設計 MANOVA(GLM 指令 ) ........................................284
3-6-1 階層 (hierarchical) 設計 MANOVA(MANOVA 指令 ) ..................289
3-6-2 練習題:nested( 階層 / 巢狀 ) 設計 MANOVA(MANOVA 指令 )
.......................................................................................................................296
3-7 Latin 方格的多變量變異數分析:平衡掉交互作用項 ..............................298
3-7-1 拉丁方陣實驗設計之概念 ..............................................................299
3-7-3 拉丁方格設計 MANOVA:去除交互作用項 (GLM 指令 ) .........313
Chapter
04 單層 vs. 雙層次 ANOVA 模型:
重複測量 (Repeated measures) 323
IV
本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
Contents
Chapter
05 多變量共變數分析 (Multivariate analysis
of covariance, MANCOVA 指令 ) 391
V
本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
Chapter
06 典型相關分析 (Canonical correlation,
CANON 指令 ) 485
Chapter
07 判別分析 / 區別分析 (Discriminant analysis,
DISCRIMINANT 指令 ) 521
VI
本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
Contents
Chapter
08 集群 (cluster) 分析 / 聚類分析 577
Chapter
09 主成分分析 (Principal components
analysis, PCA 指令 ) 633
VII
本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
9-1-2 主成分分析之統計基礎 ..................................................................642
9-1-3 主成分分析:標準化居住品質 9 指標 (EXAMINE、COMPUTER、
FACTOR、CORRELATIONS 指令 ) ..............................................650
9-2 練習題:主成分分析 (EXAMINE、COMPUTER、FACTOR、
CORRELATIONS 指令 ) ..............................................................................669
Chapter
10 測量工具檢定:信度 (reliability) 與建構效
度 (Construct validity) 675
VIII
本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
Contents
Chapter
11 多維標度法 / 多向度量尺:空間 / 心理距離
(Multidimensional scaling) 739
Chapter
12 對應分析 (Correspondence analysis,
CORRESPONDENCE 指令 ) 763
參考文獻 783 IX
本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
p
t e r
01
Cha
多變量:
統計概念的基礎
本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
2 多變量統計之線性代數基礎:應用SPSS分析
圖 1-1 分布的選擇
圖 1-2 分布的類型
本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
Chapter
多變量:統計概念的基礎 01 3
1. 均勻分布:一個均勻分布在區間 (a 到 b 之間 ) 上的連續型隨機變數。一隨機
的連續變數 X ,其值介於最小值 a 到最大值 b 之間。假設每一點出現的機率
都是均等,那麼就稱這個變數 X 的機率分布是連續均勻分布。例如:生物學
上如族群密度中所提及。竹林或針葉樹林的分布因陽光、空間關係,故維持
一定的均勻分布情形亦稱之;人造林與水稻田的分布亦屬之。
f(x)
1
b-a
0 a b X
本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
4 多變量統計之線性代數基礎:應用SPSS分析
隨機變數
機率密度函數
定義域
平均數
眾數
變異數
偏態
峰度
本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
Chapter
多變量:統計概念的基礎 01 5
因此民意調查及品質管制的研究裡常出現此分布。生物學例子如:標記再捕捉
法。計算河川中魚的數量時,可將依定數量的魚做標記動作,而後假設捉出
十隻中有六隻標記即可回推河川中總共的魚數,即為該分布情形。
超幾何分布之
超幾何分布之
機率質量函數
平均數
眾數
變異數
偏態
機率質量函數
平均數
中位數
變異數
偏態
本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
Chapter
多變量:統計概念的基礎 01 7
機率質量函數
如果隨機變數 X 服從參數為 n 和 p 的二項分布,我們記 X~b(n, p) 或 X~B(n, p)。
n 次試驗中正好得到 k 次成功的機率由機率質量函數給出:
對於 k = 0, 1, 2, …, n ,其中
本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
8 多變量統計之線性代數基礎:應用SPSS分析
參數 成功機率 ( 實 ) 成功機率 ( 實 )
支撐集
機率質
量函數
累積分
布函數
期望值
中位數 ( 如果 ( 如果
是整數, 是整數,則
則中位數不唯一 ) 中位數不唯一 )
6. 負二項分布:是統計學上一種離散概率分布。常見離散隨變數的分布如下表五
種:
X~B(n, p)
二項分配 E(X) = np V(X) = npq
X~NB(k, p)
負二項分配
X~G(p)
幾何分配
本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
多變量:統計概念的基礎
Chapter
01 9
X~HG(n, K, N)
p = K/N
超幾何分配
E(X) = np
X~Poi(λ), λ = np V(X) = λ
卜瓦松分配 E(X) = λ (1) n > 20 & p <= 0.05
(2) n > 50 & p < 0.1
「負二項分布」與「二項分布」的區別在於:「二項分布」是固定試驗總次數 N
的獨立試驗中,成功次數 k 的分布;而「負二項分布」是所有到成功 r 次時即
終止的獨立試驗中,失敗次數 k 的分布。舉例說:若我們擲骰子,擲到一即視
為成功。則每次擲骰的成功率是 1/6 。要擲出三次一,所需的擲骰次數屬於集
合 {3, 4, 5, 6 ……} 。擲到三次一的擲骰次數是負二項分布的隨機變數,要在
第三次擲骰時,擲到第三次一,則之前兩次都要擲到一。
注意擲骰是伯努利試驗,之前的結果不影響隨後的結果。
.二項分布:丟出現正面機率為 p 的銅板 n 次,出現 k 次正面的機率為
本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
10 多變量統計之線性代數基礎:應用SPSS分析
概率質量函數
虛線 代表平均值,在每個圖中等於 10;綠線表示標準偏差。
符號
參數 直到實驗停止 ( 失敗次數整數,但
定義可以還可以擴展到實數 )
在每個實驗中的成功概率
( 真實 )
支持 一些成功
涉及
二項式
係數
在正則完全 beta 函數
本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
Chapter
多變量:統計概念的基礎 01 11
又如:某一服務設施在一定時間內受到的服務請求次數、電話交換機接到呼
叫的次數、汽車站台的候客人數、機器出現的故障數、自然災害發生的次數、
DNA 序列的變異數、放射性原子核的衰變數、雷射的光子數分布等。
Poisson 的機率質量函數為:
機率質量函數
平均數
眾數
變異數
偏態
本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
12 多變量統計之線性代數基礎:應用SPSS分析
隨機變數 x
參數
機率密度函數
平均數
中位數
眾數
變異數
偏態
9. 韋伯分布(Weibull distribution)是可靠性分析和壽命檢驗的理論基礎,其中 x
是隨機變數,λ > 0 是比例參數(Scale parameter),k > 0 是形狀參數(Shape
parameter)。顯然,它的累積分布函數是擴展的指數分布函數,而且 Weibull
distribution 與很多分布都有關係。如:當 k = 1,它是指數分布;k = 2 時,是
本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
多變量:統計概念的基礎
Chapter
01 13
Rayleigh distribution(瑞利分布)。
韋伯 pdf(gamma=0.5) 韋伯 pdf(gamma=1)
隨機變數 X 隨機變數 X
機率密度函數
平均數
眾數
變異數
偏態
機率密度函數
平均數
眾數
變異數
偏態
機率密度函數
平均數
中位數
變異數
偏態
本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
16 多變量統計之線性代數基礎:應用SPSS分析
機率密度函數
平均數
中位數
變異數
偏態
本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
Chapter
多變量:統計概念的基礎 01 17
時間就是伽瑪分布。
指數分布和伽瑪分布可用來計算等候時間、產品可靠度、排隊問題等。
Gamma 之存活函數
機率密度函數
平均數
中位數
變異數
偏態
圖 1-15 gamma 分配之機率密度函數
本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
18 多變量統計之線性代數基礎:應用SPSS分析
機率密度函數
平均數
圖 1-16 gamma 分配之機率密度函數
本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
Chapter
多變量:統計概念的基礎 01 19
15. 對數常態分布是指一個隨機變數的對數服從常態分布,則該隨機變數服從對
數常態分布。對數常態分布從短期來看,與常態分布非常接近。但長期來看,
對數常態分布向上分布的數值更多一些。此分布結果如生物學上的演化上因
環境極端異同,而使得物種分布呈現對數常態分布。
對數常態之存活函數
機率密度函數
平均數
中位數
變異數
偏態
圖 1-17 gamma 分配之機率密度函數
本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
20 多變量統計之線性代數基礎:應用SPSS分析
自然界社科界,常會針對某研究主題,同時測量一大堆不同變數 ( 調查性狀 )
的資料,但我們並非針對個別變數進行統計分析,而是將所有變數合起來共同討
論,針對這樣資料的統計分析,就需要用到多變量分析技術。
多變量分析 (Multivariate analysis) 是又分橫斷面 (MANOVA 、因素分析、對
應分析 ) 及縱貫面分析法 (VAR 、VECM……) 。橫斷面多變量分析能夠在多個研
究對象和多個指標相互關聯的情況下分析出它們的統計規律,非常適合農業科技
研究的特點。所謂變數 (variable ,又稱變量 ) ,就是所觀測的特性,如株高、乾
物重、產量、糖分含量、花色等。變數的結果,即所觀測特性的測定值,稱為觀
測值 (observation ,又稱變數值,variate) 。
多變量分析 (MVA) 是基於線性代數的統計學原理,它涉及一次觀察和分析
多個統計結果變數。多變量分析之目標有 4 類,如下圖。
變數之間相互關係 (interrealtionships):
1. 主成分 (principal) 分析
4. 集群 (cluster, 聚類 ) 分析
6. 徑路 (path) 分析
圖 1-18 多變量分析之目標 ( 有 4 個 )
本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
多變量:統計概念的基礎
Chapter
01 21
1. 主成分分析 (PCA 指令 )
對農業而言,自然界的事物往往為多個指標的綜合結果,例如代表一個果實
品質的諸種特徵,包括大小、形狀、甜度、表皮外觀、纖維質含量、水分含量等
性狀;反映一個昆蟲形態的諸種特徵,包括體長、體寬、前翅長、觸角長、後翅
數等性狀;代表氣候條件中的氣象因素,包括氣溫、日照時數、日照強度、風速等。
以果實品質而言,可能有些品種的果實較大但甜度欠低,另有些品種則甜度
和水分含量很高卻較小,其他品種又可能夠大也甜但纖維較多,因此我們不能單
就一個特定性狀來決定品質的好壞,而必須將所有性狀變數一起共同考量,即應
使用一個綜合性指標。
就統計上而言,數值能產生愈大變異,愈能反映彼此間之差異,但是將這些
不同測量單位的性狀數值相加起來或求其平均,未必可斷言此指標就是最好的。
若是對不同變數給予不同的權重,那麼加權的比重到底要設多少,也很難有一個
明確的基準。因此在縮減原始變數個數以產生一個綜合性指標時,我們總希望在
選擇變數 ( 愈少愈好 ) 與所能解釋的變異 ( 愈多愈好 ) 中達到平衡點,那意味著
所找到新的變數不但精簡且具有代表性。
在這些場合中依變數太多而不易處理時,利用變數間的相依結構,將手上許
多相關性很高的變數轉化成彼此互相獨立的變數 ( 線性組合 ) ,能由其中選取較
原始變數個數少,且能解釋大部分資料中的變異的幾個新變數,此即所謂的主成
分 (principal component) ,而這幾個主成分也就成為我們用來解釋資料的綜合性
指標。經由這種主成分分析 ( 簡稱 PCA) ,我們可以搜尋出主要潛在因子,捨棄
次要因子,以簡化資料結構,並用來選擇變數的綜合性指標,使觀測值在這些主
成分方面顯出最大的個別差異來。
2. 對應分析 (CA 、MCA 指令 )
對應分析 (Correspondence analysis, CA) 的邏輯係採用列聯表 (Contingency
table) 為基礎,來分析兩個或兩個以上的類別變數資料。CA 是自 1960 年代後,
開始盛行於歐洲國家的資料維度縮減之統計方法,最先提倡對應分析的學者是
法國社會科學家 J. P. Benzecri (Clausen, 1998) 。Bourdieu 在〈Distinction: A Social
Critique of the judgment of Taste〉一文中,大量使用對應分析來研究法國人的生
活風格,確立了對應分析在社會學研究中的正當性 (Clausen, 1998) 。
延續上述主成分的概念,對於實際問題,當我們希望同時求得變數和樣本的
本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
22 多變量統計之線性代數基礎:應用SPSS分析
主成分,對變數和樣本對應進行主成分分析的方法,稱為對應分析。對應分析的
優點及實質用途,是可使特徵值相同的 R 型和 Q 型主成分能用同一座標軸表示,
以便在同一座標平面上可同時標示出樣本和性狀的散布圖,以同時表達出變數和
樣本兩者之間的相互關係,從而可檢視出各類樣本的主要變數為何。這種同時將
變數和樣本標在一起的圖,稱為雙標圖 (biplot) 。但對應分析並非陳述概念之間
的因果關係,而僅僅是統計學意義上的對應關係而已。
對應分析最早由 Benzécri (1973) 提出,演變迄今,在很多不同時代裡該法的
名稱和原理基礎略有不同 (Oksanen 2004):如最適尺度法 (Optimal scaling) 、相
互平均法 (Reciprocal averaging) 。最適尺度法是市場、社會、心理學上常用的方
法,又稱雙重尺度法 (Dual scaling, Nishisato 1980);相互平均法為 Hill (1974) 所
提出,目前名稱仍維持存在,但其算法幾乎罕見;現代統計軟體均以對應分析來
稱呼,且演算法採卡方測度 ( χ 2 metric) 的加權主成分,即分析過程如同主成分分
析一樣求特徵值分析,但不同處在於以「卡方測度」取代「歐氏測度」(Euclidean
metric) 。簡言之,對應分析相當於列聯表 (Contingency table) 資料的加權之主
成分分析,是一種用來尋求列聯表的行列兩種變數之間聯繫的低維圖示法。對
應分析無需太多統計前提,它所處理的資料形式,不限連續 (continous) 或離散
(discrete) 變數,離散變數且不限計數 (count) 或序位 (ordinal) 變數,即使數字符
號的虛擬變數 ( 例如:不存在 =0,存在 = 1) 亦可。因此,對應分析非常適合於
描述生物性資料,早已廣泛應用於生態學,尤其是植物生態學 (Lepš & Šmilauer
1999) ,現並大量應用到其他各方面之研究領域 (Beh 2004) ,包括基因組分析,
如胺基酸組成 (Tekaia et al. 2002) 、密碼子使用偏好性 (Gupta and Ghosh 2001, Liu
et al. 2004a, b) 、微陣列分析 (Tan et al. 2004) 等。
3. 因素分析 (factor 、factormat 指令 )
很多測定性狀之間通常彼此相關,形成的背景原因各式各樣,而其共同原因
稱為共同因素 (common factor) 。我們希望能用這些較少的共同因素來表現原先
的資料結構,以尋求基本結構、簡化觀測系統,找出資料背後隱藏的含意或潛在
特徵,這是因素分析的主要目的。例如將某種紅酒與對照酒作比較,就諸多個品
評項目在 - 4 到 +4 的量表上給分,如酸味、苦味、甜味等,可利用因素分析將
資料分成少數幾個共同因素,並將這些因素命名為辛辣、總品質、香醇等;將不
同水稻品種穀粒形態的諸多項幾何特徵之測量值,利用因素分析將資料分成少數
本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
Chapter
多變量:統計概念的基礎 01 23
幾個共同因素,以從中找出最能代表水稻粒形的量化指標;將不同玉米雜交種的
諸多種性狀,用因素分析將資料分成少數幾個共同因素,如第一因素反映出成熟
期、分蘗、粒數與抽穗期,第二因素主要反映成熟期和粒重,第三因素反映株高。
因素分析是主成分分析的衍生方法,因此一般電腦軟體進行因素分析的主要
流程,仍會先經由主成分分析程序,計算出相關矩陣的特徵值及特徵向量以決定
共同因素的個數,然後從相關矩陣中抽取共同因素,計算因素負荷矩陣 (Factor
loading matrix) 及其變方,並旋轉因素以增加變數與因素之間關係的解釋,最後
計算出旋轉因素的得分值 (Rotated factor score) ,使能對變數或樣本進行分類。
轉軸的方法很多,但基本原則在於使經過轉軸後的因素矩陣中每一個變數都只歸
於一個或少數幾個因素上,使矩陣中 0 或接近於 0 的因素負荷量增多,以減低因
素的複雜性,使因素的解釋由繁雜趨向簡單。決定因素數目的方法,與主成分分
析一樣,都是依據每一因素的特徵值 (λ) 大小,特徵值愈大,代表該因素的解釋
力愈強。
4. 集群分析 (cluster kmeans 、cluster kmedians 指令 )
集群分析是將具有多個變數的一群樣本加以區分歸類,使得性質特徵相近者
納入一類。經濟、社會、人口、生物研究等領域中都存在大量分類研究、構造分
類模式的問題。過去人們主要靠經驗和專家知識,作定性分類處理,很少利用數
學方法,以致許多分類往往帶有主觀性和隨意性,無法揭示客觀事物內在的本質
差異性和關連性,特別是對於多因素、多指標的分類問題,定性分類更難以實現
準確分類。因此,我們利用集群分析,以客觀統計分析的方式,將一批樣本或變
數,按照它們在性質上的親疏程度 ( 彼此間距離或某種相似係數 ) ,
「物以類聚」
地把相似的個體 ( 或觀測值 ) 歸於一群。集群分析在農業研究上的應用,例如調
查蛋白質、碳水化合物、脂肪、卡路里、維生素等營養成分含量,對不同品牌穀
類製品進行分群;調查各種血液蛋白質位點基因頻率,對不同黃牛品種進行分
群;調查各種形態特徵,對某種昆蟲不同品種或棲息地進行分群等。
雖然集群分析是多變數分析方法中較簡單的一種,但其分析方法和結果判
讀,一直以來爭議不斷。
5. 判別分析 (discrim 、discrim knn 、discrim lda 指令 )
判別分析是在已知的分類之下 ( 如草本類和木本類兩個類別 ) ,選出具有代
表性的樣本 ( 如牽牛花、劍蘭代表草本類植物,而玫瑰代表木本類植物 ) ,然後
本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
24 多變量統計之線性代數基礎:應用SPSS分析
由這些樣本的屬性中找出一套最有效的判別函數,這個 ( 些 ) 函數可用來執行分
類的工作,一旦遇到有新的樣本時,可以利用此法選定一判別標準,以判定該新
樣本應歸屬於哪個類群。判別分析法的用途很多,如動植物分類、醫學疾病診斷、
社區種類劃分、氣象區劃分、土壤類型分類、產品等級分類、職業依能力分類、
人類考古學之年代或人種分類等。集群分析與判別分析都是用來處理數值分類問
題,其間的差異在於集群分析是不存在一個事前分類的情況下進行資料結構的分
類,而判別分析則是已知當前研究對象的分類狀況下,建立適當的判別標準後,
將某些未知個體正確地歸屬於其中某一類。集群與判別往往在一個問題上要連續
運用,如先進行集群分析,再進行判別分析,就可以進行樣本的識別。
一般電腦軟體進行判別分析的主要流程,首先計算組內各變數的平均值、
總平均值、離差矩陣、共變數矩陣等統計值,然後求出判別函數作為綜合判別指
標,再計算各組判別係數及判別效果的檢驗統計量,以判斷待判樣本屬於何群並
計算後驗機率。判別的規則,最直覺的觀念是求得各群各一個判別函數,將待判
樣本帶入各群函數,以函數值最大者代表此一觀測值所被分配到的群別。但判別
分析法發展至今,已產生出各種判別函數與規則,如 Fisher 線性判別、距離判別、
Bayes 判別、逐步判別等 (Yuan & Zhou 2003)。我們可以將待判樣本的觀測值 ( 不
管新值或舊值 ) 帶入各群所屬的判別函數:使用新的樣本觀測值,可以判斷該樣
本的歸屬群別;若是使用原經驗樣本的舊值帶入各群所屬的判別函數,則可以針
對判別結果進行驗證以確認其分群的正確度。分群的正確度,簡稱判別率,為判
別正確之個數除以所有測試樣本個數。
6. 路徑分析:SEM(sem 、gsem 、mvreg 指令 )
一連串的分析變數多半依時間順序先後發生,先發生者視為解釋變數,後發
生者視為反應變數,而路徑分析就是在探討分析變數間之單向影響關係,找出變
數之間的路徑係數,並畫出路徑分析圖。藉由路徑圖,研究者能清楚了解變數間
之影響途徑 ( 箭頭方向 ) 及影響方向 ( 正向、負向、模糊等 ) ,利用這樣的因果
模式來幫助說明假設中的因果關係。我們常以兩變數之簡單 ( 直線 ) 相關係數來
衡量其相關程度,但此相關係數並無法說明變數間的因果關係,例如口香糖的銷
售量與犯罪率之間有正相關,但在未做路徑分析之前,不可斷言口香糖銷售量高
是犯罪率高的「原因」。路徑分析法最早由遺傳學者 Wright 於 1921 年所提出,
主要用來解釋人類基因間的因果關係 (Wright 1921);他將路徑分析首次應用於經
本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
多變量統計之線性代數基礎 : 應用SPSS分析
/張紹勳, 林秀娟著.--初版.--臺北市:
五南, 2018.09
面; 公分
ISBN 978-957-11-9843-9 (平裝附光碟片)
1.統計套裝軟體 2.統計分析
512.4 107012421
1H1A
多變量統計之線性代數基礎:
應用SPSS分析
作 者 ─ 張紹勳 林秀娟
發 行 人 ─ 楊榮川
總 經 理 ─ 楊士清
主 編 ─ 侯家嵐
責任編輯 ─ 黃梓雯
文字校對 ─ 劉祐融 黃志誠
封面設計 ─ 盧盈良
出 版 者 ─ 五南圖書出版股份有限公司
地 址:106台 北 市 大 安 區 和 平 東 路 二 段 3 3 9 號 4 樓
電 話:(02)2705-5066 傳 真:(02)2706-6100
網 址:http://www.wunan.com.tw
電子郵件:wunan@wunan.com.tw
劃撥帳號:0 1 0 6 8 9 5 3
戶 名:五南圖書出版股份有限公司
法律顧問 林勝安律師事務所 林勝安律師
出版日期 2 0 1 8 年 9 月 初 版 一 刷
定 價 新 臺 幣 8 9 0 元
※版權所有.欲利用本書內容,必須徵求本公司同意※
本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw
或來電(02)2705-5066