You are on page 1of 30

集群分析

Cluster Analysis
基本定義

 一個分類系統的創造:將一群物體加以分
類的過程 [In statistics, the search for relat
ively homogeneous groups of objects is c
alled cluster analysis (SPSS)]
 應用議題:
 生物學:分類物種
 醫學:疾病分類
 消費行為:消費型態分類
集群分析法:
三種測量集群相似性的方法
 相關測量( correlational measures )
 求取每一不同配對受測樣本之間在特定題目的不同相關

 分析重點在於不同受測個體在不同分類變項的關係型態
變異
 差異測量( distance measures )
 求取受測樣本之間距離的差異
 分析重點在於受測樣本在所有的不同分類變項形成的整
體分類概念上的整體性差異
 聯結測量( association measures )
 求取受測樣本之間在類別變項上的分佈差異特性
Cluster vs. Factor Analysis

V1 V2 V3 V4 ………Vi
S1 1 2 1 4
S2 1 2 2 3
S3 2 4 3 2
集群分析法:
S4 2 4 4 1
將個體分群(類)
.
.
SN 因素分析法:將變項分群(類)
這一個班的同學要如何分類
12
次數

11
10
10

8
8
7
6
6
5
4
4 4
3
2 標準差 = 12.03
平均數 = 71.5
1 1 N = 60.00
0
40.0 - 45.0 50.0 - 55.0 60.0 - 65.0 70.0 - 75.0 80.0 - 85.0 90.0 - 95.0
45.0 - 50.0 55.0 - 60.0 65.0 - 70.0 75.0 - 80.0 85.0 - 90.0 95.0 - 100.0

總成績
他們的成績
單變項集群分析結果
觀察值摘要
總成績
Single Linkage 個數 平均數 標準差 最小值 最大值
1 43 77.147 9.044 64.3 95.7
2 14 59.134 2.080 54.5 61.4
3 2 50.722 5.613E-02 50.7 50.8
4 1 45.591 . 45.6 45.6
總和 60 71.537 12.030 45.6 95.7

觀察值摘要
TOTAL 總成績
CLU4_1 Average Linkage 個數 平均數 標準差 最小值 最大值
(Between
1 Groups) 19 79.520 3.569 74.6 85.8
2 7 92.108 2.837 88.3 95.7
3 30 64.504 5.161 56.2 72.9
4 4 50.374 3.644 45.6 54.5
總和 60 71.537 12.030 45.6 95.7
19 4 54 .043 17 0 36
20 8 51 .044 0 0 24
21 25 44 .050 0 0 40
22 20 28 .055 0 0 28
23 1 2 .073 16 0 47
個體第一次 24
25
8
19
53
41
.104
.109
20
3
0
0
34
45
歐幾里得平 形成集群的 下一次進行 26
27
6
9
60
50
.199
.226
14
12
0
0
55
32
方距離 階段 集群歸類的 28 17 20 .237 0 22 40
群數凝聚過程 29
階段
14 34 .260 0 0 33
30 26 32 .352 0 0 52
組合集群 先出現的階段集群 31 23 27 .385 0 0 34
階段 集群1 集群2 係數 集群1 集群2 下一階段 32 9 31 .480 27 0 44
1 43 56 .000 0 0 11 33 14 33 .498 29 18 41
2 38 40 .000 0 0 5 34 8 23 .532 24 31 44
3 19 42 .002 0 0 25 35 11 37 .536 0 0 41
4 10 39 .003 0 0 8 36 4 29 .578 19 11 45
5 22 38 .003 0 2 10 37 24 36 .673 0 0 48
6 18 49 .006 0 0 17 38 21 35 .785 0 0 42
7 7 57 .006 0 0 58 39 47 48 .795 0 0 46
8 1 10 .007 0 4 15 40 17 25 .836 28 21 47
9 12 15 .007 0 0 12 41 11 14 .973 35 33 54
10 6 22 .008 0 5 14 42 3 21 1.049 0 38 43
11 43 3 5 1.116 42 0 53
29 43 .008 0 1 36
44 8 9 1.263 34 32 49
12 9 12 .011 0 9 27
45 4 19 1.485 36 25 46
13 4 59 .022 0 0 17 46 4 47 1.526 45 39 51
14 6 13 .022 10 0 26 47 1 17 1.608 23 40 48
15 1 30 .026 8 0 16 48 1 24 1.882 47 37 50
16 1 52 .027 15 0 23 49 8 46 2.153 44 0 50
17 4 18 .032 13 6 19 50 1 8 2.797 48 49 54
18 33 45 .039 0 0 33 51 4 58 2.935 46 0 57
19 4 54 .043 17 0 36 52 16 26 3.387 0 30 53
20 8 51 .044 0 0 24 53 3 16 3.896 43 52 56
21 25 44 .050 0 0 40 54 1 11 3.990 50 41 55
22 20 28 .055 0 0 28 55 1 6 4.188 54 26 56
23 56 1 3 6.502 55 53 57
1 2 .073 16 0 47
57 1 4 8.707 56 51 58
24 8 53 .104 20 0 34
58 1 7 13.688 57 7 59
25 19 41 .109 3 0 45 59 1 55 25.917 58 0 0
26 6 60 .199 14 0 55
27 9 50 .226 12 0 32
28 17 20 .237 0 22 40
29 14 34 .260 0 0 33
30 26 32 .352 0 0 52
31 23 27 .385 0 0 34
32 9 31 .480 27 0 44
33 14 33 .498 29 18 41
Example
8

4 3 6
7

5 ID
6

2 G
5
F
7
4 E

D
3
C
1
2 B
V2

1 A
1 2 3 4 5 6 7 8

V1
Proximity Matrix
Squared Euclidean Distance
Case 1:A 2:B 3:C 4:D 5:E 6:F 7:G
1:A .000 10.000 26.000 26.000 25.000 41.000 13.000
2:B 10.000 .000 4.000 8.000 5.000 13.000 5.000
3:C 26.000 4.000 .000 4.000 5.000 9.000 13.000
4:D 26.000 8.000 4.000 .000 17.000 25.000 25.000
5:E 25.000 5.000 5.000 17.000 .000 2.000 4.000
6:F 41.000 13.000 9.000 25.000 2.000 .000 10.000
7:G 13.000 5.000 13.000 25.000 4.000 10.000 .000
This is a dissimilarity matrix
Agglomeration Schedule
Stage Cluster First
Cluster Combined Appears
Stage Cluster 1 Cluster 2 Coefficients Cluster 1 Cluster 2 Next Stage
1 5 6 2.000 0 0 2
2 5 7 4.000 1 0 5
3 3 4 4.000 0 0 4
4 2 3 4.000 0 3 5
5 2 5 5.000 4 2 6
6 1 2 10.000 0 5 0

1 2
5 6
3
4
Profile diagram:
Preliminary screening for outliers

8
7 A
6 B
5 C
4 D
3 E
2
F
1
G
0
V11 V2
2
網路購物被騙時,你怎麼辦?
ID 打電話 寫信 告消基會
大一 1 1 1
小二 1 1 1
李三 0 0 1
邱 SIR 0 0 1
王五 0 0 1
趙六 0 1 0
劉妻 0 1 0
八八 1 1 0
酒鬼 1 1 0
石頭 1 1 0
群數凝聚過程
組合集群 先出現的階段集群
階段 集群1 集群2 係數 集群1 集群2 下一階段
1 9 10 .000 0 0 2
2 8 9 .000 0 1 7
3 6 7 .000 0 0 8
4 4 5 .000 0 0 5
5 3 4 .000 0 4 9
6 1 2 .000 0 0 7
7 1 8 1.000 6 2 8
8 1 6 1.400 7 3 9
9 1 3 2.429 8 5 0
階段一:定向

 確立研究的目的
 分類系統的建立:兼顧探索性與確認性
 資料簡化
 關係的探究
 重要的議題
 分類變項的選擇:選擇具有鑑別力的適當變項
階段二:研究設計

 三個決策的重點
 1. 偏離值如何檢測?
 2. 樣本相似性如何測量?
 3. 資料是否需要經過標準化?
 重要議題
 集群分析涉及一連串研究者的主觀判斷,因此
判斷的合理性與依恃的的基礎便格外重要
階段三:假定的考量

 集群分析不是母數統計 , 而是一套客觀的
分類程序 , 涉及複雜的數學計算程序 , 並
沒有嚴格的統計假定必須遵守
 兩個重要的分析影響條件
 representativeness 樣本的代表性
 multicollinearity 變項的多元共線性
階段四:集群的分離與評鑑
 決定形成集群的策略
 決定集群的合理數目
 集群分析的程序
 階層法
 凝聚法 (agglomerative)
 分離法 (divisive)
 非階層法
 二階段法( Ward 法):結合變異數分析 , 找出
兩群最佳的集群使 MSwithin 最小
階段五:集群的解釋

 集群分離出來之後 , 決定集群性質的過程
 類似於因素分析法的命名問題
 非標準化資料:就原始資料意義來說明
 標準化資料:需迴歸資料原始狀態
 可以使用區別分析來釐清
階段六:集群的效度驗證

 一旦集群確立之後 , 對於集群的性質的區
辨力以及穩定性與類化性的評估
 進行相關性的研究 , 選取重要的變項來進
行預測與分類分析
集群分析的技術特性
 測量集群距離的方法
 最近法( single linkage )
 最遠法( complete linkage )
 平均法 ( centroid method, average linkage )
 測量差異的方法
 Squared Euclidean distance 歐幾里得距離 ( 個體差距平
方和 )
 City-block approach( 個體差距絕對值總和 )
 謝比雪夫法:個體最大差距的距離
 Minkowski: 乘冪距離法
 資料的型態
 標準化 vs. 非標準化
分類的層次
 階層測量距離方法
 Agglomerative hierarchical clustering
 匯聚法:將所有物體歸入越來越大的類別中直到所有的物體
屬於同一類
 當物體前一個步驟歸入所屬的類別後即不得改變
 Divisive hierarchical clustering
 分裂法:將所有的物體從一個大類區分成兩類直到所有的物
體都自成一類
 非階層測量距離方法
 階段性閾值:選擇一個種子 , 針對某一個距離標準來分類
 平行閾值:同時選擇多個種子 , 針對某一個距離標準來分類
資料標準化

 當變項對於測量的尺度(單位)有相當的敏
感度時 , 應採用標準化策略
 優點
 易於比較
 有一致的變動性
 缺點
 失去原有變項的變異特性
分析技術

啤酒 熱量 價格
品牌
B 品牌 144 43

L 品牌 157 48

 Squared Euclidean distance: (non-standardized)


(157-144)2+(43-48) 2=194
 缺點:受單位的影響
分析技術

啤酒 熱量 價格
品牌
B 品牌 Z=.38 Z=-.46

L 品牌 Z=.81 Z=-.11

 Squared Euclidean distance: (standardized)


(.38-.81)2+(-.46-(-.11)) 2=.307
 缺點:失去測量變項的特質
Outliers
12
大一
10 小二
李三
8 邱SIR
王老五
6 趙六
劉妻
4
八八
酒鬼
2
石頭

0
V1 V2 V3 V4 V5 V6
Raw Data and Standardized
Scores
I D BEERS CALORI ES SODI UM ALCOHOL COST ZCALORI E ZSODI UM ZALCOHOL ZCOST
1 Budw 144 15 4. 7 . 43 . 38 . 01 . 34 - . 47
2 Sc h 151 19 4. 9 . 43 . 61 . 62 . 61 - . 47
3 Low 157 15 4. 9 . 48 . 81 . 01 . 61 - . 12
4 Kr o 170 7 5. 2 . 73 1. 24 - 1. 21 1. 00 1. 63
5 He i 152 11 5. 0 . 77 . 65 - . 60 . 74 1. 91
6 Ol d 145 23 4. 6 . 29 . 42 1. 22 . 21 - 1. 48
7 Augs 175 24 5. 5 . 40 1. 41 1. 38 1. 40 - . 67
8 St r o 149 27 4. 7 . 42 . 55 1. 83 . 34 - . 54
9 Mi l l 99 10 4. 3 . 43 - 1. 10 - . 75 - . 18 - . 47
10 Budw l 113 8 3. 7 . 44 - . 64 - 1. 06 - . 97 - . 40
11 Coor 140 18 4. 6 . 44 . 25 . 46 . 21 - . 40
12 Coor l i g 102 15 4. 1 . 46 - 1. 00 . 01 - . 45 - . 26
13 Mi c h 135 11 4. 2 . 50 . 09 - . 60 - . 32 . 02
14 Be c k 150 19 4. 7 . 76 . 58 . 62 . 34 1. 84
15 Ki r i n 149 6 5. 0 . 79 . 55 - 1. 36 . 74 2. 05
16 Pa s bs t 68 15 2. 3 . 38 - 2. 13 . 01 - 2. 82 - . 81
17 Ha mms 136 19 4. 4 . 43 . 12 . 62 - . 05 - . 47
18 He i l e 144 24 4. 9 . 43 . 38 1. 38 . 61 - . 47
19 Ol ym 72 6 2. 9 . 46 - 2. 00 - 1. 36 - 2. 03 - . 26
20 Sc he 97 7 4. 2 . 47 - 1. 17 - 1. 21 - . 32 - . 19
歐幾里德距離平方
Squared Euclidean distance
D2=(.38-.61) 2+(.01-.62)2+(.34-.61)2+(-.46-(-.46))2=.49
近似性矩陣
歐基里得距離平方
觀察值1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
1 0.49 0.38 7.03 6.22 2.52 4.07 3.36 3.07 3.92 0.25 2.59 1.13 5.71 8.36 16.41 0.60 1.94 13.19 4.40
2 0.49 0.53 8.25 7.12 1.59 1.87 1.56 5.45 6.87 0.32 4.14 2.84 5.37 10.23 19.73 0.68 0.63 17.69 7.44
3 0.38 0.53 4.86 4.51 3.64 3.16 3.64 5.00 5.82 0.76 4.43 1.77 4.31 6.63 20.85 1.41 2.18 16.71 6.26
4 7.03 8.25 4.86 0.87 16.85 12.15 14.83 11.50 11.56 8.49 12.17 6.01 4.24 0.75 33.37 10.07 11.95 23.22 10.84
5 6.22 7.12 4.51 0.87 15.10 11.57 12.04 9.56 10.10 6.86 9.18 4.97 1.64 0.61 28.11 8.01 9.61 19.88 9.16
6 2.52 1.59 3.64 16.85 15.10 3.05 1.29 7.39 8.89 1.77 5.42 5.96 11.39 19.37 17.56 1.55 1.20 18.99 10.37
7 4.07 1.87 3.16 12.15 11.57 3.05 2.07 13.37 15.80 3.65 11.26 9.06 8.67 16.05 32.13 4.38 1.72 30.95 16.48
8 3.36 1.56 3.64 14.83 12.04 1.29 2.07 9.69 11.50 2.00 6.44 6.87 7.10 17.00 20.55 1.82 0.31 22.35 12.74
9 3.07 5.45 5.00 11.50 9.56 7.39 13.37 9.69 0.93 3.47 0.70 1.69 10.29 10.25 8.68 3.38 7.36 4.60 0.31
10 3.92 6.87 5.82 11.56 10.10 8.89 15.80 11.50 0.93 4.51 1.56 1.34 11.00 10.40 6.91 4.23 9.46 3.06 0.78
11 0.25 0.32 0.76 8.49 6.86 1.77 3.65 2.00 3.47 4.51 2.24 1.61 5.13 9.65 15.21 0.11 1.01 13.40 5.13
12 2.59 4.14 4.43 12.17 9.18 5.42 11.26 6.44 0.70 1.56 2.24 1.65 7.89 10.98 7.19 1.83 4.95 5.35 1.53
13 1.13 2.84 1.77 6.01 4.97 5.96 9.06 6.87 1.69 1.34 1.61 1.65 5.45 5.99 12.23 1.79 5.08 7.92 1.99
14 5.71 5.37 4.31 4.24 1.64 11.39 8.67 7.10 10.29 11.00 5.13 7.89 5.45 4.10 24.72 5.67 5.98 20.54 10.92
15 8.36 10.23 6.63 0.75 0.61 19.37 16.05 17.00 10.25 10.40 9.65 10.98 5.99 4.10 29.84 11.02 13.83 19.41 9.07
16 16.41 19.73 20.85 33.37 28.11 17.56 32.13 20.55 8.68 6.91 15.21 7.19 12.23 24.72 29.84 13.18 20.01 2.82 9.04
17 0.60 0.68 1.41 10.07 8.01 1.55 4.38 1.82 3.38 4.23 0.11 1.83 1.79 5.67 11.02 13.18 1.08 12.32 5.13
18 1.94 0.63 2.18 11.95 9.61 1.20 1.72 0.31 7.36 9.46 1.01 4.95 5.08 5.98 13.83 20.01 1.08 20.12 10.01
19 13.19 17.69 16.71 23.22 19.88 18.99 30.95 22.35 4.60 3.06 13.40 5.35 7.92 20.54 19.41 2.82 12.32 20.12 3.64
20 4.40 7.44 6.26 10.84 9.16 10.37 16.48 12.74 0.31 0.78 5.13 1.53 1.99 10.92 9.07 9.04 5.13 10.01 3.64
群數凝聚過程
組合集群 先出現的階段集群
階段 集群1 集群2 係數 集群1 集群2 下一階段
1 11 17 .115 0 0 5
2 9 20 .307 0 0 9
3 8 18 .309 0 0 10
4 1 3 .376 0 0 7
5 2 11 .497 0 1 7
6 5 15 .606 0 0 8
7 1 2 .671 4 5 13
8 4 5 .810 0 6 16
9 9 10 .857 2 0 11
10 6 8 1.247 0 3 13
11 9 12 1.262 9 0 12
12 9 13 1.671 11 0 17
13 1 6 2.018 7 10 15
14 16 19 2.823 0 0 19
15 1 7 2.997 13 0 17
16 4 14 3.328 8 0 18
17 1 9 6.368 15 12 18
18 1 4 9.541 17 16 19
19 1 16 16.918 18 14 0
集群樹狀圖

集群個數
19 16 14 15 5 4 13 12 10 20 9 7 18 8 6 17 11 2 3 1
1 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
2 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
3 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
4 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
5 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
6 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
7 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
8 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
9 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
10 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
11 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
12 X X X X X X X X X X X X X X X X X X X X X X X X X X X X
13 X X X X X X X X X X X X X X X X X X X X X X X X X X X
14 X X X X X X X X X X X X X X X X X X X X X X X X X X
15 X X X X X X X X X X X X X X X X X X X X X X X X X
16 X X X X X X X X X X X X X X X X X X X X X X X X
17 X X X X X X X X X X X X X X X X X X X X X X X
18 X X X X X X X X X X X X X X X X X X X X X X
19 X X X X X X X X X X X X X X X X X X X X X

You might also like