Professional Documents
Culture Documents
Vol. 5 No. 4 JOURNAL OF CHONGQ IN G J IAOTONG UN IV ERSITY ( Social Sciences Edition ) Dec.
2005
3 全国区域经济发展水平的聚类分析
罗 姗 , 朱国会
(重庆师范大学 数学与计算机学院 ,重庆 400047)
1978 年 2002 年
绝对差距 (元 ) 相对差距系数 ( % ) 绝对差距 (元 ) 相对差距系数 ( % )
东中部 153. 6 33. 1 1351. 5 44. 5
东西部 212. 9 45. 9 1738. 5 57. 2
类 。聚类分析的优点在于它确定的类别是基于对样本的
二、
聚类分析 观察指标的分析 ,分类的结果能客观地显示样本间的本质
聚类分析方法的思想是在不知研究的一批样本应该 判别与联系 , 尤其是内在结构关系 , 而且分类结果直观 。
分为几类 , 也不知每个样本究竟取自哪一类的情况下 , 依 聚类谱系图可以很清楚地表示根据数值分类的结果 , 对客
据各样本自身的特点 ,通过定量测算各样本之间的相似程 观分析和合理评价区域间经济发展水平的差异是有利的 。
度和亲疏关系 , 将性质比较相似 、
综合差异比较小的样本 以下应用 SPSS统计软件对表 1 中 31 个样本的 8 个观
分别聚合成类 , 而将性质相似性比较小 、
综合差异比较大 察指标进行系统聚类分析 。
的样本区分为不同的类 ,从而将整个研究对象聚合成若干 (一 )样本间的相似度测量标准
聚类分析测度个体之间的相似性的方法主要有相关 测度 、
距离测度和关联测度 。其中 ,关联测度适用于分类测
罗 姗等 : 全国区域经济发展水平的聚类分析 81
度等级的数据 ,相关测度利用相关系数的大小来判断两个 龙江 、
山东 、
辽宁 、
福建 、
江苏 ,其余 21 个省市 。
样本之间的相似性 ,距离测度是利用两个样本之间的距离 按离差平方和法分成四类 : 上海 ,天津 、
北京 , 辽宁 、
福
大小来判断其相似性 。本文采用距离测度来衡量全国区 建、
江苏 、
浙江 、
广东 ,其余 23 个省市 。
域经济发展水平的相似性 。常见的距离测度有平方欧氏 由谱系图不难看出 ,两种聚类方法的分类结果基本上
距离 、
欧氏距离 、
绝对值距离 、
明科夫斯基距离等 。本文采 是一致的 , 并且都可以分为四类 , 细微差别在黑龙江和山
用平方欧氏距离测度全国区域经济发展水平的相似度 。 东的分类上 。
平方欧氏距离的定义为 :
2
D ij = ∑81 ( Xik - Xjk ) ( i, j = 1, 2, 3, ……31; k = 1, 2, 3 三、
分类结果与区域经济发展差异评价
……8) 1. 谱系图上我们可以看到 ,上海单独成为一类 。它是
其中 D ij表示样本 i与样本 j之间的距离 , Xik表示第 i 我国经济高速发展地区 ,并且具有很强的发展潜力 。
个样本在第 k个指标上的值 , Xjk表示第 j个样本在第 k 个 2. 第二种类型是北京 、
天津 ,它们的各项经济指标均位
指标上的值 。 于全国前列 ,属于我国经济发展水平较高的区域 。
(二 )聚类方法 3. 浙江 、
广东 、
黑龙江 、
山东 、
辽宁 、
福建 、
江苏成为第三
聚类的方法有很多种 , 其中系统聚类法和迭代聚类法 类 。该类区域的经济发展水平一般 ,但发展潜力较大 ,后劲
应用比较广泛 ,本文采用系统聚类法对全国区域经济发展 较足 。这类区域多为我国主要的沿海开放地区 , 吸引了我
水平进行分析 。系统聚类法中计算类与类之间距离的方 国主要的外资 ,并在其区域内形成了一些特色产业 。
法有多种 ,主要有最短距离法 、
最长距离法 、
中间距离法 、 4. 余下的 21 个省市成为第四类 。这类区域经济发展
类间平均法 、
重心法 、
离差平方和法六种方法 。为了确保 水平较低 。这些区域相对底子薄 、
人口多 ,虽然自然资源相
分类结果的准确性 ,本文用两种聚类方法 。 对较为丰富 ,但由于处于内陆地区 , 交通运输 、
外贸条件相
1. 类平均法 : 合并两类的结果使所有的两两类别之间 对较差 ,造成了该类区域第一产业产值在 GDP 中所占比重
的平均距离最小 。 大 ,二 、
三产业的发展相对落后 。
2 2
D (p , q) = ∑i∈Gp ∑i∈Gq dij / np nq 综上 ,可以认为聚类分析的结果基本符合我国的实际
其中 , D ( p , q ) 表示类 Gp 与类 Gq 的距离 , np 、nq 表示 情况 。因此 ,在深化改革的基础上应加大政策扶持力度 ,充
Gp 、Gq 两类的样本数 。 分调动各方面发展经济的积极性和创造性 ; 鼓励和引导发
2. 离差平方和法 : 同一类样本的离差平方和应该最小 , 挥区域比较优势 、
区域资源优势 , 形成特色经济 , 有效促进
不同类之间样本的离差平方和应该较大 。 我国经济发展水平的整体稳步提高 。
2 2
D kr = [ ( nk + np ) / ( nr + nk ) ] D kp + [ ( nk + nq ) / ( nr +
2 2
nk ) ]D kq - [ nk / ( nr + nk ) ]Dpq 参考文献 :
其中 , D kr表示类 Gk 与类 Gr 的距离 , nk 、np 、nr、nk 表示 [ 1 ] 余建英 , 等 . 数据统计分析与 SPSS 应用 [M ]. 北京 :
Gk 、Gp 、Gr、Gk 类的样本数 , D kp 、D kq 、Dpq分别表示类 Gk 与 人民邮电出版社 , 2003.
类 Gp 的距离 、
类 Gk 与类 Gq 的距离 、
类 Gp 与类 Gq 的距 [ 2 ] 于秀林 ,等 . 多元统计分析 [M ]. 北京 : 中国统计出版
离。 社 , 1999.
(三 )聚类谱系图分析 [ 3 ] 贾凤亭 ,梁晓俐 . 地区经济发展水平的统计分析 [ J ].
选定聚类方法和确定距离定义后 , 利用 SPSS 统计软 辽宁工程技术大学学报 , 2002, ( 5 ) .
件可分别得到谱系图 1 和谱系图 2。 [ 4 ] 重庆市人民政府办公厅 . 重庆年鉴 ( 2003 ) [M ]. 重
按类平均法分成四类 : 上海 ,天津 、
北京 ,浙江 、
广东 、
黑 庆 : 重庆年鉴社 , 2003.