You are on page 1of 4

第 5 卷 第 4 期              重庆交通学院学报 (社科版 )              2005 年 12 月

Vol. 5  No. 4     JOURNAL OF CHONGQ IN G J IAOTONG UN IV ERSITY ( Social Sciences Edition )     Dec.   
2005

3 全国区域经济发展水平的聚类分析

罗  姗 ,  朱国会
(重庆师范大学 数学与计算机学院 ,重庆 400047)

摘  要 : 设计区域经济发展的指标体系 ,包括人均 GDP、


人均第一产值 、
人均第二产值 、
人均第三产值 、
居民消
费水平 、
人均财政收入 、
人均邮电总量 、
人均进出口总额 。用系统聚类分析方法将全国 31 个省市 (区域 ) 的经
济发展状况进行归类分析 ,得出全国区域经济发展水平的分类情况 。
关键词 : 区域经济 ;  发展水平 ;  聚类分析
中图分类号 : F22    文献标识码 : A    文章编号 : 1009 - 9794( 2005) 04 - 0078 - 04

  1978 年改革开放以来 ,中国经济保持着持续的快速增 好的发 展态势 。 2002 年 GDP 高 达 103553. 6 亿元 , 人均


长 , 1978 ~1998 年 GDP 的年均增长率高达 9. 7% , 1999 ~ GDP则到达 8184 元 。但我们还应看到 , 区域发展差距进
2002 年 GDP增长率均高于 7. 0% ,国民经济总体保持了良 一步拉大 ,根据调查数据得到表 1。
东中西部差距系数 表 1

1978 年 2002 年
绝对差距 (元 ) 相对差距系数 ( % ) 绝对差距 (元 ) 相对差距系数 ( % )
东中部 153. 6 33. 1 1351. 5 44. 5
东西部 212. 9 45. 9 1738. 5 57. 2

  缩小各区域经济发展差距 , 实现区域间的协调发展 , 由于反映一个地区的经济发展状况的指标很多 ,而分


不仅具有重要的政治 、
经济 、
社会意义 , 而且也是我国整体 析时只能考虑有限个指标对经济发展的影响情况 , 因此所
经济步入新的台阶的客观需要 。 选的指标不仅要有明确的社会和经济意义 , 而且能比较显
本文试图运用多元统计分析方法中的聚类分析方法 , 著地反映地区经济发展水平 。
分析我国 31 个区域的经济发展状况和差异类别 ,从中找出 (四 )指标的可得性
一些有用的信息 ,为我国经济如何协调快速发展提供有益 有些指标虽然在评价地区经济发展水平时具有重要
的启示 。 作用 ,但是由于一些原因使得指标数值不可得 , 因此 , 我们
在指标选择时要么放弃 ,要么用近似的指标进行代替 。
一、
指标体系的设计 基于上面 4 个方面考虑 ,根据《中国统计年鉴 》
的统计
(一 )指标体系的整体性 数据 ,选用《中国统计年鉴 》
中较能反映一个区域经济发展
指标体系的设计既要反映出各地区经济发展水平 , 又 总体水平的综合部分 ,财政 、
金融和保险部分 , 人民生活部
要能反映地区发展的潜力 , 也即是地区的可持续发展水 分 ,运输 、
邮电部分 , 对外经济与旅游等 5 部分中的人均
平。 GDP、
人均第一产值 、
人均第二产值 、
人均第三产值 、
居民消
(二 )指标的可比性 费水平 、
人均财政收入 、
人均邮电业务总量 、
人均进出口总
由于地域间存在空间大小 、
人口多少差别 , 在研究地 额等 8 项指标构建为本文分析区域经济发展水平的指标体
区发展水平时 , 总量指标存在不可比性 , 故所采用指标应 系。
为具有可比性的平均指标 。 X1 : 人均 GDP,用其反映区域经济发展的一般水平 。
(三 )指标的代表性 X2 : 人均第一产业产值 ,用其反映区域农业发展水平 。

3 收稿日期 : 2005 - 04 - 25    修订日期 : 2005 - 07 - 01


作者简介 : 罗  姗 (1980 - ) ,女 ,重庆长寿人 ,重庆师范大学数学与计算机学院系统理论 2003 级硕士生 , 主要从
事宏观经济决策分析研究 。
罗  姗等 : 全国区域经济发展水平的聚类分析 79

X3 : 人均第二产业产值 ,用其反映区域工业化水平 。 X7 : 人均邮电业务总量 , 用其反映区域内信息产业和


X4 : 人均第三产业产值 , 用其反映区域服务业和城镇 高新产业发展水平 。
化水平 。 X8 : 人均进出口总额 , 用其反映区域对外贸易的发展
X5 : 居民消费水平 , 用其反映区域内居民的生活水平 水平与商业竞争能力 。
和购买能力 。 本文认为以上 8 个经济指标基本能反映区域经济发展
X6 : 人均财政收入 , 用其反映区域经济实力与公益设 状况 ,由《中国统计年鉴 (2003) 》
可得到 2002 年全国 31 个
施建设能力 。 省市以上 8 个指标数值 ,见表 2。
2002 年全国各省市经济指标 表 2

人均 GDP 人均第一产 人均第二产 人均第三产 居民消费 人均财政 人均邮电业 人均进出口


地区
(元 ) 业产值 (元 ) 业产值 (元 ) 业产值 (元 ) 水平 (元 ) 收入 (元 ) 务总量 (元 ) 总额 (美元 )

北京 28449 853. 47 9900. 25 17695. 28 9291 3752. 57 1800. 77 3689. 76


天津 22380 917. 58 10921. 44 10540. 98 7162 1706. 38 914. 00 2265. 28
河北 9115 1421. 94 4539. 27 3153. 79 3054 448. 86 332. 37 98. 96
山西 6146 602. 308 3300. 40 2243. 29 2562 457. 88 334. 37 70. 17
内蒙古 7241 1564. 06 3041. 22 2635. 74 3453 474. 38 363. 56 102. 31
辽宁 12986 1402. 49 6207. 31 5376. 20 5095 950. 96 618. 42 517. 24
吉林 8334 1658. 47 3625. 29 3050. 24 3869 487. 17 436. 46 137. 18
黑龙江 10184 1181. 34 5662. 30 3340. 35 4337 608. 16 486. 89 114. 06
上海 40646 650. 34 19266. 2 20729. 46 14295 4362. 78 1426. 22 4469. 36
江苏 14391 1511. 06 7512. 10 5367. 84 4704 872. 10 466. 33 952. 29
浙江 16838 1498. 58 8604. 22 6735. 2 5515 1219. 82 806. 78 902. 86
安徽 5817 1256. 47 2530. 40 2030. 13 2988 315. 90 232. 96 65. 97
福建 13497 1916. 57 6222. 12 5358. 31 4900 787. 32 695. 99 819. 31
江西 5829 1276. 55 2261. 65 2290. 80 2651 332. 89 289. 55 40. 13
山东 11645 1537. 14 5857. 44 4250. 43 3952 671. 91 358. 60 373. 65
河南 6436 1345. 12 3076. 41 2014. 47 2581 308. 66 235. 09 33. 32
湖北 8319 1181. 30 4092. 95 3044. 75 3535 406. 55 284. 69 66. 02
湖南 6565 1280. 18 2626 2658. 83 3013 348. 69 284. 88 43. 38
广东 15030 1322. 64 7575. 12 6132. 24 5683 1528. 96 1169. 40 2813. 29
广西 5099 1239. 06 1794. 85 2065. 10 2405 387. 25 264. 95 50. 40
海南 7803 2957. 34 1615. 22 3230. 44 3198 575. 82 489. 04 232. 48
重庆 6347 1015. 52 2665. 74 2665. 74 2836 405. 75 288. 54 57. 71
四川 5766 1216. 63 2346. 76 2202. 61 2621 336. 53 257. 43 51. 52
贵州 3153 747. 26 1264. 35 1141. 39 1701 282. 20 200. 52 18. 02
云南 5179 1092. 77 2206. 25 1879. 98 2377 477. 17 292. 68 51. 39
西藏 6093 1498. 88 1242. 97 3351. 15 2313 273. 72 277. 15 48. 83
陕西 5523 822. 93 2512. 97 2187. 11 2404 409. 07 364. 92 60. 53
甘肃 4493 826. 71 2053. 30 1612. 99 1975 294. 03 252. 06 33. 84
青海 6426 848. 23 2898. 13 2679. 64 2644 398. 80 346. 88 37. 17
宁夏 5804 934. 44 2664. 04 2205. 52 2583 462. 79 382. 52 77. 43
新疆 8382 1600. 96 3528. 82 3252. 22 3150 611. 40 508. 19 141. 30
80 重庆交通学院学报 (社科版 )             第 5 卷

类 。聚类分析的优点在于它确定的类别是基于对样本的
二、
聚类分析 观察指标的分析 ,分类的结果能客观地显示样本间的本质
聚类分析方法的思想是在不知研究的一批样本应该 判别与联系 , 尤其是内在结构关系 , 而且分类结果直观 。
分为几类 , 也不知每个样本究竟取自哪一类的情况下 , 依 聚类谱系图可以很清楚地表示根据数值分类的结果 , 对客
据各样本自身的特点 ,通过定量测算各样本之间的相似程 观分析和合理评价区域间经济发展水平的差异是有利的 。
度和亲疏关系 , 将性质比较相似 、
综合差异比较小的样本 以下应用 SPSS统计软件对表 1 中 31 个样本的 8 个观
分别聚合成类 , 而将性质相似性比较小 、
综合差异比较大 察指标进行系统聚类分析 。
的样本区分为不同的类 ,从而将整个研究对象聚合成若干 (一 )样本间的相似度测量标准

  聚类分析测度个体之间的相似性的方法主要有相关 测度 、
距离测度和关联测度 。其中 ,关联测度适用于分类测
罗  姗等 : 全国区域经济发展水平的聚类分析 81

度等级的数据 ,相关测度利用相关系数的大小来判断两个 龙江 、
山东 、
辽宁 、
福建 、
江苏 ,其余 21 个省市 。
样本之间的相似性 ,距离测度是利用两个样本之间的距离 按离差平方和法分成四类 : 上海 ,天津 、
北京 , 辽宁 、

大小来判断其相似性 。本文采用距离测度来衡量全国区 建、
江苏 、
浙江 、
广东 ,其余 23 个省市 。
域经济发展水平的相似性 。常见的距离测度有平方欧氏 由谱系图不难看出 ,两种聚类方法的分类结果基本上
距离 、
欧氏距离 、
绝对值距离 、
明科夫斯基距离等 。本文采 是一致的 , 并且都可以分为四类 , 细微差别在黑龙江和山
用平方欧氏距离测度全国区域经济发展水平的相似度 。 东的分类上 。
平方欧氏距离的定义为 :
2
D ij = ∑81 ( Xik - Xjk )   ( i, j = 1, 2, 3, ……31; k = 1, 2, 3 三、
分类结果与区域经济发展差异评价
……8) 1. 谱系图上我们可以看到 ,上海单独成为一类 。它是
其中 D ij表示样本 i与样本 j之间的距离 , Xik表示第 i 我国经济高速发展地区 ,并且具有很强的发展潜力 。
个样本在第 k个指标上的值 , Xjk表示第 j个样本在第 k 个 2. 第二种类型是北京 、
天津 ,它们的各项经济指标均位
指标上的值 。 于全国前列 ,属于我国经济发展水平较高的区域 。
(二 )聚类方法 3. 浙江 、
广东 、
黑龙江 、
山东 、
辽宁 、
福建 、
江苏成为第三
聚类的方法有很多种 , 其中系统聚类法和迭代聚类法 类 。该类区域的经济发展水平一般 ,但发展潜力较大 ,后劲
应用比较广泛 ,本文采用系统聚类法对全国区域经济发展 较足 。这类区域多为我国主要的沿海开放地区 , 吸引了我
水平进行分析 。系统聚类法中计算类与类之间距离的方 国主要的外资 ,并在其区域内形成了一些特色产业 。
法有多种 ,主要有最短距离法 、
最长距离法 、
中间距离法 、 4. 余下的 21 个省市成为第四类 。这类区域经济发展
类间平均法 、
重心法 、
离差平方和法六种方法 。为了确保 水平较低 。这些区域相对底子薄 、
人口多 ,虽然自然资源相
分类结果的准确性 ,本文用两种聚类方法 。 对较为丰富 ,但由于处于内陆地区 , 交通运输 、
外贸条件相
1. 类平均法 : 合并两类的结果使所有的两两类别之间 对较差 ,造成了该类区域第一产业产值在 GDP 中所占比重
的平均距离最小 。 大 ,二 、
三产业的发展相对落后 。
2 2
D (p , q) = ∑i∈Gp ∑i∈Gq dij / np nq 综上 ,可以认为聚类分析的结果基本符合我国的实际
其中 , D ( p , q ) 表示类 Gp 与类 Gq 的距离 , np 、nq 表示 情况 。因此 ,在深化改革的基础上应加大政策扶持力度 ,充
Gp 、Gq 两类的样本数 。 分调动各方面发展经济的积极性和创造性 ; 鼓励和引导发
2. 离差平方和法 : 同一类样本的离差平方和应该最小 , 挥区域比较优势 、
区域资源优势 , 形成特色经济 , 有效促进
不同类之间样本的离差平方和应该较大 。 我国经济发展水平的整体稳步提高 。
2 2
D kr = [ ( nk + np ) / ( nr + nk ) ] D kp + [ ( nk + nq ) / ( nr +
2 2
nk ) ]D kq - [ nk / ( nr + nk ) ]Dpq 参考文献 :
其中 , D kr表示类 Gk 与类 Gr 的距离 , nk 、np 、nr、nk 表示 [ 1 ]  余建英 , 等 . 数据统计分析与 SPSS 应用 [M ]. 北京 :
Gk 、Gp 、Gr、Gk 类的样本数 , D kp 、D kq 、Dpq分别表示类 Gk 与 人民邮电出版社 , 2003.
类 Gp 的距离 、
类 Gk 与类 Gq 的距离 、
类 Gp 与类 Gq 的距 [ 2 ]  于秀林 ,等 . 多元统计分析 [M ]. 北京 : 中国统计出版
离。 社 , 1999.
(三 )聚类谱系图分析 [ 3 ]  贾凤亭 ,梁晓俐 . 地区经济发展水平的统计分析 [ J ].
选定聚类方法和确定距离定义后 , 利用 SPSS 统计软 辽宁工程技术大学学报 , 2002, ( 5 ) .
件可分别得到谱系图 1 和谱系图 2。 [ 4 ]  重庆市人民政府办公厅 . 重庆年鉴 ( 2003 ) [M ]. 重
按类平均法分成四类 : 上海 ,天津 、
北京 ,浙江 、
广东 、
黑 庆 : 重庆年鉴社 , 2003.

C luster Ana lysis of the Reg iona l Econom ic D evelopm en t in Ch ina

LUO Shan, ZHU Guo - hui


( School of M aths and Computer, Chongqing Normal University, Chongqing 400047, China)
Abstract:An index of the regional econom ic development is designed, which includes average GDP, first p roduction rate, second
p roduction rate, service p roduction rate, consump tion rate, financial income, post total, export total per person. Then the cluster a2
nalysis method is used to classify the conditions of thirty one p rovinces ( cities, regions) , and an average classification of the re2
gional econom ic development in China is got.
Key words: regional economy; development level; cluster analysis
(责任编辑 : 吴  莉  张   )

You might also like