You are on page 1of 4

2006 年第 2 期   统计研究

              
No. 2   2006 Statistical Research 59

统计指数的贝叶斯方法
朱喜安  郜元兴

ABSTRACT
The paper put forward the author ’views about essence of index after discussing the concept of
Statistical Indices at the first . Then the author introduces the bayesian theory and the connection with
statistics indices. Combining Shanghai Stock Exchange ,the paper mainly introduce the model of point of
chain 180 index ,and empirical research of bayesian estimator for Statistical Indices.

  关键词 : 统计指数 ; 贝叶斯方法 ; 实证分析

数的编制过程中 ,以往大量编制的统计指数 , 也为今后同


  一 、
引言 类指数的编制提供了经验 , 使我们对总体指数真值的变
统计指数的编制是统计理论研究的一项重要内容 , 动范围和分布状况有了基本的认识 。我们应该对这些历
也是统计分析实践活动一项重要工具 。近年来 , 统计指 史数据加以充分利用 。
数在社会经济生活的各个领域都得到了广泛的应用 。然 贝叶斯统计利用先验与后验信息 , 进行参数估计给
而 ,目前统计指数理论仍然不够成熟 , 统计指数编制方法 我们研究统计指数提供了一种思路与方法 。
还十分单一 。与其他统计理论的发展形成鲜明对照 , 统 利用贝叶斯统计的思想与方法推断统计指数时 , 我
计指数理论发展到今天 , 似乎与现代数理统计方法渐行 们可以从寻找先验分布与总体分布入手 , 推断后验分布 。
渐远 。特别是在统计指数编制的实践中 , 大量的历史信 进而利用后验分布 , 可以比较准确的推断出符合经济意
息 ( 先验信息) 被弃之不用 , 造成信息资源浪费 , 影响了统 义的总体指数 。具体而言 , 首先 , 个体指数是随机变量 ,
计指数编制的准确性 。为了促进统计指数理论与现代数 因而可以用概率分布来描述 。其次 , 实际中应用样本计
理统计方法的融合 ,进一步发展统计指数理论 , 丰富统计 算的统计指数是对总体参数的估计 , 是一个统计量 , 求总
指数编制方法 ,充分利用历史信息资源 , 使统计指数的编 指数的过程就是对总体参数的统计推断过程 。而贝叶斯
制更加规范 、
科学和准确 , 本文提出统计指数的贝叶斯方 方法也是统计推断的一种形式 , 因而我们完全有理由也
法 ,并利用上证 180 指数对此方法进行了实证研究 。 相信能运用贝叶斯方法来估计统计指数 。再次 , 贝叶斯

在实践中 ,编制统计指数的过程通常是一个历史过 方法和传统的统计方法的区别本质上在于是否运用先验

程 ,积累了大量的历史数据 ( 先验信息 ) , 应该可以为进一 信息 ,而实际指数在计算过程中积累了大量的历史数据 ,

步编制指数发挥作用 。正如人们利用统计指数反映宏观 这些历史数据所蕴含的信息应该可以被利用 。正是基于

经济政策实施效果和抑制通货膨胀或通货紧缩措施力度 这些考虑 ,我们将统计指数的编制与贝叶斯统计联系起

一样 ,正是因为有丰富的历史数据 , 人们才会知道指数取 来 ,为统计指数编制提供了全新的思路 。

什么值时 ,经济现象总体变动是正常的 , 才会及时地判断


经济现象变动的方向 , 从而作出正确的决策和判断 。指 3 本文系作者完成的国家统计局立项课题的成果之一 。

[ 5 ] 杨灿 . 国民核算与分析通论 . 中国统计出版社 . 2005. 版社 . 2003.


[ 6 ] 杨灿 . 金融核算理论问题研究 . 统计研究 . 1995 ( 3) . 金 作者简介
融核算疑难问题辨析 . 统计研究 . 1999 (3) . 杨灿 ,湖南长沙市人 ,经济学博士 。现为厦门大学经
[ 7 ] 蒋萍 . 非市场服务生产 、
非市场服务交易与非市场服 济学院教授和博士生导师 、
厦门大学宏观经济研究中心
务产出 . 统计研究 . 2003 (8) . 研究员 ,并任厦门大学计划统计系主任 、
厦门大学国民经
[ 8 ] 罗良清 . 非市场服务产出核算问题研究 . 中国统计出 济与核算研究所所长 。
60 统计研究

其中 pt 为报告日某支股票的收盘价 , pt - 1 为前一交易日
  二 、
基于上证 180 指数的实证分析
价格 。笔者选取了 2004 年 1~3 月份的数据 ,并详细计算
为了实证分析的需要 ,本文仅就上证 180 指数的环比 了每天的 180 支成份股指数的均值 、
中位数 、
偏度与峰度 ,
指数 ,说明统计指数的贝叶斯方法的基本原理及具体应 应用 SPSS 软件进行柯尔莫哥洛夫 —斯米尔洛夫检验 , 最
用。 后认为以正态分布作为上证 180 指数的总体分布是比较
( 一) 上证 180 指数及其算法 合适的 ,也是符合指数本身的特性的 , 更是符合实际应用
11 上证 180 指数及其现行算法 。 中计算简单明了的需要的 。柯尔莫哥洛夫 —斯米尔洛夫
上证 180 成份指数采用派许加权综合价格指数公式 检验结果如表 1 所示 。
计算 ,以样本股的调整股本数 由表 1 可以看到 ,在显著性水平 0101 下 , 除了 2 月 2
 报告期指数 = ( 报告期成份股的调整市值) 日 ,3 月 3 日 、
11 日 ,23 日 、
24 日 、
25 日等少数几个交易日
Π( 基日成份股的调整市值) ×1000 (1) 外 ,其余交易日基本上能通过正态性检验 , 所以我们选取
其中 ,调整市值 = ∑(市价 ×调整股本数) ,基日成 正态分布作为其总体分布 。
份股的调整市值亦称为除数 , 调整股本数采用分级靠档 ( 三) 上证 180 指数先验分布的选择
的方法对成份股股本进行调整 。 常用的先验分布的确定方法有无信息先验分布 、

21 基于贝叶斯估计的上证 180 指数算法 。 扼先验分布 、
直方图方法 、
相对似然方法 、
多层先验分布 ,
由于上证 180 指数 ( 取收盘价为当天指数) 点数很大 , 以及杰弗莱原则 、
最大数据信息原则和不变测度原则等 。
不利于进行估计 。为了实证分析的需要 , 本文在估计中 , 这里我们主要应用直方图及矩方法来确定 。
以收盘价为一个变量序列{ Pt } ,去估计一个新的与 180 指 表 1 环比指数的柯尔莫哥洛夫 —斯米尔洛夫检验
数相关的环比总指数 , 实际上也就相当于是一种新的算 日期 K2S 值 P值 日期 K2S 值 P值 日期 K2S 值 P值
1月5日 01771 01592 2 月 11 日 11485 01024 3月8日 01617 01841
法。 1月6日 11415 01037 2 月 12 日 11412 01037 3月9日 11032 01237
估计总指数 Kt = Pt / Pt - 1 ,其中 Pt 为报告日上证 180 1月7日 11212 01106 2 月 13 日 01736 01651 3 月 10 日 11395 01041
1月8日 11452 0103 2 月 12 日 11412 01037 3 月 11 日 11636 01009
的收盘价指数 , Pt - 1 为研究上证 180 指数确定的新基日价
1月9日 11507 01021 2 月 13 日 01736 01651 3 月 12 日 11442 0103l
格指数 ( 本文为 2004 年 1 月 2 日的价格指数 ) , Kt 为总体 1 月 12 日 1102 0125 2 月 16 日 11175 01126 3 月 15 日 11209 01108
物价 ( 收盘价) 指数 。 1 月 13 日 11373 01046 2 月 17 日 11614 01011 3 月 16 日 11404 01039
1 月 14 日 11013 01256 2 月 18 日 11393 01041 3 月 17 日 11427 01034

Pt =
∑p q t t
×1000 , P0 3 = ∑p 0
3 q0 3
×1000 (2)
1 月 15 日 11196 01115 2 月 19 日 11276 01077 3 月 18 日 41861 01027
1 月 16 日 11299 01068 2 月 20 日 11344 01054 3 月 19 日 11212 0111
∑p q 00 t ∑p 00 q0 3
1 月 29 日 11399 0104 2 月 23 日 11163 01133 3 月 22 日 11627 0101
其中 ,00 为 180 指数现行算法的基期 ,0 3 为本文基 1 月 30 日 11412 01037 2 月 24 日 01819 01514 3 月 23 日 11671 01008
期 , t 为报告期 。有 2月2日 11746 01004 2 月 25 日 01686 01734 3 月 24 日 11821 01003
2月3日 11457 01029 2 月 26 日 11585 01013 3 月 25 日 31483 0
∑p q t t
×1000
2月4日 0198 01292 2 月 27 日 11571 01014 3 月 26 日 11278 01076
11352 01052 0197 01303 3 月 29 日 01622 01834
  Kt = Pt ΠPt - 1 = ∑p q 00 00
= ∑ pt qt
(3)
2月5日
2月6日 11266 01081
3月1日
3月2日 11135 01152 3 月 30 日 01668 01764
∑p qt- 1 t- 1
×1000 ∑pt- 1 qt - 1 2月9日 01823 01507 3月3日 3185 0 3 月 31 日 11305 01066

∑p q 00 00 2 月 10 日 11496 01023 3月4日 11214 01104

其中 ,00 为 180 指数现行算法的基期 ,0 3 为本文基 注 : 本文所有数据来源于中国证券网 。有些数据是根据中国证券

期 , t 为报告期 。事实上 , 由式 ( 1 ) 知 , 短期内上证 180 指 网提供的相关数据的计算结果 ,以下相同 。

数除数可以看作是不变的 ,即可以认为 qt = qt - 1 ,故式 ( 3) 对于环比指数 ,从 2002 年 7 月 1 日开始收集数据 ,就

仍为价格指数 ,所以 Kt = Pt / Pt - 1 是有意义的 。再由 能得到大量的历史数据 , 就可以获取充分的先验信息 。


比如在估计 2004 年 3 月 8 日的上证 180 指数时 ,为了寻找
Pt
Pt = × Pt - 1 = Kt × Pt - 1 (4) 先验分布 ,我们先观察 2002 年 7 月 1 日~ 2004 年 3 月 7
Pt - 1
可知 ,只要估计出 Kt 就可以估计出当日的上证 180 日 ,收集了 401 个发布日的上证 180 数据 。如果设当日收
指数 。 盘价格为 Pt , 前一个发布日的收盘价格为 Pt - 1 , 根据式
( 二) 上证 180 指数编制中 , 个体指数的总体分布的确 (4) ,我们在进行贝叶斯估计时 , 实际上只需估计价格指
定 数 Kt = Pt / Pt - 1 即可 , 所以找先验分布也只需寻找 Kt 的
为了估计环比指数总体分布 , 我们分析了 2004 年 1 分布就行了 。只要估计出 Kt ,那么当日的上证 180 指数 ,
月 2 日~3 月 31 日的上证 180 指数的所有 180 只股票的 就可以由式 (4) 得到 。
收盘价 ,计算出每一只股票的个体环比指数 k t = pt / pt - 1 , 运用 SPSS , EVIEWS 可 以 得 到 历 史 数 据 的 均 值 为
朱喜安  郜元兴 : 统计指数的贝叶斯方法 61

01999953 ,标准差 0101121 ,峰度 21227 , 偏度 01649 , 所以我 表 3 所示 。


们依然可以选取正态分布作为其先验分布 。而且 , 如果 表3 上证 180 指数贝叶斯估计样本
我们取分布为 N (0199953 ,01011212 ) ,则可以得到表 2 。 股票代码 股票名称 行业代码
表2 上证 180( 环比) 指数四分位数正态拟合表 600000 浦发银行 40

下四分位数 上四分位数 600001 邯郸钢铁 15


600002 齐鲁石化 15
实际数据 019935 110050
上证 180 指数 白云机场
正态拟和数据 019808 110182 600004 20
600005 武钢股份 15
  所以我们在选取先验分布时 , 就以分布 N ( 0199953 , 600008 首创股份 20
0101121 ) 作为上证 180 指数 3 月 8 日的先验分布 。
2
600009 上海机场 20
由于最近的信息对经济现的影响往往都是比较大 600011 华能国际 55
的 ,也最能帮助我们分析解决问题 , 因此最新的先验信息 600015 华夏银行 40
600016 民生银行 40
应在计算过程中不断地被引入 。换句话说 , 为了保证先
600018 上港集箱 20
验分布的适时性 ,在寻找定基指数的先验分布的过程中 , 600019 宝钢股份 15
最近的历史数据应该不断地被引入 。 600026 中海发展 20
( 四) 上证 180 指数的贝叶斯估计 600028 中国石化 10
11 贝叶斯估计的数学模型 。 600029 南方航空 20
600030 中信证券 40
设 x1 , x2 , …, x n ( 实际上就是个体指数 ) 是来自总体
600036 招商银行 40
X 的容量为 n 的简单随机样本 , X 的密度函数为 p ( x | K) 。
600050 中国联通 50
其中 , K 总体的平均变化程度 , 也就是所要估计的总指 600100 清华同方 45
数 ,则得到在后验均方误差最小的准则下 , K 的贝叶斯点 600104 上海汽车 25
估计为 600171 上海贝岭 45
600177 雅戈尔 25
^K = E ( K | x ) =

Θ
Kπ( K | x ) dK 600188 兖州煤业 15
n
600256 广汇股份 40

=
∫ ∏
Θ
Kπ( K)
i =1
p ( x i | K) dK
(5)
600345
600350
长江通信
山东基建
50
20
n
江西铜业

π( K) ∏p ( x | 600362 15
i K) dK
Θ i =1 600569 安阳钢铁 15
其中 ,Θ为参数 K 的取值空间 。特别的 ,如果总体为 600597 光明乳业 30

正态分布 N ( K ,σ ) , 先验分布为 N (μ ,τ ) , 则 K 的贝叶


2 2 600598 北大荒 30
600600 青岛啤酒 30
斯估计为
600601 方正科技 45
τ- 2 σ- 2 σ2μ + τ2 gx
^K = -2 ・μ + - 2 0 - 2 ・gx = 0 2 (6) 600602 广电电子 25
σ0 + τ
-2
σ0 + τ σ0 + τ2
600642 申能股份 55
其中 ,σ20 = σ2 / n , gx 为样本均值 。 600664 哈药集团 35
21 样本股的选取 。 600688 上海石化 10
600690 青岛海尔 25
为了实证分析的需要 ,所选择的样本必须是上证 180
600717 天津港 20
成分股当中的所有股票 ; 而且是 2004 年上半年上证 180
600776 3 ST 东信 50
成份股中的股票 ; 同时剔出 2003 年下半年经营状况异常 600795 国电电力 55
或财务报告严重亏损的股票 ( 数据来源于 2003 年下半年 600808 马钢股份 15
的年报) ,防止亏损股的非理性波动影响指数的稳定性 。 600811 东方集团 40

样本股的选取遵循以下原则 : ( 1 ) 较高的行业代表性原 600812 华北制药 35


600832 东方明珠 25
则 。(2) 流动性与成长性的原则 。(3) 规模性原则 。
600839 四川长虹 25
为了便于数据取得 , 考虑每股收益率 , 每股权益 , 净 600851 海欣股份 25
资产收益率 ,平均总市值 , 平均流通市值这五个指标 。将 600868 梅雁股份 20
每一个指标按从大的顺序排序 , 并依次标明等级 , 这样得 600895 张江高科 40
到一个等级矩阵 Ag 。经过分析 ,对每股收益率 ,每股权益 600900 长江电力 55

g ,再由 B = Ag ( R
等五个指标 ,确定一个权数矩阵 R g ) 就可 T
  31 上证 180 指数实证分析结果 。
以得到每只股票的综合排名 ,据此可以选取样本 ,结果如 我们考虑 2004 年 1 月 5 日~3 月 31 日 ,共 55 个交易
62 统计研究

日的上证 180 数据 。由前所述 , 考虑先验分布时可以从


2002 年 7 月开始 , 具体算法 : 第一步 , 先按照先验分布确
  三 、
结论
定方法 ,根据数据分析得到每一天的先验分布 N (μ ,τ2 ) ; 本文是统计指数编制的一种尝试 , 它所提供的基本
第二步 ,确定总体分布 N ( K ,σ ) 。其中 , K 未待估参数 ,
2
方法对丰富统计指数理论是十分有益的 。通过这一方
1 法 ,使统计指数编制 ,可以充分利用抽样数据和历史资料
σ 未知 ,但根据最大似然法 ,可以用 S = ∑( x - g
2 2 2
i x)
n
编制指数成为可能 。该方法尤其适用于不可能取得全面
作为其估计值 ; 第三步 , 进行抽样 , 确定样本以及样本均 资料或者总体很大的现象的指数编制以及指数预测 。利
值 gx , n = 50 。
最后 ,由公式 (7) 知 ,当天的上证 180 指数的 用上证 180 指数作比较 ,通过实证表明 , 统计指数的贝叶
σ20μ + τ2 gx
估计值为 ^K = ,其中σ0 = σ / 50 。
2 2
上证 180 指数 斯方法能够准确的计算指数 , 并且还可以证明该方法下
σ20 + τ2
估计的统计指数具有一系列优良特征 。
估计值 ^Pt = ^Kt ×^Pt - 1 具体计算后 可以看到运用贝叶斯
方法估计的上证 180 指数 ,最大相对误差仅有 01187 % ( 绝
参考文献
对值) ,最大绝对误差 5199 点 ; 最小相对误差 0100005 % ,
[ 1 ] 黄良文 . 统计学原理 . 北京 : 中国统计出版社 . 2002.
最小绝对误差几乎为零 。运用 SPSS 软件 ,描出 1~3 月上
12.
证 180 指数的估计值与真实值的曲线见下图所示 。
[ 2 ] 贾俊平 、
何晓群 、
金勇进 . 统计学 . 北京 : 中国人民大
学出版社 . 2000. 9.
[ 3 ] 李双成 、
王春峰 . 中国股票市场价格波动与交易量关
系的贝叶斯分析 . 西北农林科技大学学报 ( 社会科学
版) . 2003. 3.
[ 4 ] 卯诗松 . 贝叶斯统计 . 北京 : 中国统计出版社 . 1999. 3.
[ 5 ] 盛骤 . 概率论与数理统计 . 北京 : 高等教育出版社 .
1989.
[ 6 ] 孙慧均 . 指数理论研究 . 沈阳 : 东北财经大学出版社 .
1998. 5.
[ 7 ] 伍超标 . 统计指数的随机化方法及其应用 . 北京 : 中
国统计出版社 . 2000. 4.
图 1  上证 180 指数 20041115~3131 收盘价对照图
 
[ 8 ]Berger ,J . Q. ( 1985 ) ,“ Statistical Decision Theory and
从图 1 也可以看到 ,运用贝叶斯估计的上证 180 指数 Bayesian Analysis”,2nd edn ,New York ,Springer2Verlag.
收盘价 ,在 2004 年 1 月 5 日~3 月 31 日 ,估计值与实际值
曲线基本上是重合的 ,或者说是很接近的 , 这与我们计算 作者简介
的结果是相符的 。这主要是因为在总体为正态总体 , 先 朱喜安 (1961 —) , 经济学博士 , 中南财经政法大学副
验分布也为正态分布时 ,先验分布的均值 , 标准差估计的 教授 ,主要从事统计理论及应用研究 。
质量直接影响最后贝叶斯估计的效果 。用环比指数估计 郜元兴 (1974 —) , 经济学硕士 , 常熟理工学院数学系
上证 180 时 ,历史信息充分 ,先验数据质量较好的缘故 。 讲师 ,主要从事社会经济统计研究 。

You might also like