You are on page 1of 5

2006 年第 1 期  中  国  航  海 No. 1 Mar.

2006
总第 66 期   NAVIGATION OF CHINA Serial No. 66

文章编号 :1000 - 4653 (2006) 01 - 0009 - 04

航海问卷调查中不完全数据的补缺方法研究
1 ,2 1 1
杨神化 ,  应士君 ,  施朝健
( 1. 上海海事大学 ,上海 200135 ;2. 集美大学 ,福建 厦门 361021)

摘  要 : 探讨期望最大化 ( Expectation Maximization ,EM) 算法在处理不完全数据统计中的应用 ,通过 EM 补缺 ,扩大统


计样本数量 ,以避免航海科研中常常发生的问卷调查数据的缺失而造成统计分析的困难 ,从而提高了参数估计精
度 。然后运用电子表格方法对一个实例进行描述 、
建模和求解 ,避免了繁琐的计算和编程工作 ,为广大航海科研与
实践管理工作者提供一种方便 、
有效的数据处理方法 。
关键词 : 水路运输 ; 航海 ; 调查 ; 期望最大化算法 ; 数据缺失 ; 补缺
中图分类号 :U676. 2    文献标识码 :A

Study of Replenishing Method for Incomplete Data


in Navigation Questionnaire
YANG Shen2hua ,  YING Shi2jun ,  SHI Chao2jian
1 ,2 1 1

( 1. Shanghai Maritime University , Shanghai 200135 , China ; 2. Jimei University , Xiamen 361021 , China)

Abstract : The application of EM( Expectation Maximization) algorithm in the statistics of incomplete data is studied , which can
enlarge the volume of statistical samples so as to avoid the difficulty of statistics and analysis resulted from questionnaire data
missing in navigation research , and further to improve the precision of parameter estimation. The Spreadsheet method is used for
describing and modeling an example and then for obtaining solution to avoid cockamamie calculation and complex programming. It
provides a convenient and effective data processing method for marine managers and workers.
Key words : Waterway tranportation ; Navigation ; Questionnaire ; EM Algorithm ; Data Missing ; Replenish

  在航海问卷调查活动中 , 获得回答完整的问卷 证券走势的预测等问题 , 都经常会有数据残缺不全


是每个调研者所期望的结果 , 但实际上由于各种原 的现象 。较早解决不完全数据的参数估计的方法有
因 ,总有部分问卷为空白或回答不完全 ,这就产生了 A. P. Dempster 等
[2 ]
在 1977 年 提 出 的 期 望 极 值
无回 答 情 况 。上 海 海 事 大 学 方 泉 根 教 授 等 人 在 ( Expectation Maximization , EM) 算法 , S. Geman 和 D.
1998 年对国内中远 、 中海集团和上海地区的其他十 [3 ]
Geman 在 1984 年 提 出 的 Gibbs 抽 样 ( Gibbs
多家航运公司的 235 名船长和驾驶员作了“船舶能 [4 ]
sampling) ,1953 年 N. Metropolis 等 提出 , 由 W. K.
[1 ]
见度不良时近距离避让行为” 的问卷调查 ,这次问 Hastings
[5 ]
改 进 的 Metropo1is2Hasting 方 法 等 。 Gibbs
卷调查回收完整答卷 212 份 ,另有 23 份答卷因回答 抽样和 Metropo1is2Hasting 方法都是 Markov 链蒙特卡
不完全而被视为无效卷 。由于航海从业人员流动性 洛 ( Markov Chain Monte Carlo , 简记为 MCMC) 方法 。
大 ,调查对象无回答时 , 要重新调查获得准确的数
文献 [ 6 ] 于 1993 年提出的 GEM ( Cenera1ized EM) 算
据 ,会浪费大量的时间 、
人力和财力 ,而且也很困难 。
法 ,吸取了 EM 算法的优点 ,并克服了 EM 算法的缺
因此如何挖掘 23 份无效卷中的有用信息 ,以增加问
点 . 还有 Monte Carlo EM 算法等都改进了 EM 算法 ,
卷调查的统计样本数量 ,减少无回答带来的误差 ,获
但 EM 算法收敛速度慢的缺点仍然没有得到很好的
得相对准确的调研结果 ,是一个值得研究的问题 。 [7 ]
解决 。最近 ,P. Sebastian 和 M. Ramoni 提出的界定
不完全数据的参数估计是许多领域都要涉及的
折叠法 ( bound and collapse) , 克服了 EM 算法中的稳
问题 ,如专家系统 、人工智能 、
证券市场中的股票及
定性和计算的有效性等方面的问题 。

收稿日期 :2005211220
基金项目 : 福建省自然科学基金资助项目 (A0410023)
作者简介 : 杨神化 (19762) ,男 ,福建厦门人 ,博士生 ,讲师 ,主要研究方向为航海智能与仿真技术 。
10         中  国  航  海 2006 年第 1 期

EM 算法是参数估计的一种很重要的算法 , 是 是应用很广的一种极大似然估计方法 。在实际问卷


一种当观测数据为不完全数据时求解最大似然估计 调查过程中 ,一张调查表通常要有多个调查的目标
的迭代算法 ,具有很好的实际应用价值 。但对广大 变量和背景变量 。变量间的列联表是一种基本的统
实践管理工作者来说 , EM 算法的计算复杂度较大 , 计结果 。当分类数据由于无回答而产生遗漏时 , EM
特别是当数据量较大时 , 往往要借助算法编程来实 算法是一种处理不完全列联表很有效的工具 。
现运算过程 ,使得许多人望而却步 。我们首先讨论 可以假设在问卷调查活动所取得的资料中 , 背
如何应用 EM 算法处理问卷调查中由于无回答所造 景变量 X1 有 K 项类目 , 目标变量 X2 有 L 项类目 ,
成的数据缺失问题 , 然后运用电子表格方法对一个 则 n 个样本的记录为 ( X1 i , X2 i ) , 其中 i = 1 ,2 , …,
实例进行描述 、
建模和求解 ,从而避免繁琐的计算和 n 。进一步假设 n 个样本中有 n1 个两变量均有观
复杂的编程工作 , 为广大实践管理工作者提供一种 测值 ; 有 n2 个样本只有 X1 的观测值 ,缺失 X2 的观
方便 、
有效的数据处理方法 。 测值 ; 有 n3 个样本只有 X2 的观测值 ,缺失 X1 的观
1  EM 算法 测值 ,其中 n1 + n2 + n3 = n 。如此 n 个样本单元资
料组成一个 K 3 L 阶联表和两个单变量表 , 如表 1 、
1. 1  不完全数据的 EM 算法
表 2、
表 3 所示 。
用 EM 算法处理不完全数据时 , 先根据所得的
数据对缺失的数据进行估计和推断来补全数据 , 然
后再根据补全后所得的完全数据集进行迭代计算 。
如果 X 表示观察到的数据集 , Y 表示缺失数据
集 ,则我们可以假设存在一完全数据集 Z = ( X , Y)
它的概率密度函数为 :
p ( z | θ) = p ( x , y | θ) = p ( x | θ) p ( y | x ,θ) 表 1  K 3 L 阶联表
( 1)
  其中 θ∈R 为一ρ维参数向量 。
p

基于上述概率密度函数 , 定义完全数据的似然
函数为 :
L (θ| Z) = L (θ| X , Y) ƒ p ( X , Y | θ) ( 2)
  因为 Y 是未知 、随机的 ,假定其服从某种分布 ,
而 X 和θ是常量 ,可见 L (θ| Z ) 实际上是一个随机 表 2  X1 变量表
变量 ,因此我们可以假设 :
L (θ| Z) = L (θ| X , Y) = hΧ ,θ ( Y) ( 3)
  于是 EM 算法如下进行 , 记 θ 为第 i + 1 次迭
( i)

代开始时 θ的估计值 ,则第 i + 1 次迭代的两步为 : 表 3  X2 变量表


E 步 : 将 p ( X , Y| θ) 或 log p ( X , Y | θ) 关于 Y 的
  在表 1 中 , ( k , l ) 小格的概率记为 pkl , 则有
条件分布求期望 ,从而把 Y 积掉 ,即
K L
Q (θ,θ ) ƒ Ey [ log p ( X , Y | θ) | θ , X ]
( i) ( i)
∑∑pkl = 1 。执行 EM 算法求各小格对应的概率 pkl
k = 1l = 1
3


= log[ p ( X , Y | θ) ] p ( Y | θ , X ) d Y 的估计时 ,可先设定 pkl 的初值 :
i ( )

(0) nkl
( 4) p kl =  ( k = 1 ,2 , …, K ; l = 1 ,2 , …, L )
n1
M 步 : 将 Q (θ,θ ) 极大化 , 即找到一个点 θ
i ( ) i + 1) (
,使
( 6)
得 (0)
  执行 E 步 , 在 n 个样本资料和参数 { p kl } 下求
Q (θ ,θ ) = maxQ (θ,θ )
( i +1) ( )
i i ( )
( 5)
θ
期望数 :
如此形成了一次迭代 θ →θ
( i) ( i + 1)
, 将上述 E 步和 M (0) (0)
(1) P kl P kl
步进行迭代直至 ‖θ
( i + 1)
- θ ‖充分小时停止 。
( i)
n kl = nkl + m k (0) + m′
l (0)
p k・ p・l
1. 2  EM 算法在无回答问题中的应用
( k = 1 ,2 , …, K ; l = 1 ,2 , …, L ) ( 7)
在含有缺失数据的资料分析方法中 , EM 算法
杨神化 ,等 : 航海问卷调查中不完全数据的补缺方法研究 11

(0)
L
(0) (0)
K
(0) 方便的数据处理方法 。下面讨论如何以 Microsoft
式中 , P k・ = ∑p kl , P・l = ∑p kl
Excel 为背景 ,用电子表格描述和处理文献 1 中提到
l =1 k =1
(1)
执行 M 步 , 在类联表 { n kl } 下 , 求参数 pkl 的极
的数据缺失问题 。
大似然估计 : 假设变量 X1 表示船舶驾驶员职别 , 其中 X1 ∈
(1)
n kl
(1)
p kl =  ( k = 1 ,2 , …, K ; l = 1 ,2 , …, L ) ( 8) {船长 , 大副 , 二副 , 三副 } ; 变量 X2 表示驾驶员采取
n1
(1) 的避让行为 , 其中 X2 ∈{ 左让 , 右让 , 减速 , 左转减
  再执行 E 步 ,在{ p kl }下 ,求期望数 :
(1) (1) 速 ,右转减速 , 保向保速 } 。在文献 1 中 , 关于右对
(2) p kl p kl
n kl = nkl + m k (1) + m′
l (1) 右 ,两船相距 3~4 n mile , DCPA = 0. 5 n mile 对遇局
p k・ p・l
面的避让行为调查结果 ,共有 212 份完整答卷 ,另外
( k = 1 ,2 , …, K ; l = 1 ,2 , …, L ) ( 9)
(2)
还有 16 份问卷只有 X1 数据而缺失 X2 数据 ; 有 7 份
  再执行 M 步 , 在类联表 { n kl } 下 , 求参数 pkl 的
问卷只有 X2 数据而缺失 X1 数据 , 则样本的 4 3 6
极大似然估计 ( pkl 的初值设置仅影响收敛速度 , 不
阶联表和单变量表如表 4 、
表 5、
表 6 所示 。
影响收敛结果 ,故亦可取均匀分布) :
(2) 表 4  4 3 6 阶联表
(2) n kl
p kl =  ( k = 1 ,2 , …, K ; l = 1 ,2 , …, L )
n1 X 2 左转 右转 保向
左让 右让 减速
( 10) X 1
减速 减速 保速
  如 此 迭 代 进 行 , 直 到 迭 代 前 后 的 两 个 估 计 船长 7 19 1 0 1 1
( i) ( i + 1)
{ p kl }与{ p kl }间的差异达到设定的要求 。 大副 33 83 6 1 2 6
二副 10 26 2 0 1 2
2  运用电子表格方法建模和求解 三副 3 7 1 0 0 0

[8 ] [9 ]
电子表格方法 是近年来国外大学和企业推 表 5  X1 变量表
广的一种管理科学教学与应用的有效方法 , 它为管 X 1

理科学提供了一种问题描述 、 数据处理 、
模型建立与 船长 大副 二副 三副
X 2
求解的有效工具 , 使得管理科学在理论与方法上易
无回答 0 7 5 4
于被广大管理工作者理解和掌握 ; 在运筹学走向广
表 6  X2 变量表
大的管理者 、 走向实践的过程中起到桥梁的作用 。
电子表格可以在 Excel 或是其他的背景下将所需解 X 2 左转 右转 保向
左让 右让 减速
决的问题进行描述与展开 ,然后建立数学模型 ,并用 X 1
减速 减速 保速
Excel 的命令与功能进行预测 、
决策 、
模拟 、
优化等运
职务
算与分析 。 不清
3 2 0 0 1 1

在实际工作中 , 管理人员在处理不完全问卷调
查数据时 ,基于 EM 算法往往要进行繁琐的分析 、
计   在电子表格上运用 EM 算法处理数据缺失问题
算和编程工作 , 使用效果不尽如人意 。为了提高工 的基本步骤如下 :
作效率和实用性 ,在应用 EM 算法处理问卷调查中 , 首先在电子表格中进行问题的描述 。如图 1 所
由于无回答所造成的数据缺失问题中引入电子表格 示 ,用地址为 A2 : H7 的单元格描述完整数据 、I2 : P5
建模与求解方法 , 为实践管理人员提供一种实用且 与 R2 : T7 的单元格分别描述缺失数据 。

图 1  数据缺失问题的描述
12         中  国  航  海 2006 年第 1 期

  然后在电子表格中建立模型 。根据 1. 2 中描述 行分别表示 { nkl } 第 1 ~ 10 步的迭代值 ; 取 AA12 :


的数学模型 , 取 n = 235 , n1 = 212 , n2 = 16 , n3 = 7 , AX24 单元格描述 M 步算法 ,其中 AA13~AX13 单元
K = 4 , L = 6 。如图 2 、
图 3 ,在电子表格中建立数学 格分别表示 pkl ( k = 1 ,2 ,3 ,4 ; l = 1 ,2 , …,6 ) ,AA14 :
模型 : 取 A12 : Z24 单元格描述 E 步算法 ,其中 B13~ AX14 单元格分别表示 { pkl } 的初值 , 设定 { pkl } 的初
Y13 单元格分别表示 nkl ( k = 1 ,2 ,3 ,4 ; l = 1 ,2 , …, 值由 B10 单元格服从均匀分布的 θ 变量给定 ,15 ~
6) ,B14 : Y14 单元格分别表示 { nkl } 的初值 ,15 ~ 24 24 行分别表示{ pkl } 第 1~10 步的迭代值 ;

图 2  EM 算法模型图 ( 一)

图 3  EM 算法模型图 ( 二)

  第三步根据上述模型在 B15 :AX15 单元格中输 差异达到设定的要求 。{ pkl } 的初值由 θ变量给定 ,


入相应 的 数 学 公 式 , 其 中 在 单 元 格 B10 输 入“ = 因此可以通过使用“F9 ”键改变 { pkl } 的初值 , 进而研
用于产生在 ( 0 ,1) 区间上均匀分布的 θ 变
RAND () ” 究{ pkl }的收敛情况 。
量 ,进 行 EM 算 法 的 第 一 步 迭 代 , 之 后 便 可 利 用 通过上述迭代运算 , 可以得到 { pkl } 收敛于表 7
[10 ]
Excel 的公式自动填充功能 进行 EM 算法的迭代 中完整样本行的数值 , 它与通过 212 个数据样本统
( i) ( i + 1)
计算 ,直到迭代前后的两个估计 { p kl 与 { p kl 间的 [1 ]
计得到的数值 存在着一定的差别 。
表 7  模型运算结果比较( %)

左让 右让 减速 左转减速 右转减速 保向保速

缺失部分样本 25. 0 63. 7 4. 7 0. 5 1. 9 4. 2

完整样本 25. 6 62. 5 4. 6 0. 4 2. 2 4. 5

差值 0. 6 1. 2 0. 1 0. 1 0. 3 0. 3

便于实际工作人员的理解与应用 , 同时也扩大了统
3  结  语 计样本的数量 ,提高了统计结果的准确度 ,因此它特
应用电子表格方法将问题展开 ,具有直观 、
容易 别适用于航海等诸多开展问卷调查及其回收工作较
理解的优点 。使用电子表格法对应用期望极值算法 为困难的领域 ,减少无回答样本对统计结果的影响 。
处理航海问卷调查中无回答样本问题进行描述与建
模 ,由于它避免了许多繁杂的数学符号与运算 ,特别 ( 下转第 25 页)
赵庆爱 : 从船长的角度说洋山 25

4) 起锚后报告 ; 山港码头对穿梭巴士 、 驳船上的中转特危允许 72 h


5) 进航道前报告 ; 堆存 ,普危 7 d 。本地危险品箱可以直装直卸 , 但是
2. 海监巡逻艇 ( 护航) : CH13 集卡车队必须取得东海大桥管理处的确认 , 在规定
船在槽内航行时 ,在穿越金山水道时 ,有海监巡 时间内通过 。
逻艇护航 , 该护航任务由洋山交管中心直接指派 。 3. 空箱不提供门到门服务 , 进口空箱转到芦潮
巡逻艇接受任务后 ,会在 VHF CH13 呼叫船名 ,相互 港堆场 。
沟通 。船方对南下 、北上的相关船舶应使用 ARPA 4. 大件作业 。桥吊和码头轮胎吊负荷 60 t , 超
捕捉 ,因为除了本船需要较精确的数据外 ,巡逻艇有 重的要向码头申请 ( 含分体作业 ) , 东海大桥的负荷
时也会向船方询问有关船舶是否能通过船头 , 是否 未定 ,但是由于有隧道 , 限高 5. 5 m 。如果经海泊中
需要驱赶 ,等等 。 转的大件 ,要提前申请 。
3. 引航站 :CH63 5. 目前上海港欧洲靠泊密度为“2222024222126 ”
洋山港引航站以及协助靠离作业的拖轮使用频 ( 周一到周日的每天班次 ,以开航日计算)
率为 CH63 。船舶与引航调度及引航员联系均在此
频道 。
11  结  语
  洋山港是一个全新的港口 ,也是一个正在建造 、
10  有关洋山深水港的其他情况简介 发展中的港口 。上述介绍只能是初步的 。随着经验
  1. 由于盛东公司操作人员主要来自外二期 , 因 的积累 ,随着港口建设的进展 , 随着管理的完善 , 一
此 ,操作方面主要沿用外二期做法 。由于码头场地 定还会有很多的变化 。要保证船舶与港口的安全 ,
有限 ,对出口箱连靠带离免费堆存 5 d 。 应与时俱进 ,注意了解新的情况和变化 。
2. 危险品操作规定尚未作最后确定 , 可能是洋

( 上接第 12 页)
Chains and Their Applications [J ] . Biometrika , 1970 , 57 :
参 考 文 献 72 ,972109.
[ 1 ]  方泉根 ,胡甚平 . 船舶能见度不良时近距离避让行为 [ 6 ]  Meng X L ,Rubin D B. Maximum Likelihood Estimation via
问卷调查与分析 [J ] . 上海海运学院学报 ,1999 ,20 ( 2) : the ECM Algorithm : A General Framework[J ] . Biometrika ,
62268. 1993 ,80 :2672276.
[ 2 ]  Dempster A P ,Laird N M ,Rubin D B. Maximum Likelihood [ 7 ]  Sebastian P , Ramoni M. Bayesian Inference with Missing
from Incompelte Data via the EM Algorithm [ J ] . J R Data Using Bound and Collapse [ J ] . Journal of

Statistical Soc ,1977 ,B39 :1238. Computational and Graphical Statistics , 2000 , 9 ( 4 ) : 7792
[ 3 ]  Geman S , Geman D. Stochastic relaxation , Gibbs Distribution 800.
and the Bayesian Restoration of Images[J ] . IEEE Trans on [ 8 ]  Wayne L. Winston , S. Christian , Albright. Practical
Pattern Analysis and Machine Intelligence , 1984 , 6 : 7212 Management Science : Spreadsheet Modeling and

741. Applications[M] . Wadsworth Publishing Company ,1997.


[ 4 ]  Metropolis N , Rosenbluth A W , Rosenbluth M N , et al. [ 9 ]  丁以中 . 在管理科学教学中运用 Spreadsheet 教学法的

Equation of State Calculations by Fast Computing Machines 探讨 [J ] . 上海海运学院学报 ,2002 ,23 (1) :76~81.
[J ] . J Chemical Physics ,1953 ,21 :108721092. [10 ]  宇传华 . Excel 与数据分析 [ M ] . 北京 : 电子工业出版

[ 5 ]  Hasting W K. Monte Carlo Sampling Methods Using Markov 社 ,2002.

You might also like