Professional Documents
Culture Documents
2006
总第 66 期 NAVIGATION OF CHINA Serial No. 66
航海问卷调查中不完全数据的补缺方法研究
1 ,2 1 1
杨神化 , 应士君 , 施朝健
( 1. 上海海事大学 ,上海 200135 ;2. 集美大学 ,福建 厦门 361021)
( 1. Shanghai Maritime University , Shanghai 200135 , China ; 2. Jimei University , Xiamen 361021 , China)
Abstract : The application of EM( Expectation Maximization) algorithm in the statistics of incomplete data is studied , which can
enlarge the volume of statistical samples so as to avoid the difficulty of statistics and analysis resulted from questionnaire data
missing in navigation research , and further to improve the precision of parameter estimation. The Spreadsheet method is used for
describing and modeling an example and then for obtaining solution to avoid cockamamie calculation and complex programming. It
provides a convenient and effective data processing method for marine managers and workers.
Key words : Waterway tranportation ; Navigation ; Questionnaire ; EM Algorithm ; Data Missing ; Replenish
收稿日期 :2005211220
基金项目 : 福建省自然科学基金资助项目 (A0410023)
作者简介 : 杨神化 (19762) ,男 ,福建厦门人 ,博士生 ,讲师 ,主要研究方向为航海智能与仿真技术 。
10 中 国 航 海 2006 年第 1 期
基于上述概率密度函数 , 定义完全数据的似然
函数为 :
L (θ| Z) = L (θ| X , Y) ƒ p ( X , Y | θ) ( 2)
因为 Y 是未知 、随机的 ,假定其服从某种分布 ,
而 X 和θ是常量 ,可见 L (θ| Z ) 实际上是一个随机 表 2 X1 变量表
变量 ,因此我们可以假设 :
L (θ| Z) = L (θ| X , Y) = hΧ ,θ ( Y) ( 3)
于是 EM 算法如下进行 , 记 θ 为第 i + 1 次迭
( i)
∫
= log[ p ( X , Y | θ) ] p ( Y | θ , X ) d Y 的估计时 ,可先设定 pkl 的初值 :
i ( )
(0) nkl
( 4) p kl = ( k = 1 ,2 , …, K ; l = 1 ,2 , …, L )
n1
M 步 : 将 Q (θ,θ ) 极大化 , 即找到一个点 θ
i ( ) i + 1) (
,使
( 6)
得 (0)
执行 E 步 , 在 n 个样本资料和参数 { p kl } 下求
Q (θ ,θ ) = maxQ (θ,θ )
( i +1) ( )
i i ( )
( 5)
θ
期望数 :
如此形成了一次迭代 θ →θ
( i) ( i + 1)
, 将上述 E 步和 M (0) (0)
(1) P kl P kl
步进行迭代直至 ‖θ
( i + 1)
- θ ‖充分小时停止 。
( i)
n kl = nkl + m k (0) + m′
l (0)
p k・ p・l
1. 2 EM 算法在无回答问题中的应用
( k = 1 ,2 , …, K ; l = 1 ,2 , …, L ) ( 7)
在含有缺失数据的资料分析方法中 , EM 算法
杨神化 ,等 : 航海问卷调查中不完全数据的补缺方法研究 11
(0)
L
(0) (0)
K
(0) 方便的数据处理方法 。下面讨论如何以 Microsoft
式中 , P k・ = ∑p kl , P・l = ∑p kl
Excel 为背景 ,用电子表格描述和处理文献 1 中提到
l =1 k =1
(1)
执行 M 步 , 在类联表 { n kl } 下 , 求参数 pkl 的极
的数据缺失问题 。
大似然估计 : 假设变量 X1 表示船舶驾驶员职别 , 其中 X1 ∈
(1)
n kl
(1)
p kl = ( k = 1 ,2 , …, K ; l = 1 ,2 , …, L ) ( 8) {船长 , 大副 , 二副 , 三副 } ; 变量 X2 表示驾驶员采取
n1
(1) 的避让行为 , 其中 X2 ∈{ 左让 , 右让 , 减速 , 左转减
再执行 E 步 ,在{ p kl }下 ,求期望数 :
(1) (1) 速 ,右转减速 , 保向保速 } 。在文献 1 中 , 关于右对
(2) p kl p kl
n kl = nkl + m k (1) + m′
l (1) 右 ,两船相距 3~4 n mile , DCPA = 0. 5 n mile 对遇局
p k・ p・l
面的避让行为调查结果 ,共有 212 份完整答卷 ,另外
( k = 1 ,2 , …, K ; l = 1 ,2 , …, L ) ( 9)
(2)
还有 16 份问卷只有 X1 数据而缺失 X2 数据 ; 有 7 份
再执行 M 步 , 在类联表 { n kl } 下 , 求参数 pkl 的
问卷只有 X2 数据而缺失 X1 数据 , 则样本的 4 3 6
极大似然估计 ( pkl 的初值设置仅影响收敛速度 , 不
阶联表和单变量表如表 4 、
表 5、
表 6 所示 。
影响收敛结果 ,故亦可取均匀分布) :
(2) 表 4 4 3 6 阶联表
(2) n kl
p kl = ( k = 1 ,2 , …, K ; l = 1 ,2 , …, L )
n1 X 2 左转 右转 保向
左让 右让 减速
( 10) X 1
减速 减速 保速
如 此 迭 代 进 行 , 直 到 迭 代 前 后 的 两 个 估 计 船长 7 19 1 0 1 1
( i) ( i + 1)
{ p kl }与{ p kl }间的差异达到设定的要求 。 大副 33 83 6 1 2 6
二副 10 26 2 0 1 2
2 运用电子表格方法建模和求解 三副 3 7 1 0 0 0
[8 ] [9 ]
电子表格方法 是近年来国外大学和企业推 表 5 X1 变量表
广的一种管理科学教学与应用的有效方法 , 它为管 X 1
理科学提供了一种问题描述 、 数据处理 、
模型建立与 船长 大副 二副 三副
X 2
求解的有效工具 , 使得管理科学在理论与方法上易
无回答 0 7 5 4
于被广大管理工作者理解和掌握 ; 在运筹学走向广
表 6 X2 变量表
大的管理者 、 走向实践的过程中起到桥梁的作用 。
电子表格可以在 Excel 或是其他的背景下将所需解 X 2 左转 右转 保向
左让 右让 减速
决的问题进行描述与展开 ,然后建立数学模型 ,并用 X 1
减速 减速 保速
Excel 的命令与功能进行预测 、
决策 、
模拟 、
优化等运
职务
算与分析 。 不清
3 2 0 0 1 1
在实际工作中 , 管理人员在处理不完全问卷调
查数据时 ,基于 EM 算法往往要进行繁琐的分析 、
计 在电子表格上运用 EM 算法处理数据缺失问题
算和编程工作 , 使用效果不尽如人意 。为了提高工 的基本步骤如下 :
作效率和实用性 ,在应用 EM 算法处理问卷调查中 , 首先在电子表格中进行问题的描述 。如图 1 所
由于无回答所造成的数据缺失问题中引入电子表格 示 ,用地址为 A2 : H7 的单元格描述完整数据 、I2 : P5
建模与求解方法 , 为实践管理人员提供一种实用且 与 R2 : T7 的单元格分别描述缺失数据 。
图 1 数据缺失问题的描述
12 中 国 航 海 2006 年第 1 期
图 2 EM 算法模型图 ( 一)
图 3 EM 算法模型图 ( 二)
差值 0. 6 1. 2 0. 1 0. 1 0. 3 0. 3
便于实际工作人员的理解与应用 , 同时也扩大了统
3 结 语 计样本的数量 ,提高了统计结果的准确度 ,因此它特
应用电子表格方法将问题展开 ,具有直观 、
容易 别适用于航海等诸多开展问卷调查及其回收工作较
理解的优点 。使用电子表格法对应用期望极值算法 为困难的领域 ,减少无回答样本对统计结果的影响 。
处理航海问卷调查中无回答样本问题进行描述与建
模 ,由于它避免了许多繁杂的数学符号与运算 ,特别 ( 下转第 25 页)
赵庆爱 : 从船长的角度说洋山 25
( 上接第 12 页)
Chains and Their Applications [J ] . Biometrika , 1970 , 57 :
参 考 文 献 72 ,972109.
[ 1 ] 方泉根 ,胡甚平 . 船舶能见度不良时近距离避让行为 [ 6 ] Meng X L ,Rubin D B. Maximum Likelihood Estimation via
问卷调查与分析 [J ] . 上海海运学院学报 ,1999 ,20 ( 2) : the ECM Algorithm : A General Framework[J ] . Biometrika ,
62268. 1993 ,80 :2672276.
[ 2 ] Dempster A P ,Laird N M ,Rubin D B. Maximum Likelihood [ 7 ] Sebastian P , Ramoni M. Bayesian Inference with Missing
from Incompelte Data via the EM Algorithm [ J ] . J R Data Using Bound and Collapse [ J ] . Journal of
Statistical Soc ,1977 ,B39 :1238. Computational and Graphical Statistics , 2000 , 9 ( 4 ) : 7792
[ 3 ] Geman S , Geman D. Stochastic relaxation , Gibbs Distribution 800.
and the Bayesian Restoration of Images[J ] . IEEE Trans on [ 8 ] Wayne L. Winston , S. Christian , Albright. Practical
Pattern Analysis and Machine Intelligence , 1984 , 6 : 7212 Management Science : Spreadsheet Modeling and
Equation of State Calculations by Fast Computing Machines 探讨 [J ] . 上海海运学院学报 ,2002 ,23 (1) :76~81.
[J ] . J Chemical Physics ,1953 ,21 :108721092. [10 ] 宇传华 . Excel 与数据分析 [ M ] . 北京 : 电子工业出版