Professional Documents
Culture Documents
2005
第 42 卷第 5 期 Journal of Sichuan Universi ty (Nat ural Science Edition) Vol .
42 No .5
文章编号 :
0490-6756(2005)05-0931-06
基于基因表达式编程的股票指数时间序列分析
1 1 1,2 1 1
廖 勇 , 唐常杰 , 元昌安 , 陈安龙 , 段 磊
(1.
四川大学计算机学院 , 成都 610064;
2.广西师范学院信息技术系 , 南宁 530001)
摘要 :基因表达式编程(
GEP)是遗传算法研究的新分支 .针对股票对象的特点 , 提出了适应股
票规律的 GEP-ST OCK 模型 , 包括 n 时段-STOCK-GENE , ST OCK-fi tness 以及 S TOCK-GEP
算法 , 并以上海证券交易指数时间序列数据为对象做了实验 .进行了误差和指数涨跌分析 .
实验结果表明 GEP-STOCK 模型预测精度较高 , 20d 的平均绝对误差为 11 .
08 , 平均相对误差
为 0.
64 %.从涨跌情况预测来看 , 模型对 6d 后指数的涨跌判断 , 正确率高于 80 %以上 .
关键词 :
数据挖掘 ; 基因表达式编程 ;
时间序列 ;
股票数据
中图分类号 :
T P311 文献标识码 :
A
1 引言
数据预测在金融投资领域占有重要地位 , 而股票价格是金融数据中最复杂的数据类型之一 .经济学
家一直致力于研究股票市场价格的变化 , 希望能从中找出一些规律 , 避免诸如大的股市波动 , 从而保持经
济繁荣稳定 .股票市场是一个复杂的非线性动力系统 , 同时受多种因素的交互影响 , 对于股票未来价格的
精确预测是非常困难的 .股市预测被认为是当前时间序列预测中最富挑战性的应用之一 , 受到数据挖掘
界的广泛关注[ 1] .股票价格涨跌数据是一种时间序列数据 , 它既具有一定的趋势性又具有较大随机性 .
自 19 世纪股票市场建立以来 , 股票价格预测模型就成为各国学者研究的焦点 .在时间序列预测中 , 线形
的概率统计模型曾得到广泛的应用 , 如 :
ARMA 模型法 、AR 模型法 、阈值自回归 、多项式自回归 、指数自回
归模型等 , 后来还有灰色预测 、混沌时间序列预测等方法 .近年来 , 神经网络方法成为最热点的研究之一 ,
但随着人工神经网络研究的深入 , 人们认识到它存在的严重不足 , 在原理上缺乏实质性的突破 , 同时也缺
乏理论依据[ 2 , 3] .
基因表达式编程 GEP(Gene Expression P rogram ming)是遗传计算家族的新成员 , 具有极强的函数发
[ 4]
现能力和很高的效率 .文[ 5 ~ 8] 中 , 对 GEP 算法在效率上进行了改进 , 并应用改进的算法对太阳黑子
数据进行时间序列分析 , 通过把预测结果与传统的 5 种时间序列分析方法(TAR , 叠合(带趋势 、不带趋
势), ARMA , AR)进行比较 , 可以看出 GEP 预测结果的平均绝对误差和最大绝对误差均为最小 .
我们针对股票对象的特点 , 提出了适应股票规律的 GEP-STOCK 模型 , 包括 n 时段-ST OCK-GENE ,
S TOCK-fitness 以及 ST OCK-GEP 算法 , 并以上证指数时间序列数据为对象做了实验 .应用 STOCK-GEP
算法对 2003 年的上证指数进行了时间序列分析 , 挖掘出历史数据为 13d 的时间序列模型 , 利用该模型对
2004 年 4 月份的上证指数进行预测 , 取得了较高的精度 .另外 , 利用该模型对指数的升降情况进行预测 ,
对 6d 后升降情况的判断准确率达 80 %以上 .
2 G EP 简介
2.
1 GEP 的基本概念
收稿日期 :
2004-12-30
基金项目 :
国家自然科学基金(60473071), 973 计划项目(2002CB111504), 博士点基金(20020610007)
作者简介 :
廖勇(1968 -), 男 , 2002 级硕士研究生
932 自然科学版) 第 42 卷
四川大学学报(
3 G EP- STOC K 模型
3.
1 GEP-S TOCK 中的概念
设计 STOCK-GEP 算法涉及到两个最重要的概念是 :
基因和适应度函数 , GEP-S TOCK 模型是要针
对历史时间的数据对股票指数进行预测 , 另外 , 我们对股票指数具有一定的先验知识 .针对以上特点 , 下
面在文[ 4] 中相应概念的基础上 , 给出 STOCK-gene 和 STOCK-fit ness 两个概念 .
定义 1(ST OCK-GEP 中的基因 :
n 时段-STOCK-GENE) 设函数集 F ={+, -, *,/ }, 终端变量集
T ={d 0 , d 1 , …, d n -1}, 其中 n 表示股票历史数据跨度天数 .按照文[ 4] 的规则和符号建立的基因称为 n
时段-ST OCK-GENE , 其中 ST OCK-Gene 的头由 F 和 T 中的元素组成 , 尾由 T 中元素组成 .利用对股票
第 5 期 廖勇等 :
基于基因表达式编程的股票指数时间序列分析 933
fi = ∑(K
j =1
-|P ij -T j |) (1)
∑(yj -yj ) , y 为变量y 关于函数 g 的估计值 , 称 SSE 为残差平方和 ;SST = ∑(yj -y) ,
2 2
式中 , SSE =
j =1 j =1
4.
2 误差分析
利用式(2), 我们给出训练数据和测试数据的真实数据与模型数据的曲线比较图 , 见图 2 和图 3 .
图 2 上证指 数部分训练数据真实值与模型值比较曲线图
Fig .
2 Comparison between the values of training data and the values of model
图 3 上证指 数部分测试数据真实值与模型值比较曲线图
Fig .
3 Comparison betw een the values o f test data and the values of model
限于篇幅 , 我们只列出 2004 年 4 月 1 日至 28 日 20 个交易日上证指数实际指数与预测指数比较表
(表 2).20d 的平均绝对误差为 11 .
08 , 平均相对误差为 0 .
64 %.由此可以看出 , 该模型具有高的预测精
度.
4.
3 指数涨跌分析
由于股票指数随机因数太大 , 因此 , 精确预测几乎是不可能的 .而人们往往更关心若干天后指数的涨
跌情况 .为此 , 我们利用(2)式 , 对股票在若干天后的涨跌情况进行了预测 , 并与实际涨跌情况进行了比
较 .我们选取了从 2004 年 1 月 2 日开始共 160 个交易日的数据进行分析 .分别判断了 1 ~ 40d 后 , 上证指
第 5 期 廖勇等 :
基于基因表达式编程的股票指数时间序列分析 935
表 3 上证指数涨跌模型
T ab.
3 T he model of fluctuation of the index of Shang hai stock exchange
判断 正确 判断 正确 判断 正确 判断 正确
正确 率 正确率 正确率 正确率
天数 次数 天数 次数 天数 次数 天数 次数
1 86 .
538 11 138 .
863 21 148 .
925 31 155 .
969
2 113 .
706 12 142 .
888 22 150 .
938 32 154 .
963
3 119 .
744 13 143 .
894 23 151 .
944 33 153 .
956
4 121 .
756 14 142 .
888 24 147 .
919 34 155 .
969
5 127 .
794 15 143 .
894 25 150 .
938 35 157 .
981
6 131 .
819 16 144 .
900 26 154 .
963 36 156 .
975
7 130 .
813 17 143 .
894 27 153 .
956 37 153 .
956
8 132 .
825 18 148 .
925 28 154 .
963 38 155 .
969
9 135 .
844 19 149 .
931 29 152 .
950 39 152 .
950
10 133 .
831 20 147 .
912 30 155 .
969 40 154 .
962
5 总结
以上针对股 票对象的特点 , 提出了适 应股票 特殊规律 的基因表 达式编程 模型 GEP-S TOCK , 包 括
S TOCK-GENE , ST OCK-fi tness , 利用 GEP-ST OCK 模型方法对股票上证指数进行了时间序列分析 , 并根
据所得模型进行了误差分析和指数涨跌情况分析 .20d 的平 均绝对误差为 11 .
08 , 平均相对 误差为 0 .
64 %.说明模型的预测精度较高 .从涨跌情况预测来看 , 模型对 6d 后指数的涨跌判断 , 正确率达 80 %以
936 自然科学版) 第 42 卷
四川大学学报(
参考文献 :
[ 1] Lu H , Han J, Feng L .Stock Mo vement and N-Dimensional I nter-T ransactio n Asso ciation Rules , Proc .of 1998 SIG M OD
Wo rkshop on Research Issues on Data M ining and K nowledge Discovery (DM K D' 98)[ J] .Seattle , W ashing ton , 1998 , 12 :
1 -12 :
7.
[ 2] 李元诚 , 方廷健 .基于粗糙集理论的支撑向量机预测方法 研究[ J] .数据采 集与处理 , 2003 , 18(2):199 -203 .
[ 3] V apnik V N .T he nature of statistical learning theory[ M] .New York :Springer , 1995 .12-38 .
[ 4] Candida Ferreira.Gene Expression P rogramming :A N ew A daptive Algo rithem fo r Solving Problems[ J] .Complex Sy stems ,
2001 , 13(2):87-129 .
[ 5] Zuo Jie , T ang Chang jie , Li Chuan , et al .Time Series P rediction based on G ene Expression Prog ramming , WA IM 04 (In-
ternational Conference for Web I nformation Age 2004).LN CS (Lecture No tes In Computer science) Vol.3129[ M] .
Berling Heidelberg :Spring er Verlag , 2004 .
[ 6] 元昌安 , 唐常杰 , 左 吉力 , 等 .
基于基因表达式编程的函数挖 掘-收敛性 分析与 残差制导 进化算 法[ J] .四川大 学学报(工
程科学版), 1004 , 36(6):
100 -105 .
[ 7] 段磊 , 唐常杰 , 左 吉力 , 等 .
基于 基因 表达 式编程 的抗 噪声数 据的 函数 挖掘方 法[ J] .
计 算机研 究与 发展 , 2004 , 41(10):
1684 -1689 .
[ 8] 唐常杰 , 张天庆 , 左 吉力 , 等 .
基于基因表达式编程的知识发现 — 沿革 、成果和发展方向 , 2004, 24(10):
7-10.