相空间是指反映系统嵌入维的向量空间,将时间序列中的点序列根据嵌入维转换成相空间中的点,这些点组成的轨迹就是反映系统规律的吸引子

来源: 2010-10-13 12:30:05 [博客] [旧帖] [给我悄悄话] 本文已被阅读:

http://hi.baidu.com/solarapollo/blog/item/bc50405db2b3e949faf2c076.html

基于相空间重构理论与递归神经网络相结合的股票短期预测方法2009-11-19 01:15  摘要:根据股票指数时间序列复杂的非线性特性,提出以相空间重构理论与递归神经网络相结合的股票短期预测新方法。以相空间重构理论确定最佳延迟时间和最小嵌入维数,以最佳延迟时间为间隔的最小嵌入维数作为递归神经网络的输入维数,并按预测相点步进递归的生成训练数据进行短期预测,提高了预测精度和稳定性。该方法应用于沪市股票综合指数预测,其结果与传统的单纯用BP网络模型预测的结果相比较,精度大大提高,证明了该预测模型和方法在实际时间序列预测领域的有效性和实用性。   

0、引言      

以股票指数为代表的金融时间序列变化有很强的非线性特性,其变化往往带有混沌的特点。长期以来一直用随机或统计的方法,如随机行走理论认为股价的波动完全是随机的,毫无规律可循的,是一种不可测的随机噪声。这种观点过分地夸大局部性、微观性的价格随机波动,否定价格变化过程中的过去、现在及将来的相关性。另外时间序列分析的传统方法,如ARIMA(AutoRegressive Integrated Moving Average) 等,都要求时间序列具有正态分布、全局平稳、残差互不相关的特点,但实际的股票价格时间序列往往是带有非线性的、非平稳、不规则和混沌的特性,这使得传统的统计学方法在时间序列的实际应用中很难准确地进行分析和预测。   股票价格指数主要是受内、外两类随机因素影响。内在随机因素主要由系统内部的不确定非线性因素影响;外在的随机因素主要由国家政策、重大事件等因素影响。外在的随机因素从技术上讲根本不可能预测,而从内在因素上讲,股票价格指数序列是非线性时间序列,并已证明它存在混沌特性行为。混沌理论纠正了股票价格指数时间序列由于内部非线性作用而产生了某种类似随机现象的错觉,实质是确定性的混沌动力学行为;相空间重构则是来自于混沌动力学的一种预测方法。混沌理论和相空间重构理论为股票价格指数的预测研究开辟了新的思路,是本文研究的理论依据。   

人工神经网络具有分布处理、自组织、自适应、自学习和容错性的优良特性,能较好地处理类似于股价预测等多因素、不确定、非线性的时间序列预测问题。20世纪90年代以来,随着神经网络在模式识别和模糊控制方面获得的巨大成功,其基本理论已趋于成熟,并在股票预测中得到广泛的研究与应用。但在实际应用中,单纯地应用神经网络预测时间序列仍然存在一些有待继续解决的问题,如训练样本的选择、网络结构的确定、算法的改进以及网络推广能力等方面。   

本文依据股票价格指数序列的混沌特性提出基于相空间重构理论与递归神经网络相结合的预测模型进行股票价格的短期预测研究。利用混沌特性处理样本及确定神经网络的网络结构,用神经网络映射混沌相空间相点演化的非线性关系。该模型的特点是:神经网络输入维数m按照相空间重构理论的饱和嵌入维数确定;利用欧氏距离法选择预测相点的K个最近邻相点构成训练样本集;训练样本集是根据给定股票指数序列空间按预测相点依次步进生成,使神经网络具有递归性和动态性。因此所给出的预测方法能增强预测模型对系统混沌动力学的联想和泛化推理能力,实现系统的总体寻优性。依据沪市股票综合指数资料,由预测结果和性能分析证实所提出方法能有效地、稳定地提高预测精度,且有较强的适应能力。      

1、相空间重构理论      

相空间是指反映系统嵌入维的向量空间,将时间序列中的点序列根据嵌入维转换成相空间中的点,这些点组成的轨迹就是反映系统规律的吸引子。这里的嵌入维是指能够完全包容以状态转移构成的吸引子的最小维数,即吸引子在该空间中没有过分的交叠。相空间重构的提出初衷是试图在高维相空间中恢复混沌吸引子。混沌吸引子是混沌系统的特征之一,混沌系统是由确定规律产生极复杂轨迹的系统,混沌轨迹的复杂性使得微小的初始差别会随时间的推移不断扩大,以至无法直接把握。而混沌吸引子体现着混沌系统的规律性,意味着混沌系统最终会落入特定轨迹之中,此特定的轨迹就是混沌吸引子,可以通过展开和折叠进行混合。相空间重构理论认为系统中任一分量的演化都是由与之相互作用的其他分量决定,因此,每个分量的演化过程中都隐含着系统的全部信息。当重构一个状态空间时,只需考虑一个分量,并将它在某些固定时间的延迟点作为新维处理。   

重构相空间Rm 中向量(空间点)Xt ,t=1,2,…,N,表示为   式中,τ为延迟时间,m为嵌入维数。Takens提出的嵌入定理证明,只要嵌入维数足够大,即使延迟坐标的维数m≥2d 1(d是原动力系统相空间的维数),在该嵌入维空间里可把有规律的轨道(吸引子)恢复出来,即在重构的Rm空间中的轨道上与原动力系统保持微分同胚,与原吸引子的拓扑结构完全相同,即拓扑等价。这时重构的相空间具有与实际的动力系统相同的几何性质与信息性质,却不依赖于重构过程的具体细节。这为混沌时间序列的预测算法奠定了理论基础,使得沿时间轴排列的一维时间序列可以通过重构相空间的方式恢复吸引子,而所得的吸引子能够反映混沌系统的特征。按Takens嵌入维数的要求重构相空间可确保系统的轨道不交叉,即处在混沌吸引子外的任一状态,都与其近邻状态点有着共同的运动状态,处在吸引子内的任一状态点,与其近邻状态点也都保持在该吸引子域内并形成分形结构的运动趋势。因此,通过找出预测相点的最近邻相点同向变化的状态(即多个状态点组成)与其后续时间序列的函数关系,就可以近似替代预测相点与其后续时间序列的函数关系来实现预测,即对于时间序列x1,x2,…,xN,如果能够适当选取嵌入空间维数m和延时常数τ,那么就可以重构相空间,得到系统输出为   

重构相空间技术的关键在于正确地选取嵌入空间维数m和延时常数τ。m太小,不足以展示复杂行为的细致结构;m太大,则会使计算工作大大复杂化,同时随之而引起的噪声的影响将不可忽视。因此,选择一个恰当的嵌入维数使吸引子能完全打开又不引起过多的噪声,就显得十分必要。      

1.1、最佳延迟时间的确定方法   

从理论上说, 当数据点数无限时, 嵌入的效果与τ无关, Takens定理并无对τ的要求, 但实际重建时,τ的影响极大。τ太小,吸引子不能充分展开, 冗余误差(Redundance Error)大;τ太大,则不相关误差(Irrelevence Error)大。   在实际应用中主要有两种方法选取最佳延迟时间τ,即线性自相关函数法(Autocorrelation Method)和互信息法(Mutual Information)。但用自相关函数首次过0点的方法来确定最佳的τ,事实证明这不适用于非线性系统。而互信息法表达式如下:   M(Xt,Xt-τ)=∑i,jPij(r) ln [Pij(r)/(PiPj)](3)   其中,pi为点Xt在第i个时间间隔中的概率;pij(r)为点Xt在t时刻落入第i个时间间隔和在t τ时刻落入第j个时间间隔的联合概率。为了简化计算,随着τ的增加,互信息法将式(3)第一次达到最小值时的τ*作为最佳延迟时间τ。根据文献,由于互信息法考虑了非线性相关,比线性自相关函数法效果好,本文即采用互信息法确定最佳延迟时间τ。   

1.2、最小嵌入维数m的确定方法   

关于嵌入维数m的选取,Kennel[8]提出的伪邻近点(False Nearest Neighbors,FNN)方法是一种比较常用的方法。设d为吸引子的维数,为刚好使吸引子完全打开的最小嵌入维数,当m  已知相空间中的任一点X(t),由式(1)可知:   其最近邻点XN(t):   式(2)和(3)中的t和t′分别为吸引子在相空间轨道上不同的参考点。当嵌入维数为m时,X(t)和XN(t)两点间的欧几里德距离为   伪邻近点判据ρm的意义评述为:在m 1维重构相空间中,X(t)与XN(t)之间的距离比X(t 1)与X(t)之间的距离大于某一值,则认为m维重构相空间中的XN(t)中的是伪邻点。所以ρm是阈值参数。   根据此判据,计算m由小变大时的伪最近邻数N;再计算嵌入维数从m到m 1时N的变化量△N;做△N/N~m的曲线。当△N=0时,即在△N/N刚降为零(此时吸引子完全被打开)时,m的值m*就是所求的最小嵌入维数。

2、人工神经网络预测原理      

人工神经网络(Artificial Neural Network,ANN)作为一种非线性的动力系统,它是一种模拟生物大脑的结构和功能而建立起来的对客观事物进行科学研究的新方法。它是由大量神经元通过不同的连接权值广泛互连而成的多层复杂网络系统。它建立起的数学模型能更清晰地逼近输入与输出之间的映射关系,克服常规回归方法处理非线性问题时的缺点。其本质是用神经网络的隐式来表达输入与输出的函数关系,将所构造样本集代入网络进行训练,建立从输入到输出之间的非线性的映射关系,训练完毕后得到预测的神经网络模型,并将“知识信息”储存在连接权上。人工神经网络无须人们预先给定公式,只在已知的有限实验数据基础上,经过反复迭代计算,不断修正与目标值的差异而获得反映实验数据内在规律的数学模型。因此它特别适合研究复杂非线性问题。      

3、基于相空间重构和递归神经网络相结合的预测方法      

由于相空间重构和神经网络在处理复杂系统上的有效性,以及相空间重构所提出来的非线性映射可以通过神经网络自学习、自适应等特点来计算模拟,本文提出了将两者相结合,以发挥它们在处理股票指数时间序列这种复杂非线性问题上的有效性和互补性。   根据相点与其后续时间序列的函数关系式y(t τ)=f[x(t),x(t-τ),x(t-2τ),…,x(t-(m-1)τ)],构造预测网络模型结构如图1所示,输入维数由第1.2节中计算得出的最小嵌入维数m决定,每个输入维之间延时τ,即将x(t),x(t-τ),…,x[t-(m-1)τ]作为神经网络的输入;隐层节点数根据文献[10]中网络模型的改进方法来确定;输出层含一个节点,即为预测时间点的预测值。预测等价于由重构的m空间到一维空间的映射,由于输入层由相空间重构理论的相点依次按τ步进生成,使得模型具有递归性,能增强预测模型对非线性系统的泛化推理能力,因此能实质性地提高预测精度。   

具体步骤如下:   

(1)对股票历史数据进行预处理;   

(2)根据相空间重构理论计算最小嵌入维数m和最佳延迟时间,重构相空间;   

(3)由步骤(2)得到的m选择神经网络输入层节点个数,决定节点之间的输入数据的延时,构造BP神经网络预测模型;   

(4)从原始数据中选择部分训练数据输入进行网络训练,直到训练达到要求为止,记录此时的网络参数,若不满足训练目标,则返回步骤(3);   

(5)选择测试样本输入,得到第一个预测点值,并将第一点的实际值加入原输入集,进行第二点的预测;依此类推,依次步进生成预测结果。      

4、股票短期预测的实例研究      

本文选取沪市股票综合指数1998年1月5日~2000年12月4日期间700天的时间序列作为研究对象。如图2所示,选取前650天作为训练数据,后50天作为预测数据,根据本文提出的预测方法进行验证。   

(1)由互信息法计算得到最佳延迟时间τ=1(延迟时间为1天),由伪邻近点法计算得到最小嵌入维数m=5。   

(2)构造神经网络,设输出为y(t 1),则输入x(t),x(t-1),x(t-2),x(t-3),x(t-4),神经网络输入层为五个节点,每个神经元之间的时间间隔为1。由文献[10]可知隐层节点设为输入层的两倍即10个节点为宜,隐含层神经元转换函数选取正切S形Tansig函数,输出层只有一个神经元,即第二天的股票开盘指数预测值,输出层神经元激活函数也为线性转移(Purelin)函数,递归神经网络的结构为5×10×1。  

(3)y(t 1)是关于点x(t),x(t-1),x(t-2),x(t-3),x(t-4)的函数:   y(t 1)=f [x(t),x(t-1),x(t-2),x(t-3),x(t-4)]   此模型是递归模型,在得到第一个预测点值后,将第一点的实际值加入原输入集进行第二点预测;依此类推,依次步进生成预测结果来实现股票的短期预测。   

(4)输入650个训练数据,待训练结束后输入50个预测数据,得到预测曲线与实际曲线比较,如图2所示。   

(5)单独构造5×10×1的BP神经网络,预测结果与本文递归模型预测结果比较如表1所示(在这里只选择10个点列出),其预测曲线与实际曲线比较如图3所示。   从表1可以看出,本文的递归模型相对BP网络模型预测精度有较大提高,并且从图2、3可以看出,对真实指数曲线的拟合程度也比BP网络模型的拟合程度好。从图2看出,BP网络在多步预测中,数据误差较大、曲线偏差较多,而递归模型预测曲线不仅多步趋势预测较准确,而且在短期波动曲线拟合方面也效果理想。      

5、结束语      

本文提出了将相空间重构与人工神经网络相结合的股票时间序列短期预测新方法,通过应用于沪市股指实例证明可有效提高预测精度。取得结论如下:   

(1)股票指数时间序列具有混沌特性,用传统的统计方法或者单纯用一种方法(如BP网络)很难得到令人满意的预测结果,需要将不同的方法融合以提高预测精度。   

(2)在股票指数时间序列相空间建立混沌分析基础上的递归神经网络,利用其混沌特征依次步进来构成样本,用递归神经网络来逼近相点的非线性关系,预测结果精度与BP网络模型相比有了较大提高。   

(3)该方法是研究非线性时间序列预测的一种尝试,通过对沪市股票指数实例的短期预测,获得了满意的预测结果,从而证实该方法无论在理论分析还是实际应用中都具有实用性和有效性。   


类别:预测方法 | | 添加到搜藏 | 分享到i贴吧 | 浏览(49) | 评论 (0)