第1章 绪论
时间序列,也称为时间数列或动态数列,是指将某个统计指标在一段时间上的数值按时间先后顺序排列而成的序列。时间序列预测方法根据时间序列所反映的发展过程、方向和趋势进行类比或者延伸,从而分析、预测时间序列在一定的时间内或在接下来的时间里可能达到的水平。时间序列预测方法实际上是一种回归预测方法,属于定量预测。其基本原理是:一方面,认识事物发展的连续性,利用过去的时间序列数据进行统计分析,推断事物的发展趋势;另一方面,偶然因素的影响会造成随机性,因此采用历史数据进行统计分析以消除随机波动的影响,并对数据进行适当的处理,以此来预测趋势。近年来,时间序列预测方法作为一种重要的数据分析工具,应用于风速预测、电力负荷预测、空气质量预测、股价预测等多个领域。根据模型的特点,时间序列预测模型可分为统计模型、人工智能模型、模糊时间序列(fuzzy time series,FTS)模型、混合模型以及组合模型等。
近年来常用的统计模型有自回归(autoregression,AR)模型、移动平均(moving average,MA)模型、自回归综合移动平均(autoregressive integrated moving average,ARIMA)模型、回归模型、多元线性回归模型、指数平滑模型、马尔可夫模型等。统计模型具有较好的预测性能和较快的处理速度,然而这些模型都是基于线性假设的,因此它们不能准确地描述本质上是非线性的时间序列。统计模型以时间序列的影响因素为自变量,以历史数据为因变量,保证了序列与影响因素之间的关系,基于对历史数据的分析,可以更好地对历史进行建模;但是随着时间的推移,统计模型的预测效果会越来越弱。统计模型分析过程简单,参数估计方法完整;但在处理非线性时间序列数据时预测性能较差,预测精度较低。统计模型的客观数据具有复杂性,很难选择其影响因素[1]。此外,统计模型需要大量历史数据建模,对数据依赖性高,同时缺乏对特殊时间序列过程的识别,当随机因素影响较大时,预测效果较差。统计模型的这些缺陷可能导致在时间序列预测过程中的变化是不可预测的[2]。
从20世纪末至今,由于计算机技术飞速发展,人工智能预测方法得到了前所未有的发展,并在短时间内迅速传播。在过去的二十年中,基于人工智能的不同结构模型被设计并应用于时间序列预测领域,如人工神经网络(artificial neural networks,ANN)、混沌时间序列方法、专家系统预测方法、自组织映射(self-organizing map,SOM)和自适应模糊神经推理系统等。ANN能够模拟人脑实现智能处理,它具有自适应、自学习和记忆的能力,在处理非结构性、非线性的时间序列数据时能够获得较好的预测能力。Park等[3]于1991年首次将神经网络应用于电力负荷预测,并证明了该模型的良好性能,同时得出神经网络适用于电力负荷预测的结论。Lauret 等[4]在贝叶斯神经网络的基础上构建了一个与传统神经网络相比具有明显优势的模型,并将其应用于短期负荷数据的预测。许多科学研究和实际应用表明,在各种时间序列预测的情况下,人工智能技术往往比传统的统计模型具有更好的性能。此后,大量研究者利用多种类型的神经网络对时间序列进行预测[5-7];然而,神经网络也有其局限性和缺点:
(1)难以科学地确定网络结构的层数和神经元数;
(2)自学习收敛速度相对较慢,容易陷入局部极值;
(3)表达人脑模糊意识的能力不强。
虽然统计模型和人工智能模型在时间序列预测中得到了广泛的应用,但是数据资源的不足、数据的模糊性/不确定性、波动性大等问题也增加了时间序列预测的挑战性。基于以上问题,Zadeh[8]首次提出了FTS预测技术,并将其成功地应用于处理具有不精确和不可识别趋势的时间序列的预测中。Jana 等[9]指出,FTS可以很好地处理模糊环境下具有一定概率分布的随机变量。此外,通过将神经网络与FTS预测方法相结合而发展起来的几种基于FTS的预测方法比传统的FTS预测方法具有更好的预测效果。对于高阶FTS预测,将基于模糊逻辑关系的模型应用于实验,得到了令人满意的结果[10]。此外,自适应模糊神经推理系统(adaptive neuro-fuzzy inference system,ANFIS)也应用于预测领域。近年来,模糊逻辑在大气污染预测中表现良好。Domańska和Wojtylak[11]提出了一个新颖的基于模糊逻辑关系的模型,在污染物浓度预测中具有较高的精度。Güler-Dincer和Akku?[12]提出了一种基于鲁棒聚类的FTS模型,能够成功地处理大气污染序列中嵌入的异常观测值。当然,FTS预测方法也存在不可避免的缺点,主要包括以下三个方面:①语言值过多;②缺乏可靠的间隔长度;③间隔设置过短,可能导致一些空集。因此,为了优化FTS预测方法,研究人员将其他方法(如优化算法)与FTS预测方法相结合,在一定程度上克服了上述缺点,如模糊C均值聚类、基于熵的离散化(entropy-based discretization,EBD)算法、遗传算法(genetic algorithm,GA)、粒子群优化(particle swarm optimization,PSO)算法等。
近年来,随着各种预测技术的发明,人们提出了许多混合模型,并利用它们来提高各领域的预测精度和稳定性。为了解决现有的问题,实现时间序列预测的高精度,研究人员试图基于各种方法的优势将多种方法结合起来,称为混合方法。例如,Pai[13]将混合方法应用于电力负荷预测系统并取得了较好的预测效果。一般混合模型首先采用一定的策略对原始信号进行预处理,然后通过优化的预测器进行预测[14]。优化算法受生物进化的启发,在处理复杂问题时具有良好的有效性,它通常与其他预测方法相结合,并以选择和识别参数为目标。例如,在与神经网络的结合中,优化算法不依赖主观经验来确定参数;相反,它可以通过客观的算法选择更合理的神经网络参数。Liao[15]将改进的差分进化(differential evolution,DE)算法与小波神经网络(wavelet neural network,WNN)模型相结合,建立了电力负荷预测的混合模型。Zhao和Guo[16]提出了一种新的混合优化灰色模型来预测年电力负荷序列。Hu等[17]提出了一种用于短期负荷预测的混合过滤-包装特征选择方法。Niu等[18]将奇异谱分析(singular spectrum analysis,SSA)、非线性多层感知器网络和集成智能优化算法相结合,建立了短期负荷预测的混合模型。Azimi等[19]认为单一模型无法计算出时间序列数据的特征,因此建立了一种新的混合模型来预测短期电力负荷。Khashei和Bijari[20]认为单一模型无法保证数据生成的真实过程,因此提出了一种基于ARIMA模型的ANN混合模型,并依靠三个已知的真实数据集验证了模型的有效性。Shukur和Lee[21]提出了一种包含ANN和ARIMA的混合模型,充分利用了两种模型的线性和非线性优势。为了提高预测质量,Niu等[22]建立了一种新的混合神经网络模型,并结合一些统计方法进行预测。Lu和Wang[23]使用支持向量机(support vector machine,SVM)开发了一个增长的层次SOM来预测产品需求。Okumus和Dinler[24]将自适应神经模糊推理系统与神经网络相结合,对风能进行预测,实验结果表明,所提出的混合模型优于单一模型。Che和Wang[25]提出了基于SVM和ARIMA的混合模型,可以更准确地预测线性和非线性趋势。Meng等[26]开发了一种混合模型,应用小波包分解、交叉优化算法和ANN对短期风速进行预测,实验结果表明,在一步、三步或五步预测,该混合模型均有*小的平均绝对百分比误差(mean absolute percentage error,MAPE)。Zhang等[27]提出了一种包含混合回溯搜索算法(hybrid backtracking search algorithm,HBSA)、优化的变分模态分解(optimized variational mode decomposition,OVMD)和极限学习机(extreme learning machine,ELM)的混合模型,研究结果表明,混合模型在风速预测方面的性能更好。同样,Du等[28]采用完整集合经验模态分解(complementary ensemble empirical mode decomposition,CEEMD)和Elman神经网络(Elman neural network,ENN)构成新的混合模型,在风速预测中取得了更准确的结果。Barman等[29]提出了一种基于SVM的混合短期负荷预测模型,该模型采用蝗虫优化算法(grasshopper optimization algorithm,GOA)对网络参数进行优化,以达到高精度。Li等[30]提出了一种基于ELM的混合模型,该模型融合了经典的数据预处理策略。Rana和Koprinska[31]提出了一种混合模型——高级小波神经网络(advanced wavelet neural network,AWNN),首先利用改进的小波分析对原始数据进行分解,然后根据神经网络进行预测。通过将不同的数据预处理策略、简单的统计或人工智能预测模块与智能优化算法相结合,建立了多种混合模型。大量的实验结果表明,与单一模型相比,混合模型的预测精度有了很大的提高。
混合模型能够充分利用各个模块的优点,但同时可能产生新的缺陷。首先,大多数研究强调时间序列预测的准确性,从而忽略了预测的稳定性。研究发现,大多数混合模型使用单目标优化算法,包括PSO算法、GA、萤火虫算法(firefly algorithm,FA)、布谷鸟搜索(cuckoo search,CS)算法等。这些算法只能提高预测的准确性,但不能同时提高预测的稳定性。然而,预测的准确性和稳定性对于模型来说是同等重要的。片面强调准确性而忽视稳定性可能会导致时间序列预测模型在实际应用中出现不适应性的问题。其次,混合模型中使用的许多单一预测方法对数据特征的综合学习能力有限,大量的混合模型仅仅使用具有简单结构的统计方法或人工智能方法,使得模型缺乏足够的全局学习能力,导致预测性能不理想。*后,混合模型中所使用的数据预处理策略主要包括经验模态分解(empirical mode decomposition,EMD)、小波变换(wavelet transform,WT)、SSA等,这些预处理策略可能存在模态混叠、对全局的噪声去除效果较差、随着信噪比的降低去噪能力下降等缺点,因此不足以有效去除数据中的异常值和噪声,从而影响预测结果。
在实际应用中,如果选择多种预测模型对时间序列进行预测,不同的预测模型提供的信息不同,因此预测精度存在差异。如果简单地丢弃预测误差较大的模型,一些有价值的预测信息就会丢失[32]。虽然现有的单一模型在预测精度方面已经达到较高的水平,但是任何单一模型都是对实际对象的简化抽象,具有片面性,因此不足以全面地代表变量的实际情况。
解决上述问题的科学方法是将不同的单一模型进行组合,找到一个基于单一模型和优化算法的组合模型,以更全面地反映数据内部规律的动态现象和未来趋势。一般来说,组合模型是综合运用各种预测模型,以合适的组合形式构建的变量预测模型,它在拟合单一模型时避免了信息的丢失,降低了随机性,提高了预测精度。组合模型*初由Bates和Granger提出,他们证明了两种预测模型的线性组合比单一模型能获得更好的预测结果。Wang等[33]也证明了组合模型的预测精度高于单一模型。Xiao等[34]开发了基于多季节模式和改进FA的组合模型,并将其应用于短期电力负荷预测。此外,Xiao等[35]开发了一种基于多目标优化算法的集成模型,并将其用来预测电力负荷。Yan
展开