新疆地区丙型肝炎发病数预测模型的研究

新疆地区丙型肝炎发病数预测模型的研究

ID:78085196

大小:4.73 MB

页数:62页

时间:2024-02-04

上传者:笑似︶ㄣ無奈
新疆地区丙型肝炎发病数预测模型的研究_第1页
新疆地区丙型肝炎发病数预测模型的研究_第2页
新疆地区丙型肝炎发病数预测模型的研究_第3页
新疆地区丙型肝炎发病数预测模型的研究_第4页
新疆地区丙型肝炎发病数预测模型的研究_第5页
新疆地区丙型肝炎发病数预测模型的研究_第6页
新疆地区丙型肝炎发病数预测模型的研究_第7页
新疆地区丙型肝炎发病数预测模型的研究_第8页
新疆地区丙型肝炎发病数预测模型的研究_第9页
新疆地区丙型肝炎发病数预测模型的研究_第10页
资源描述:

《新疆地区丙型肝炎发病数预测模型的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

分类号181密级:公开:R单位代码10760学号:107602147462:新疆医科大学XinJianMedicalUniversityg硕士学位论文'THESISOFMASTERDEGREE夢学术性学位(学历教育)论文题目:新疆地区丙型肝炎发病数预测模型的研究研究生李泽指导教师张学良教授学科专业名称流行病与卫生统计学——""—研究方向传染病动力学与生物统计-2018研究起止时间2014.12.2所在学院公共卫生学院2018年3月 新疆地区丙型肝炎发病数预测模型的研究研究生李泽指导教师张学良教授学科专业名称流行病与卫生统计学研究方向传染病动力学与生物统计课题经费来源:新疆维吾尔自治区自然科学基金(2015211C024)2018年3月 StudyonPredictionModelsoftheIncidenceofHepatitisCinXinjiangADissertationSubmittedtoXinjiangMedicalUniversityInPartialFullfillmentoftheRequirementsfortheDegreeofMasterofMedicineByLiZeEpidemiologyandHealthStatisticsDissertationSupervisor:Professor.ZhangXue-LiangMarch,2018 论文独创性说明本人申明所呈交的学位论文是在我个人在导师的指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外一,论文中不包含其他人已经发表或撰写过的研宄成果。与我同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。州学位论文作者签名:签字日期:导师签名:签字日期:关于论文使用授权的说明本人完全了解学校关于保留、使用学位论文的各项规定,“”(选择1/不同意)以下事项:^1.学校有权保留本论文的复印件和磁盘,允许论文被查阅和借阅,可以釆用影印、缩印或扫描等复制手段保存、汇编学位论文;“2.学校有权将本人的学位论文提交至清华大学中国学术期刊(光盘”用于出版和编入版)电子杂志社CNKI《中国知识资源总库》或其他同类数据库,传播本学位论文的全部或部分内容。学位论文作者签名:签字日期:』4导师签名:签字日期:请爽部 中英文缩略词对照表英文缩写英文全名中文译名ACFAutocorrelationFunction自相关函数ADFAugmentedDickeyFulle增广DF检验AFActivationFunction激活函数AICAkaikeInformationCriterion赤池信息量准则ANNArtificialNeuralNetwork人工神经网络ARAutoregressive自回归ARMAAutoregressiveMovingAverage自回归移动平均ARIMAAutoregressiveIntegratedMovingAverage求和自回归移动平均BICBayesianInformationCriterion贝叶斯信息准则BPBackPropagation误差逆向传播算法CVCrossValidation交叉验证HCVHepatitisCVirus丙型肝炎病毒LRLearningRate学习速率LSELeastSquaresMethod最小二乘法WNWhiteNoise白噪音 目录摘要..................................................................1前言..................................................................4研究内容与方法........................................................91数据来源.........................................................92研究方法.........................................................92.1时间序列....................................................92.2神经网络...................................................142.3组合预测...................................................21结果.................................................................231ARIMA模型的建立和结果分析.......................................232BP神经网络模型的建立和结果分析..................................283组合预测模型的建立和结果分析....................................30讨论.................................................................331时间序列模型的分析..............................................332神经网络模型的分析..............................................343组合预测模型的分析..............................................37小结.................................................................39致谢.................................................................40参考文献.............................................................41综述.................................................................45攻读研究生期间发表的学术论文.........................................55导师评阅表...........................................................56 新疆医科大学硕士学位论文新疆地区丙型肝炎发病数预测模型的研究研究生:李泽导师:张学良教授摘要目的:为探究和讨论不同数学预测模型在新疆地区丙型肝炎的适用性,建立符合新疆地域特点的丙肝发病数预测模型。根据模型中的参数设置和选择,得出新疆地区丙肝发病数的趋势,预测疾病未来的发病状况,为新疆地区丙肝的防治决策提供定量参考。方法:1)对时序数据进行平稳性检验、纯随机性检验、参数估计、显著性检验等过程建立ARIMA乘积季节模型。通过2005~2014年新疆地区丙肝月发病数时序数据进行拟合及交叉验证,对新疆地区丙肝未来一年的流行状况做出预测。2)根据神经网络理论建立BP神经网络模型,通过时序数据的特征选择合适的输入层和隐含层节点数量,从而确定网络结构。将时序数据分组后输入网络并有监督地训练该网络的各参数,进行交叉验证后检验该模型的有效性。3)建立时间序列ARIMA乘积季节模型和BP神经网络模型的组合模型,并依次确定模型的结构。将前者的预测结果作为后者的预测依据,整合两个模型的结果作为最终预测值。结果:1)本文建立了ARIMA乘积季节模型ARIMA(2,1,0)×(1,1,0)12,交叉验证后训练集MAPE=1.44%,验证集MAPE=4.80%,验证集平均误差为4.67%。2)本文建立了结构为3-7-1的BP神经网络,训练并交叉验证后训练集MAPE=1.30%,验证集MAPE=4.65%,验证集平均误差为4.17%。3)组合预测模型中ARIMA部分为ARIMA(2,1,0)×(1,1,0)12,BP神经网络的结构为3-8-1,交叉验证结果为训练集MAPE=1.22%,验证集MAPE=3.72%,验证集上的平均误差为2.67%。结论:ARIMA-BP的组合模型在拟合和外推能力上均优于单一的ARIMA乘积季节模型或BP神经网络模型,说明该模型在非平稳时序的预测中的应用是可行、有效的。预测结果显示新疆地区2015年与2014年的丙肝发病数基本持平。关键词:丙肝,ARIMA,神经网络,组合预测1 新疆医科大学硕士学位论文StudyonPredictionModelsoftheIncidenceofHepatitisCinXinjiangPostgraduate:LiZeSupervisor:Prof.ZhangXue-LiangAbstractObjective:ToexploreanddiscussapplicabilityofdifferentmathematicalpredictionmodelsinhepatitisCinXinjiangarea,andestablishapredictionmodelofhepatitisCincidenceaccordingtoXinjiang'sregionalcharacteristics.Accordingtotheparametersettingandselectioninthemodel,wecangetthetrendoftheincidenceofhepatitisCinXinjiangarea,predicttheincidenceofthediseaseinthefuture,andprovideastrongtheoreticalsupportandquantitativebasisforthepreventionandtreatmentofhepatitisCinXinjiangarea.Methods:1)TheBox-JenkinsanalysismethodwasusedtoestablishthetimeseriesARIMAproductseasonmodel.Basedonthemodelingprocesssuchasstationaritytest,purerandomnesstest,parameterestimationandsignificancetest,wegettheoptimalARIMAmodelfromthecandidatemodel.ThroughthefittingandcrossvalidationofhepatitisCmonthlyonsettimeseriesdatainXinjiangareain2005~2014,theepidemicsituationofhepatitisCinXinjiangareainthecomingyearisforecasted.2)Accordingtothetheoryofneuralnetwork,aBPneuralnetworkmodelisestablished,andtheappropriateinputlayerandhiddenlayernodesareselectedthroughthecharacteristicsoftimeseriesdata,soastodeterminethenetworkstructure.Thetimeseriesdataaregroupedintothenetworkandtheparametersofthenetworkaretrainedtobesupervised,andthevalidityofthemodelistestedaftercrossvalidation.3)ThecombinationmodelofthetimeseriesARIMAproductseasonmodelandtheBPneuralnetworkmodelisestablished,andthestructureofthemodelisdeterminedinturn.Thepredictionresultsoftheformerareusedasthebasisforthepredictionofthelatter,andtheresultsofthetwomodelsareintegratedasthefinalpredictionvalue.Results:1)TheARIMAproductseasonmodelARIMA(2,1,0)x(1,1,0)12wasestablished,andthetrainingsetMAPE=1.44%wasverifiedaftercrossvalidation,thevalidationsetMAPE=4.80%,theaverageerrorofthevalidationsetwas4.67%.2)Inthispaper,aBPneuralnetworkwith3-7-1structureisestablished.After2 新疆医科大学硕士学位论文trainingandcrossvalidation,thetrainingsetMAPE=1.30%andvalidationsetMAPE=4.65%,theaverageerrorofthevalidationsetis4.17%.3)TheARIMApartofthecombinationforecastingmodelisARIMA(2,1,0)x(1,1,0)12,thestructureofBPneuralnetworkis3-8-1,theresultofcrossvalidationistrainingsetMAPE=1.22%,verifyingsetMAPE=3.72%,andtheaverageerrorofvalidationsetis2.67%.Conclusion:ThecombinedmodelofARIMA-BPisbetterthanthesingleARIMAproductseasonalmodelorBPneuralnetworkmodelinfittingandextrapolatingability,whichshowsthattheapplicationofthismodelinthepredictionofnon-stationarytimeseriesisfeasibleandeffective.TheforecastresultsshowedthatthenumberofhepatitisCin2015and2014inXinjiangwasbasicallyequal.Keywords:hepatitisC;ARIMA;neuralnetwork;combinedprediction3 新疆医科大学硕士学位论文前言病毒性肝炎最早可追溯到2000多年前,《内经》即已记载“湿热相交,民病疸”。病毒性肝炎是由肝炎病毒引起的以肝脏病变为主的传染病,直到17、18世纪,人们才有较为详细的观察记录,其传染性特征被认识并广泛接受。在美国的南北战争中,人们第一次记载了军队中流行的黄疸病疫情。二战时期,研究者已经积累了充分的证据,支持至少存两种不同类型的病毒性肝炎。1965年,阿尔特和布鲁伯格在实验中发现了乙肝病毒的表面抗原。1989年,美国科学家迈克尔·侯顿及其同事利用分子生物学方法成功地克隆出了丙肝病毒[1]。病毒性肝炎的常见类型包括甲型、乙型和丙型。其中丙型病毒性肝炎属于一种严重疾病,再加上此类病毒的特异性相对较高,短期内较难研制出疫苗,因此其对人类健康存在较大威胁[2]。而目前针对丙肝患者,早期诊断对于病毒传播具有积极的预防作用。由于丙肝发展隐匿,无典型的临床表现,因而主要通过实验室检测结果进行临床诊断和治疗。丙型肝炎的感染与性别、年龄、民族等人群特征无关,它在全球范围内流行,各类人群均对HCV易感。据WHO统计,每年因病致死病例约35万例。此外,全球HCV的感染率约为2.8%,约1.85亿人[3]。中国1~59岁人群抗-HCV流行率为0.43%,推算约560万人感染HCV[4-5]。感染HCV以后,大部分的病症容易转化成慢性肝炎,如果不采用科学有效的疗法,极易转变为肝硬化,严重者可转化为原发性肝癌。近些年,HCV的基因分型受到学术界的广泛重视,逐渐发展成新的热点课题。对丙肝病毒基因型进行研究发现,其在地域分布上具有明显的差别,在中国,该基因型大部分为1b和2a型,南方与北方差异较小,然而南方的1b型比东北区域多。现如今,在HCV的基因型与疾病发展程度的关系,基因型与丙肝后肝硬化、肝癌间的关联等问题上依然争议较大。1b型的病人肝损程度和肝硬化发生的比例明显大于其他型。HCV的基因型和病人所患肝病的严重性联系密切。1b基因型与其他型相比在人体中存在的时间较长,致使1b型病人的肝损情况与肝硬化比例比其他型高。因此分析病人的HCV基因分型,对于肝病的诊治意义重大。针对丙肝的诊治,医学上主要使用干扰素,然而该药物的疗效具有明显的个体差别,并且花费较多。有关研究发现,各类HCV的基因型与干扰素之间的应答情况具有较大的差别。对中国的1b和2a基因型进行分析可知,1b对IFN的应答率相对较低,但是2a较高。所以,对疾病进行诊治时,应分析HCV基因型抗病毒的疗效,再进行科学用药。4 新疆医科大学硕士学位论文新疆HCV基因型包括常见七种基因型,然而主要的基因型与其他型的占比差别明显,占比最大的依然为1b型,其次是2a型。新疆区域的汉族与维吾尔族中男女HCV感染病人的基因型不存在明显差别。少数民族聚居是新疆地区的特点。新疆主要民族的维、汉、哈族等不同民族HCV基因型分布有明显差异,汉族占比最大,原因可能是汉族的人数较多、人口流动性大等。感染HCV各基因型的病人在预后及转归方面具有较大的差别,其中1b型的病人里、重度肝炎的发病率明显比2a型高,表明1b型HCV的肝损严重程度要高于其他亚型。另外,各型的HCV-RNA载量与丙肝的临床情况也不同,比如1b型的病人体内平均病毒载量比2a型高,不同载量区间也存在差异。1b型有可能和患病时间的长短、年纪或者肝癌间存在一定关联,但是2a型大多出现在慢性肝炎并且不合并的肝癌病人中。1b型在人体中停留的时间相对较长,由于长时间的感染比较容易发展为肝硬化或者肝癌。HCV的主要传播方式有:(1)经输血和血制品、单采血浆返输血细胞传播。一些可能导致皮肤破损的医疗方式也是其潜在传播途径[6]。(2)经破损的皮肤和黏膜传播,例如使用非一次性注射器和针头等[7]。另一方面,与HCV感染者进行性接触同样会提高感染的可能性。若已经感染HIV(人类免疫缺陷病毒)的患者或伴有其他性传播疾病者,感染丙肝病毒的可能性更高。此外,无血液暴露的接触通常并不会传播丙型肝炎病毒,如咳嗽、喷嚏、接吻、拥抱或共用餐具等[8-10]。从目前的研究结果可知,由于HCV基因组的变异率较高、复制能力差,从而导致尚无确切有效的HCV疫苗[11]。新疆是2004-2010年中国大陆地区31个省级行政区域中丙型肝炎发病率的最高者。因此HCV的感染及预防措施的关键是充分了解新疆地区当前一般人群的HCV的感染情况,加强关于丙型肝炎的防治知识宣教工作,提高人们在丙型肝炎感染方面的认知和自身防护意识[12]。为预测丙肝的发病趋势,建立符合新疆地区的丙肝发病数预测模型就显得尤为重要。通过对模型的分析求解,估计模型中的参数来找出影响疾病传播的关键因素,并分析传播因素,制定相应的防控策略。本研究建立了三个模型,分别是季节乘积时间序列模型ARIMA、神经网络模型以及将两者结合的组合预测模型。1时间序列是指将时序数据按时间顺序排列后所形成的序列。通常一组时间序列的时间间隔为一恒定值,即在均匀时间间隔上的观测值序列,因此时间序列可以作为离散时间数据进行分析处理。时间序列的特征包括长期趋势变化、季节性周期变化、循环变化以及随机性变化,其主要目的是根据已有的历史数据对未来进行预测[13]。时间序列预测法的内容包括:搜集某现象的历史数据;对数据进行整理;从中寻找出该现象所显露的规律,得出相应模式;根据模式预测未来情况。时间序列预测法还可以分为:简单序时平均数法、加权序时平均数法、移动平均法、加权移动平均法、5 新疆医科大学硕士学位论文趋势预测法、指数平滑法、季节性趋势预测法等。ARIMA季节模型分为简单季节模型和乘积季节模型。但在实践中,因数据的长期趋势、循环波动、季节变化以及随机波动之间相互影响,故乘积季节模型更为常用。近年来,由于先进技术的发展,统计从以往的年度统计转变成当下的依照季度、月度以及日度进行统计信息,部分实时交易产生的超高频信息依照秒为单位进行统计。上述信息通过分析得知,在年度当中的波动满足统一性要求,将其看作是季节性时间序列。经济专家关于季节方面的探究具备浓厚的热情,季节性要素本身涵盖可以折射序列间内在关联关系的数据,可以将其看作是组成相关经济模型的重要构成部分。借助探究时间序列的季节性的方式,可以更好地解析作用在时间序列上的相关要素以及彼此之间的关联关系。并且,相比年度模型来讲,季度模型具备的观察信息更丰富,随着样本总量的扩大,在创建相关模型的过程中,能够选用滞后时间相对较长的滞后架构,包含更为丰富的经济变量,可以阐述年度模型很难触及到的短期经济问题,尤其满足解析并且预估经济的短周期性问题,让决策人员能够在充分掌握数据的情况下,做出科学的决策。随着时间的推移,关于季节性时间序列方面的探究逐渐成为最近几年经济统计学的焦点问题。英国William是首个探究时间序列存在周期问题的天文学家,他尝试在太阳黑子以及小麦单价间找寻存在的内容关联关系。James通过探究得知,大都市关于英国纸币的需求量存在一种现象,就是每年的一月、七月以及十月的需求量相对偏高,可是对于经济欠发达的农村地区来讲,关于纸币的需求量在每年的四月份达到最高点,在八月份达到最低点。James将上述现象看作是时间序列的季节性,而且后续针对上述模式进行了科学全面的探究。他指明,关键是因为红利的定期支付造成的,所以不支持所有尝试使得农村银行以及城市银行在纸币供给方面统一的看法。Babbage指明上个世纪30年代每月的票据交易满足季节性的特征要求,去除某些因为外在特殊要素造成的影响的交易区间之后,运算统计了每天的均值情况,而且针对上述模式完成了优化操作。这个时间段,人们即便关注到时间序列存在的季节性问题,可是因为仅仅探究了出现季节性的缘由以及相关的传导机理。Jevons于1862年说明了“所有满足周期性要求的变化,不管是依照日度、月度、还是年度,均不能简单地把它看作是展现的主题。需要针对上述周期性相关的变量进行科学的评估,为了能够精准的展现那些即便非周期性可是仍旧是非常关键的要素”。这本质是把季节性要素当作是无用的噪音干扰,指明它掩盖了相关的经济变量间存在的内在关联关系,进而需要在关于具体经济问题解析以前,首先针对初始的信息借助季节调节的方式完成剔除操作。2人工神经网络(ArtificialNeuralNetwork,ANN)也简称为神经网络(NN),其灵感源于生物的中枢神经系统。它根据神经系统的结构进行模型建立,用于求解函数的估计值或近似值[14]。神经网络中包含了大量的人工神经元,它们相互连接构成6 新疆医科大学硕士学位论文了整个网络。ANN是一种自适应系统,它能接收来自外界的信息,并在此基础的修改内部神经结构。以当代神经科学探究成果为基础,尝试借助仿真大脑神经网络,借助其具备的记忆能力完成数据的运算。ANN借助仿真人类大脑架构以及功能的方式,在参考生物神经科学相关探究成果的基础上,关于相关数据进行运算,可以将其看作是一种新兴学科,不仅有力推动了智能化方面的建设,而且针对神经生物学来讲,起到了前所未有的推动作用,逐渐将相关研究成果应用在了脑科学,模式识别,计算机科学等方面。在真实环境当中,进行人工神经网络选择的时候,一般具体涉及到了神经网络模型,科学的网络架构以及迅速反应的网络训练方法。关于具体的网络模型来讲,ANN相关的探究着重体现在相关架构的调节以及训练方法的优化两个层面。对于神经网络进行训练,可以将其理解为相关网络变量的学习以及调节,是一个不断调整相关节点间权值以及阈值大小的过程,能够将其学习过程具体划分成三种类型,分别是:有监督学习、无监督学习和强化学习。对于前馈网络来讲,其最关键的特性是运算简单,缺陷是用时偏长,相对容易进入局部极小状态。对于ANN来讲,应用过程需要关注平稳度以及收敛性问题,而且关于原始状态局部较高的敏锐度。神经网络能够借助多种优化有机整合的方式处理收敛相对偏慢,而且容易进入局部极小难题,借助变量学习训练方式以及网络架构升级方式针对网络完成恰当的调节,方便将其使用在具体的场景问题当中。ANN通常由三部分组成。第一个是结构,它是指神经元在神经网络中的连接方式。第二个是激励函数,它是指神经元的激活方法,即其他神经元是如何影响当前神经元自身以及如何让激活值发生变化。第三是学习规则,它依赖于第二部分中提到的激励函数,明确了网络中的权重如何随网络的训练和误差而逐步调整[15]。人工神经网络是一个能够通过已知的实验数据学习、总结和归纳的系统。它通过对局部情况的对照和比较产生一个可以自动识别的系统。人工神经网络的特点包括非线性、分布式、并行化以及适应性,广泛应用于组合优化、智能控制、数据预测、模式识别等领域[16]。3所谓预测本身就是通过现存的事物推断未知事物的过程,可以将其看作是决策的关键依据。通过时间的不断累积,关于预测原理的信息逐渐变得丰富,相关模型不断涌现。可是,因为经济问题通常相对复杂,很多方式在完成具体目标预测的时候,可能存在一定的偏差。所以,为了达到更精准的效果,通常针对相同的目标使用差异化的方式,把得到的相关结果完成比对操作,选用预测精准程度相对偏高的方式。但单一的预测方法都只利用了一部分信息,相应地就会抛弃其它信息。组合预测的目的便是将多种模型按一定规则方式整合为一个预测模型[17]。考虑到单一模型的拟合与预测很难同时考虑到各种复杂关系的变化,Bates等在1969年提出了组合预测的思7 新疆医科大学硕士学位论文想,从而有效地利用各种预测模型的优点[18]。实践经验表明,组合预测模型能够充分利用数据信息,从而提高并改善预测的精度和效果。在真实预测过程中,相对复杂的项目层出不穷,具体涵盖了很多的随机或者模糊要素等。传统的单项预测模型存在一些缺陷。比如,由于单个预测模型通常涵盖的要素相对受限,所以一个模型的数据量相对偏窄;此外,关于预测模型相关的表达方式能够具体划分成两种类型,一种是线性,一种是非线性,倘若选用的错误的表达方式,将造成整个系统出现偏差,存在很大的预测风险。由于差异化单个预测模型关注的信息存在显著的差异,上述变量包含差异化的数据,能够从不同的方面展现相关预测项目的变化状况,所以上述数据存在一定的关联关系,某种程度上满足数据互补的要求。对于线性组合模型来讲,因为本身存在某种制约,现在很多专家逐渐将探究的焦点转变成组合系数的运算方面,借助新颖的理论知识,让组合系数相关的运算的方式更为多样化,使得运算的结果更为精准。可是对于非线性组合来讲,即便预测方面非常接近真实状态,可是本身非线性模型相对难以创建,运算过程存在很多的问题,它的进步很大程度上依靠非线性原理知识的深入探究程度。整体来讲,智能化组合预测模型应用前景良好,在科学应用智能方法的情况下,科学避免了非线性组合相关的难题,一定程度上避免了线性组合存在的缺陷问题,因此智能化组合预测模型是未来建设的趋势。8 新疆医科大学硕士学位论文研究内容与方法1数据来源2005~2014年新疆丙肝月发病例数来源于公共卫生科学数据中心[19]。2研究方法2.1时间序列2.1.1时间序列介绍时间序列是指将数据按照统计指标搜集后,按时序排列后形成的数值。时间序列预测法的目的便是根据时间序列所反映出来的趋势,预测下一段时间可能达到的水平。其基本步骤包括:搜集某现象的历史数据;对数据进行整理;从中寻找出该现象所显露的规律,得出相应模式;根据模式预测未来情[20]。在历史上,时间序列的分析最早可以追溯古埃及。7000年前,古埃及人记录并创立了第一个时间序列数据:尼罗河的逐天涨落情况。经过长期的记录后,古埃及人观察到,该时间序列所代表的尼罗河的涨落是有一定规律的。正是因为古埃及人掌握了尼罗河水涨落规律,才使得其农业繁荣发展。时间序列分析方法在实践中不断前行,各个领域的应用和实践都不断推动着它的发展,尤其是经济、金融、工程等领域。1927年,英国统计学家G.u.Yule提出了时间序列分析的自回归模型AR。1931年,英国统计学家G.T.Walker提出了移动平均模型MA和自回归移动平均模型ARMA。它们为时间序列分析奠定了基础,这三个模型至今仍被广泛使用。在时间序列发展的历史长河中,由Box和Jenkins编著的TimeSeriesAnalysis:ForecastingandControl被认为是重要转折点和标志。因此ARIMA模型通常也可以被称为Box-Jenkins模型。该书为预测者们提供了时间序列模型的识别、分析、预测、估计等过程的完整方法。无论是AR、MA、ARMA还是ARIMA模型,在使用前都有一定的限制条件:时序数据必须是单变量且同方差的。对于非平稳的时序序列,ARIMA的主要思想是先对数据进行变换,如差分等操作使之变为平稳序列,然后再用自回归移动平均模型ARMA来拟合差分后的序列[21]。随着时间序列分析理论的深入研究,越来越多的研究者们发现上述限制和假设在某些情形下是不成立的。对于异方差情形,Engle于1982年首先提出ARCH(Auto-regressiveconditionalheteroskedasticity,自回归条件异方差)模型。它假设噪声服从条件异方差的正态分布,且方差是自回归的。1986年,Bollerslev对ARCH模型进行推广延伸,提出了广义自回归条件异方差模型GARCH。1991年,Nelson再次对GARCH进行推广,提出了指数广义自回归条件异方差模型EGARCH[22]。9 新疆医科大学硕士学位论文以上模型都是针对一维时间序列数据的,但对于多变量的应用场景,直观上的思路是将其分析方法推广至多维。早期的研究对于多维时间序列数据常常要求每个序列都必须是平稳的,常见的模型有向量自回归移动平均模型VARMA、向量自回归模型VAR等。1987年,Engle和Granger提出的协整理论为多维非平稳时序数据的建模提供了理论基础。协整理论认为即使各时间数列都是不平稳的,但若线性组合平稳,则仍然能够解释变量之间的关系。1997年,Balke和Fomby提出了阈值协整理论,它可以应用于非线性调整机制的场景[23]。1980年,Tong和Lim对于非线性应用场景提出了门限自回归模型TAR。该模型属于参数模型,并假设存在有差异的线性形式[24]。TAR模型使用门限变量作为状态空间的划分依据,并在状态空间的不同区域建立模型。随着实践的深入,研究者们更加关注非参数的时间序列模型,包括非参数自回归模型NAR和非参数自回归异方差模型NARCH等[25-26]。图1展示了各类时间序列模型的关系。图1各类时间序列模型的关系Fig.1Therelationshipbetweenvarioustimeseriesmodels在真实环境当中,仅仅依赖观察时间序列的方式,是较难明确其是否满足季节性特征要求的,从时间层面,能够依靠时间序列相关的方法查明其是否满足季节性特征要求。倘若某个时间序列信息满足季节性要求,其对应的自相关系数同样满足季节性要求。从频域层面来讲,倘若某个时间序列信息满足季节性要求,其相关的样本在季节频率周围会存在波峰现象。另外能够借助因果要素明确季节特性。即便,能够找到10 新疆医科大学硕士学位论文很多理由证明单单依靠因果要素明确季节特性是不符合要求的,可是,在解析经济方面时间序列相关季节性的时候,任何情况下均不能忽略未知的,潜在的解释要素的作用。因此,借助一个相对严苛的针对季节性的定义,不利于关于季节性难题进行深刻的探究。反之,倘若能够从更广的层面针对季节性进行探究,关注季节性问题的多元性,是相对科学的办法。在很多状况下,能够将季节要素具体划分成两种类型,一种是随机季节要素,一种是确定性季节要素,其中确定性季节要素具体涵盖了月度、假日等。这种分解因素模型可以追溯到19世纪。Persons首次针对未知要素给出了具体的阐述,借助每个月的中位数获得对应的季节指数,把相关的季节指数以及初始信息进行相除操作,能够获得季节变化之后的信息。Yule指明关于白噪音序列在移动过程中,能够在相关序列当中插入一个循环周期,构建起对应的虚假周期。所以,借助移动平均算子的方式实现季节的调节操作是存在问题的。上个世纪三十年代,这个难题逐渐成为季节性时间序列探究的关键问题。之后的探究证实,对于比较简单的移动算子,借助季节调节的方式完成预测能够有效避免出现虚假周期情况。最近几十年,不同方面的专家从频域层面针对季节调节方法完成了大量的探究工作。关于相关的线性架构要素模型来讲,借助频域方式进行季节调节的方式类似于线性滤子相对均方误差最低的信号榨取难题。应用相关信号榨取机制的过程中,第一要针对相关噪音以及信号要素各自假设对应的时间序列模型,所以这种方式可以看作是以模型为根本的季节调节方式。季节调节之后的信息现在重点是针对经济状况的评估以及相关商业周期的探究。以及用于经济变量间的回归分析。针对上述状况,因为仅仅探究单个序列,没有充分关注其余序列的内在关联关系,所以应用调节之后的信息相对更为恰当。针对宏观经济模型来讲,即便真实环境当中很大程度上均借助官方发布的去除季节变量之后的调节信息,可是通过探究证实,在经济计量回归解析过程中,借助官方季节调节之后的信息会增大相关模型的风险,或许造成经济要素之间存在虚假的动态关联关系。因为探究时间序列的相关的经济方案逐渐趋于完善,并且从日、月、季度等角度发布的信息总量不断增多,从时间序列方式解析季节性难题逐渐获得认可。另外相关专家关于经济时间序列进行了深入的探究,对应的相关理论获得了快速的建设。最近几年,出现了很多新颖的想法以及极具创新的模型,值得一提的是周期性过程以及非线性模型逐渐成为探究的焦点。2.1.2建模方法ARIMA模型全称为自回归移动平均模型(AutoregressiveIntegratedMovingAverageModel,ARIMA),它是由Box和Jenkins于70年代初提出著名时间序列预测方法,所以又称为Box-Jenkins模型,习惯上将其记作ARIMA(p,d,q)。ARIMA模11 新疆医科大学硕士学位论文型包括移动平均过程(MA)、自回归过程(AR)、自回归移动平均过程(ARMA)以及ARIMA过程等建模环节。下面介绍ARIMA模型的建模方法。2.1.2.1平稳性检验在实践中,绝大部分时间序列都是非平稳的,这就需要对非平稳的时间序列做平稳性检验。常见的平稳性检验有图检法和单位根检验。常见的平稳性单位根检验方法有ADF检验、DFGLS检验、PP检验、KPSS检验等,其中以ADF检验和KPSS检验较为常见[27]。ADF检验的原假设H0为序列是非平稳的,因此当𝑃>0.05时提示序列非平稳需要差分处理等数据变换。KPSS检验的原假设H0与ADF相反,因此当𝑃<0.05时提示序列非平稳。2.1.2.2数据变换使用Box-Cox变换和差分处理可将非平稳序列转换为平稳序列。Box-Cox变换是一种将倒数变换、指数变换、对数变换结合起来的变换方法,同时能实现方差齐性并消除异方差[28],其变换公式为log(𝑦𝑡),𝑖𝑓𝜆=0𝑤𝑡={𝜆(𝑦𝑡−1)/𝜆,𝑖𝑓𝜆≠0公式中λ的合理数值可以通过统计学软件计算得到。在预测数据之后需要重新将数据还原,其公式为𝑒𝑤𝑡,𝑖𝑓𝜆=0𝑦𝑡={(𝜆𝑤1/𝜆𝑡+1),𝑖𝑓𝜆≠0ARIMA季节模型的差分运算包含非季节性差分d和季节性差分D和S。非季节差分为d阶1步差分∇𝑑𝑥=∇𝑑−1𝑥−∇𝑑−1𝑥,季节差分为D阶S步差分∇𝐷𝑥=𝑡𝑡𝑡−1𝑆𝑡∇𝐷−1𝑥−∇𝐷−1𝑥。𝑆𝑡𝑆𝑡−𝑆2.1.2.3纯随机性检验当时间序列平稳后,则进行纯随机性检验。纯随机序列为时间序列各数值之间无相关性的序列,即白噪声序列,它具有纯随机性和方差齐性的特点。纯随机性检验就是白噪声检验,选用𝑄𝐵𝑃或𝑄𝐿𝐵统计量。2.1.2.4确定模型结构绘制平稳非白噪声时间序列的自相关图ACF和偏自相关图PACF,估算模型ARIMA(p,d,q)×(P,D,Q)S中参数p、d、P和Q的范围,从而确定候选模型。在实际应用中,当模型不再为单纯的AR或MA时,应用传统的拖尾、截尾判断规则有一定困难,因此本文使用表1所示规则。12 新疆医科大学硕士学位论文表1估计ARIMA乘积季节模型参数规则Table1ParameterrulesforestimatingSARIMA参数观测图形估计方法𝑝PACF步长为1的最大截尾延迟𝑃PACF步长为S的最大截尾延迟𝑞ACF步长为1的最大截尾延迟𝑄ACF步长为S的最大截尾延迟2.1.2.5估计模型参数使用矩估计作为最大似然估计和最小二乘法迭代的初始值,并估计各个候选模型的参数。2.1.2.6模型和参数显著性检验首先,模型的显著性检验就是对拟合值残差做纯随机性检验,即白噪声检验和方差齐性检验。如果模型残差通过白噪声检验𝑃>0.05,且满足方差齐性,说明此最优模型的残差为白噪声,即已经将有效信息提取完毕,否则选择其他次优候选模型。观察方差齐性最直观的方式就是绘制残差图和残差平方图,如果出现明显的趋势而不平稳,则认为表现出异方差性。通常采用方差齐性变换,即Box-Cox变换,或拟合广义自回归条件异方差模型GARCH解决异方差问题。其次,还需要对模型中的参数做显著性检验,即检验各参数是否显著非零,如果有任何一个参数不显著,则不再选择此模型,而重新选择其他候选模型再次检验。2.1.2.7寻找最小信息准则模型通过模型和参数显著性检验的候选模型都是有效模型,为了选择其中最合理的模型,还需要计算其信息准则函数值。常见的信息准则函数有AIC、AICc、BIC、DIC、HQC等。因为AIC/AICc在理论上比BIC更有优势,且当样本量足够大时AICc会收敛于AIC,同时AICc更适用于时间序列模型,因此本文选用AICc作为最优模型的评价指标[29]。2.1.2.8模型的交叉验证和预测为检验模型的拟合和预测效果,提高模型的可信度,通常需要做交叉验证,常见方法有Hold-Out验证和K-fold验证。考虑到时间序列的特点,不宜采用K-fold交叉验证,而选用Hold-Out较为合适。常见的拟合效果评价指标有MSE和MAPE,公式分别为𝑛1MSE=∑(𝐴−𝐹)2𝑡𝑡𝑛𝑡=113 新疆医科大学硕士学位论文𝑛100%𝐴𝑡−𝐹𝑡MAPE=∑||𝑛𝐴𝑡𝑡=1其中𝐴𝑡为真实值,𝐹𝑡为模拟值。考虑到真实值𝐴𝑡不能为0的特殊情况,本文同时给出SMAPE,其公式为𝑛100%|𝐴𝑡−𝐹𝑡|SMAPE=∑𝑛|𝐴𝑡|+|𝐹𝑡|𝑡=1ARIMA建模过程如图2所示:图2ARIMA建模过程Fig.2ARIMAmodelingprocess2.2神经网络2.2.1神经网络介绍人工神经网络(ArtificialNeuralNetwork,ANN)也简称神经网络,和目前计算机的结构不同,人脑是一个高度复杂、非线性、并行的信息加工、处理系统。人脑神经网络可以将声音、视觉等信号经过多层的编码,从最原始的低层特征不断加工、抽象,最终得到原始信号的语义编码,人工神经网络与生物神经元类似,由多个节点(人工神经元)相互联结而成,不同节点之间的连接代表了网络中的一个权重值。每个节点代表一类特定的函数,来自其他节点的信息经过计算后,将函数输出值输入到14 新疆医科大学硕士学位论文激励函数中并得到数值。人工神经网络是由人工神经元以及神经元之间的连接构成,其中有两类特殊的神经元:一类是用来接收外部的信息,另一类是输出信息。这样,神经网络可以看作是信息从输入到输出的信息处理系统。如果把神经网络看作是由一组参数控制的复杂函数,并用来处理一些模式识别任务(比如语音识别、人脸识别等)时,神经网络的参数可以通过机器学习的方式来从数据中学习[30]。在神经网络发展的几十年里经历了众多阶段。第一阶段:模型的提出,时间跨度为1943~1969年。1943年,心理学家WarrenMcCulloch和数学家WalterPitts最早描述了一种理想化的人工神经网络,并构建了一种基于简单逻辑运算的计算机制,至此开启了神经网络研究的序幕。1951年,McCulloch和Walter的学生MarvinMinsky建造了第一台神经网络机,称为SNARC。在这一时期,神经网络在许多实际应用领域(自动控制领域、模式识别等)中取得了显著的成效。第二阶段:冰河期,时间跨度为1969年~1983年。这是神经网络发展的低谷期,在此期间研究处于长年停滞及低潮状态。第三阶段:反向传播算法引起的复兴,时间跨度为1983年~1995年,这是神经网络发展的第二个高潮期。第四阶段:流行度降低,时间跨度为1995~2006年。在此期间,SVM等机器学习方法逐渐流行起来,势头改过了其热度。虽然神经网络可能很容易地增加增加层数,而从构建复杂的网络,但是其计算复杂性也会指数级增长,且当时的计算机性能较低,无法训练超大规模的网络结构,使得神经网络的优化难、可解释性差等缺点更加凸显,神经网络又一次陷入低潮。第五阶段:深度学习的崛起。近年来,随着大规模并行计算以及GPU设备的普及,计算机的计算能力得以大幅提高,可供机器学习的数据规模也越来越大,神经网络迎来第三次高潮[31]。对于前馈神经网络来讲,其重点涵盖的类型有感知器,BP网络以及径向基网络等。其训练算法主要采用梯度下降法,包括:误差反向传播算法,改进的BP算法,LM法等。对于前馈神经网络来讲,不仅学习相对简单,而且满足收敛较快的要求,所以在真实环境当中,通常选用三层以上的网络架构,依照神经网络的逼近定理,需要训练满足要求的多层前馈神经网络,满足所有精度逼近相关连续函数的要求。满足网络架构已知要求的时候,进行前馈神经网络训练的实质是明确相关的最优权值以及阈值,进行训练的办法通常是借助网络理想输出以及真实环境下对应输出的误差当作权值调节的依据,对应的解空间通常满足多峰函数的要求,因为训练的时候比较容易出现局部极小状况,所以进行网络的训练目的是为了得到一组符合要求的最优权值,使误差达到最小。常规的误差反向传导方法因为给对应的网络训练提供了非常有效的渠道,现在逐渐成为当下应用最广泛的学习方法。可是BP方法存在这样那样的问题,比如对于多层网络来讲,对应的收敛过程相对偏慢,而且比较容易进入局部极小状态,不满足同时针对多个网络完成训练的要求。优化之后的BP方法存在多种类型,重点是借助附加动量的方式对于BP网络的自适应完成优化操作,即便这种15 新疆医科大学硕士学位论文方式某种程度上优化了陷入局部极小的难题,可是仍旧存在收敛速率相对较慢的难题。调节学习率方式把学习率限定在确定的区间当中,实现自动调节操作,即便一定程度上可以提升网络收敛的速率,可是对于权值的影响偏弱,还是存在误差较大的难题。LM方式满足收敛速率快的要求,可是因为该方式要求运算误差对应的Jacobian矩阵,该运算过程相对复杂,要求使用大量的系统存储资源,而且,LM方式同样有陷入局部极小的情况。关于前馈神经网络对应的权值训练方式始终是最近十年人工智能方面探究的焦点。通过经验得知,把多种优化方案进行有机的整合,能够实现差异化方案之间扬长避短,更好的推动前馈网络的建设。能够将神经网络看作是很多领域的根本,对其进行深入的探究一定会带动相关领域的建设。很多领域的专家对于人脑以及对应的神经网络均有着浓厚的热情,而且以此为基础进行了很多有效的探究,提出了很多新颖的理论。以神经网络为基础,对于计算的定义以及应用提升到了一个新的层面。运算不仅仅涉及到数学领域,同时也不仅局限在逻辑或者离散方法,同时涵盖对于大量的针对模糊的模拟量完成的并行运算。相对来讲,后面的并行运算,常规的计算机很难发挥其价值。对于神经网络来讲,其对应的数学知识实质是非线性的数学知识,所以,当前非线性领域的探究一定会推动神经网络的建设,对应的神经网络的建设一定会为非线性科学建设指明发展的方向。其探究的目标是神经系统,是非常复杂的系统,可以看作是非常关键的领域。其相关探究内容既关注系统的动态特征,同时关注事件以及相关数据在系统当中的出现状况。该领域对于国民建设起到了至关重要的作用。主要应用领域有:图像识别、智能机器人、故障检测、企业管理、决策优化、专家系统、神经生理学等。针对神经网络知识的探究逐渐深入,并且网络运算能力的逐渐提升,为其发展提供了有利的条件,应用的领域会逐渐扩大,最后借助神经网络项目实现协作目标。通过神经网络的探究,逐渐引起了相关领域的专家的注意,进而激发了相关领域专家探究的热情。2.2.2建模方法BP算法是迄今最为成功也是最有代表性的神经网络学习算法,它不仅用于多层前馈神经网络,还用于其他类型神经网络的训练。下面介绍BP神经网络的建模过程。神经网络的输入𝑥𝑖通过中间节点(隐层节点)影响输出节点的状态,经过激励函数的非线形变换,产生输出𝑦𝑘。网络训练的每个样本包括输入向量x和期望输出量d,网络输出值y与期望输出值d之间的偏差,通过调整输入节点与隐层节点的联接强度取值𝑤𝑖𝑗和隐层节点与输出节点之间的联接强度𝑇𝑗𝑘以及阈值,使误差沿梯度方向下降。经过反复学习训练,确定与最小误差相对应的网络参数(权值和阈值),训练即告停止[35]。此时经过训练的神经网络即能对类似样本的输入信息,自行处理输出误差最小的经过非线形转换的信息。设输入层有n个神经元,隐含层有p个神经元,输出层有q个神经元,则整个网16 新疆医科大学硕士学位论文络使用的变量定义如下:输入向量:𝑥=(𝑥1,𝑥2,…,𝑥𝑛);隐含层输入向量:ℎ𝑖=(ℎ𝑖1,ℎ𝑖2,…,ℎ𝑖𝑝);隐含层输出向量:ℎ𝑜=(ℎ𝑜1,ℎ𝑜2,…,ℎ𝑜𝑝);输出层输入向量:𝑦𝑖=(𝑦𝑖1,𝑦𝑖2,…,𝑦𝑖𝑞);输出层输出向量:𝑦𝑜=(𝑦𝑜1,𝑦𝑜2,…,𝑦𝑜𝑞);期望输出向量:𝑑𝑜=(𝑑1,𝑑2,…,𝑑𝑞);输入层与中间层的连接权值:𝑤𝑖ℎ;隐含层与输出层的连接权值:𝑤ℎ𝑜;隐含层各神经元的阈值:𝑏ℎ;输出层各神经元的阈值:𝑏𝑜;样本数据个数:𝑘=1,2,…,𝑚;激活函数:𝑓(∙);误差函数:𝑞1𝑒=∑(𝑑𝑜(𝑘)−𝑦𝑜𝑜(𝑘))22𝑜=12.2.2.1网络初始化给各连接权值分别赋一个区间(-1,1)内的随机数,设定误差函数e,给定计算精度值ε和最大学习次数M。2.2.2.2选取输入样本和期望输出随机选取第k个输入样本𝑥(𝑘)=(𝑥1(𝑘),𝑥2(𝑘),…,𝑥𝑚(𝑘))及对应期望输出𝑑𝑜(𝑘)=(𝑑1(𝑘),𝑑2(𝑘),…,𝑑𝑞(𝑘))。2.2.2.3计算隐含层和输出层计算隐含层各神经元的输入𝑛ℎ𝑖ℎ(𝑘)=∑𝑤𝑖ℎ𝑥𝑖(𝑘)−𝑏ℎ(ℎ=1,2,…,𝑝)𝑖=1以及隐含层各神经元的输出ℎ𝑜ℎ(𝑘)=𝑓(ℎ𝑖ℎ(𝑘))(ℎ=1,2,…,𝑝)计算输出层各神经元的输入𝑝𝑦𝑖𝑜(𝑘)=∑𝑤ℎ𝑜ℎ𝑜ℎ(𝑘)−𝑏𝑜(𝑜=1,2,…,𝑞)ℎ=1以及输出层各神经元的输出𝑦𝑜𝑜(𝑘)=𝑓(𝑦𝑖𝑜(𝑘))(𝑜=1,2,…,𝑞)2.2.2.4计算各神经元偏导数利用网络期望输出和实际输出,计算误差函数对输出层的各神经元的偏导数𝛿0(𝑘)。𝜕𝑒𝜕𝑒𝜕𝑦𝑖𝑜=𝜕𝑤ℎ𝑜𝜕𝑦𝑖𝑜𝜕𝑤ℎ𝑜17 新疆医科大学硕士学位论文𝑝𝜕𝑦𝑖𝑜(𝑘)𝜕(∑ℎ=1𝑤ℎ𝑜ℎ𝑜ℎ(𝑘)−𝑏𝑜)==ℎ𝑜ℎ(𝑘)𝜕𝑤ℎ𝑜𝜕𝑤ℎ𝑜1𝑞2𝜕𝑒𝜕(2∑𝑜=1(𝑑𝑜(𝑘)−𝑦𝑜𝑜(𝑘)))==−(𝑑𝑜(𝑘)−𝑦𝑜𝑜(𝑘))𝑦𝑜′𝑜(𝑘)𝜕𝑦𝑖𝑜𝜕𝑦𝑖𝑜=−(𝑑𝑜(𝑘)−𝑦𝑜𝑜(𝑘))𝑓′(𝑦𝑖𝑜(𝑘))−𝛿0(𝑘)利用隐含层到输出层的连接权值、输出层的𝛿0(𝑘)和隐含层的输出计算误差函数对隐含层各神经元的偏导数𝛿ℎ(𝑘)。𝜕𝑒𝜕𝑒𝜕𝑦𝑖𝑜==−𝛿0(𝑘)ℎ𝑜ℎ(𝑘)𝜕𝑤ℎ𝑜𝜕𝑦𝑖𝑜𝜕𝑤ℎ𝑜𝜕𝑒𝜕𝑒𝜕ℎ𝑖ℎ(𝑘)=𝜕𝑤𝑖ℎ𝜕ℎ𝑖ℎ(𝑘)𝜕𝑤𝑖ℎ𝜕ℎ𝑖(𝑘)𝜕(∑𝑛𝑤𝑥(𝑘)−𝑏)ℎ𝑖=1𝑖ℎ𝑖𝑛==𝑥𝑖(𝑘)𝜕𝑤𝑖ℎ𝜕𝑤𝑖ℎ1𝑞2𝜕𝑒𝜕(2∑𝑜=1(𝑑𝑜(𝑘)−𝑦𝑜𝑜(𝑘)))𝜕ℎ𝑜ℎ(𝑘)=𝜕ℎ𝑖ℎ(𝑘)𝜕ℎ𝑜ℎ(𝑘)𝜕ℎ𝑖ℎ(𝑘)1𝑞2𝜕(2∑𝑜=1(𝑑𝑜(𝑘)−𝑓(𝑦𝑖𝑜(𝑘))))𝜕ℎ𝑜ℎ(𝑘)=𝜕ℎ𝑜ℎ(𝑘)𝜕ℎ𝑖ℎ(𝑘)1𝑞𝑝2𝜕(2∑𝑜=1(𝑑𝑜(𝑘)−𝑓(∑ℎ=1𝑤ℎ𝑜ℎ𝑜ℎ(𝑘)−𝑏𝑜)))𝜕ℎ𝑜ℎ(𝑘)=𝜕ℎ𝑜ℎ(𝑘)𝜕ℎ𝑖ℎ(𝑘)𝑞𝜕ℎ𝑜ℎ(𝑘)=−∑(𝑑𝑜(𝑘)−𝑦𝑜𝑜(𝑘))𝑓′(𝑦𝑖𝑜(𝑘))𝑤ℎ𝑜𝜕ℎ𝑖ℎ(𝑘)𝑜=1𝑞=−(∑𝛿0(𝑘)𝑤ℎ𝑜)𝑓′(ℎ𝑖ℎ(𝑘))−𝛿ℎ(𝑘)𝑜=12.2.2.5修正连接权值利用输出层各神经元的𝛿0(𝑘)和隐含层各神经元的输出来修正连接权值𝑤ℎ𝑜(𝑘)。𝜕𝑒∆𝑤ℎ𝑜(𝑘)=−𝜇=𝜇𝛿0(𝑘)ℎ𝑜ℎ(𝑘)𝜕𝑤ℎ𝑜𝑤𝑁+1=𝑤𝑁+𝜂𝛿(𝑘)ℎ𝑜(𝑘)ℎ𝑜ℎ𝑜0ℎ利用隐含层各神经元的𝛿ℎ(𝑘)和输入层各神经元的输入修正连接权𝑤𝑖ℎ(𝑘)。𝜕𝑒𝜕𝑒𝜕ℎ𝑖ℎ(𝑘)∆𝑤𝑖ℎ(𝑘)=−𝜇=−𝜇=𝛿ℎ(𝑘)𝑥𝑖(𝑘)𝜕𝑤𝑖ℎ𝜕ℎ𝑖ℎ(𝑘)𝜕𝑤𝑖ℎ18 新疆医科大学硕士学位论文𝑤𝑁+1=𝑤𝑁+𝜂𝛿(𝑘)𝑥(𝑘)𝑖ℎ𝑖ℎℎ𝑖2.2.2.6计算全局误差𝑚𝑞12𝐸=∑∑(𝑑𝑜(𝑘)−𝑦𝑜(𝑘))2𝑚𝑘=1𝑜=12.2.2.7迭代算法判断网络误差是否满足要求。当误差达到预设精度或学习次数大于设定的最大次数,则结束算法。否则,选取下一个学习样本及对应的期望输出,返回到第三步,进入下一轮学习。整个流程如图3所示。19 新疆医科大学硕士学位论文网络初始化输入x,根据网络的状态方程计算网络输出y计算全局误差𝑚𝑞12𝐸=∑∑(𝑑𝑜(𝑘)−𝑦𝑜(𝑘))2𝑚𝑘=1𝑜=1成立𝐸<𝜀不成立成立达到最大学习次数不成立修改权值训练完成𝑤𝑁+1=𝑤𝑁+𝜂𝛿(𝑘)𝑥(𝑘)图3BP神经网络算法流程图Fig.3BPneuralnetworkalgorithmflowchart20 新疆医科大学硕士学位论文2.3组合预测2.3.1组合预测介绍组合预测方法是由Bates和Granger于1969年首次提出的实用预测方法,其成果引起了预测学者的广泛关注。进入20世纪70年代,组合预测的研究受到更多预测学者的重视,学术界推出了一系列关于组合预测的论文,一度形成了组合预测热。1989年,国际预测领域的权威学术刊物JournalofForecasting还出版了组合预测专辑,把组合预测研究推向了一个新阶段。组合预测是相对于单项预测而言的。不同的时序数据往往表现出不同的波动特点,所以单项预测常常“时好时坏”,预测的精度和准确度很难控制。组合预测则力图克服这一方面的缺陷,实现预测结果的最优[36]。神经网络非常灵活且通用,可以广泛地应用于预测问题,准确性也较高。但是将其盲目地运用于任意数据不是明智之举,例如在线性问题中可能产生混合结果。这就是提出ARIMA和非线性模型(如神经网络)组合预测方法的原因。ARIMA和神经网络各有优势,如果发生了例外情形,其性能将会被降低。故下面介绍一种新的组合方法,可以很好地克服它们各自的局限,形成更加一般和准确的组合模型[37]。人工神经网络和自回归移动平均模型在各自的线性或非线性领域都取得了成功,但它们都不是适用于各种情况的通用模型。使用ARIMA模型解决复杂的非线性问题并不合适,使用神经网络解决线性问题也不合适,因此两者都不适合解决同时包含线性和非线性结构的问题。实践经验表明,组合模型可以降低模型使用不当或失败的风险,提高拟合效果,获得更加精确的结果。如果无法得知数据中是否包含线性和非线性部分,那么使用组合模型可能是更合理的方式。2.3.2建模方法本文认为时间序列数据𝑦𝑡由线性和非线性两部分构成:𝑦𝑡=𝑓(𝐿𝑡,𝑁𝑡)式中𝐿𝑡表示线性部分,𝑁𝑡表示非线性部分。线性部分的残差包含了非线性关系,线性模型无法更好地对其进行模拟:𝐿𝑡=𝐿̂𝑡+𝑒𝑡式中𝐿̂𝑡是t时刻线性模型的预测值,𝑒𝑡是t时刻线性模型的残差。再对线性模型的残差可能存在的非线性部分进行建模:𝑁𝑡1=𝑓1(𝑒𝑡−1,𝑒𝑡−2,…,𝑒𝑡−𝑛)𝑁𝑡2=𝑓2(𝑧𝑡−1,𝑧𝑡−2,…,𝑧𝑡−𝑚)𝑁=𝑓(𝑁1,𝑁2)𝑡𝑡𝑡式中𝑓1、𝑓2和𝑓是由非线性模型所决定的非线性函数。N和m是是整数,且和模型自身相关。综上,最终的组合模型为:𝑦=𝑓(𝑁1,𝐿̂,𝑁2)=𝑓(𝑒,…,𝑒,𝐿̂,𝑧,…,𝑧)𝑡𝑡𝑡𝑡𝑡−1𝑡−𝑛1𝑡𝑡−1𝑡−𝑚121 新疆医科大学硕士学位论文式中𝑓是由非线性模型决定非线性函数,𝑛1≤𝑛,𝑚1≤𝑚,𝑛1、𝑚1是整数,由非线性模型对数据的处理过程决定。此外𝑒𝑖(𝑖=𝑡−1,…,𝑡−𝑛)、𝐿̂𝑡和𝑧𝑗(𝑗=𝑡−1,…,𝑡−𝑚)或它们的集合{𝑒𝑖(𝑖=𝑡−1,…,𝑡−𝑛)}、{𝑧𝑗(𝑗=𝑡−1,…,𝑡−𝑚)}都有可能随非线性模型的结构而删除,也有可能因数据生成过程、线性模型的结构而改变。例如,如果数据是纯线性结构的,那么{𝑒𝑖(𝑖=𝑡−1,…,𝑡−𝑛)}则应该被删除。相反,如果数据仅包含非线性结构,那么𝐿̂𝑡则应该被删除。22 新疆医科大学硕士学位论文结果1ARIMA模型的建立和结果分析1.1平稳性检验使用R语言绘制2005~2014年新疆地区丙肝月发病数时序图,如图4所示。对数据做ADF和KPSS平稳性检验,前者𝑃=0.231,后者𝑃<0.01,说明该时序是非平稳的,需要进行数据变换。图42005~2014年新疆地区丙肝月发病数时序图Fig.4sequencediagramofthemonthlyincidenceofhepatitisCinXinjiangareainXinjiang1.2数据变换为减少结果出现异方差的可能性,直接对原始数据做𝜆=0的Box-Cox变换,即自然对数变换。为得到季节差分和非季节差分项,对原始序列做非平稳序列的确定性分析,见图5。图5丙肝月发病数的确定性分析Fig.5DeterminantanalysisofthemonthlyincidenceofhepatitisC23 新疆医科大学硕士学位论文图5中可以看出明显的季节性变化,因此需要做1阶12步季节差分,即D=1,S=12。随后对差分数据再做平稳性检验,发现依然是非平稳的,所以尝试1阶非季节差分,即d=1,检验后发现此时序已平稳。1.3纯随机性检验采用𝑄𝐿𝐵统计量进行白噪声检验𝑃<0.01,说明此变换后的平稳序列不是白噪声,序列中包含值得提取的信息。1.4确定模型结构绘制该平稳序列的自相关图ACF和偏自相关图PACF,见图6和图7。图6平稳序列的自相关图ACFFig.6AutocorrelationgraphACFforstationarysequence图7平稳序列的偏自相关图PACFFig.7partialautocorrelationgraphPACFforstationarysequence根据表1的判断方法,在图6中,延迟1阶、2阶自相关系数显著非零,而延迟3阶自相关系数落入两倍标准差范围,因此非季节参数q可能取值0、1、2;延迟12阶自相关系数显著非零,延迟24阶自相关系数落入两倍标准差范围,因此季节参24 新疆医科大学硕士学位论文数Q可能取值为0、1;在图7中,延迟1阶、2阶、3阶偏自相关系数显著非零,延迟4阶偏自相关系数落入两倍标准差范围,因此非季节参数p可能取值为0、1、2、3;延迟12阶、24阶偏自相关系数显著非零,延迟36阶自相关系数落入两倍标准差范围,因此季节参数P可能取值为0、1、2。因此共有3×2×4×3=72个候选模型。1.5估计模型参数使用R语言建立72个候选的ARIMA季节模型,每个模型的所参数被自动估计。1.6模型和参数显著性检验对72个候选模型的残差做统计量𝑄𝐿𝐵的白噪声检验。随后做显著性检验,对每个参数除以标准误的值做单侧t检验,自由度为2005年1月~2014年6月训练集的月数据总数量114减去当前候选模型的参数数量。通过计算得到72个候选模型中,有12个模型呈现显著性。1.7寻找最小信息准则模型计算上述12个模型的AICc,见表2。最小信息模型ARIMA(2,1,0)×(1,1,0)12即为最优模型。图8是该模型的残差平方图,可以看出没有明显的趋势,并未呈现出异方差性,无需构建GARCH模型。表3为该模型的参数显著性检验情况,可以看到所有参数均显著非零。表2通过显著性检验的候选模型的AICc值Table2theAICcvalueofthecandidatemodelthroughthesaliencytest模型残差白噪声P值AICcARIMA(2,1,2)×(0,1,1)120.81-103.79ARIMA(0,1,2)×(1,1,0)120.95-104.99ARIMA(1,1,1)×(1,1,0)120.99-105.10ARIMA(2,1,2)×(2,1,0)120.76-112.14ARIMA(1,1,0)×(2,1,0)120.24-112.64ARIMA(0,1,2)×(2,1,0)120.78-113.40ARIMA(1,1,1)×(2,1,0)120.96-114.50ARIMA(2,1,0)×(2,1,0)120.98-114.52ARIMA(2,1,0)×(0,1,1)120.73-115.41ARIMA(0,1,2)×(0,1,1)120.71-115.50ARIMA(1,1,1)×(0,1,1)120.76-115.83ARIMA(2,1,0)×(1,1,0)120.77-116.5725 新疆医科大学硕士学位论文图8最优模型的残差平方图Fig.8Residualsquaregraphofoptimalmodel表3最优模型的参数显著性检验Table3Thetestoftheparametersaliencyoftheoptimalmodel参数模型回归系数标准误t值P值ar1-0.77210.0967-7.9845<0.001ar2-0.27400.0957-2.86310.003sar1-0.44260.0960-4.6104<0.0011.8模型的交叉验证和预测为了验证模型ARIMA(2,1,0)×(1,1,0)12的外推能力,将2005~2014年的月时序数据划分为两部分,2005年1月~2014年6月的月数据为训练集,2014年7月~2014年12月的月数据为验证集。做Hold-Out交叉验证,训练集MAPE=1.44%,验证集MAPE=4.80%,验证集SMAPE=2.37%,拟合与预测效果均较好,拟合情况见图9。可以看出,模型ARIMA(2,1,0)×(1,1,0)12在验证集上的外推能力较好。表4给出了验证集上的误差,平均误差为4.67%。图9预测部分显示出2015年的丙肝发病总数为11788例略高于2014年的11715例,预测数据见表5,发病数峰值1154例出现在3月。26 新疆医科大学硕士学位论文图9模型ARIMA(2,1,0)×(1,1,0)12的拟合、验证和预测结果Fig.9Theresultsoffitting,verificationandpredictionofmodelARIMA(2,1,0)×(1,1,0)12表42014年7月-2014年12月丙肝月发病数的实际值和预测值比较Table4ComparisonoftheactualandpredictedvaluesofthemonthlyincidenceofhepatitisCinDecember~2014July2014时间实际值预测值绝对误差相对误差2014.79271013860.082014.8967923-44-0.052014.9842857150.022014.10753764110.012014.11913973600.062014.121010956-54-0.06表52015年丙肝预测月发病数Table5ThemonthlyincidenceofhepatitisCin2015时间预测值95%CI时间预测值95%CI2015.11086719~16432015.71016567~18202015.2970629~14982015.8947516~17382015.31154733~18182015.9854448~16252015.41042649~16732015.10781397~15382015.51048641~17132015.11956472~19392015.6966581~16072015.1296846~202427 新疆医科大学硕士学位论文2BP神经网络模型的建立和结果分析本文以2005年1月~2014年6月的月数据为训练集,样本数N=120。2014年7月~2014年12月的月数据为验证集。经过输入层和隐含层的节点数实验对比,本文建立了3-7-1的BP神经网络模型:输入层3个神经元,隐含层7个神经元,输出层1个神经元。模型结构如图10所示:图10BP神经网络结构图Fig.10BPneuralnetworkstructurediagram以每4个连续月发病数为一组,前3个作为神经网络的输入,最后1个作为神经网络的输出,使用样本对该神经网络进行有监督的学习训练。对验证集的数据进行交叉验证,结果如图11所示。28 新疆医科大学硕士学位论文图11BP神经网络3-7-1的拟合、验证和预测结果Fig.11Thefitting,verificationandpredictionresultsoftheBPneuralnetwork3-7-1训练集MAPE=1.30%,验证集MAPE=4.65%,验证集SMAPE=2.02%,拟合与预测效果均较好,验证集上的外推能力较好,整体效果稍优于ARIMA季节乘积模型。表6给出了验证集上的误差,平均误差为4.17%。2015年的丙肝发病总数为11719例略高于2014年的11715例,预测数据见表7,发病数峰值1132例出现在3月。表6神经网络在训练集的实际值和预测值比较Table6Comparisonoftheactualandpredictedvaluesoftheneuralnetworkinthetrainingset时间实际值预测值绝对误差相对误差2014.79271001740.072014.8967926-41-0.042014.9842858160.022014.1753768150.022014.11913955420.042014.121010951-59-0.0629 新疆医科大学硕士学位论文表7神经网络在验证集的预测值Table7neuralnetworkintheverifyingsetpredictionvalue时间预测值95%PI时间预测值95%PI2015.11075734~16042015.71006585~17532015.2968647~14642015.8952541~16872015.31132754~17662015.9842466~15502015.41050670~16232015.10792417~14702015.51043662~16572015.11947495~18512015.6956601~15512015.12956489~19203组合预测模型的建立和结果分析本文的组合模型先使用ARIMA季节乘积模型预测新疆地区丙肝月发病数,再用BP神经网络预测ARIMA乘积季节模型的误差,最后ARIMA的预测结果与BP神经网络的预测相加得到组合预测模型的预测值。整个过程如下图12所示。图12ARIMA乘积季节模型-BP神经网络模型组合原理Fig.12ARIMA-BPcombinationprinciple为了验证拟合数据的预测效果,组合模型仍以2005年1月~2014年6月的月数据为训练集,2014年7月~2014年12月的月数据为验证集。前半部分的ARIMA乘积季节模型的建模参数没有变化,模型选择ARIMA(2,1,0)×(1,1,0)12。根据ARIMA乘积季节模型的预测结果,后半部分的BP神经网络模型经过输入层和隐含层的节点数实验对比,最终选择了3-8-1的BP神经网络结构,即输入层3个神经元,隐含层8个神经元,输出层1个神经元。模型结构如图13所示:30 新疆医科大学硕士学位论文图13组合模型中的神经网络结构Fig.13Neuralnetworkstructureincombinatorialmodel将ARIMA乘积季节模型的残差数据以每4个连续月发病数为一组,前3个作为神经网络的输入,最后1个作为神经网络的输出,使用样本对该神经网络进行有监督的学习训练。此时模型的预测结果包含非线性趋势,将它与ARIMA模型的线性趋势数据相加,即可得到组合模型的预测结果。最后进行交叉验证,结果如图14所示。图14组合模型的拟合、验证和预测结果Fig.14Thefitting,verificationandpredictionresultsofthecombinationmodel31 新疆医科大学硕士学位论文训练集MAPE=1.22%,验证集MAPE=3.72%,验证集SMAPE=1.92%,拟合与预测效果均较好,验证集上的外推能力较好,整体效果优于ARIMA季节乘积模型和BP神经网络模型。表8给出了验证集上的误差,平均误差为2.67%。2015年的丙肝发病总数为11713例略低于2014年的11715例,预测数据见表9,发病数峰值1146例出现在3月。表8组合模型在训练集的实际值和预测值比较Table8combinationmodelcomparestheactualvalueofthetrainingsetwiththepredictedvalue时间实际值预测值绝对误差相对误差2014.7927952740.072014.8967938-41-0.042014.9842867160.022014.1753751150.022014.11913934420.042014.121010964-59-0.06表9组合模型在验证集的预测值Table9combinationmodelinverifyingsetpredictionvalue时间预测值95%CI+PI时间预测值95%CI+PI2015.11081697~14162015.71008523~14752015.2973630~13402015.8948497~14832015.31146738~16422015.9839430~13752015.41040643~15012015.10785387~13202015.51039612~15022015.11951413~15042015.6963550~14182015.12940391~152532 新疆医科大学硕士学位论文讨论1时间序列模型的分析从时间层面进行解析,既能够从总量上揭露某个现象的发展规律,满足人们认知客观世界的需求,同时能够预测并对未来的行为制定科学可行的行为方案。很多经济、商业等领域相关的信息均是时间序列信息,关于上述信息完成解析,可以获得很多有效的数据,是当前很多专家探究的重点所在。现在针对时间序列的预测方案比较完善,为了建设的趋向逐渐明朗。很久之前古埃及人将尼罗河潮汐潮落情况按照日期进行记录,创建了对应的时间序列。关于上述时间序列通过长时间的观察,人们察觉尼罗河的涨落存在一定的规律性。类似的方式将随机事件根据时间进行详细的记录,创建对应的时间序列,关于其进行有效的观察探究,发现其中蕴含的规律性,预测未来的走向情况,可以将这个过程看作是时间序列解析过程。之前的时间序列解析一般是借助直观的信息对比方式或者画图观察方式,探寻其中存在的规律性,上述解析方式被称作是描述性时序解析方式。古埃及人察觉尼罗河发生泛滥的规律同样是依照上述解析方式。可是因为探究的方面相对较广,相关的探究领域对应的随机变量表现出极强的随机特性,仅仅依靠简单的时序解析方式已经不能满足寻找相关规律的要求,为了精准的预测随机序列存在的内在规律,上个世纪20年代以来,学术界借助数理统计的方式解析对应的时间序列,探究的核心从以往的表面现象汇总方式转变成解析序列值潜在的关联关系层面,从此出现了一种新型的时间解析方式。时间序列解析方式从上个世纪20年代被Yule提出,其创建了相关的自回归模型,用来评估市场存在的内在规律。上个世纪30年代,相关专家借助AR模型,创建了对应的移动平均模型,可以将其看作是时间序列解析方式的根本。上个世纪60年代以后,时间序列解析方式获得了突破性的进展,在工程方面获得普遍应用。最近几年,因为计算机以及信号处理领域的迅猛建设,相关的解析理论知识逐渐趋于完善。不管是经济层面每年的产值状况、价格变化情况等,抑或是社会层面相关区域的人口总量,河流流量状况等,都形成了一个时间序列。依照上述时间序列,可以精准的查找相关系统内在的规律性,获得人们需要的相对精准的数据,能够将这个过程看作是时间序列解析过程。依照动态信息揭露相关项目动态架构以及内在规律状况的办法。对应的基础思想是依照相关项目有限的运行轨迹,创建可以精准反馈时间序列蕴含的内在规律对应的数学模型,借助该模型完成相关的预测。时间序列在时序数据的基础之上应用数理统计方法加以处理,以预测未来事物33 新疆医科大学硕士学位论文的发展。时间序列建模方法简单易行,但准确性差,通常适用于短期预测[38-39]。在时间序列分析中,AR、MA、ARMA、ARIMA、ARCH、GARCH都是较为常见的模型。ARMA、ARIMA及季节模型一般都假设干扰项的方差为常数,然而很多情况下时间序列的波动有集聚性等特征,使得方差并不为常数[40]。因此,如何刻画方差是十分有必要的。其中GARCH对误差的方差进行了进一步的建模,特别适用于波动性的分析和预测。实践中ARIMA是最常用的平稳时间序列的拟合模型[41]。本文建立了ARIMA(2,1,0)×(1,1,0)12模型,并将2005~2014年的月时序数据划分为两部分,2005年1月~2014年6月的月数据为训练集,2014年7月~2014年12月的月数据为验证集。两个集合的交叉验证结果显示,训练集MAPE=1.44%,验证集MAPE=4.80%,验证集SMAPE=2.37%,拟合与预测效果均较好,说明模型ARIMA(2,1,0)×(1,1,0)12在验证集上的外推能力较好。模型的平均误差为4.67%。预测结果表明2015年的丙肝发病总数为11788例略高于2014年的11715例,发病数峰值1154例出现在3月。本文中针对新疆地区丙肝发病数建立了AICc最小的ARIMA乘积季节模型ARIMA(2,1,0)×(1,1,0)12用于预测新疆地区丙肝发病数。但由于ARIMA模型更加适合短期预测,在做长期预测时,最好可以更多地考虑历史数据,从而获得精确的预测结果。此外,虽然个别候选模型在验证集上的MAPE小于最优模型,如模型ARIMA(0,1,2)×(1,1,0)12在验证集上的MAPE=4.71%,优于本研究选定模型的外推能力,但是最小信息函数受到模型的极大似然函数值和模型中未知参数个数的影响,说明它充分提取了数据的信息,对数据的建模更加充分。2神经网络模型的分析能够将神经网络项目看作是包含大量相对简单的神经元,借助非常广泛的连接关系构建起相对复杂的网络工程。即便所有神经元对应的架构以及功能均比较简单,可是因为很多神经元构建起的网络工程十分复杂。能够将神经网络系统看作是极其复杂的非线性系统,不仅满足普遍非线性系统相关的共性要求,最关键的是其具备自身独有的特征,例如高维性、自适应性等。能够将神经网络对应的动力学具体划分成两种类型:一类称之为快过程;另一类称之为慢过程。对于快过程来讲,是针对神经网络完成对应的运算操作,实质反应了相关神经网络状态变化情况。因为神经元间存在紧密的关联关系,以及神经元特有的动力学特征,对于外界刺激能够快速转换成一种平衡状态。如此,满足特定架构要求的神经网络能够被确定为一种模式转换,在运算的时候,能够针对上述模式完成操作。快过程是以短期记忆为基础的,从输入态转变为一种平衡状态存在多对一的映射34 新疆医科大学硕士学位论文关系。上述关联关系满足联想存储的要求,能够将这种存取方式进行有效的推广,也就是将一组紧邻的输入态对应一致的平衡状态。需要针对相关神经网络进行训练,才能实现上述模式转换操作,对应的能够将神经网络的学习过程看作是慢过程。相关神经元间的连接情况是依照周围环境变化缓慢构建起来的,把周围相关的环境数据逐渐存储在对应的神经网络当中,上述过程因为连接强度发生变化,构建起相对较长的记忆,可以将其看作是长期记忆。对于慢过程来讲,其最终的目标不是为了达到一种平衡状态,而是创建满足特定架构要求的自组织系统,通过自组织系统以及周围环境产生的作用,将周围环境对应的统计规律反馈到相关架构当中。也就是借助跟外在环境的交互,从相关的外在环境获得需要的信息。例如能够将联想记忆看作是一个训练过程,归类为慢过程,需要进行连接强度的变化,将需要训练的内容进行长时间的保留,相关刺激被对应的系统转变成一种平衡状态,所以针对相关刺激会存在一定的记忆。BP方式是相对典型的神经网络方法,以单层神经网络为基础,因为上述神经网络自身的局限性,借助反向导向调节权值的方式创建多层网络架构,让相关系统能够依照相关样本不断进行训练,达到误差限定要求为止。BP方法重点的思路是将相关训练过程具体划分成两个环节:首先是进行正向导向,将输入的数据通过输入层、隐含层等进行运算操作。接下来是进行反向导向,倘若在输出层没有获得预想的输出值,能够通过递归方式运算出真实输出值以及对应的预期值之间的差异,方便依照差值状况调整相关的权值大小。BP神经网络通常是三层结构的,训练算法采用后向传播算法。本研究中连续的N个丙肝月时序数据作为一组,前N-1个作为输入样本,最后1个作为输出样本,并通过软件对神经网络进行有监督的训练。在训练过程中,网络中的权重值在BP算法的运行下不断修正,直到达到特定的迭代次数或满足一定的误差要求。可以看出BP神经网络的可操作性强的特点,因此它被广泛应用于各种领域[42]。从本研究的样本设置可以看出,虽然训练样本的输入顺序并没有严格的要求,但训练样本内的数据必须是有序的,从这个角度上本研究认为BP神经网络并未打破数据的时序性。从BP算法的过程中可以看出,算法过程需要设置随机数,这意味网络每次训练的结果都是不相同的,结果具有一定随机性。正因为如此,实际运用过程中,不仅需要对不同的输入层神经元数量和隐含层神经元数量做实验对比,还要对特定的神经网络结构做大量测试,从而寻找出最小误差的网络结构和参数。在实验对比的测试过程中,需要将初始学习速率不断随机地调整[43-44]。除了可能加快收敛速度以及避免发散或振荡外,最重要的是避免可能陷入的局部极小值问题,从而提高寻找到最优网络模型的可能性。换言之,动态变化的初始学习速率能更好地适应网络的训练和学习过程。35 新疆医科大学硕士学位论文这种方法的基础思路是借助非线性机理制定最快下降方案,让相关权值顺着误差方法负梯度方向进行转变,实现网络真实环境的输出值以及预期值之间对应的均方差满足最小要求,通常对应的步长需要依照差异化问题给出差异化的数值,是根据算法效果的经验来取的。跟以往简单的人工神经元模型进行对照,对应的感知器模型不管是性能层面还是应用层面均不同程度的获得了发展,推动了神经网络的建设,可是还是有很多棘手的问题需要解决,接下来关于BP方法存在的根本性缺陷进行具体阐述。首先是收敛速率相对偏慢,为了确保该方法的收敛性,对应的学习速率需要在阈值范围内。上述问题影响了BP方法的收敛速率,而且随着逐渐接近极小值位置,对应的梯度变化不断趋向零,对应的该方法的收敛速率逐渐变慢。第二是所得的网络容错能力差。第三是该方法仍旧存在一定的缺陷,比较容易陷入局部极小值状态,无法确保在全局收敛到最小点。在真实环境中,对于求解过程来讲,常常处理的是比较复杂的多维曲面,有许多局部极小值点,相对更容易陷入局部极小值当中,对于权值对应原始值的选用对于网络训练产生了相对较大的作用,借助随机配置的原始权值通过训练实现全局最优的过程相对困难。第四是关于网络隐含层总数以及相关单元数的选用还没有有效的理论支撑,可是能够依照经验进行确定,所以,造成网络存在较大的冗余问题,增大了运算相关的时间。对于BP方法来讲,学习效率是一定的,会存在较大的问题,设置的比较大很容易产生震荡,不能获得较好的结果,设置的比较小的话,即便没有震荡问题,可是对于的收敛速率过于缓慢。于是可以让学习速率自适应调节。主要思想是:首先针对训练当中相关权值的完成修正操作,检验其是否满足降低误差的要求。倘若权值对应的修正值使得相关网络的真实输出值以及预期输出值对应的差值降低了,证明选取的学习速率相对较小,能够增大该值;反之,存在调节过度情况,需要降低对应的学习速率大小。在对网络经过大量比对测试训练后,本研究建立了3-8-1结构的网络结构,即以4个连续的丙肝月时序数据作为一组,前3个作为输入层样本,最后1个作为输出层样本,并对网络进行训练寻找最优网络参数。网络的训练集MAPE=1.30%,验证集MAPE=4.65%,验证集SMAPE=2.02%,验证集上的平均误差为4.17%,拟合与预测效果均较好,验证集上的外推能力较强,整体效果稍优于ARIMA季节乘积模型。模型预测2015年的丙肝发病总数与ARIMA模型近似,发病数峰值仍然出现在3月。以上结果说明了神经网络模型是可以用于建立新疆地区丙肝月发病预测模型的。36 新疆医科大学硕士学位论文3组合预测模型的分析对于组合预测来讲,分类是非常关键的问题。所谓的最优组合预测对应的相关权重需要符合归一化要求,依照极小化误差规则创建对应的目标方法,进而运算出组合预测对应的权重情况。能够将最优组合预测看作是数学方面的规划难题。依照加权系数动态特性,能够将组合预测具体划分成固定权以及变权两种类型;依照组合预测以及单项预测结果进行对照,对应的组合预测方式能够具体划分成两种,一种是非劣性,一种是优性。借助特定的加权方式能够获得对应的结果,核心是明确对应的单项预测方案的权重情况。即便组合预测方案探究取得了一定的成果,可是对于未知环境的组合预测方式、求解等难题问题还需要进行深入的探究。随着计算机技术的飞速发展,人工神经网络、模糊逻辑、支持向量机回归、遗传算法等较为复杂的智能算法得以实现,逐渐将智能方法使用在组合预测当中,极大的提升了预测的精准度。即便现在人工智能方法相对热门,可是把其应用在组合预测当中还需要进行深入的探究,特别是怎样解决智能方法在预测过程中呈现出的过度拟合问题。诚然,能够参考智能方法在相关领域的应用情况,借助智能方法求解相对复杂的组合预测模型,也可以把相关的智能方法进行有机的整合。单个预测模型仅包含或体现所研究系统的局部信息,若用不同的方法对系统进行模拟,往往是各有条件、各有特点,也各有不足。在实践中,ARIMA对线性数据的拟合效果较好,而BP神经网络对非线性数据的拟合效果较好。另一方面,时序数据通常又会受到很多因素的影响,其中可能同时包含了线性和非线性趋势。已有众多研究表明,组合预测方法优于纯粹的单一预测模型,因为它同时考虑到了时序数据的线性和非线性趋势,更好地描述客观现状,减少不确定性[45-46]。因此,本研究的组合预测模型将ARIMA模型和BP神经网络模型进行两月阶段式地组合,从而尝试更好地拟合及预测新疆地区丙肝发病数的发展情况。在本文组合模型的两阶段建模过程中,首先使用ARIMA对丙肝月发病数据进行建模,将预测结果作为第一阶段的结果,将误差作为第二阶段的输入数据。前者包含了已提取的线性信息,而后者则包含了待提取的非线性信息。在第二阶段中,使用BP神经网络建模方法从误差中提取非线性信息,最终得到第二阶段的结果,即包含了非线性数据的预测结果。最终将两阶段的预测值相加便可得到组合模型的预测值。本研究分别建立了ARIMA(2,1,0)×(1,1,0)12和BP结构为3-8-1的神经网络模型。拟合和预测结果显示,训练集MAPE=1.22%,验证集MAPE=3.72%,验证集SMAPE=1.92%,验证集上的平均误差为2.67%。整体效果优于ARIMA季节乘积模型和BP神经网络模型。组合模型预测出2015年的新疆地区丙肝发病数峰值出现在3月,总发病数基本与ARIMA和BP模型持平,但拟合精度更优。这足以说明在本研究中的数据中,组合模型是可靠的预测模型,能够为相关部门的预测提供数量支持和理论依据。37 新疆医科大学硕士学位论文4预测模型的比较将三个模型的拟合精度和预测效果进行比较,结果如表10所示。从表中可以看出对于新疆地区丙肝月发病数时序数据,BP神经网络模型优于时间序列模型,组合模型优于BP神经网络模型。训练集MAPE指标直观地反映了训练集的拟合精度,从表中可以观察到该指标的下降幅度较小,说明拟合值和实际值的差异较为接近,模型对已知数据的内推能力渐强。验证集的MAPE和平均误差两个指标较为客观地反映了模型的预测能力,其中组合模型的下降幅度较为明显,说明其外推的预测能力相对较强。表10模型之间的拟合和预测效果对比Table10Comparisonoffittingandforecastingeffectbetweenmodels训练集验证集验证集模型名称及结构MAPEMAPE平均误差时间序列ARIMA(2,1,0)×(1,1,0)121.44%4.80%4.67%BP神经网络3-7-11.30%4.65%4.17%组合模型ARIMA(2,1,0)×(1,1,0)12和3-8-11.22%3.72%2.67%38 新疆医科大学硕士学位论文小结尽管丙肝的治愈率高达90%以上,但由于丙肝具有隐匿性,被感染者多无明显症状,很多患者并不知道自己已染上丙肝。许多感染丙肝的人群,特别是那些患有慢性丙肝的人,可能一直都没有什么症状,直到很晚期才会出现症状[47-48]。本文通过对新疆地区丙肝月发病数据的预测模型探究,为新疆地区丙肝的防治决策提供有力的理论支持和数量依据。根据新疆地区丙肝月发病数数据,使用Box-Jenkins分析方法建立ARIMA季节乘积模型,通过对序列的平稳化处理,模型识别,参数估计,模型诊断等步骤建立了最优的ARIMA(2,1,0)×(1,1,0)12模型,使用模型对2015年的发病趋势进行预测,最后对模型的预测精度进行检验,验证集MAPE=4.80%,验证集平均误差为4.67%,表明模型具有较高的可靠性、合理性。当然ARIMA模型也具有其局限性,对趋势的长期预测会导致预测精度性能下降。因此如果要对发病趋势进行长期预测,还需要不断优化模型以达到更加精确的预测效果[49-50]。本文根据神经网络理论建立BP神经网络模型,通过时序数据的特征选择合适的输入层和隐含层节点数量,从而确定了3-7-1的神经网络结构。将时序数据分组后输入网络并有监督地训练该网络的各参数,进行交叉验证后检验该模型的有效性。结果显示验证集MAPE=4.65%,验证集平均误差为4.17%,拟合效果稍优于ARIMA乘积季节模型。为均衡考虑数据的线性、非线性趋势和受到其他因素的影响,本研究建立了两阶段的组合模型。第一阶段先建立ARIMA(2,1,0)×(1,1,0)12模型并将包含非线性趋势的误差做为第二阶段的BP神经网络模型的输入。ANN模型结构为3-8-1,最终将两模型的预测结果相加得到组合模型预测值。模型结果显示验证集MAPE=3.72%,验证集上的平均误差为2.67%。预测和外推能力都强于单一的预测模型。因此该组合模型是有效可靠的,能够为新疆地区相关部门的丙肝防控策略提供理论依据和数据支持。39 新疆医科大学硕士学位论文致谢转眼间,我的硕士生涯也即将接近尾声。这四年的硕士研究生光阴,既漫长而又短暂,感谢陪我一同度过这四年时光的老师同学,谢谢你们陪我成长,让我在这段旅途中收获知识,收获快乐,收获感动。有了你们的帮助和陪伴,我才能在追求知识的道路上不断克服困难,继续前进。本人的学位论文是在我的导师张学良教授的殷切关怀和耐心指导下进行并完成的,衷心感谢我的恩师对我的淳淳教诲和悉心关怀。恩师开阔的视野、严谨的治学态度、精益求精的工作作风,深深地感染和激励着我,在此谨向张学良老师致以衷心的感谢和崇高的敬意。同时衷心感谢张学良导师多年来在学习生活给予我的无私帮助,张老师时刻以学生为先,以教学科研为先的理念深深感染着我。在此谨向张学良老师致以衷心的感谢和崇高的敬意。不积跬步何以至千里,本论文能够顺利的完成,我还要感谢新疆医科大学医学工程技术学院数学教研室的每一位老师,感谢他们在工作、学习和生活中给与我的各种帮助。衷心感谢我的同门伙伴刘剡同学在生活学习和论文写作过程中给予我的热心帮助,以及在学习生活中的无私帮助,正是有了你的帮助支持我才能克服一个又一个困难。最后,衷心地感谢在百忙之中评阅论文和参加答辩的各位专家、教授!40 新疆医科大学硕士学位论文参考文献[1]杨思思,张继明.丙型病毒性肝炎抗病毒治疗现状[J].中国感染与化疗杂志,2017,17(4):474-479.[2]杨芮.几类丙型病毒性肝炎传播模型的研究[D].山西师范大学,2014.[3]孙海泉,肖革新,郭莹,等.中国2008-2012年丙肝流行规律及空间聚集性分析[J].中国公共卫生,2014,30(3):286-289.[4]潘华伟,苑远.丙型肝炎病毒感染的流行病学研究进展[J].吉林医药学院学报,2017,38(2):123-126.[5]王莲,赵俪梅.丙型肝炎病毒的母婴传播临床研究进展[J].肝脏,2017,22(7):638-641.[6]吴星,苏瑶,陈盼,等.丙型肝炎病毒疫苗的评价及研究进展[J].微生物学免疫学进展,2017,45(3):75-81.[7]董亚丽.关于丙型病毒性肝炎的动力学性态分析[D].中北大学,2017.[8]董亚丽,乔志琴.两种基因类型的丙肝传染病混合模型的动力学分析[J].河北工业科技,2017,34(1):1-6.[9]于林凤,吴静,周锁兰,等.ARIMA季节模型在我国丙肝发病预测中的应用[J].郑州大学学报(医学版),2014(3):344-348.[10]刘雷,张连生,汤恒,等.ARIMA乘积季节模型在丙肝发病预测中的应用[J].中华疾病控制杂志,2014,18(4):366-367.[11]刘炜炜,胡跃华,于石成,等.中国大陆地区2008—2013年丙肝发病时空聚集性及社会经济影响因素[J].中国公共卫生,2016,32(4):482-487.[12]王辛未,邵子杰,郝元涛.2005-2016深圳市某区丙肝报告发病率的年龄-时期-队列分析[C].中国卫生统计学学术年会,2017.[13]刘红杨,刘洪庆,李望晨,等.差分自回归移动平均与广义回归神经网络组合模型在丙型肝炎月发病率中的预测应用[J].中国全科医学,2017,20(2):182-186.[14]陈会枝,孟伟伟,贺付成.人工神经网络与灰色理论模型在传染病中的应用[J].中国实用神经疾病杂志,2016(2):51-52.[15]乔国梁.人工神经网络对于早期肝癌患者行肝切除术后生存的预测[D].第二军医大学,2012.[16]杨滨.一种基于增量式神经网络模型的丙肝预测方法和预测系统,CN106384006A[P].2017.41 新疆医科大学硕士学位论文[17]张丽婷,冯飞,董亚丽,等.具有时滞和治疗的丙肝模型分析[J].河北工业科技,2017,34(6):402-407.[18]姜超,刘文东,胡建利,等.丙肝疫情3种不同疾病预测预警方法比较[J].中国公共卫生,2015,31(4):390-393.[19]公共卫生科学数据中心,http://www.phsciencedata.cn.[20]吴田勇,曾庆,于萌,等.2004—2012年中国丙型肝炎报告数据ARIMA模型及其趋势预测[J].上海交通大学学报(医学版),2014,34(5):705.[21]刘璇,余晶.丙型肝炎的中西医治疗进展[J].湖南中医杂志,2017(11):174-176.[22]邹琳,佘会元.丙型肝炎的治疗及进展[J].肝脏,2017(10).[23]ThriftAP,ElseragHB,KanwalF.GlobalepidemiologyandburdenofHCVinfectionandHCV-relateddisease[J].NatRevGastroenterolHepatol,2017,14(2):122-132.[24]NoeMH,GrewalSK,ShinDB,etal.IncreasedprevalenceofHCVandhepaticdecompensationinadultswithpsoriasis:apopulation-basedstudyintheUnitedKingdom.[J].JournaloftheEuropeanAcademyofDermatology&Venereology,2017.[25]ResinoS,SeoaneJA,BellónJM.Anartificialneuralnetworkimprovesthenon-invasivediagnosisofsignificantfibrosisinHIV/HCVcoinfectedpatients.[J].JInfect,2011,62(1):77-86.[26]ArabasadiZ,AlizadehsaniR,RoshanzamirM,etal.Computeraideddecisionmakingforheartdiseasedetectionusinghybridneuralnetwork-Geneticalgorithm[J].ComputerMethods&ProgramsinBiomedicine,2017,141(C):19-26.[27]WengCH,HuangCK,HanRP.Diseasepredictionwithdifferenttypesofneuralnetworkclassifiers[J].Telematics&Informatics,2016,33(2):277-292.[28]PiscagliaF,CucchettiA,BenllochS,etal.PredictionofsignificantfibrosisinhepatitisCvirusinfectedlivertransplantrecipientsbyartificialneuralnetworkanalysisofclinicalfactors.[J].EurJGastroenterolHepatol,2006,18(12):1255.[29]PoortahmasebiV,PoorebrahimM,NajafiS,etal.HowHepatitisCVirusLeadstoHepatocellularCarcinoma:ANetwork-BasedStudy[J].HepatitisMonthly,2016,16(2).[30]HanY,NiuJ,WangD,etal.HepatitisCVirusProteinInteractionNetworkAnalysisBasedonHepatocellularCarcinoma:[J].PlosOne,2016,11(4):e0153882.[31]WangY,TanXD,ZhouC,etal.ExploratorysocialnetworkanalysisandgenesequencinginpeoplewhoinjectdrugsinfectedwithhepatitisCvirus[J].Epidemiology&Infection,2016,144(14):3080-3090.42 新疆医科大学硕士学位论文[32]XiaJ,InagakiY,SongP,etal.AdvanceinstudiesontraditionalChinesemedicinestotreatinfectionwiththehepatitisBvirusandhepatitisCvirus.[J].BioscienceTrends,2016,10(5):327.[33]El‐SeragHB,KanwalF,RichardsonP,etal.RiskofhepatocellularcarcinomaaftersustainedvirologicalresponseinVeteranswithhepatitisCvirusinfection[J].Hepatology,2016,64(1):130.[34]Horsley-SilvaJL,VargasHE.NewTherapiesforHepatitisCVirusInfection[J].Gastroenterology&Hepatology,2017,13(1):22-31.[35]CollaboratorsPOH.GlobalprevalenceandgenotypedistributionofhepatitisCvirusinfectionin2015:amodellingstudy[J].LancetGastroenterology&Hepatology,2017,2(3):161.[36]PettaS,MaidaM,MacalusoFS,etal.HepatitisCVirusInfectionIsAssociatedWithIncreasedCardiovascularMortality:AMeta-AnalysisofObservationalStudies.[J].Gastroenterology,2016,150(1):145-155.[37]ZhangL,FengF,DongY,etal.AnalysisofHepatitisCVirusmodelwithtimedelayandtreatment[J].HebeiJournalofIndustrialScience&Technology,2017,34(6):402-407.[38]PastoreF,MartocchiaA,StefanelliM,etal.HepatitisCvirusinfectionandthyroidautoimmunedisorders:Amodelofinteractionsbetweenthehostandtheenvironment[J].WorldJournalofHepatology,2016,8(2):83-91.[39]Hatem,Elalfy,Walid,etal.Diagnosticnon-invasivemodeloflargeriskyesophagealvaricesincirrhotichepatitisCviruspatients[J].WorldJournalofHepatology,2016,8(24):1028-1037.[40]唐路,张燕,幸奠国,等.基于空间数据分析技术的重庆市丙型肝炎发病研究[J].中华流行病学杂志,2016,37(1):80-84.[41]李泽,张学良.ARIMA季节模型在预测新疆地区丙型肝炎发病数中的应用[J].新疆医科大学学报,2018,41(1):106-109.[42]王燕.时间序列分析:基于R[M].中国人民大学出版社,2015.[43]包叶江,陈卫平,方任华,等.2004-2012年丙型肝炎的流行特征分析[J].中华医院感染学杂志,2015(19):4469-4471.[44]刘佳,蔡亚平.中国大陆地区1990~2010年丙型病毒性肝炎流行现状分析[J].现代预防医学,2013,40(14):2590-2592.[45]武海波,周紫霄,黄奕祥.2004-2011年中国丙型病毒性肝炎流行病学特征分析[J].现代预防医学,2015,42(7):1173-1175.43 新疆医科大学硕士学位论文[46]郭莹,肖革新,孙海泉,等.中国大陆地区丙型病毒性肝炎发病时空聚集性及变化趋势分析[J].疾病监测,2014,29(8):608-614.[47]Hatem,Elalfy,Walid,etal.Diagnosticnon-invasivemodeloflargeriskyesophagealvaricesincirrhotichepatitisCviruspatients[J].WorldJournalofHepatology,2016,8(24):1028-1037.[48]GrahamCS,BadenLR,YuE,etal.InfluenceofhumanimmunodeficiencyvirusinfectiononthecourseofhepatitisCvirusinfection:ameta-analysis.[J].ClinicalInfectiousDiseases,2001,33(4):562-569.[49]CorsiDJ,KargesW,ThavornK,etal.InfluenceoffemalesexonhepatitisCvirusinfectionprogressionandtreatmentoutcomes[J].EurJGastroenterolHepatol,2016,28(4):405.[50]PettaS,MarcoVD,BrunoS,etal.ImpactofviruseradicationinpatientswithcompensatedhepatitisCvirus‐relatedcirrhosis:competingrisksandmultistatemodel[J].LiverInternational,2016,36(12):1765-1773.44 新疆医科大学硕士学位论文综述丙型肝炎发病数预测模型的研究进展李泽综述张学良(教授)审校1丙型肝炎及其流行现状当患者患有肝炎时,由于病毒的作用会连续诱发一系列的并发症,并且一般都具有传染性,最典型的就是病毒性肝炎,它具有一定传染能力,同时发病率较高,能够通过各种方式在人群当中进行传播;当前人类科学家通过研究所分离到的肝炎病毒总共有五类,命名为甲乙丙丁戊[1]。对病毒的传播方式以及传播途径进行分类,大致如下:第一种主要通过消化途径进行传播,例如甲型和戊型的病毒性肝炎就通过该种渠道进行传播,在人体感染病毒后一般表现为急性,痊愈的病理占据大多数,一般少有患者会向严重的慢性肝炎方向恶化;第二种传播方式就是通过血液传播方式的病毒性肝炎,比较典型的就是乙肝,在患者感染了该种病症之后会朝着慢性肝炎的方向逐渐恶化,并且恶化情况同年龄之间也有密切的关系,一般表现为年纪越大越不容易恶化。据相关数据显示我国目前体内携带有乙肝病毒的人群大约有9300万之多,其中患者高达2000万人[2];丙肝病毒感染者约560万;每年通过乙肝病毒引发的病症而导致死亡的人数高达30万人。所以对于我国而言,对丙肝病毒进行有效的控制势在必行,否则会对我国的经济或者其他方面的发展形成阻碍。针对不同的乙肝病毒类型,所使用的防止政策也不尽相同[3]。丙肝病毒(HCV)是一种RNA病毒。在人体感染了丙肝病毒之后,患者会出现两种情况,即痊愈或者成为慢性的丙肝患者。虽然从临床医学的角度出发,急性的丙肝患者出现的症状并不严重,但是其恶化成慢性丙肝的几率较大,并且极有可能持续恶化最终形成肝硬化或者肝细胞癌症化的症状。经过研究证实,感染了丙肝病毒的人在后十年中,肝硬化的发病率约为15%左右。这说明了没有经过及时治疗的丙肝患者其痊愈程度并不理想,并且这种潜在的危机持续潜伏时间较长,甚至可达20年[4]。丙肝在全球范围内都有分布,就我国的调查数据显示所有人群中感染率约为3.2%,在世界范围内属中等水平,且经过科学估算,丙肝感染者大约有4000万人[5]。据统计,我国所有的慢性丙肝患者中有四分之一的人群发病原因都是血液输送过程出现问题导致的,毒品注射过程导致的丙肝人数约为6%[6]。2005~2014年,新疆维吾尔自治区累计报告丙肝发病数83983例,死亡数115人[7]。丙肝逐渐给社会造成了一定的经济负担。郑强等[8]分析2004~2010年新疆地区的法定传染病发病率中,丙肝45 新疆医科大学硕士学位论文的发病率平均26.45/10万,死亡率平均0.04/10万。此外,新疆地区地域辽阔,各地区间的经济发展水平、卫生意识和习惯差距大,易导致贫穷和疾病的恶性循环。2时间序列方法1927年,英国统计学家G.u.Yule提出了时间序列分析的自回归模型AR。1931年,英国统计学家G.T.Walker提出了移动平均模型MA和自回归移动平均模型ARMA。它们为时间序列分析奠定了基础,这三个模型至今仍被广泛使用。在时间序列发展的历史长河中,由Box和Jenkins编著的TimeSeriesAnalysis:ForecastingandControl被认为是重要转折点和标志。因此ARIMA模型通常也可以被称为Box-Jenkins模型。该书为预测者们提供了时间序列模型的识别、分析、预测、估计等过程的完整方法[9-10]。ARIMA模型相当灵活,主要的研究优势就是使用过程不会局限于数据类型,可适用范围较为广泛。无论是周期性还是不具有周期性的序列,都能够使用该模型建模。ARIMA模型能够整合的条件包含了趋势、周期、误差等因素,用以数据转换等数学方法进行辅助,最终完成序列向着平稳转变的目的,在模拟过程中进行多次诊断,相互比较,新选择较为理想的数据进行拟合。该方法由于不会被数据类型所限制,所以在短期预测领域得到了比较广泛的运用。并且传染病的相关发病情况通常与季节之间存在非常紧密的联系,所以在对新疆地区丙肝发病情况进行预测工作时,本文选择了该种模型方法[11]。ARIMA季节模型分为简单季节模型和乘积季节模型,但在实践中时间序列的长期趋势、循环波动、季节变化以及随机波动之间相互影响,存在交互关系,因此乘积季节模型更为常用[12]。ARIMA乘积季节模型的完整结构为𝑑𝐷𝛩(𝐵)𝛩𝑆(𝐵)∇∇𝑆𝑥𝑡=𝜀𝑡𝛷(𝐵)𝛷𝑆(𝐵)式中𝛩(𝐵)=1−𝜃𝐵−⋯−𝜃𝐵𝑞1𝑞𝛷(𝐵)=1−𝜙𝐵−⋯−𝜙𝐵𝑝1𝑝𝛩𝑆(𝐵)=1−𝜃1𝐵𝑆−⋯−𝜃𝑄𝐵𝑄𝑆𝑆𝑃𝑆{𝛷𝑆(𝐵)=1−𝜙1𝐵−⋯−𝜙𝑃𝐵以上公式简记为ARIMA(p,d,q)×(P,D,Q)S。其中P为季节自回归阶数,D为季节差分阶数,S为差分D的周期步长,Q为季节移动平均阶数,𝛩𝑆(𝐵)为季节移动平均系数,𝛷𝑆(𝐵)为季节自回归系数。ARIMA季节模型建模步骤:(1)平稳性检验在实践中,绝大部分时间序列都是非平稳的,这就需要对非平稳的时间序列做平46 新疆医科大学硕士学位论文稳性检验。常见的平稳性检验有图检法和单位根检验。常见的平稳性单位根检验方法有ADF检验、DFGLS检验、PP检验、KPSS检验、ERS检验和NP检验,其中ADF检验和KPSS检验运用较多[13]。ADF检验的原假设H0为序列是非平稳的,因此当P>0.05时提示序列非平稳需要差分处理等数据变换。KPSS检验的原假设H0与ADF相反,因此当P<0.05时提示序列非平稳。(2)数据变换使用Box-Cox变换和差分处理可将非平稳序列转换为平稳序列。Box-Cox变换是一种将倒数变换、指数变换、对数变换结合起来的变换方法,同时能实现方差齐性并消除异方差[14],其变换公式为log(𝑦𝑡),𝑖𝑓𝜆=0𝑤𝑡={𝜆(𝑦𝑡−1)/𝜆,𝑖𝑓𝜆≠0公式中λ的合理数值可以通过统计学软件计算得到。在预测数据之后需要重新将数据还原[15],其公式为𝑒𝑤𝑡,𝑖𝑓𝜆=0𝑦𝑡={(𝜆𝑤1/𝜆𝑡+1),𝑖𝑓𝜆≠0ARIMA季节模型的差分运算包含非季节性差分d和季节性差分D和S。非季节差分为d阶1步差分∇𝑑𝑥=∇𝑑−1𝑥−∇𝑑−1𝑥,季节差分为D阶S步差分∇𝐷𝑥=𝑡𝑡𝑡−1𝑆𝑡∇𝐷−1𝑥−∇𝐷−1𝑥。数据变换后需重新做平稳性检验。𝑆𝑡𝑆𝑡−𝑆(3)纯随机性检验当时间序列平稳后,则进行纯随机性检验。纯随机序列为时间序列各数值之间无相关性的序列,即白噪声序列,它具有纯随机性和方差齐性的特点。纯随机性检验就是白噪声检验,选用𝑄𝐵𝑃或𝑄𝐿𝐵统计量。当𝑃<0.05时认为此时间序列为非白噪声序列,说明此平稳序列中包含值得提取的信息。(4)确定模型结构绘制平稳非白噪声时间序列的自相关图ACF和偏自相关图PACF,估算模型ARIMA(p,d,q)×(P,D,Q)S中参数p、d、P和Q的范围,从而确定候选模型。在实际应用中,当模型不再为单纯的AR或MA时,应用传统的拖尾、截尾判断规则有一定困难,因此本文使用如下规则47 新疆医科大学硕士学位论文表1估计ARIMA乘积季节模型参数规则参数观测图形估计方法𝑝PACF步长为1的最大截尾延迟𝑃PACF步长为S的最大截尾延迟𝑞ACF步长为1的最大截尾延迟𝑄ACF步长为S的最大截尾延迟(5)估计模型参数使用矩估计作为最大似然估计和最小二乘法迭代的初始值,并估计各个候选模型的参数。(6)模型和参数显著性检验首先,模型的显著性检验就是对拟合值残差做纯随机性检验,即白噪声检验和方差齐性检验。如果模型残差通过白噪声检验𝑃>0.05,且满足方差齐性,说明此最优模型的残差为白噪声,即已经将有效信息提取完毕,否则选择其他次优候选模型。观察方差齐性最直观的方式就是绘制残差图和残差平方图,如果出现明显的趋势而不平稳,则认为表现出异方差性。通常采用方差齐性变换,即Box-Cox变换,或拟合广义自回归条件异方差模型GARCH解决异方差问题。其次,还需要对模型中的参数做显著性检验,即检验各参数是否显著非零,如果有任何一个参数不显著,则不再选择此模型,而重新选择其他候选模型再次检验。(7)寻找最小信息准则模型通过模型和参数显著性检验的候选模型都是有效模型,为了选择其中最合理的模型,还需要计算其信息准则函数值。常见的信息准则函数有AIC、AICc、BIC、DIC、HQC等。因为AIC/AICc在理论上比BIC更有优势[16],且当样本量足够大时AICc会收敛于AIC[17],同时AICc更适用于时间序列模型,因此本文选用AICc作为最优模型的评价指标。(8)模型的交叉验证和预测为检验模型的拟合和预测效果,提高模型的可信度,通常需要做交叉验证,常见方法有Hold-Out验证和K-fold验证。考虑到时间序列的特点,不宜采用K-fold交叉验证[18],而选用Hold-Out较为合适。将时序数据分为训练集和验证集,使用训练集建立模型并估计参数,再用候选模型的预测值和验证集评价此模型的误差。常见的拟合效果评价指标有MSE和MAPE,公式分别为𝑛1𝑀𝑆𝐸=∑(𝐴−𝐹)2𝑡𝑡𝑛𝑡=148 新疆医科大学硕士学位论文𝑛100%𝐴𝑡−𝐹𝑡𝑀𝐴𝑃𝐸=∑||𝑛𝐴𝑡𝑡=1其中𝐴𝑡为真实值,𝐹𝑡为模拟值。考虑到真实值𝐴𝑡不能为0的特殊情况,论文同时给出SMAPE,其公式为𝑛100%|𝐴𝑡−𝐹𝑡|𝑆𝑀𝐴𝑃𝐸=∑𝑛|𝐴𝑡|+|𝐹𝑡|𝑡=13BP神经网络在上世纪的40年代就已经有人提出了人工神经网络的相关研究理论。经历了半个多世纪的发展,它的发展道路蜿蜒曲折。在1943年,由科学家们提出的MP模型横空出世,它是历史上第一个使用数学语言对大脑进行信息处理进行描述的模型,具有跨时代的意义,虽然神经元功能不理想,但是这为以后的深入研究提供了充足的理论依据。1969年,M.L.Minsky与S.A.Papert的著作中提到了异或问题的解决方面,他们认为感知机并不能对其进行解决,也就是说感知机不能完成对激活与抑制之间的界线划分工作,同时对当时的人工神经网络存在的其他问题进行了一定程度上的阐述。因此关于它的研究被一度搁浅,在此之后的一段时间内毫无进展,直到1982年,HNN模型的出现打破了该领域长达几十年的寂静,此后人工神经网络又得到了实质性的发展[19]。在人工神经网络中所采用的是非线性并行处理的方式,使得该网络本身就具有较为理想的学习以及适应能力,能够在影响因素分析的方面有较好的应用[20]。作为非线性的不确定数学模型,BP神经网络能够实现函数的连续的传递功能[21],对其进行训练的方式采用误差反向传播训练,注重数据拟合的精度调整。神经网络不对资料的具体分布做过高要求,其分析过程相对稳定[22]。BP神经网络算法属于梯度下降算法,是一种监督式的学习算法。设输入层神经元为𝑃=[𝑝1,𝑝2,…,𝑝𝑖],隐含层神经元为𝑆=[𝑠1,𝑠2,…,𝑠𝑘],输出层神经元为𝐴=[𝑎,𝑎,…,𝑎],𝑊1表示输入层第i个神经元与隐含层第k个神经元之间的连接权12𝑗𝑘,𝑖值,𝑊2表示隐含层第k个神经元与输出层第j个神经元之间的连接权值;隐含层𝑗,𝑘的激发函数为𝑓1,输出层的激发函数为𝑓2,𝑏1表示隐含层各神经元的阈值,𝑏2表𝑠𝑘𝑎𝑗示输出层各神经元的阈值。其中,𝑊1、𝑊2、𝑏1、𝑏1∈(−1,1)。𝑘,𝑖𝑗,𝑘𝑠𝑘𝑠𝑘(1)信息的正向传递输入层各神经元与隐含层各神经之间以相应的权重连接,隐含层的第一个神经元𝑥1,从输入层的每一个神经元处得到输出值,加权求和𝑝×𝑤1+𝑝×𝑤1+⋯+111,121,2𝑝×𝑤1,加上阈值𝑏1,通过激发函数𝑓1,得到该神经元的输出值:𝑖1,𝑖𝑠𝑖𝑥1=𝑓1((𝑝×𝑤1+𝑝×𝑤1+⋯+𝑝×𝑤1)+𝑏1)111,121,2𝑖1,𝑖𝑠𝑖49 新疆医科大学硕士学位论文输出层第一个神经元𝑎接收隐含层每一个神经元输出值,并加权求和得𝑥1×11𝑤1+𝑥1×𝑤1+⋯+𝑥1×𝑤1,加上阈值𝑏2,通过激发函数𝑓2,得到输出层该神1,121,2𝑘1,𝑘𝑎1经元的输出值:𝑎=𝑓2(𝑥1×𝑤1+𝑥1×𝑤1+⋯+𝑥1×𝑤1)+𝑏2)111,121,2𝑘1,𝑘𝑎1(2)误差的逆向传播输入具有M维指标向量的N个样本进入输入层,正向经隐含层各神经元处理后,传向输出层,得到实际输出A,在输出层把实际输出A和期望输出T进行比较,并算出期望输出与实际输出的均方误差𝑀𝑆𝐸=∑(𝐴-𝑇)2/𝑁。如果MSE没有达到预定要求的误差,则进入反向传播过程,把输出误差信号MSE以梯度形式,按原来正向传播的通路逐层反向传回,并将误差信号MSE分摊给各层的所有神经元,从而获得各层神经元的误差信号𝑀𝐸𝑆𝑗(𝑗=1,2,3),将此误差信号𝑀𝐸𝑆𝑗作为修正各连接权值和阈值的依据,并对其修改,并反复运行信息的正向传播和误差逆向传播两过程,直至误差信号MSE收敛。当然在实际的使用过程中BP算法也有着一些劣势[23];例如在建模过程当中,如果想要模型同实际之间的拟合程度较高,则必须对各层神经元数目进行适当的选择,但是当前没有相关的文献对各层神经元最佳数量做出过结论性的表述。4组合预测方法预测过程其实就是指从当前已知条件出发,对未来的未知事件进行推测的过程,在决策过程中,它起着至关重要的作用。经过漫长的发展,当前的预测相关理论也逐渐趋于成熟,出现了一批又一批效果理想的预测模型。但是由于社会复杂多变,每一种预测模型都难免会与真实的情况存在一定的偏差。所以为了达到更好的预测效果,人们在对同一事件进行预测时,往往会采用多种不同的方式,通过比较发现得出较为准确的预测结果[24]。为了尽可能的利用全部有用的信息,1969年J.M.Bates和C.W.J.Granger[25]两人在其著作中提出了全新的预测理论,即组合预测理论。该预测方法有着比较理想的预测精度,同时也充分利用的预测样本所蕴含的信息,一经提出就受到了国内外业内学者的广泛关注以及讨论。伴随着组合预测理论的不断发展和完善,如今的组合预测可以大致分为以下两种:其一就是将两种或者以上的组合方法通过合理的组合方式进行整合,以此获得预测模型;另外一种就是在预测样本中预测目标本身具有多趋势性的复杂特点,单一的预测方法只能对某一特定时期的反应进行预测,所以它采取了对预测样本进行划分的方法,每一个部分采用与之相配合的预测方法进行分别预测,最终对预测结果进行整合得到一个完整的预测结果[26-30]。第一种方式因其较高的适应性而受到了广泛的关注,所以本文中讨论的是第一种组合预测模型[31-32]。在经过多年的发展后,组合预50 新疆医科大学硕士学位论文测如今已经趋于成熟,出现了较为复杂的组合预测模型。我们将该类模型划分为非线性和线性的组合预测模型[33]。线性组合预测模型在如今的研究当中是非常重要的一种预测方法,主要所包含的内容有B-G组合预测、线性回归组合预测以及变权组合预测三大类[34]。非线性组合预测的特点就是每一个组成该预测的子模型个体之间的组合系数呈现非线性相关的关系,这就让模型很大程度上同真实情况相贴近[35]。伴随着智能技术日新月异的进步,非线性组合预测也发展出另外一个全新的方向。结合计算机技术,在组合预测过程当中引入学习机制,通过反复训练学习的方式对该种组合预测模型当中的预测系数进行确定,达到最终的预测模型的建立目的,这其中较为典型的就是神经网络组合预测等[36];值得一提是,新型的智能化组合预测拥有广袤的发展前景,它主要是在对智能计算机技术进行借鉴的同时,对非线性组合中可能出现的障碍因素进行了有效的规避,能够取长补短,所以在未来该领域也必将是一个重要的预测分支[37]。刘红杨等[38]对ARIMA以及GRNN两种较为先进的组合模型进行了探讨,分析它们在丙肝发病率的预测过程中的重要作用,为疫情预测提供依据。经过研究本文发现这种模型进行组合预测的效果远比单一模型的预测效果要好,和实际情况也有非常高的拟合度,在该行业的应用潜力较大,能够为我国疫情的控制作出实质性的贡献。同时王克伟等[39]针对ARIMA⁃NARNN组合模型对血吸虫的感染率预测的有效性进行深入分析,也发现该预测方式具有非常高的实际运用价值。51 新疆医科大学硕士学位论文参考文献[1]中华医学会肝病学分会,中华医学会感染病学分会.丙型肝炎防治指南(2015年更新版)[J].临床肝胆病杂志,2015,12(12):1961-1979.[2]中华医学会肝病学分会.丙型肝炎防治指南(2015年更新版)[J].传染病信息,2016,29(1):20-36.[3]于春荣,笪红远,王庆利.慢性丙型肝炎治疗药物研发的挑战与思考[J].中国新药杂志,2016(18):2116-2119.[4]徐洪芹,李婉玉.中国东北地区HBV和HCV感染的流行情况及肝炎防治效果:一项横断面研究[J].临床肝胆病杂志,2016(1):43-43.[5]窦晓光,丁洋.我国丙型肝炎防治新策略探讨[J].传染病信息,2016,29(2):71-72.[6]刘红艳,罗志,杨佳,等.HIV/HCV共感染者丙型肝炎治疗需求分析[J].中国艾滋病性病,2016(5):382-383.[7]公共卫生科学数据中心,http://www.phsciencedata.cn.[8]于林凤,吴静,周锁兰,丁勇.ARIMA季节模型在我国丙肝发病预测中的应用[J].郑州大学学报(医学版),2014,5(49):344-348.[9]王燕.时间序列分析:基于R[M].北京:中国人民大学出版社,2015.158.[10]崔玫意,张玉虎,陈秋华.Box-Cox正态分布及其在降雨极值分析中的应用[J].数理统计与管理,2017,36(1):8-15.[11]ChristophBergmeir,RobJHyndman,BonsooKoo.ANoteontheValidityofCross-ValidationforEvaluatingTimeSeriesPrediction[J/OL].2015[2017-4-7].http://robjhyndman.com/papers/cv-wp.pdf.[12]刘春艳,凌建春,寇林元,仇丽霞,武俊青.GA-BP神经网络与BP神经网络性能比较[J].中国卫生统计,2013,30(2):173-181.[13]李勤.组合预测方法研究综述[J].价值工程,2012,29(117):23-25.[14]唐路,张燕,幸奠国,等.基于空间数据分析技术的重庆市丙型肝炎发病研究[J].中华流行病学杂志,2016,37(1):80-84.[15]邹琳,佘会元.丙型肝炎的治疗及进展[J].肝脏,2017(10).[16]张影.《2016年欧洲肝病学会丙型肝炎治疗指南》推荐意见[J].临床肝胆病杂志,2016,32(12):2248-2257.[17]田姗,郝竟琳,韩杰,等.国内丙型肝炎治疗药物的临床应用[J].首都食品与医药,2017,24(8):70-72.[18]陈会枝,孟伟伟,贺付成.人工神经网络与灰色理论模型在传染病中的应用[J].中国实用神经疾病杂志,2016(2):51-52.52 新疆医科大学硕士学位论文[19]KanwalS,MahmoodT.HepatitisCvirusresistancetointerferontherapy:analarmingsituation[J].OpenLifeSciences,2014,9(12):1155-1167.[20]LiY.AnalysisonJianyangareahepatitisCvirusinfectionsituation[J].InternationalJournalofLaboratoryMedicine,2013.[21]VivancosMJ,MorenoA,QueredaC.TreatmentofhepatitisCviruswithdirect-actingantivirals:Practicalaspectsandcurrentsituation☆[J].RevistaClínicaEspañola,2018,218(1):29-37.[22]BritoGCB,PereiraMLD,LimaICVD,etal.ClinicalAndEpidemiologicalAspectsOfHepatitisBVirusAndHepatitisCVirusInFortaleza-Ceara[J].InternationalArchivesofMedicine,2017,10.[23]HawkinsC,GrantJ,AmmermanLR,etal.HighratesofhepatitisCvirus(HCV)cureusingdirect-actingantiviralsinHIV/HCV-coinfectedpatients:areal-worldperspective[J].JournalofAntimicrobialChemotherapy,2016,71(9).[24]SwannRE,CowtonVM,RobinsonMW,etal.BroadAnti-HepatitisCVirus(HCV)AntibodyResponsesAreAssociatedwithImprovedClinicalDiseaseParametersinChronicHCVInfection.[J].JournalofVirology,2016,90(9):JVI.02669-15.[25]BukhJ.ThehistoryofhepatitisCvirus(HCV):Basicresearchrevealsuniquefeaturesinphylogeny,evolutionandthevirallifecyclewithnewperspectivesforepidemiccontrol[J].JournalofHepatology,2016,65(1Suppl):S2.[26]GuinoiseauT,MoreauA,HohnadelG,etal.DeepsequencingisanappropriatetoolfortheselectionofuniqueHepatitisCvirus(HCV)variantsaftersinglegenomicamplification[J].PlosOne,2017,12(3):e0174852.[27]StoneJ,MartinNK,HickmanM,etal.Modellingtheimpactofincarcerationandprison-basedhepatitisCvirus(HCV)treatmentonHCVtransmissionamongpeoplewhoinjectdrugsinScotland.[J].Addiction,2017.[28]刘雷,张连生,汤恒,等.ARIMA乘积季节模型在丙肝发病预测中的应用[J].中华疾病控制杂志,2014,18(4):366-367.[29]严婧,杨北方.指数平滑法与ARIMA模型在湖北省丙型病毒性肝炎发病预测中的应用[J].中国疫苗和免疫,2017(3):292-297.[30]刘炜炜,胡跃华,于石成,等.中国大陆地区2008—2013年丙肝发病时空聚集性及社会经济影响因素[J].中国公共卫生,2016,32(4):482-487.[31]陈会枝,孟伟伟,贺付成.人工神经网络与灰色理论模型在传染病中的应用[J].中国实用神经疾病杂志,2016(2):51-52.53 新疆医科大学硕士学位论文[32]陈远方,张熳,王小莉,等.ARIMA模型和BP神经网络模型在我国乙型肝炎发病预测中的应用[J].江苏预防医学,2015(3):23-26.[33]陈银苹,吴爱萍,余亮科.组合模型对乙肝发病趋势的预测研究[J].解放军医学杂志,2014,39(1):52-56.[34]陈远方,张熳,王小莉,等.ARIMA模型和BP神经网络模型在我国乙型肝炎发病预测中的应用[J].江苏预防医学,2015(3):23-26.[35]卢苗苗,张兴裕.基于最优线性组合方法的甲型病毒性肝炎发病数预测[J].中国医院统计,2015(5):352-355.[36]ShibataK.CommunicationsthatEmergethroughReinforcementLearningUsinga(Recurrent)NeuralNetwork[J].2017.[37]PiscagliaF,CucchettiA,BenllochS,etal.155PredictionofsignificantfibrosisinHCV-infectedlivertransplantrecipientsbyartificialneuralnetworkanalysisofclinicalfactors[J].JournalofHepatology,2006,44(06):S66-S66.[38]刘红杨,刘洪庆,李望晨,赵晶.差分自回归移动平均与广义回归神经网络组合模型在丙型肝炎月发病率中的预测应用[J].中国全科医学,2017,20(2):183-186.[39]王克伟,吴郁,李金平,蒋玉宇.基于ARIMA⁃NARNN组合模型的血吸虫感染率预测研究[J].中国血吸虫病防治杂志,2016,28(6):630-634.54 新疆医科大学硕士学位论文攻读研究生期间发表的学术论文[1]李泽,张学良.ARIMA季节模型在预测新疆地区丙型肝炎发病数中的应用[J].新疆医科大学学报,2018,41(1):106-109.55 新疆医科大学硕士学位论文新疆医科大学硕士研究生学位论文导师评阅表研宄生姓名李泽学号107602147462所在学院公共卫生学院导师姓名张学良教授专业流行病与卫生统计学研究方向传染病动力学与生物统计论文题目薪疆地区丙型肝炎发病数预测模型的研究学术评语:丙型肝炎是全球性的公共卫生问题,尤其是对新疆的预防工作者更有着特殊的意义。用数学模型来研究丙型肝炎,对其发病机理、动态过程和发展趋势进行研宂,己逐渐成为流行病学研究的新领域。该生在查阅了大量与课题有关的文献后,掌握了丙肝的传播机制、病原学、预防控制技术等方面的专业知识。对丙肝数学模型建立,性态分析和计算机模拟方面进行了研究,并在此基础上建立了新疆地区丙肝发病数预测模型,包括时间序列-ARIMA乘积季节模型、BP神经网络预测模型以及ARIMABP组合预测模型。这几个模型均取得了较好的模拟效果,为今后丙型肝炎的防治决策提供有力的理论和数量依一据。具有定的参考价值。该同学在完成论文的过程中刻苦努力一、勤于思考、严谨认真。研究工作具有定的创新性。研宂结果具有现实意义和科学,设计合理,思路清晰,研究方法得当价值。总体而言,该硕士学位论文达到了科研型硕士研究生的预期要求,同意该生提交学位论文,并进行论文答辩。指导教师签字^>一多年月日十56

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭