多种模型在梅毒月发病率预测中的比较研究

多种模型在梅毒月发病率预测中的比较研究

ID:35153195

大小:2.78 MB

页数:83页

时间:2019-03-20

上传者:U-24835
多种模型在梅毒月发病率预测中的比较研究_第1页
多种模型在梅毒月发病率预测中的比较研究_第2页
多种模型在梅毒月发病率预测中的比较研究_第3页
多种模型在梅毒月发病率预测中的比较研究_第4页
多种模型在梅毒月发病率预测中的比较研究_第5页
资源描述:

《多种模型在梅毒月发病率预测中的比较研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

多种模型在梅毒月发病率预测中的比较研究Thecomparativestudyofmanymodelsontheforecastingincidenceofsyphilis作者姓名:颜康康专业名称:流行病与卫生统计学指导教师:刘欣副教授学位类别:医学硕士答辩日期:2015年5月28日 中文摘要多种模型在我国梅毒月发病率预测中的比较研究梅毒传播途径多、传染性强,在性传播疾病中危害仅次于艾滋病,并可促进艾滋病的传播,对人体和社会危害性大,且有年轻化和老龄化的趋势,已成为严重的公共卫生问题。《2013年中国卫生统计年鉴》显示:2012年梅毒年发病率在所有甲类及乙类传染病中仅次于病毒性肝炎和肺结核排第三位,死亡率占所有甲类乙类传染病中第七位,并且我国梅毒发病率从2001-2012年一直在增加,2012年发病率达30.44/10万。对梅毒发病率预测可以为梅毒防控提供有用信息。目的:整理我国2008-2013年梅毒月发病率资料,应用BP神经网络模型、ARIMA模型、组合模型以及改良的时间序列分解模型对2008-2012年我国梅毒月发病率进行分析,并对2013年梅毒月发病率进行预测。通过2013年各模型预测值与实际值进行比较选择最优模型。应用最优模型对2014年我国梅毒月发病率进行预测,并对我国2014年梅毒月发病率疫情进行评价,为制定梅毒防治策略提供科学的理论依据。方法:通过查询中国疾病预防控制中心网站和中国统计局网站获得我国梅毒2008-2013年月发病例数和当年全国人口数,用月发病例数除以当年人口数获得当月梅毒发病率,单位为1/10万。首先,利用BP神经网络模型、ARIMA模型、组合模型三种不同的方法分析2008-2012年我国梅毒月发病率,预测2013年梅毒月发病率数据。然后,对时间序列分解模型进行完善,对季节指数进行改良,利用改良后模型拟合2008-2012年梅毒月发病率数据,对2013年月发病率进行预测。通过2013年各模型预测值与实际值之间的误差平方和SSE、平均绝对误差MAE、均方误差MSE、以及平均相对误差MAPE四个精度指标最小为原则评价拟合和预测效果,判定四种模型的优劣。最后,应用最优模型预测2014年我国梅毒月发病率。应用整体趋势参考值范围对2014年梅毒月发病率疫情进行判断。结果:(1)BP神经网络模型的网络结构为:以过去3年同期发病率数据为网络输入,当前同期发病率为网络输出,隐含层神经元数目为10个。将BP神经网I 络模型预测的2013年梅毒月发病率与实际值进行比较,预测精度SSE=1.4362、MAE=0.2418、MSE=0.0999和MAPE=10.20%。(2)ARIMA模型中各指标分别为p=1,d=1,q=1,P=0,D=1,Q=1,S=12,最终模型为ARIMA(1,1,1)(0,1,1)12,各参数均有统计学意义。将ARIMA模型预测的2013年梅毒月发病率与实际值进行比较,预测精度SSE=1.1299、MAE=0.2404、MSE=0.0886和MAPE=9.97%。(3)组合预测模型中ARIMA对应的权重1=0.41889,BP神经网络模型对应的权重2=0.58111。将组合模型预测的2013年梅毒月发病率与实际值进行比较,预测精度SSE=0.9998、MAE=0.1784、MSE=0.0833和MAPE=7.79%。(4)经过完善的时间序列分解模型乘法过程预测的2013年梅毒月发病率数据与实际值进行比较,预测精度SSE=0.3851、MAE=0.1497、MSE=0.0517和MAPE=5.97%。(5)时间序列分解模型乘法过程季节调整系数为0.99831,将季节指数调整后的模型预测2013年梅毒月发病率与实际值进行比较,预测精度SSE=0.3735、MAE=0.1456、MSE=0.0509和MAPE=5.82%。(6)经过完善的时间序列分解模型加法过程预测的2013年梅毒月发病率数据与实际值进行比较,预测精度SSE=0.3752、MAE=0.1330、MSE=0.0510和MAPE=5.55%。(7)时间序列分解模型加法过程季节调整系数为0.06042,季节指数调整后的模型预测2013年梅毒月发病率与实际值进行比较,预测精度SSE=0.3634、MAE=0.1302、MSE=0.0502和MAPE=5.44%。(8)应用时间序列分解模型乘法过程预测2014年梅毒月发病率为2.1633/10万、2.1047/10万、2.8185/10万、2.6471/10万、2.7542/10万、2.7253/10万、2.8357/10万、2.7699/10万、2.6090/10万、2.3858/10万、2.4161/10万、2.3877/10万。(9)应用时间序列分解模型加法过程预测2014年梅毒月发病率为2.2243/10万、2.1494/10万、2.8056/10万、2.6383/10万、2.7514/10万、2.7072/10万、2.8210/10万、2.7624/10万、2.5953/10万、2.3853/10万、2.4220/10万、2.3829/10万。结论:(1)应用时间序列分解模型预测精度要优于ARIMA模型、BP神经网络模型以及组合模型。(2)时间序列分解模型季节指数改良后的预测精度优于改良前。(3)应用改良后的时间序列分解模型预测2014年梅毒月发病率,与实际值相比,预测精度较高。(4)预测梅毒月发病率过程中时间序列分解加法模型的预测精度和时间序列分解乘法模型的预测精度均较好,但加法预测模型预测精度稍优于乘法模型。(5)应用整体趋势参考值范围预测值判断2014年我国梅毒月发II 病率属于可控范围,与实际值相符。关键词:ARIMA模型,BP神经网络模型,组合模型,时间序列分解模型,改良,梅毒,预测III AbstractThecomparativestudyofmanymodelsontheforecastingincidenceofsyphilisSyphilishavemoretransmissionandinfectious.SyphilishasgreatharmonlyafterAIDSinsexuallytransmitteddisease,andcouldleadtoAIDS.Syphiliscouldcausegreatharmtothehumanandsociety,andthetrendofsyphilisisyoungerandaging.Thesyphilishasbecomeaseriouspublichealthproblem.Theannualincidenceofsyphilisranked3afterviralhepatitisandtuberculosisinnotifiablediseases,andthemortalityrateofsyphilisranked7innotifiablediseases.Theincidenceofsyphilishasbeenincreasingyearfrom2001to2012,andtheincidencerateofsyphiliswas30.44/100000in2012according《ChinaHealthStatisticsYearbook2013》.ForecatingincidenceofsyphilismightprovideascientificbasisfortherationaldistributionofhealthresourcesObjective:ToarrangetheepidemiccharacteristicsofsyphilisinChinafrom2008-2013,andtoexploretheapplicationofBPneuralnetwork,ARIMA,combinedmodel,andtheimprovedtimeseriesdecompositionmodelintheforecastingthemonthlyincidenceofsyphilisinChinaof2013.Wewillselectthebestmodelthroughcomparingthepredictedvaluesandactualvaluesof2013.WewillusethebestmodeltoforecastthemonthlyincidenceofsyphilisinChinaof2014,andevaluatethesyphilisepidemicof2014,whichcouldprovideascientificbasisfortherationaldistributionofhealthresources.Methods:Togetthemonthlyincidentcasesofsyphilisandpopulationfrom2008-2013throughChineseCenterforDiseaseControlandPreventionandNationalBureauofStatisticsofChina,whichcouldgetthemonthlyincidenceofsyphilis,andthenuitwas1/100000.First,theincidenceofsyphilisof2008-2012wasanalysisthroughBPIV neuralnetwork,ARIMA,andcombinedmodel,thenforecasttheincidencetendencyofsyphilisinChinaof2013.Toimprovethetimeseriesdecompositionmodel,andforecasttheincidencetendencyofsyphilisinChinaof2013.WewillcomparethefourforecastingmodelsthroughSSE,MAE,MSE,MAPE,andthemodelisthebestwhichindexistheleast.SelectthebestmodeltoforecasttheincidencetendencyofsyphilisinChinaof2014.TojudgetheepidemicofsyphilisinChinaof2014throughtheforecastingofoveralltrendwithreferencerangeandthemaximumandminimumtrend.Results:(1)BPneuralnetworkmodelnetworkstructureisasfollows:inthepastthreeyears,theincidenceofthesameperiodasthenetworkinputdata,earlieronsetofthecurrentrateofthenetworkoutput,andthehidelayeris10.Comparetheforecastvalueandactualvalueof2013,SSE=1.4362,MAE=0.2418,MSE=0.0999,MAPE=10.20%.(2)InARIMA,p=1,d=1,q=1,P=0,D=1,Q=1,S=12,andtheparametersofARIMA(1,1,1)(0,1,1)12hasstatisticallysignificant.Comparetheforecastvalueandactualvalueof2013,SSE=1.1299,MAE=0.2404,MSE=0.0886,MAPE=9.97%.(3)Theweight1=0.41889ofARIMAandtheweight2=0.58111ofBPneuralnetworkincombinedmodel.Comparetheforecastvalueandactualvalueof2013,SSE=0.9998,MAE=0.1784,MSE=0.0833,MAPE=7.79%.(4)Weusedtheimprovedtimeseriesdecompositionmodel(multiplicationprocess)toforecastmonthlyincidenceofsyphilisinChinaof2013.Comparetheforecastvalueandactualvalueof2013,SSE=0.3851,MAE=0.1497,MSE=0.0517,MAPE=5.97%.(5)Theseasonaladjustmentfactorofimprovedtimeseriesdecompositionmodel(multiplicationprocess)was0.99831.Comparetheforecastvalueandactualvalueof2013,SSE=0.3735,MAE=0.1456,MSE=0.0509,MAPE=5.82%.(6)Weusedtheimprovedtimeseriesdecompositionmodel(additionprocess)toforecastmonthlyincidenceofsyphilisinChinaof2013.Comparetheforecastvalueandactualvalueof2013,SSE=0.3752,MAE=0.1330,MSE=0.0510,MAPE=5.55%.(7)Theseasonaladjustmentfactorofimprovedtimeseriesdecompositionmodel(additionprocess)V was0.06042.Comparetheforecastvalueandactualvalueof2013,SSE=0.3634,MAE=0.1302,MSE=0.0502,MAPE=5.44%.(8)TheforecastedmonthlyincidenceofsyphilisinChinaof2014was1633/100000,2.1047/100000,2.8185/100000,2.6471/100000,2.7542/100000,2.7253/100000,2.8357/100000,2.7699/100000,2.6090/100000,2.3858/100000,2.4161/100000,2.3877/100000usedtheimprovedtimeseriesdecompositionmodel(multiplicationprocess).(9)TheforecastedmonthlyincidenceofsyphilisinChinaof2014was2.2243/100000,2.1494/100000,2.8056/100000,2.6383/100000,2.7514/100000,2.7072/100000,2.8210/100000,2.7624/100000,2.5953/100000,2.3853/100000,2.4220/100000,2.3829/100000usedtheimprovedtimeseriesdecompositionmodel(additionprocess).Conclusion:(1)ThepredictionaccuracyofforecastingmonthlyincidenceofsyphilisusedimprovedtimeseriesdecompositionmodelwasbetterthanBPneuralnetwork,ARIMAandcombinedmodel.(2)Thepredictionaccuraciesofforecastingmonthlyincidenceofsyphilisusedimprovedtimeseriesdecompositionmodel(multiplicationprocessandadditionprocess)wasbetterafteradjustingseasonalfactor.(3)Applicationoftheimprovedtimeseriesdecompositionmodeltopredicttheincidenceofsyphilisin2014,comparedwiththeactualvalues,andhavehigherprecision.(4)Thepredictionaccuraciesofforecastingmonthlyincidenceofsyphilisusedmultiplicationprocessandadditionprocesswereallbetter,andthepredictionofadditionprocesswasbetterslightly.(5)Theforecastedepidemicofsyphilisof2014wasinthecontrolbasedontheforecastingofoveralltrendwiththereferencerangetrend.Keywords:ARIMA,BPneuralnetwork,combinedmodel,timeseriesdecompositionmodel,improve,syphilis,forecastVI 目录第1章绪论.............................................................................................11.1梅毒..............................................................................................11.1.1梅毒的流行学特点............................................................11.1.2梅毒传播途径....................................................................11.1.3梅毒预防与治疗................................................................21.1.4梅毒发病率预测研究现状................................................31.2BP神经网络................................................................................41.2.1BP神经网络原理..............................................................51.2.2BP神经网络学习过程......................................................61.2.3BP神经网络应用............................................................101.3ARIMA模型.............................................................................101.3.1ARIMA模型基本原理....................................................111.3.2ARIMA模型建模步骤....................................................121.3.3ARIMA模型应用............................................................151.4组合模型...................................................................................161.4.1组合模型原理..................................................................161.4.2组合模型预测过程..........................................................171.4.3组合模型应用..................................................................181.5时间序列分解模型...................................................................181.5.1时间序列分解模型原理..................................................18VII 1.5.2时间序列分解模型步骤(以月数据乘法为例)..........181.5.3时间序列分解模型应用..................................................201.6立题依据...................................................................................21第2章材料与方法..............................................................................222.1资料来源...................................................................................222.2研究方法...................................................................................222.3质量控制...................................................................................232.4统计分析...................................................................................23第3章结果...........................................................................................243.12008-2013年我国梅毒月发病率基本情况.............................243.2BP神经网络模型.....................................................................263.2.1数据预处理......................................................................263.2.2构建训练样本集、测试样本集和预测样本集..............263.2.3确定网络结构..................................................................283.2.4最优模型选择..................................................................293.2.5BP神经网络最优模型预测2013年梅毒月发病率......293.3ARIMA模型.............................................................................303.3.1稳定性判断......................................................................303.3.2参数判断..........................................................................303.3.3最优模型选择..................................................................313.3.4最优模型检验..................................................................333.3.5ARIMA最优模型预测2013年梅毒月发病率..............33VIII 3.4组合模型...................................................................................353.5时间序列分解模型...................................................................363.5.1传统时间序列分解模型..................................................363.5.2改良时间序列分解乘法模型..........................................393.5.3改良时间序列分解加法模型..........................................473.6最优模型预测2014年我国梅毒月发病率.............................513.7评估2014年梅毒月发病率疫情.............................................52第4章讨论...........................................................................................554.1BP神经网络模型.....................................................................554.2ARIMA模型.............................................................................564.3组合预测模型...........................................................................574.4时间序列分解模型...................................................................574.5其他预测模型...........................................................................594.6创新点.......................................................................................59第5章结论...........................................................................................61参考文献...................................................................................................62致谢...................................................................................................71IX 第1章绪论1.1梅毒梅毒是由梅毒(苍白)螺旋体引起的全身系统性性传播疾病,早期主要侵犯皮肤黏膜,晚期可侵犯全身各组织器官,尤其是心脏和神经系统。根据临床特征可将梅毒分为I期梅毒、II期梅毒、III期梅毒、阴性梅毒和胎传梅毒等。梅毒潜[1-3]伏期为5-25年,传播途径多、传染性强,对社会危害性大,已成为严重的公共卫生问题。梅毒已被《中国传染病防治法》列为严格管理的乙类传染病。梅毒主要以隐性梅毒传播为主,隐性梅毒只能通过血清学检查才能确诊。随着目前医院各种血清学检查效能的提高,隐性梅毒被发现的机会也在增加,导致[4]梅毒病例报告上升。但由于梅毒血清学试验滴度较低,且隐性梅毒无明显临床症状,因此一部分梅毒患者会继续传播。梅毒传染性强,人群普遍易感并且传染[5-8]源隐蔽,均会导致梅毒的高发病率。1.1.1梅毒的流行学特点20-50岁是梅毒高发年龄,但是新生儿先天梅毒和50岁以上患者的比例在增加;梅毒的高发职业以农民、待业和不详为主;患者以I期梅毒和隐性梅毒为主,并且隐性梅毒发病率增加的趋势要高于其他分期的梅毒;一般女性发病人数多于男性。四川省攀枝花市梅毒发病率2005年以后逐年上升,在2006-2009年增长[9]幅度超过四川省平均水平,而2009年以后又低于四川省平均水平。湖北省梅[10]毒发病男女性别比为0.79:1,女性要多于男性,柳州市梅毒患者中同样发现女[11]性多于男性。厦门市梅毒发病率也在逐年上升,2012年达77.81/10万,远高[12]于福建省和全国梅毒发病率,并且50岁以上人口有增加的趋势。沈阳地区发[13]现梅毒患者中60岁以上所占比例达19.82%。1.1.2梅毒传播途径我国梅毒疫情目前面临严峻形势,《2013年中国卫生统计年鉴》显示:2012年梅毒年发病率在所有甲类及乙类传染病病中仅次于病毒性肝炎和肺结核排第1 三位,发病率为30.44/10万;死亡率在所有甲类乙类传染病中排第七位,为0.0059/10万。在性传播疾病中梅毒的危害仅次于艾滋病,并可促进艾滋病的传播,增加艾滋病发病风险3-4倍。梅毒传播方式主要有性传播、血液传播和母婴[14]传播。梅毒性接触的高危人群除了暗娼人群(Femalesexworker,FSW),男男同性者(Menwhohavesexwithmen,MSM)因其独特的性行为方式,也是梅毒[15,16]的高危人群。血液传播途径包括与梅毒患者共用注射器、用梅毒患者所献的血等。2000年以来,先天梅毒患者不断增加,严重影响我国人口素质,到2013年全国梅毒发病人数中胎传梅毒患者已占2.33%。如果孕产妇感染梅毒则可通过胎盘和脐静脉感染胎儿,有资料显示未经治疗的梅毒孕妇100%会引起不良后果,[17]50%引起胎传梅毒,50%引起早产、流产、死胎。由于在怀孕期间胎儿感染梅毒的概率与血清学检查中反应素的滴度成正相关,因此,产前检查可及时发现患[18]者。同时黄喜明等研究发现母亲首次产检孕周、妊娠期内抗梅毒治疗和母亲[19]年龄、孕次是影响婴儿先天梅毒发生的影响因素。除了以上传播途径外,破[20]损的表皮与带有梅毒螺旋体的浴具、衣物等接触也可传播梅毒。1.1.3梅毒预防与治疗2004年国家卫生部颁布了《梅毒诊断标准》,对梅毒的诊断和分类进行了规范。但在实际工作中,由于梅毒临床表现的多样性、不同科室医生诊断的不一致[21,22]以及过度诊断等使得梅毒的诊断现状比较混乱。梅毒的治疗要遵循以下原则:病情一旦确诊后要尽快给予治疗;青霉素G是治疗梅毒的首选药物;治疗梅毒的同时要检查患者是否患有其他性传播疾病;在治疗梅毒患者的同时,需对其性伴侣进行血清学检查;梅毒患者治疗后要定期复查和回访;治疗期间要禁止性生活,以免感染性伴侣。梅毒治疗要达到以下效果:对于早期梅毒力争达到临床治愈,尤其是血清学治疗;对于晚期梅毒,在临床和血清学治愈的同时,尽可能减少或避免后遗症;对于神经梅毒,在血清学和临床治愈的同时,需减少对神经系统的损害,尽可能恢复其功能;对于早期先天性梅毒要达到临床消失,血清转阴的目的;对于晚期先天梅毒,临床损害要治愈,防治新的损害发生;对于妊娠梅毒要在妊娠早期使胎儿免受感染,在妊娠晚期治[23]疗孕妇同时使受感染的胎儿在分娩前治愈。2 梅毒发病率上升的原因:各级疾病预防控制机构加强疫情报告工作后漏报减少;梅毒监测工作力度加强;各种血清学的检查率提高;经济的增长和社会的发[24]展使流动人口日益增多;娱乐行业发展迅速;婚外性行为增加等。梅毒虽然对人体的伤害极大,但仍可采取有效措施进行预防:对梅毒患者的性伴侣进行追踪和预防检查;对可疑病人进行预防检查;若献血,需到正规采血点并对血液进行全面检查;梅毒患者孕产妇要及时治疗,防止感染新生儿;梅毒患者需保持健康心理,注意劳逸结合;注意个人卫生,不与他人共用一次性物品;梅毒患者应禁止性行为,防止传染。除以上措施外,对高危人群进行干预也是一种预防梅毒、降低梅毒发病率的有效方法。组织各部门到相关场所发放包括梅毒在内的性病预防宣传册,发放安全套,解答性工作者关于性病知识的疑问,对安[25]全套的使用进行培训,调查并提高性工作者梅毒预防知识知晓率。对于梅毒预防知识知晓率,我国颁布了《中国预防与控制梅毒规划(2010-2020)》,制定了梅毒预防知识知晓率调查问卷,其中共涉及8个问题,答对6个及以上的问题[26]即可认为即为知晓。根据《中国预防与控制梅毒规划(2010-2020)》的目标,到2015年全国15-49岁人口中城市居民梅毒防治知识知晓率达到85%,农村居民达到75%,流动人口达到80%,FSW和MSM达到90%。目前我国大众知晓率还未达到目标要求。因此需进行梅毒预防知识干预,提高梅毒预防知识知晓率,[27]正确认识梅毒,避免危险行为,在一定程度上降低梅毒发病率。1.1.4梅毒发病率预测研究现状对梅毒发病率进行预测可以为梅毒防控提供参考依据。国外关于梅毒预测的研究较少,国内有很多学者对不同地区不同梅毒发病率开展了预测研究。对于年发病率,主要应用灰色GM(1,1)模型进行预测。江鸿等应用灰色GM(1,1)模型[28]对广东省2011-2015年梅毒年发病率进行预测,梁祁等应用灰色系统GM(1,1)[29]模型对江苏省梅毒年发病率进行了预测,霍飞和陈世平等通过灰色系统[30,31]GM(1,1)模型分别预测了天津和南昌的梅毒年发病率。对于月发病率,不同研究者采取不同的预测模型。ARIMA模型是预测梅毒月发病率的常用模型,陈伟等人通过ARIMA(3,1,0)(0,0,1)12模型预测了河南省2012年1月-5月的梅毒发[32]病率,与实际值相比平均相对误差仅为6.56%,预测精度较高;李莉等应用3 ARIMA(1,1,2)(0,1,1)12模型预测甘肃省2014年梅毒月发病率,2005-2013年拟合值与实际值相比,平均相对误差在8.99%-16.09%之间,拟合值精度较高[33]。BP神经网络模型是预测梅毒月发病率的另一种模型,周先锋等通过BP神经网络模型预测了2008年7-12月四川省梅毒月发病率,与实际值相比平均相对[34]误差为14.87%。不同形式的组合模型也是较常用的预测梅毒发病率的方法,李凯等通过回归模型、二次曲线、指数平滑等方法预测了2010年和2011年我国梅毒年发病率,又通过三种模型的组合模型预测了相同时间的发病率,经过与实[35]际值比较,组合模型的预测精度要高于单个预测模型。曲线拟合的预测方法[38]也在梅毒发病率预测中得到应用。1.2BP神经网络人工神经网络(ArtificialNeuralNetwork,ANN)或简称为神经网络(NeuralNetwork,NN)是一种类似生理学中大脑神经结构进行相关信息处理的数学模型,是由大量神经元通过高度联系而成的非线性动力学系统。神经网络以人脑的生理结构为出发点,模拟人脑处理功能,反应人脑的许多基本特征。神经网络是神经[39,40]科学、统计学、数学、物理学和计算机学等学科的边缘交叉学科。Rumelhant和McClelland在1986年提出的BP神经网络(BackErrorPropagationNetwork)是目前神经网络模型中应用最普遍、成熟的模型之一,90%的神经网络是基于BP神经网络完成的,为多层网络的“逆推”学习过程,是一种单项传播[41,42]的多层前馈神经网络,属于梯度下降算法。BP神经网络模型拓扑结构由一个输入层(inputlayer),多个隐含层(hidelayer)和一个输出层(outputlayer)构成(见图1.1),各层由若干个神经元节点构成,每个神经元节点的输出值由输入值、传递函数和阈值经过复杂关系决定。这种神经网络模型的拓扑结构特点为各层间采用全互连方式,而同层神经元之间不存在相互连接,每一层的神经元节点只能向下一层的神经元传递信号。三层结构的BP神[43]经网络模型操作性强、计算量小、能以任意的精度逼近连续非线性函数。4 图1.1BP神经网络结构1.2.1BP神经网络原理BP神经网络模型原理由两个方面构成:信号的向前传播和误差的反向传播。即计算实际输出时信号沿输入到输出方向传导,而修正权重和阈值时是从输出向输入方向进行。信号正向传播过程中,样本在输入层输入,再经过隐含层处理,之后传向输出层。若输出层的实际输出与期望输出误差不符合要求时,误差需反向传播,将输出误差逐层反传到隐含层和输入层,并将误差分摊给各层中的单元,获得各层单元的误差信号,将此信号作为修正各单元连接的依据,通过调整输入层节点与隐含层节点权重及隐含层与输出层之间的权重使误差逐渐降低,直到实[44,45]际输出与期望输出的误差符合精度要求或达到最大学习次数为止。BP神经网路模型采用平均相对误差作为默认的网络性能函数。因此,BP神经网络模型的原理就是使平均相对误差最小的过程。神经网络模型由大量的神经元及相互间的加权构成,是一种高度复杂的运算模型。每一个节点代表相应的输出函数,称激励函数(activationfunction)。每两个节点间的连接代表一个对通过此连接信号的加权,称为权重(weight)。网络输出根据网络连接方式、权重和激励函数的不同而不同。神经网络通常是对自然界某种算法或函数的逼近,也是对一种逻辑策略的表达。5 1.2.2BP神经网络学习过程BP神经网络模型的学习过程由信号的正向传播和误差的反向传播组成,一般为三层结构(m-n-1),即输入层节点数为m,隐含层节点数为n,输出层节点数为1,输入层和隐含层之间的连接权重为ij,i=1,2,3…m,隐含层和输出层之间[46]的连接权重为tij。BP神经网络模型的转移函数一般采用Sigmoid函数:1fxx1e公式1设某训练样本,输入变量为X,输出变量为Y,X=[x1,x2,…,xm],Y=[y1,y2,…,yl],则隐含层的输入为:mHiijxjj1,i=1,2,…,n公式2隐含层中各节点的输出为:netifHi,i=1,2,…,n公式3输出层各节点输入为:nOtiijnetjj1,i=1,2,…,l公式4输出层各节点输出为:yfOii,i=1,2,…,l公式5假设输出层的第i个节点的期望结果为di,则期望值与输出值的误差为:ediiyi公式6总平方误差和为:11l22E22eidiyiii1公式7根据梯度下降法求出连接权重迭代方程。输入层与隐含层之间连接权重迭代方程为:Eijij,i=1,2,…,l,j=1,2,…,n公式8隐含层与输出层之间连接权重迭代方程为:Etijtij,i=1,2,…,l,j=1,2,…,n公式9tij中有:6 EEyittijyiji公式10其中E()dyiiyi公式11yyOiiitOtijiij公式12S型函数中,fxfx(1fx)公式13则公式12中yiyy(1)nettijjij公式14则tdijiyyyii1inetj公式15公式8中EElynetkiijk1ynetiijk公式16yyOkkkyy1tnetOnetkkkiiki公式17netiinetHinetii1netxjijHiij公式18所以lijdtkyyykk11kkinetinetixjk1公式19则输入层与隐含层之间连接权重为:ttdijtt11ijiyyiiyinetji=1,2,…,l,j=1,2,…,n公式20则隐含层与输出层之间连接权重为:lijtt11ijdtkyykkykkineti1netixjk1i=1,2,…,l,j=1,2,…,n公式21上述公式是BP神经网络进行学习训练并达到预测精度的过程。学习训练过程是通过误差信号调整网络各节点的连接权重,反复进行,达到训练要求为止。7 具体学习训练过程为:①对网络进行初始化,即学习参数的选择和连接权重等;②将训练样本放入到网络中进行学习;③由公式2、3、4、5得到网络各层输出;④由公式20、21更新各连接权重;⑤把更新的权重重新代入到公式2、4,求各层输出;⑥由公式7求误差,当该误差在所设定的误差范围内时训练结束,若不满足,则需回到第二部重新进行学习训练。BP神经网络模型除了学习过程,还有测试过程和预测过程。BP神经网络首先需要确定可能的网络结构,而不同的网络结构还需要确定隐含层的节点数。隐含层节点数应用公式n1nma进行多次比较确定,式中n1为隐含层数,n为输入单位数,m为输出单位数,ɑ为1到10之间的常数。通过拟合值与实际值之间的平均相对误差MAPE确定最优网络结构。再通过平均相对误差MAPE确定最终最优模型(见图1.2)。8 图1.2BP神经网络模型预测过程技术路线图9 1.2.3BP神经网络应用BP神经网络模型的应用非常广泛,已拓展到卫生、经济、工业等领域。郭睿等通过1982-2010年天津港的吞吐量数据,运用BP神经网络模型预测了2011年[47]该港口的吞吐量,预测精度较高。刘文东等应用3-8-1三层神经网络模型预测江苏疟疾发病数与实际发病数的平均相对误差仅为7.97%,并预测了2011年江苏[48]省疟疾发病率会继续下降。杨佳琦等应用2-10-1三层神经网络模型预测黑龙江[49]省肾综合征出血热发病趋势,同样具有较好的预测效果。徐学琴等对河南省[50]甲乙类传染病的预测与实际值比较,平均相对误差仅为0.076%。目前BP神经网络模型应用最广泛的领域是经济股市。史书真等应用BP神经网络模型预测了[51]中国石油和微软公司两支股票的变化趋势,刘晓敏等预测了上证综合指数的[52]变化趋势,与实际值相比,预测精度很高。1.3ARIMA模型按时间顺序生成的观测值的集合称为时间序列。平稳序列是指随机的时间序列在任意两个时刻的概率分布的随机性不随时间改变而发生变化,即在观察期内无论什么时间间隔都有相同的均值、方差和自相关模式,在图像中所有样本点都会在某个水平线上下随机波动。白噪声是平稳序列中比较特殊也是最简单的一种。白噪声是指功率谱密度在整个频域内均匀分布的噪声,即如果平稳序列{rt}对于任意时刻t和s,都有E(rt)=μ,cov(rt,rs)=0,则称{rt}为白噪声。若残差为白噪声序列,说明时间序列中有用的信息已经被提取完毕,剩下的是随机扰动;若不是白噪声序列,说明残差中还存在有用信息未被提取,即自相关图和偏自相关图不应与0有显著性差异。差分是离散函数中连续相邻两项之差,若时间序列为X(K),那么Y(k)=X(k+1)-X(k),则Y(k)为此序列的差分。自相关是指在时间序列中,一个要素其后期与前期取值之间的相关性。自相关方程描述随机信号两个时刻的依赖关系,即研究t时刻与t+t’时刻两个随机变量的相关性。自相关可以说明不同时期数据之间的相关性,其取值范围为[-1,1],绝对值越靠近1,说明相关性越强。10 时间序列中,偏自相关系数是指在剔除中间k-1个随机变量的干扰后,x(t)对x(t+k)影响的相关程度。偏自相关系数是在排除了其间各个时间随机变量影响的相关系数。ARIMA模型全称为求和自回归移动平均模型(AutoregressiveIntegratedMovingAverageModel),是一种时间序列分析模型,是由Box和Jenkins在20[39,40]世纪60年代提出的预测模型,也称为Box-Jenkins模型。1.3.1ARIMA模型基本原理ARIMA模型的基本原理是分析数据序列本身随着时间发展变化的规律,将随时间变化的数据列看成一组依赖时间t的随机变量,用数学模型近似描述这个[53]序列,模型识别后根据序列的过去值和现在值对未来值进行预测。ARIMA模型表示为ARIMA(p,d,q),其中AR是自回归,I是差分,MA为移动平均,p为自回归项,q为移动平均项数,d为时间序列由非平稳转化为平[54,55]稳时所做的差分次数。ARIMA模型主要包括移动平均过程(MA)、自回归过程(AR)、自回归移动平均过程(ARMA)以及求和自回归移动平均过程(ARIMA)。MA、AR和ARMA模型主要应用于平稳的时间序列,而ARIMA模型可应用于非平稳序列。ARIMA模型分类:①自回归模型(AR:Auto-regressive)xxxxut1t12t2ptpt上式中μt为白噪声序列,δ为常数②移动平均模型(MA:Moving-Average)xuuuutt1t12t2qtq2qx(1LLL)u(L)ut12qtt式中{μt}为白噪声过程。③自回归滑动平均模型(ARMA:Auto-RegressiveandMovingAverageModel)xxxxuuuut1t12t2ptpt1t12t2qtq11 2p(L)x(1LLL)xt12pt2q(1LLL)u(L)u12qtt当q=0时,模型即为AR(p)模型当p=0时,模型即为MA(q)模型④求和自回归移动平均模型(ARIMA:AutoregressiveIntegratedMovingAverageModel)差分算子:xxxxLx(1L)xttt1ttt22xxx(1L)x(1L)x(1L)xttt1tt1tddx(1L)xtt对d阶单整序列xt~I(d)ddwx(1L)xttt若d阶差分后wt是平稳序列,可对wt建立ARMA(p,q)模型,得到的模型称为xt~ARIMA(p,d,q),模型形式是wwwwuuuut1t12t2ptpt1t12t2qtq由此可转化为ARMA模型。由于不同的季节对时间序列产生影响,使得时间序列在不同季节不可比。为了消除季节因素带来的影响,需要对ARIMA模型进行季节调整。季节时间序列模型(SeasonalARIMAmodel,简记SARIMA)便是具有季节性的ARIMA模型,也称ARIMA季节乘积模型,主要特点为存在明显的固定周期变化。SARIMA表示为ARIMA(p,d,q)(P,D,Q)s,其中p,d,q分别表示连续模型的自回归阶数、差分次数和移动平均阶数,P、D、Q分别表示季节模型中自回归阶数、差分次数和[56]移动平均阶数,s表示季节周期。1.3.2ARIMA模型建模步骤①平稳性检验ARIMA时间序列分析法是以时间序列平稳为前提,因此先根据图像进行主观判断序列是否平稳,然后进行单位根检验判断是否存在单位根,从而推断序列12 是否平稳。单位根检验是通过构造检验统计量进行检验假设的方法,常用的是ADF检验。ADF检验方程为:xxxttt11...ptpt式中,μ为常数项,β为回归系数,t为误差项。检验假设为:H0:该时间序列为非平稳时间序列,即存在单位根H1:该时间序列为平稳时间序列,即不存在单位根若经单位根检验序列为非平稳序列,需对序列进行差分,直至为平稳时间序列。若存在季节性,还需进行季节性差分。②模型识别经时间序列预处理,序列达到平稳后,需要对模型进行识别。识别过程是根据自相关系数和偏自相关系数的拖尾或截尾情况来估计自相关阶数p和移动平均阶数q,以选择恰当的模型。拖尾是相关系数逐渐减小的现象,截尾是相关系数突然减小的现象。自相关阶数p由偏自相关图决定,若第n阶落入2倍标准差范围内,则p=n;移动平均阶数q由自相关图决定,若第m阶落入2倍标准差范围内,则q=m;d为差分到平稳序列的次数。若有季节周期趋势,Q由12阶自相关系数确定,P由12阶偏自相关系数确定,D由季节差分次数决定,P和Q一般不超过2。拖尾图形模式也可能不是以指数形式,而是以正负相间的正弦形式衰减。若自相关图形是在第q=k处后截尾,而偏自相关图形为拖尾,则数据满足MA(q)模型;若偏自相关图在p=m处后截尾,而在自相关图形为拖尾,则满足AR(p)模型(见图1.3);若两个图形都拖尾则可能满足ARMA(p,q)模型。具体判别法总结见表2.1,但并非一定严格,一般情况下偏自相关图从第n阶开始落入2倍标准差范围内,p=n;自相关图从第m阶落入2倍标准差范围内,q=m。13 图1.3标准AR(p)模型自相关和偏自相关图表2.1ARIMA模型定阶原则模型(序列)AR(p)MA(q)ARMA(p,q)自相关函数拖尾截尾拖尾偏自相关函数截尾拖尾拖尾③最优模型选择通过自相关图和偏自相关图确定p、d、q、P、D、Q后,进行模型的判断与选择。各模型的参数均要有统计学意义,在此基础上对有意义的模型根据赤池信息准则(AkaikeInformationCriterion,AIC信息准则)以及施瓦兹信息准则(SchwarzInformationCriterion,SC信息准则)对模型的优劣进行评。2L2kAIC函数:AICnn其中,L为对数似然值;n为样本容量;k是估计的参数的个数。AIC信息准则要求AIC取值越小越好,所以在判断滞后期阶数时,就要选择使AIC值最小的阶数14 2LklognSC函数:SCnn其中,L,n,k的定义与AIC信息准则中相同,并且在评价模型时同样要求SC值越小越好。④最优模型检验得到最优模型后,需对拟合模型的残差进行白噪声检验。若为白噪声序列,说明时间序列中有用的信息已经被提取完毕,剩下的是随机扰动;若不是白噪声序列,说明残差中还存在有用信息未被提取,即自相关图和偏自相关图不应与0有显著性差异。⑤模型预测利用通过检验的最优模型进行预测,应用EVIEWS软件完成(详见图1.4)。图1.4ARIMA模型技术路线图1.3.3ARIMA模型应用ARIMA模型应用较灵活,对于非周期性序列和周期性序列都可适用,不受数据类型影响,年度、季度、月度数据均可应用此模型。ARIMA模型已相当成[57]熟,在社会各领域得到广泛的应用;彭斯俊等通过ARIMA模型预测出10月15 [58]至第二年3月是PM2.5浓度较高的月份;宁静等建立ARIMA(1,2,0)(0,1,0)12模型,预测出2013年7月-12月阜阳市细菌性痢疾发病例数分别为551.85、278、[59]183.04、159.90、58.34,与实际值吻合;何延治等利用1978-2012年吉林省粮食产量值,预测2013和2014年吉林省粮食产量分别为3214.68万吨和3405.94[60]万吨;孙泗龙同样通过ARIMA模型预测山东省2013-2015年GDP值分别为[61]54815.40亿元、60423.71亿元和66381.37亿元。1.4组合模型在系统进行预测过程中被预测数据常常是复杂系统,单个预测模型往往不能对趋势进行精确的预测。组合模型是一种新的预测方法,根据不同的原理将单个[62]预测模型进行组合,比单个预测模型更系统全面。1.4.1组合模型原理本研究中的组合模型是先利用各预测模型进行单独预测,然后根据实际值与拟合值之间的误差平方和倒数对不同的模型设置不同的权重i,误差平方和大的给予的权重小,误差平方和小的给予的权重大。权重公式为i:mm11jDjDj且j1,j1,2,...,mj1j1式中Dj为第j个模型的误差平方和,即m2DYjtYijj1再对各模型的单独预测值乘以相应的权重获得加权预测值,最后把不同的加权预测值进行相加获得最终预测值。组合预测的形式采用线性组合模型:yyy012ttt12...nynt式中,y0t为t期的组合预测值;y1t…ynt为n种不同预测模型,本研究中n=2。单个预测模型的预测精度不同,本研究通过预测精度的大小给予不同的权重,即预测精度低的给予的权重较小,预测精度高的给予的权重较大。16 1.4.2组合模型预测过程本研究组合模型预测过程为:①单独应用BP神经网络模型和ARIMA模型对2008-2012年梅毒月发病率进行拟合,并对2013年梅毒月发病率进行预测。2②据公式m计算BP神经网络模型和ARIMA模型DjYtYj1ij2011-2012年拟合值和实际值的误差平方和D1和D2。m11③根据jDj/Dj计算BP神经网络模型和ARIMA模型的权重j1。1和2④应用公式yyy012ttt12计算2013年梅毒月发病率(见图1.5)。图1.5组合模型预测过程技术路线图17 1.4.3组合模型应用本研究中的组合模型应用较为广泛,韩春蕾等人应用组合模型与单独的趋势外推法与ARIMA模型预测相比,结果发现组合模型在预测我国CPI预测的精[63]度要高于单个预测模型。刘晓东等人同样应用本组合模型预测了我国人口死[64]亡率的变化趋势。两种模型的组合较为常见,而单锐等人对三种模型给予不[65]同的权重预测了山西人均GDP的变化趋势。1.5时间序列分解模型1.5.1时间序列分解模型原理时间序列的变化受多种因素的影响,通常将这些因素分解为四种因素的组合,即长期趋势{T}、周期趋势{C}、季节趋势{S}和随机变动{I},即把时间序列数据分为以上四部分,再分别对各个部分进行单独预测,最后根据不同的算法对[66-69]各预测部分进行组合获得最终预测模型。时间序列{X}表示为下列函数关系:{X}=f(T,S,C,I)式中随机项I服从正态分布。加法函数和乘法函数是时间序列分解模型较常用的函数关系,可表示为以下函数:乘法模型X=T×S×C×I加法模型X=T+S+C+I乘法过程是在时间序列拆分的时候应用除法函数,各部分进行组合的时候同样应用乘法函数;加法过程是在时间序列拆分的时候应用减法过程,各部分进行组合的时候应用加法过程。1.5.2时间序列分解模型步骤(以月数据乘法为例)时间序列分解模型乘法过程:①求居中移动平均数:用移动平均法剔除周期变化C和长期趋势T,再按月平均求出季节指数S。把总的时间序列前12个数相加求平均值得到18 (X1+X2+X3+…+X12)/12。此时的结果没有季节性,且随机因素很小。将12个数相加后正负波动在一定程度上相互抵消,可认为已无随机性。同样第2个数到第13个数相加求平均得到的数据也不含季节性,且随机性很小。如此可求得若干平均数,这些数据都不含季节性且随机性很小。这些数据只包含周期变化C和长期趋势T,此时的数据称为移动平均数序列MA=T×C。为求得移动平均数MA,将相邻的12个原始数据相加求平均,这样与原数据相比,移动平均数少了11个数据。并且严格讲第一个平均数应该放在第6个月和第7个月的中间((1+12)/2=6.5,也就是第6.5个月)。同理第2月至第13月的平均值应该放在第7.5个月,其余数据取平均时也有类似问题。实际上数据是表示各个月而不是半个月,只能将平均数放在靠后半个月的位置。若对平均数再取平均就会解决问题,因为第一个平均数在第6.5个月,第二个平均数在第7.5个月,而它们的平均数就是第7个月((6.5+7.5)/2=7)。此时的平均数称为居中移动平均数,且居中移动平均数比原始数据少12个(前后各6个)。②求季节性:YTCSI由公式可知用观察值除以居中移动平均数得到的比值只MATCY包含季节性S和随机性I。中包含了确定季节性因素所需要的信息。若比MA值>100%,说明实际值X比移动平均数(T×C)要大。由于X中包含季节性和随机性,因此当比率值大于100%时,说明这个月的季节性和随机性高于平均数。反之,若比值小于100%,则表示季节性和随机性低于平均数。由于随机项I是偶然的、均数为0的正态分布。若要得到季节周期S,可通过平均去掉随机性的影响。将S×I序列中每年同一月的数据放在一起,求各月的平均值,获得1月-12月平均值即得到各月季节指数,从而代表季节性。即SIS其中SI表示季节平均。③求长期趋势和周期趋势:MA=T×C表示含有周期趋势和长期趋势。若把长期趋势和周期趋势分开,只要求出长期趋势即可。绘制散点图,根据散点图拟合序列进行趋势外推得到长期趋势序列T,长期趋势可以是线性的、二次的、S曲线或其它。19 求出长期趋势T后,周期趋势等于居中平均数除以长期趋势,即C=MA/T。该大于100%说明该月数据高于所有月份的平均值,小于100%说明该月数据低于所有月份的平均值。④计算不规则变动I=X/(T×S×C)。然后将不同的预测因素组合起来得到预测结果(见图1.6)。加法过程与乘法过程相同,只是符号改变。不同的时间序列存在不同的因素,每个时间序列对象可能含有长期趋势(T)、季节趋势(S)和周期趋势(C)中的一个、两个或三个。因此要根据时间序列自身特点及研究目的进行时间序列分解。图1.6时间序列分解模型预测过程技术路线图1.5.3时间序列分解模型应用蔡晓春等人应用1995-2010年货币供应量比率的月度数据,预测2011年货[66]币供应量比率,发现广义货币的派生速度强于狭义货币。王灵凤等人在医院[67]门诊人次的预测中应用时间序列分解模型,精度较高。赵安平等人不仅预测[68]了北京蔬菜价格的变动,还根据实际情况对蔬菜价格变动原因进行分析。陈[69]秋月等人应用时间序列分解模型对猪肉价格进行了预测。20 1.6立题依据在实际应用中,ARIMA模型、BP神经网络模型及各种组合模型对传染病进行预测比较常见。除了ARIMA模型和BP神经网络模型,时间序列分解模型也可以对梅毒发病率进行预测。但通过实际应用发现时间序列分解模型过程中存在两点不足:首先,在移动平均和居中移动平均过程中,第一个观察值在平均算法过程中只被应用过1次,第二个观察值只被应用过2次,依次类推,直到第12个观察值才能在平均算法过程中应用12次,同理倒数第12个观察值在平均算法中只应用12次,倒数第11个观察值在平均算法中只应用11次,倒数第10个观察值只应用过10次,以此类推,最后一个观察值也只应用过1次,因此前11个数和后11个数没有被充分利用,导致居中移动平均数项前后各少6个,因此后续计算过程中季节趋势和周期趋势前后也会相应各少6个,即存在缺失数据;其次在周期预测过程中,没有周期预测方法,只能凭经验或主观判断获得数据,对于要预测12个数据的过程,很难做到客观(过程在结果中展现)。时间序列分解模型乘法过程中季节指数是以平均数为100%计算,因此各月相加应等于12,而实际应用中等于12的情况非常少;加法过程中季节指数是以平均数为0计算的,因此各月相加应等于0,而实际应用中等于0的情况非常少。由于时间序列分解模型存在以上不足,为能更加充分的了解和利用时间序列分解模型、利用数据有用信息、客观预测周期趋势,本研究应用BP神经网络模型、ARIMA模型、组合模型以及改良的时间序列分解模型先对2008-2012年我国梅毒月发病率进行分析,然后对2013年梅毒月发病率进行预测。2013年各模型预测值与实际值对比较选择最优模型。针对时间序列分解模型季节指数进行改良,使时间序列分解模型能更好的预测传染病。应用改良的最优模型对2014年我国梅毒月发病率进行预测,并对我国2014年梅毒月发病率疫情进行评价,为我国制定梅毒防治策略提供科学的理论依据。21 第2章材料与方法2.1资料来源本研究通过查询中国疾病预防控制中心网站获得我国梅毒2008-2013年月发病例数,通过查询中国统计局网站获得2008-2013年全国人口数,用月发病例数除以当年人口数计算当月梅毒发病率,单位为1/10万。2.2研究方法通过BP神经网络模型、ARIMA模型、组合模型以及改良后的时间序列分解模型分析2008-2012年我国梅毒月发病率数据,并预测2013年梅毒月发病率。对预测的2013年梅毒各月发病率数据与实际月发病率数据通过误差平方和SSE、平均绝对误差MAE、均方误差MSE、平均相对误差MAPE等指标进行比较:(1)误差平方和2nSSExtxt1t(2)平均绝对误差n1MAExtnt1xt(3)均方误差2n1MSEnxtxtt1(4)平均相对误差1nxtxtMAPEnt1xt以上4个指标值越小,说明预测精度越高。MAPE是最常用指标,在5%水平即为优良,在20%以内为合格。选择各指标均最小的模型为最优模型。应用最22 优模型预测2014年我国梅毒月发病率。对2014年梅毒月发病率进行疫情判断。设置两种疫情判断标准:对整体趋势进行预测,用预测的整体趋势参考值范围作为可控区域。2.3质量控制查询梅毒月发病率数据以及我国人口数时,由两人单独完成查询及计算。完成后两人进行校对,对不一致的数据两人同时返回共同进行计算。2.4统计分析应用MATLAB软件进行BP神经网络模型的分析与预测;应用EVIEWS软件进行ARIMA模型的分析与预测;应用EVIEWS软件和EXCEL进行时间序列分解模型的计算与预测。EXCEL辅助计算与作图。23 第3章结果3.12008-2013年我国梅毒月发病率基本情况本研究经查询文献获得2008年-2013年我国梅毒月发病率数据,结果显示我国梅毒月发病率整体有上升趋势,但是上升趋势在减弱;具有周期性,周期为1年;每年梅毒月发病率最高在7月或8月,发病率最低在1月或2月(详见表3.1,图3.1)。图3.12008-2013年我国梅毒月发病率趋势24 表3.12008-2012年我国梅毒月发病率数据(1/10万)时间发病率时间发病率时间发病率时间发病率时间发病率时间发病率2008.11.36382009.11.28362010.11.90742011.12.17562012.11.87872013.12.48772008.21.07952009.21.77382010.21.47092011.21.77692012.22.60692013.21.88092008.31.69292009.32.00182010.32.39272011.32.80612012.32.86562013.32.90212008.41.71592009.42.04112010.42.30002011.42.60902012.42.65152013.42.74992008.51.81342009.52.02042010.52.40062011.52.76922012.53.00302013.52.93452008.61.76312009.62.23542010.62.55602011.62.78992012.62.82352013.62.66212008.71.93852009.72.31142010.72.69822011.72.81952012.72.91702013.73.02982008.81.86322009.82.26032010.82.57212011.82.90132012.82.96202013.82.89442008.91.89412009.92.24332010.92.49112011.92.67382012.92.72432013.92.71982008.101.85182009.101.95872010.102.29602011.102.50152012.102.54422013.102.60692008.111.67402009.111.85322010.112.45022011.112.69762012.112.63472013.112.57592008.121.90202009.122.05202010.122.45392011.122.60032012.122.46172013.122.574025 3.2BP神经网络模型本研究针对2008-2012年我国梅毒月发病率数据建立4个不同的BP神经网络结构。Net1:应用前3个月梅毒月发病率数据预测下一个月梅毒月发病率;Net2:应用前6个月梅毒月发病率数据预测下一个月梅毒月发病率;Net3:应用前12个月梅毒月发病率数据预测下一个月梅毒月发病率;Net4:应用前3年历史同月份梅毒月发病率数据预测下一年相同月份梅毒月发病率。本研究以Net4为例详细阐述BP神经网络的建模过程。3.2.1数据预处理利用2008-2012年梅毒月发病率原数据组成向量P=[P(1),P(2),…P(58),P(59),P(60)],为防止神经元达到饱和状态及计算方便,对输入向量进行归一化处理,使数据都处于[0,1]内。本研究采取的归一化公式为:PP=(P-Pmin)/(Pmax-Pmin),式中PP表示归一化后的值,P表示原数据列,Pmax表示原数据列中的最大值,Pmin表示原数据列中的最小值。归一化得到新的向量PP=[PP(1),PP(2),PP(3),…,PP(58),PP(59),PP(60)]。3.2.2构建训练样本集、测试样本集和预测样本集用前3年同月数据作为网络输入项,第4年同月份数据作为对应的预期输出,将输出值与期望值进行比较。本研究数据形成36个样本,将2011年12个样本构成训练样本集,即学习过程,使得到的输出值与实际值误差在设定范围内;将2012年12个值构成测试样本集,最后预测2013年12个样本集(详见表3.2)。26 表3.2BP神经网络样本集构成训练集序号输入输出1PP(1),PP(13),PP(25)PP(37)2PP(2),PP(14),PP(26)PP(38)3PP(3),PP(15),PP(27)PP(39)………10PP(10),PP(22),PP(34)PP(46)11PP(11),PP(23),PP(35)PP(47)12PP(12),PP(24),PP(36)PP(48)测试集13PP(13),PP(25),PP(37)PP(49)14PP(14),PP(26),PP(38)PP(50)15PP(15),PP(27),PP(39)PP(51)………22PP(22),PP(34),PP(46)PP(58)23PP(23),PP(35),PP(47)PP(59)24PP(24),PP(36),PP(48)PP(60)预测值25PP(25),PP(37),PP(49)PP(61)26PP(26),PP(38),PP(50)PP(62)27PP(27),PP(39),PP(51)PP(63)………34PP(34),PP(46),PP(58)PP(70)35PP(35),PP(47),PP(59)PP(71)36PP(36),PP(48),PP(60)PP(72)27 3.2.3确定网络结构由Net4数据样本集的结构可知本网络结构中输入层节点数为3,输出层节点数为1,隐含层不确定,应用公式n1nma进行多次比较确定,式中n1为隐含层数,n为输入单位数,m为输出单位数,ɑ为1到10之间的常数。用训练样本对可能的网络结构进行训练,并进行仿真预测。用2012年预测值与实际值误差即1nxx平均相对误差MAPE评价网络结构的好坏,MAPEtt式中为实xtnt1xt,际值,为拟合值,MAPE越小,精度越高,网络结构越好。在本次研究中,当xtM=10时,平均相对误差最小,所以确定隐含层为10。则网络最优结构为3-10-1,即输入层节点数为3,隐含层节点数为10,输出层节点数为1。同理,对Net1,Net2,Net3进行相同的求隐含层过程,Net1,Net2,Net3模型最优模型分别为3-5-1,6-8-1,12-7-1(详见表3.3)。表3.34个BP网络的拟合能力比较拟合值序号实际值xtxtNet1Net2Net3Net4PP(49)1.87871.83701.85922.65842.0167PP(50)2.60692.86372.84602.48702.7860PP(51)2.86562.77702.77062.78382.7625PP(52)2.65152.76062.75882.78362.6789PP(53)3.00302.79162.77682.78392.8116PP(54)2.82352.63872.77092.78392.6877PP(55)2.91702.56332.7732.78392.7430PP(56)2.96202.70222.77272.78392.7503PP(57)2.72432.64692.76812.78382.6387PP(58)2.54422.70532.74682.78322.4911PP(59)2.63472.62552.75792.78382.5150PP(60)2.46172.48672.72682.78362.0963MAPE(%)7.027.666.205.5528 3.2.4最优模型选择用测试集分别对四个最优模型进行仿真,计算预测值与实际值之间平均相对误差MAPE,从表3.3中可以看出各模型预测MAPE均较小。相对于其他模型,Net4模型MAPE最小,预测精度最高,因此选择Net4模型3-10-1模型为最优模型(详见表3.3)。3.2.5BP神经网络最优模型预测2013年梅毒月发病率用最优3-10-1模型对2013年1-12月梅毒月发病率进行预测。预测结果为2.0617/10万、2.7860/10万、2.7625/10万、2.6789/10万、2.8116/10万、2.6877/10万、2.7430/10万、2.7503/10万、2.6387/10万、2.4911/10万、2.5150/10万、2.0963/10万,预测精度SSE=1.4362、MAE=0.2418、MSE=0.0999、MAPE=10.20%,预测精度高(详见表3.4)。表3.4BP神经网络模型预测的2013年梅毒月发病率与实际值比较时间实际值预测值SSEMAEMSEMAPE(%)1月2.48772.01672月1.88092.78603月2.90212.76254月2.74992.67895月2.93452.81166月2.66212.68771.43620.24180.099910.207月3.02982.74308月2.89442.75039月2.71982.638710月2.60692.491111月2.57592.515012月2.57402.0963注:SSE:误差平方和MAE:平均绝对误差MSE:均方误差MAPE(%):平均相对误差29 3.3ARIMA模型3.3.1稳定性判断首先绘制图3.1初步判断该时间序列为非平稳序列。然而需进行ADF单位根检验对平稳性进行推断。ADF检验结果显示,在1%检验水准下,对应的P=0.5334>0.01,故该序列为非平稳序列。由于该序列具有季节性,因此需对该序列进行差分。经过一阶差分和一阶12步季节性差分后,进行ADF单位根检验。结果显示,以α=0.01检验水准,P<0.001,说明该序列平稳(详见表3.5)。表3.5梅毒序列及一阶差分序列ADF检验序列名称ADF值1%检验水准P原序列-1.4838-3.57130.5334一阶差分及12步季节差分后序列-8.1234-3.5885<0.0013.3.2参数判断序列平稳后需根据自相关系数和偏自相关系数判断模型。p由偏自相关图(PartialCorrelation)决定,从第n阶开始落入2倍标准差范围内,则p=n;q由自相关图决定(Autocorrelation),从第m阶开始落入2倍标准差置信区内,q=m;d为差分到平稳序列的次数,Q由12阶自相关系数确定。P由12阶偏自相关系数确定,D由季节差分次数决定。从图3.2中可以看出,自相关1阶以后便迅速衰减到2倍标准差置信区间以内,偏自相关2阶以后衰减进入2倍标准差置信区间以内,所以p=0或1或2,q=0或1。P、Q一般小于等于1,所以P=0或1,Q=0或1。由于本研究经过了一阶差分和一阶季节差分,因此d=D=1。30 图3.2差分后序列的自相关和偏自相关系数3.3.3最优模型选择对p、d、P、Q进行不同的组合,剔除所有参数同时为0的可能,共31种可能模型。对生成的所有可能模型,根据参数有统计学意义以及ACI和SC最小原则选择最优模型。经过分析得出参数均有统计学意义的模型有4个,分别为ARIMA(1,1,1)(0,1,1)12、ARIMA(0,1,1)(0,1,1)12、ARIMA(2,1,1)(0,1,1)12和ARIMA(1,1,0)(0,1,1)12(见表3.6)。各模型中AIC和SC均最小的为ARIMA(1,1,1)(0,1,1)12,因此选择ARIMA(1,1,1)(0,1,1)12为该序列的最优模型。31 表3.64种有意义模型参数比较参数ar(1)参数ar(2)参数ma(1)参数sar(12)模型AICSC系数t值P值系数t值P值系数t值P值系数t值P值ARIMA(1,1,1)(0,1,1)12-0.4344-2.97660.0048---0.83370.0615<0.001-0.6802-5.3271<0.001-0.6600-0.5408ARIMA(0,1,1)(0,1,1)12-------0.7494-6.9323<0.001-0.8133-16.0929<0.001-0.6022-0.5235ARIMA(2,1,1)(0,1,1)12-0.8974-6.2111<0.001-0.4057-2.99480.0046---0.826813.28860<0.001-0.5328-0.4123ARIMA(1,1,0)(0,1,1)12-0.5933-5.7319<0.001------0.805112.1504<0.001-0.3860-0.306532 3.3.4最优模型检验根据AIC和SC最小原则确定ARIMA(1,1,1,)(0,1,1)12为最优模型后,需对拟合模型的残差进行白噪声检验。通过EVIEWS软件生成残差的自相关和偏自相关图,图3.3中Q检验显示自相关系数均在2倍标准差范围以内,所有统计量P>0.05,无统计学意义,故接受序列不相关的假设,表明残差不存在自相关,故为白噪声,从而说明该模型是合理的(见图3.3)。图3.3ARIMA最优模型残差的自相关和偏自相关图3.3.5ARIMA最优模型预测2013年梅毒月发病率利用最优模型ARIMA(1,1,1)(0,1,1)12对2013年梅毒月发病率进行预测。2013年梅毒月发病率预测值分别为2.2408/10万、2.6517/10万、2.8063/10万、2.9392/10万、2.8074/10万、2.0040/10万、2.9865/10万、2.0891/10万、2.0561/10万、2.8081/10万、2.5926/10万、2.8951/10万,预测精度SSE=1.1200、MAE=0.2404、MSE=0.0866、MAPE=9.97%,该模型预测值与实际值基本一致(见表3.7,图3.4)。33 表3.7ARIMA模型预测的2013年梅毒月发病率与实际值比较时间实际值预测值SSEMAEMSEMAPE(%)1月2.48772.24082月1.88092.65173月2.90212.80634月2.74992.93925月2.93452.80746月2.66213.00401.12990.24040.08869.977月3.02982.98658月2.89443.08919月2.71983.056110月2.60692.808111月2.57592.592612月2.57402.8951注:SSE:误差平方和MAE:平均绝对误差MSE:均方误差MAPE(%):平均相对误差图3.4ARIMA模型对我国梅毒月发病率的预测值与实际值比较34 3.4组合模型BP神经网络模型和ARIMA模型拟合值重叠部分为2011年和2012年。先2m根据公式分别计算BP神经网络模型实际值与拟合值误差平方DjYtYj1ij和为D1=1.1819,ARIMA模型实际值与拟合值误差平方和为D2=1.6397(详见表m3.8)。再根据公式11计算两种模型权重,得到BP神经网络模型对jDDjjj1应的权重1=0.58111,ARIMA对应的权重2=0.41889。表3.82011-2012年BP神经网络模型与ARIMA模型拟合值与实际值比较2011年2012年时间实际值BP神经网络误差平方ARIMA误差平方实际值BP神经网络误差平方ARIMA误差平方1月2.17562.14780.000771.81000.133701.87872.44470.320392.025350.021522月1.77691.88260.011172.22090.197102.60691.84710.577252.436260.029113月2.80612.73760.004692.37550.185422.86562.84340.000492.59090.075444月2.60912.57080.001462.50840.010132.65162.73150.006392.723810.005225月2.76922.69950.004862.37660.154123.00302.82650.031162.592030.168916月2.78992.84620.003172.57320.046992.82352.77730.002132.788560.001227月2.81952.83600.000272.55570.069612.91702.77230.020932.77110.021288月2.90132.81500.007452.65830.059042.96202.80900.023392.873740.007789月2.67382.73120.003302.62530.002352.72432.70500.000372.840660.0135410月2.50152.51540.000192.37730.015422.54422.69760.023542.592740.002411月2.69762.74100.001882.16180.287042.63472.84340.043552.377230.0663012月2.60032.68020.006392.46430.018482.46172.75610.086692.679740.04756分别对各自预测值乘以各自权重系数,得到加权预测值,然后相加得到组合模型2013年各月梅毒发病率预测值。预测结果为2.1247/10万、2.7492/10万、2.8002/10万、2.8067/10万、2.8295/10万、2.8390/10万、2.8642/10万、2.9115/10万、2.8320/10万、2.6413/10万、2.5651/10万、2.4456/10万,预测精度SSE=0.9998、MAE=0.1784、MSE=0.0833、MAPE=7.79%,预测精度高(详见表3.9)。35 表3.9组合模型预测2013年梅毒月发病率与实际值比较时间实际值预测值SSEMAEMSEMAPE(%)1月2.48772.12472月1.88092.74923月2.90212.80024月2.74992.80675月2.93452.82956月2.66212.83900.99980.17840.08337.797月3.02982.86428月2.89442.91159月2.71982.83210月2.60692.641311月2.57592.565112月2.57402.4456注:SSE:误差平方和MAE:平均绝对误差MSE:均方误差MAPE(%):平均相对误差3.5时间序列分解模型3.5.1传统时间序列分解模型将时间序列分解为长期趋势{T}、周期趋势{C}、季节趋势{S}和随机变动{I},对各部分进行单独分析预测后,最后再将各预测部分进行组合得到最终预测结果。3.5.1.1长期趋势和周期趋势本研究数据为月度数据,需要对连续12个数据相加求平均。首先对最初的12个数据相加求平均,(X1+X2+X3…+X12)/12=1.7127,(X2+X3+X4…+X13)/12=1.7060,…(X49+X50+X51…+X60)/12=2.6727。然后进行居中移动平均,此时的平均数比原始数据少12个(前后各6个)。MA=T×C(见表3.10中第4列)。36 表3.10时间序列分解过程(4)居中移动(1)序列号(2)时间(3)观察值(5)SI(%)(6)长期趋势T(7)周期趋势C(%)平均值TC12008年1月1.3638--1.4698-22008年2月1.0795--1.5072-32008年3月1.6929--1.544-42008年4月1.7159--1.5802-52008年5月1.8134--1.6159-62008年6月1.7631--1.6511-72008年7月1.93851.7093113.40741.6857101.401582008年8月1.86321.7349107.39451.7198100.879592008年9月1.89411.7767106.60541.7534101.3335102008年10月1.85181.8032102.69651.7864100.9401…………………512012年3月2.86562.6839106.772.6743100.3594522012年4月2.65152.687898.652772.6846100.1188532012年5月3.0032.6869111.76442.694399.72475542012年6月2.82352.6785105.41192.703699.07398552012年7月2.917--2.7122-562012年8月2.962--2.7204-572012年9月2.7243--2.728-582012年10月2.5442--2.735-592012年11月2.6347--2.7416-602012年12月2.4617--2.7475-3.5.1.2季节性用原始序列X除以居中移动平均数得到的数值只包含季节周期(S)和随机项(I)(见表3.10中第5列)。将季节趋势随机项混合序列(S×I)序列通过每年相37 同月份求平均得到季节指数S。计算1月-12月季节指数S分别为:0.7845,0.8189,1.0705,1.0184,1.0673,1.0889,1.1292,1.0954,1.0536,0.9659,0.9533,0.9885(见表3.11)。应用2008-2012年相同月份的数据求平均值可以消除大部分随机性,可以代表季节性。表3.11季节项生成季节指数月份2008年2009年2010年2011年2012年季节指数S1月-0.67960.88380.87170.70290.78452月-0.92340.67240.70670.9730.81893月-1.02551.08231.10661.06771.07054月-1.03561.0291.02230.98651.01845月-1.01891.05561.07711.11761.06736月-1.11951.10381.07831.05411.08897月1.13411.13921.15131.0924-1.12938月1.07391.10681.08641.1145-1.09549月1.06611.09651.0391.0127-1.053610月1.0270.94490.94580.9459-0.965911月0.91710.88260.99771.0156-0.953312月1.02610.96390.98910.9749-0.98853.5.1.3长期趋势长期趋势可根据序列的整体变化使用一次函数、二次函数、幂函数或指函数等表示。从表3.1和图3.1可以看出,梅毒发病率整体在增加,但是增长率在减少,整体趋势变化较平缓。因此考虑一次函数或二次函数一次函数:T=1.6023+0.0217t2R=0.66102二次函数:T=1.4320+0.0381t-0.0003t2R=0.68572因二次函数拟合优度检验R大,故选择二次函数。利用二次函数可求得每个月对应的长期趋势数值(见表3.10中第6列)。求出长期趋势T后,周期趋势38 可由居中平均数除以长期趋势获得。3.5.1.4预测利用分解法确定季节趋势、长期趋势和周期趋势后,对各因素进行单独预测,季节趋势不变,通过求平均获得季节指数,长期趋势通过二次函数2T=1.4320+0.0381t-0.0003t(t=61,62…,71,72)获得,在此过程中,一般剔除无法直接预测的随机项。根据公式X=T×C×S将各部分进行组合从而获得最终预测值。在查阅的相关文献中,周期趋势C需主观赋值,无法进行客观赋值。3.5.2改良时间序列分解乘法模型3.5.2.1简单预测首先,将序列分为三部分,则原始序列{X}表示为:X=T+M+IX为原序列,T为长期趋势,M包含季节趋势和周期趋势,I为服从正态分布的随机项。然后,将时间序列拆分为以上三部分,进行单独预测;最后,将单独预测值通过加法过程组合在一起得到最终预测值。3.5.2.2长期趋势长期趋势可以是一次线性函数、二次函数或幂函数等。因梅毒发病率整体在增加,但增长率在减少,故考虑一次函数或二次函数一次函数:T=1.6023+0.0217t2R=0.66102二次函数:T=1.4320+0.0381t-0.0003t2R=0.68572因为二次函数对应的拟合优度检验R大,故选择二次函数。此方程可求得每个月对应的长期趋势数值(详见表3.12,图3.6)。39 图3.6原序列与长期趋势表3.12简单时间序列分解时间观察值X长期趋势T季节+周期趋势M随机项I2008年1月1.36381.4698-0.10600.31092008年2月1.07951.5072-0.4277-0.00622008年3月1.69291.54400.1489-0.01592008年4月1.71591.58020.13570.08242008年5月1.81341.61590.19750.02912008年6月1.76311.65110.1120-0.06642008年7月1.93851.68570.2528-0.0073……………2012年6月2.82352.70360.1199-0.05852012年7月2.91702.71220.2047-0.05542012年8月2.96202.72040.24160.02772012年9月2.72432.7280-0.0037-0.09052012年10月2.54422.7350-0.1909-0.08282012年11月2.63472.7416-0.1069-0.01082012年12月2.46172.7475-0.2859-0.202940 3.5.2.3季节趋势与周期趋势用原始序列减去长期趋势即为季节趋势与周期趋势的混合序列,其中主要为季节趋势。因去除长期趋势的序列具有明显的周期性,故取五年序列每月平均值,得到季节指数(见表3.13)。表3.13五年均值生成季节指数时间2008年2009年2010年2011年2012年季节指数S1月-0.1060-0.5985-0.3092-0.2976-0.7733-0.41702月-0.4277-0.1391-0.7700-0.7142-0.0566-0.42153月0.14890.05850.12790.29770.19130.16494月0.13570.06810.01190.0838-0.03300.05335月0.19750.01810.08980.22770.30870.16846月0.11200.20440.22300.23270.11990.17847月0.25280.25220.34350.24720.20470.26018月0.14340.17360.19630.31430.24160.21389月0.14070.12950.09470.0727-0.00370.086810月0.0654-0.1816-0.1204-0.1131-0.1909-0.108111月-0.1448-0.31300.01430.0700-0.1069-0.096112月0.0512-0.1397-0.0009-0.0398-0.2859-0.08303.5.2.4求随机项用M减去月平均值得到随机项I,经正态性检验,可证明该序列服从均值为0,标准差为0.134125的正态分布(P=0.102887)。3.5.2.5预测首先,分别对三个因素进行单独预测。其中长期预测按公式2T=1.4320+0.0381t-0.0003t求得T={2.7530,2.7579,2.7622,2.7661,2.7693,2.7721,2.7743,2.7759,2.7770,2.7776,2.7777,2.7771};M序列仍为月平均值结果为{-0.4169,-0.4215,0.1649,0.0533,0.1684,0.1784,0.2601,0.2138,0.0868,41 -0.1081,-0.0961,-0.0830};随机项取均值为0,标准差为0.134125的12个随机数{-0.10387,-0.15344,0.01785,-0.05191,0.09500,0.18975,-0.01654,-0.03918,0.26460,0.02848,-0.04859,-0.08433}。然后,将三项因素相加得到预测值,2013年12个月的简单预测值分别为:2.2322/10万、2.1829/10万、2.9450/10万、2.7675/10万、3.0327/10万、3.1402/10万、3.0178/10万、2.9506/10万、3.1284/10万、2.6980/10万、2.6330/10万、2.6098/10万。最后,将预测值与实际值比较,预测精度SSE=0.580012、MAE=0.15459、MSE=0.063465、MAPE=6.18%(见表3.14)。表3.14简单预测方法预测2013年梅毒发病率与实际值时间随机项I长期趋势T季节+周期趋势M预测值实际值SSEMAEMSEMAPE(%)1月-0.10392.7530-0.41692.23222.48772月-0.15342.7579-0.42152.18291.88093月0.01792.76220.16492.94502.90214月-0.05192.76610.05332.76752.74995月0.09502.76930.16843.03272.93456月0.18982.77210.17843.14022.66210.580010.154590.063476.187月-0.01652.77430.26013.01783.02988月-0.03922.77590.21382.95062.89449月0.26462.7770.08683.12842.719810月0.02852.7776-0.10812.69802.606911月-0.04862.7777-0.09612.63302.575912月-0.08432.7771-0.08302.60982.5740注:SSE:误差平方和MAE:平均绝对误差MSE:均方误差MAPE(%):平均相对误差3.5.2.6居中移动平均求得长期趋势和周期趋势混合序列传统算法前11个数据和后11个数据没有充分利用,本研究对此不足进行完善。首先应用简单预测按现有整体趋势进行反预测,预测出2007年12个月的梅2毒发病率。长期趋势T=1.4320+0.0381t-0.0003t(t=-11,t=-10,…t=-1,t=0),季节指数M和随机项I仍为正向预测时的季节指数和随机项,M={-0.4169,-0.4215,42 0.1649,0.0533,0.1684,0.1784,0.2601,0.2138,0.0868,-0.1081,-0.0961,-0.0830};I={-0.10387,-0.15344,0.01785,-0.05191,0.09500,0.18975,-0.01654,-0.03918,0.26460,0.02848,-0.04859,-0.08433}。根据公式X=T+M+I计算得在目前趋势下2007年12个月的梅毒月发病率,结果为0.4558/10万,0.4460/10万,1.2475/10万,1.1094/10万,1.4140/10万,1.5608/10万,1.4776/10万,1.4495/10万,1.6664/10万,1.2750/10万,1.2489/10万,1.2647/10万。进行向前预测和向后预测的目的有两个:一是为使原序列中前6个和后6个数据信息得到充分利用;二是可以预测2013年梅毒月发病率周期趋势C。周期趋势C是通过公式X=T×S×C×I逆推得到的,式中长期趋势T为可精确计算的值,季节趋势S需要通过居中移动平均除以长期趋势得到,若要获得2013年居中移动平均数,简单预测需预测到2014年6月,一般将随机项I剔除。因此新的序列包括2007年预测值、2008-2012年实际值和2013年1月-2014年6月预测值。2013年1月-2014年6月预测值为2.2322/10万,2.1829/10万,2.9450/10万,2.7675/10万,3.0327/10万,3.1402/10万,3.0178/10万,2.9506/10万,3.1284/10万,2.6980/10万,2.6330/10万,2.6098/10万,2.2553/10万,2.1996/10万,2.9551/10万,2.7711/10万,3.0298/10万,2.1309/10万。根据新的时序列再进行移动平均数和居中移动平均数的计算。此时得到的新的居中移动平均数前后各6个数据已经补足,充分利用有用信息(见表3.15)。表3.15乘法时间序列分解时间观察值居中移动平均T×C长期趋势T季节性S×I周期趋势C2008年1月1.36381.50341.46980.90721.02292008年2月1.07951.53991.50720.7011.02172008年3月1.69291.56661.54401.08061.01472008年4月1.71591.60011.58021.07241.01262008年5月1.81341.64191.61591.10451.01612008年6月1.76311.68611.65111.04561.02122008年7月1.93851.70931.68571.13411.01443 表15续表2008年8月1.86321.73491.71981.07391.00882008年9月1.89411.77671.75341.06611.0133………………2012年7月2.91702.69072.71221.08410.99212012年8月2.96202.70192.72041.09620.99322012年9月2.72432.69012.72801.01270.98612012年10月2.54422.69042.73500.94560.98372012年11月2.63472.69452.74160.97780.98292012年12月2.46172.70082.74750.91150.98303.5.2.7季节性趋势因X/MA=(T×S×C×I)/(T×C)=S×I,用原始序列X除以居中移动平均数得到的值只包含季节周期S和随机项I。将S×I序列中各年同一月的数据放在一起,通过平均得到季节周期S。1月-12月季节指数分别为:0.8090,0.7953,1.0725,1.0292,1.0748,1.0803,1.1205,1.0970,1.0469,0.9627,0.9589,0.9732(见表3.16)。表3.16乘法时间序列分解模型季节指数时间2008年2009年2010年2011年2012年季节指数1月0.90720.67960.88380.87170.70290.80902月0.70100.92340.67240.70670.97300.79533月1.08061.02551.08231.10661.06771.07254月1.07241.03561.02901.02230.98651.02925月1.10451.01891.05561.07711.11761.07486月1.04561.11951.10381.07831.05411.08037月1.13411.13921.15131.09241.08541.12058月1.07391.10681.08641.11451.10331.09709月1.06611.09651.03901.01271.02031.046910月1.02700.94490.94580.94590.94990.962711月0.91710.88260.99771.01560.98150.958912月1.02610.96390.98910.97490.91210.973244 3.5.2.8长期趋势2长期趋势选择过程相同,使用二次函数方程:T=1.4320+0.0381t-0.0003t。求得每个月的长期趋势。周期趋势由居中平均数除以长期趋势即(C=MA/T)得出(见表3.15)。3.5.2.9预测利用分解法确定季节趋势、长期趋势和周期趋势后,对三个因素分别进行预测。长期预测可根据二次函数进行预测,季节指数即5年季节趋势各月的平均值。而周期趋势的预测还要应用简单预测结果,把简单预测的数据按精准预测分解方法进行分解,最后得到2013年粗预测。由于传统时间序列分解过程中周期趋势无法客观预测,可认为此时的周期趋势为精度预测时的周期趋势。得到2013年周期预测序列为0.9866,0.9862,0.9909,0.9977,0.9988,1.0000,1.0018,1.0018,1.0018,1.0018,1.0018,1.0018(见表3.17)。此算法利用简单预测分解得到周期趋势,摒弃了主观赋值的不足,比较客观的给周期趋势进行赋值。根据公式X=T×C×S得到的2013年梅毒月发病率为2.1975/10万,2.1632/10万,2.9348/10万,2.8401/10万,2.9727/10万,2.9945/10万,3.1140/10万,3.0505/10万,2.9124/10万,2.6787/10万,2.69682/10万,2.7075/10万,预测精度SSE=0.38511、MAE=0.14970、MSE=0.05171、MAPE=5.97%(见表3.18)。表3.17周期趋势预测时间简单预测居中移动平均T×C长期趋势T周期趋势C2013年1月2.23222.72282.75300.98662013年2月2.18292.73742.75790.98622013年3月2.94502.74582.76220.99062013年4月2.76752.76282.76610.99772013年5月3.03272.77782.76930.99882013年6月3.14022.79552.77211.00002013年7月3.01782.80772.77431.00182013年8月2.95062.80932.77591.00182013年9月3.12842.81042.77701.00182013年10月2.69802.81102.77761.00182013年11月2.63302.81112.77761.00182013年12月2.60982.81052.77711.001845 表3.18乘法时间序列分解预测2013年梅毒月发病率与实际值比较时间季节趋势S长期趋势T周期趋势C预测值实际值SSEMAEMSEMAPE(%)1月0.80902.75300.98662.19752.48772月0.79532.75790.98622.16321.88093月1.07252.76220.99062.93482.90214月1.02922.76610.99772.84012.74995月1.07482.76930.99882.97272.93456月1.08032.77211.00002.99452.66210.3851070.1496950.0517145.977月1.12052.77431.00183.11403.02988月1.09702.77591.00183.05052.89449月1.04692.77701.00182.91242.719810月0.96272.77761.00182.67872.606911月0.95892.77761.00182.66822.575912月0.97322.77711.00182.70752.5740注:SSE:误差平方和MAE:平均绝对误差MSE:均方误差MAPE(%):平均相对误差3.5.2.10乘法季节指数修正季节指数是以平均数为100%计算的,各月相加应等于12,本研究中各月相加和为12.0203,可进行调整,调整系数为12/12.0203=0.99831。各月季节指数乘以修正指数,得到修正后的季节指数为0.80766,0.79397,1.07073,1.02743,1.07294,1.07846,1.11859,1.09514,1.04513,0.96106,0.95729,0.97159。在预测过程中以修正后的季节指数进行计算,得到修正后的预测值为2.1938/10万,2.1596/10万,2.9299/10万,2.8353/10万,2.9676/10万,2.9895/10万,3.1087/10万,3.0454/10万,2.9075/10万,2.6741/10万,2.6637/10万,2.7030/10万,预测值与实际值比较SSE=0.37346、MAE=0.14564、MSE=0.05093、MAPE=5.82%(详见表3.19)。结果显示季节指数修正后的预测值各比较指标均要小,可见季节指数修正是一种改进方式。46 表3.19季节指数修正后的2013年预测值与实际值时间季节趋势S周期趋势C长期趋势T预测值实际值SSEMAEMSEMAPE(%)1月0.80770.98662.75302.19382.48772月0.79400.98622.75792.15961.88093月1.07070.99062.76222.92992.90214月1.02740.99772.76612.83532.74995月1.07290.99882.76932.96762.93456月1.07851.00002.77212.98952.66210.3734590.1456430.0509265.827月1.11861.00182.77433.10873.02988月1.09511.00182.77593.04542.89449月1.04511.00182.77702.90752.719810月0.96111.00182.77762.67412.606911月0.95731.00182.77772.66372.575912月0.97161.00182.77712.70302.5740注:SSE:误差平方和MAE:平均绝对误差MSE:均方误差MAPE(%):平均相对误差3.5.3改良时间序列分解加法模型加法分解过程与乘法分解过程相同,只是符号变为加号或减号。移动平均数过程和居中移动平均数过程与乘法过程完全相同。获得的居中移动平均数也相同,同时长期趋势过程也相同(见表3.20)。应用观察序列减去居中移动平均获得季节性趋势序列(S+I)。此时对季节性序列取每年相同月的平均数获得季节性趋势,结果为-0.42197,-0.42679,0.16199,0.05432,0.16998,0.18071,0.26684,0.22527,0.09918,-0.09490,-0.08231,-0.07191(见表3.21)。用简单预测方法预测2013年1月至2014年6月的数据与乘法简单预测完全相同。用简单预测数据减去居中移动平均数获得长期趋势与周期趋势的混合趋势,用混合趋势减去长期趋势获得周期趋势。周期趋势为-0.0368,-0.0379,-0.0259,-0.0065,0.0034,-7E-05,0.0049,0.0049,0.0049,0.0049,0.0049,0.0049(见表3.22)。将2013年各预测因素相加得到2013年梅毒月发病率预测值为2.2943/10万,2.2932/10万,2.8983/10万,2.8139/10万,2.9359/10万,2.9527/10万,3.0460/10万,3.0061/1047 万,2.8811/10万,2.6876/10万,2.7022/10万,2.7101/10万,预测值与实际值比较SSE=0.37515、MAE=0.13298、MSE=0.05104、MAPE=5.55%(见表3.23)。表3.20加法预测模型各分解因素时间观察值居中移动平均T×C长期趋势T季节性S×I循环趋势C2008年1月1.36381.50341.4698-0.13960.03362008年2月1.07951.53991.5072-0.46040.03272008年3月1.69291.56661.54400.12630.02262008年4月1.71591.60011.58020.11580.0199………………2012年8月2.9622.70192.72040.2600-0.01802012年9月2.72432.69012.72800.0342-0.03802012年10月2.54422.69042.7350-0.1460-0.04502012年11月2.63472.69452.7416-0.0600-0.04702012年12月2.46172.70082.7475-0.2390-0.0470表3.21季节指数生成时间20082009201020112012季节指数1月-0.1396-0.6052-0.2509-0.3201-0.7940-0.42202月-0.4604-0.1471-0.7165-0.7376-0.0724-0.42683月0.12630.04980.18200.27030.18170.16204月0.11580.07010.06490.0570-0.03620.05435月0.17150.03740.12660.19830.31610.17006月0.07690.23870.24040.20260.14500.18077月0.22920.28240.35460.23850.22950.26688月0.12830.21800.20450.29810.27740.22539月0.11740.19740.09360.03350.05410.099210月0.0486-0.1143-0.1316-0.1430-0.1342-0.094911月-0.1513-0.2465-0.00560.0415-0.0497-0.082312月0.0484-0.0769-0.0270-0.0669-0.2371-0.071948 表3.22周期趋势预测预测粗预测值居中移动平均T×C长期趋势T预测周期趋势C2013年1月2.23222.71622.7530-0.03682013年2月2.18292.71992.7579-0.03792013年3月2.94502.73632.7622-0.02592013年4月2.76752.75962.7661-0.00652013年5月3.03272.76592.7693-0.00342013年6月3.14022.7722.7720-7E-052013年7月3.01782.77912.77430.00492013年8月2.95062.78082.77590.00492013年9月3.12842.78192.77700.00492013年10月2.69802.78252.77760.00492013年11月2.63302.78252.77760.00492013年12月2.60982.78202.77710.0049表3.23时间序列分解加法模型预测2013年梅毒月发病率与实际值比较时间季节趋势S周期趋势C长期趋势T预测值实际值SSEMAEMSEMAPE(%)1月-0.4220-0.03682.75302.29432.48772月-0.4268-0.03792.75792.29321.88093月0.1620-0.02592.76222.89832.90214月0.0543-0.00652.76612.81392.74995月0.1700-0.00342.76932.93592.93456月0.1807-7E-052.77212.95272.66210.3751530.1329780.0510415.557月0.26680.00492.77433.04603.02988月0.22530.00492.77593.00612.89449月0.09920.00492.77702.88112.719810月-0.09490.00492.77762.68762.606911月-0.08230.00492.77762.70022.575912月-0.07190.00492.77712.71012.5740注:SSE:误差平方和MAE:平均绝对误差MSE:均方误差MAPE(%):平均相对误差49 根据乘法指数修正模型推理出加法模型中12个月的平均数应该为0,实际12个月指数相加为0.06042,可进行指数修正。修正指数为0.06042/12=0.00503,即每个月的均数减去0.00503。得到新的修正季节指数-0.4270,-0.4318,0.1570,0.0493,0.1649,0.1757,0.2618,0.2202,0.0941,-0.0999,-0.0874,-0.0769(见表3.24)。应用修正后的季节指数进行预测得到新的预测值为2.2892/10万,2.2881/10万,2.8933/10万,2.8088/10万,2.9308/10万,2.9477/10万,3.0409/10万,3.0010/10万,2.8760/10万,2.6825/10万,2.6952/10万,2.7051/10万,预测值与实际值比较SSE=0.36336、MAE=0.13023、MSE=0.05023、MAPE=5.44%(见表3.25)。与未修正的预测值比较,季节指数修正后的各比较指标均较小。表3.24时间序列分解加法模型季节指数修正时间2008年2009年2010年2011年2012年季节指数季节指数修正1月-0.1396-0.6052-0.2509-0.3201-0.7940-0.4220-0.42702月-0.4604-0.1471-0.7165-0.7376-0.0724-0.4268-0.43183月0.12630.04980.18200.27030.18170.16200.15704月0.11580.07010.06490.0570-0.03620.05430.04935月0.17150.03740.12660.19830.31610.17000.16506月0.07690.23870.24040.20260.14500.18070.17577月0.22920.28240.35460.23850.22950.26680.26188月0.12830.21800.20450.29810.27740.22530.22029月0.11740.19740.09360.03350.05410.09920.094110月0.0486-0.1143-0.1316-0.1430-0.1342-0.0949-0.099911月-0.1513-0.2465-0.00560.0415-0.0497-0.0823-0.087312月0.0484-0.0769-0.0270-0.0669-0.2371-0.0719-0.076950 表3.25时间序列分解加法模型季节指数修正后预测2013年梅毒月发病率与实际值比较时间季节趋势S周期趋势C长期趋势T预测值实际值SSEMAEMSEMAPE(%)1月-0.4270-0.03682.75302.28922.48772月-0.4318-0.03792.75792.28811.88093月0.1570-0.02592.76222.89332.90214月0.0493-0.00652.76612.80882.74995月0.1650-0.00342.76932.93082.93456月0.1757-7E-052.77212.94772.66210.3633620.1302270.0502335.447月0.26180.00492.77433.04093.02988月0.22020.00492.77593.00102.89449月0.09410.00492.77702.87602.719810月-0.09990.00492.77762.68252.606911月-0.08730.00492.77762.69522.575912月-0.07690.00492.77712.70512.5740注:SSE:误差平方和MAE:平均绝对误差MSE:均方误差MAPE(%):平均相对误差3.6最优模型预测2014年我国梅毒月发病率综合比较以上各模型预测结果显示,时间序列分解加法季节指数修正后的模型的SSE、MAE、MSE和MAPE最小,可见与其他模型相比时间序列分解模型加法过程可认为是预测梅毒月发病率的最优模型(详见表3.26)。表3.26各预测模型预测精度比较模型SSEMAEMSEMAPE(%)BP神经网络模型1.43620.24180.099910.20ARIMA模型1.12990.24040.08869.97组合模型0.99980.17840.08337.79时间序列分解模型(乘法)0.38510.14970.05175.97时间序列分解模型(加法)0.37520.13300.05105.55改良时间序列分解模型(乘法)0.37350.14560.05095.82改良时间序列分解模型(加法)0.36340.13020.05025.44注:SSE:误差平方和MAE:平均绝对误差MSE:均方误差MAPE(%):平均相对误差51 由于乘法模型和加法模型预测精度均较高,因此分别利用加法和乘法预测模型对我国2014年梅毒月发病率进行预测。加法模型预测2014年梅毒月发病率为2.2243/10万、2.1494/10万、2.8056/10万、2.6383/10万、2.7514/10万、2.7072/10万、2.8210/10万、2.7624/10万、2.5953/10万、2.3853/10万、2.4220/10万、2.3829/10万。乘法模型预测2014年梅毒月发病率为2.1633/10万、2.1047/10万、2.8185/10万、2.6471/10万、2.7542/10万、2.7253/10万、2.8357/10万、2.7699/10万、2.6090/10万、2.3858/10万、2.4161/10万、2.3877/10万(见表3.27)。表3.27时间序列分解模型预测2014年梅毒月发病率(1/10万)加法过程乘法过程时间预测值参考值下限参考值上限预测值参考值下限参考值上限1月2.22462.15793.20092.16332.15793.20092月2.14942.15193.19502.10472.15193.19503月2.80562.14543.18842.81852.14543.18844月2.63832.13823.18122.64712.13823.18125月2.75142.13043.17342.75422.13043.17346月2.70722.12193.16502.72532.12193.16507月2.82102.11293.15592.83572.11293.15598月2.76242.10323.14622.76992.10323.14629月2.59532.09283.13592.60902.09283.135910月2.38532.08193.12492.38582.08193.124911月2.42202.07033.11332.41612.07033.113312月2.38292.05813.10112.38772.05813.10113.7评估2014年梅毒月发病率疫情经2014年梅毒月发病率预测后,本研究选择整体趋势参考值范围对梅毒疫情进行评估。根据梅毒月发病率的整体趋势判断2014年各月发病率的疫情状况。根据公式参考值范围D=T±1.96S计算参考值范围。若预测的月发病率有数据超过参考值范围上限,则认为该月月发病率可能会超出正常范围,需要在该月加强预防。若低于参考值范围下限,则认为该月疫情与整体趋势相比有所缓解。以2008-2013年月发病率观察值为实际值,以整体趋势数据为均值,求整体2的标准差S,计算公式TX,式中T为整体趋势及2014年预测值,Sn152 X为2008-2013年实际值及2014年预测值,n=84。求得标准差为S=0.2660775。再计算T±1.96S,获得参考值范围的上下限。结果发现,除2014年2月份预测值低于参考值下限,其他均在参考值范围区间以内,说明我国梅毒月发病率在控制范围内,并且发病率在整体下降(见表3.27、图3.7、图3.8)。图3.7改良时间序列乘法预测2014年梅毒疫情图3.8改良时间序列加法预测2014年梅毒疫情3.82014年预测值与实际值比较本研究结题时,已有2014年梅毒月发病率数据。结果发现,时间序列分解模型预测精确较高,加法预测精度SSE=0.31889、MAE=0.113946、MSE=0.04706、MAPE=5.15%,乘法预测精度SSE=0.32604、MAE=0.14395、MSE=0.04758、MAPE=5.39%,加法过程稍优于乘法过程(表3.28、表3.29、图3.10)。53 表3.28时间序列分解模型加法过程预测2014年梅毒月发病率实际值与预测值比较时间预测值实际值SSEMAEMSEMAPE(%)1月2.22462.37052月2.14942.17733月2.80562.79664月2.63832.82005月2.75142.88056月2.70722.77620.318890.139460.0470595.157月2.82103.01808月2.76242.81639月2.59532.804710月2.38532.644411月2.42202.537212月2.38292.6591注:SSE:误差平方和MAE:平均绝对误差MSE:均方误差MAPE(%):平均相对误差表3.29时间序列分解模型乘法过程预测2014年梅毒月发病率预测值与实际值比较时间预测值实际值SSEMAEMSEMAPE(%)1月2.16332.37052月2.10472.17733月2.81852.79664月2.64712.82005月2.75422.88056月2.72532.77620.326040.143950.047585.397月2.83573.01808月2.76992.81639月2.60902.804710月2.38582.644411月2.41612.537212月2.38772.6591注:SSE:误差平方和MAE:平均绝对误差MSE:均方误差MAPE(%):平均相对误差表3.10时间序列分解模型预测2014年梅毒月发病率与实际值54 第4章讨论若能对传染病的发病趋势进行预测,对传染病的防控具有十分重要的意义。国内相关研究人员致力于相关方法的研究,探索各种具体可行的预测方法。本研究除用ARIMA模型和BP神经网络模型和二者组合模型对梅毒发病率进行预测,还对时间序列分解模型进行改良,并应用于梅毒发病率预测。梅毒的发病在人群中属于小概率事件,其发病分布服从Poisson分布。查阅相关文献发现:对于梅毒月发病率的预测主要应用ARIMA模型、BP神经网络模型以及组合模型,而对于与梅毒发病率趋势类似的传染病发病率预测中,ARIMA模型、BP神经网络模型也是常用的预测方法。除此之外,霍尔特双参数指数平滑预测、马尔科夫预测法、趋势外推、时间序列泊松回归广义相加模型等模型在其他传染病预测中得到应用。而梅毒月发病率的变化趋势又符合时间序列分解模型的要求。因此,本研究也探索了改良的时间序列分解模型在我国梅毒月发病率中的应用。4.1BP神经网络模型人工神经网络模型在结构上模仿了人脑生物神经系统,借鉴生物神经网络得以发展,并具有智能特点;BP神经网络模型含有大量神经元,大量神经元弥补了单个神经元功能有限、结构简单的缺点,可实现较广泛的行为,并可对大规模[70-72]数据进行辨别处理,不受多重共线性的影响,具有良好的非线性映射能力;BP神经网络可对信息进行分布式储存,并且学习和自适应能力、非线性映射能力、容错性等都较强,并且能高速运行,可进行联想和推广;BP神经网络模型可以很好的用非线性模型映射输入与输出之间的规律,而不必事先知道其函数关系,没有固定的数学表达式,是计算机自身不断调整计算的结果,克服了必须有[73-75]具体函数模型的不足。BP神经网络模型可实现N维空间到M维空间的映射;BP神经网络模型不仅可以单独预测时间序列的变化,还可以探索影响因素与所预测数据之间的关系。BP神经网络也有固有的不足:网络训练极易陷入局部极小值,并且学习过程收敛速度过慢;网络结构不易确定,即网络隐含层的节点数选择尚无理论上的指导,是BP神经网络模型建模的一大难点,而实际应用中一般是根据经验或者55 通过反复实验确定;BP神经网络模型不能够很好的考虑一些具体的问题特点,而且没有检验输入变量的显著性程序;BP神经网络模型的网络结构、网络初始权重的设定和网络的学习算法等可影响网络本身的预测能力;BP神经网络模型可产生“过拟合”现象:即虽然学习过程中误差可以达到很小,但是结果却无法满[76,77]足要求。BP神经网络模型需要大量样本进行学习训练,否则可能导致网络[78]训练不充分,从而影响模型精度。本研究的模型假设中未选择用前两年同期预测预测下一年同期数据,主要是由于用两个数据样本量较少,预测下一个数据时偏差可能会增大。本研究通过训练-测试过程确定最优模型,通过比较测试值与实际输出值误差最小确定的,最终模型为3-10-1网络结构。2013年梅毒月发病率预测值与实际值比较SSE=1.4362、MAE=0.2418、MSE=0.0999、MAPE=10.20%,预测精度较好。由于本研究数据只有5个周期,样本量较小也是本次研究中BP神经网络的不足。4.2ARIMA模型ARIMA模型属于单纯时间序列的数据驱动型模型,可以将多种影响疾病发生的因素综合考虑在时间序列中,并对趋势变化、周期变化和随机干扰进行量化[79-82][83]表达;相对于长期预测,ARIMA模型更适合短期预测;虽然ARIMA模[84,85]型有不受数据类型约束和适应性强的特点,但对于有周期趋势的数据的预测[79]要优于无周期趋势的序列。ARIMA模型需要将非平稳序列转化为平稳序列,并且ARIMA模型对于观察值的个数也有所要求,一般认为至少需要30个观察值和7个周期,当观察值[64,86,87]较少时,参数估计较差。本研究在应用ARIMA模型预测2013年我国梅毒月发病率的过程中,p、q、P和Q的确定相对较困难,既要根据ARIMA模型定阶原则判断,又要根据实际自相关和偏自相关图判断。为得到最为精确的模型公式,本研究经过大量组合试验得到了四个参数具有统计学意义的模型,最后通过AIC和SC最小原则确定ARIMA(1,1,1)(0,1,1)12为该序列的最优模型,并通过了Q检验。因此利用ARIMA(1,1,1)(0,1,1)12模型预测了2013年梅毒月发病率,预测值与实际发病率比较SSE=1.1200、MAE=0.2404、MSE=0.0866、MAPE=9.97%,预测精度也较高,56 但是本研究中梅毒发病率仅有5个周期的数据,可能会影响结果。4.3组合预测模型组合模型有以下优点:组合模型可将各模型的优点进行综合考虑,并可避免单个预测方法的弊端,达到取长补短的目的;组合模型不是简单堆积,而是将有[88]内在联系的方法组合起来,通过各预测模型的组合,利用更多有用信息。在多数情况下,通过组合模型可达到提高预测精度的目的,但是组合模型并[89]非一定优于单个模型。有研究认为单项预测模型数目增加会增加组合模型的[90]预测精度,但精度改善的幅度会递减。不同的预测方法提供了不同的思路和角度,若简单的将预测误差大的模型删除,会丢失相关信息。而将不同的方法进行组合,则可增加信息量,能更好的进行预测。本次研究中较好的应用了组合模型,预测值与实际值比较SSE=0.9998、MAE=0.1784、MSE=0.0833、MAPE=7.79%,预测精度比单个模型的预测精度要高。4.4时间序列分解模型由于时间序列分解模型本身的不足,往往不能得到很好的应用。本研究中通过迭代预测对周期趋势的预测进行了完善,并且使得数据信息得到充分利用;并对季节指数进行了改良。结果发现改良后的时间序列分解模型乘法过程预测的2013年梅毒月发病率分别为2.1938/10万,2.1596/10万,2.9299/10万,2.8353/10万,2.9676/10万,2.9895/10万,3.1087/10万,3.0454/10万,2.9075/10万,2.6741/10万,2.6637/10万,2.7030/10万,预测值与实际值比较SSE=0.37346、MAE=0.14564、MSE=0.05093、MAPE=5.82%;改良后的时间序列分解模型加法过程预测的2013年梅毒月发病率分别为2.2892/10万,2.2881/10万,2.8933/10万,2.8088/10万,2.9308/10万,2.9477/10万,3.0409/10万,3.0010/10万,2.8760/10万,2.6825/10万,2.6952/10万,2.7051/10万,预测值与实际值比较SSE=0.36336、MAE=0.13023、MSE=0.05023、MAPE=5.44%,乘法过程和加法过程预测精度均很高。对某数据进行预测时,一般会根据数据的特点选择较合适的数学模型进行预测。本研究以我国梅毒月发病率数据为基础,通过比较ARIMA模型、BP神经57 网络模型、ARIMA模型与BP神经网络模型的组合模型,以及经过完善和改良的时间序列分解模型对2013年梅毒月发病率数据的预测寻找预测的最优模型。为更加精确的比较预测精度,本研究应用SSE、MAE、MSE、MAPE四个指标判定不同方法的预测结果与实际结果的差别,避免了应用单个指标带来的不足。结果发现经过完善和改良的时间序列分解模型的预测精度最高。以上结果说明时间序列分解模型对我国梅毒月发病率的预测具有可行性。对于时间序列分解模型,正确的数学模型能很好的拟合梅毒整体发病率的趋势。由于本研究中梅毒发病率整体变化趋势较平缓,考虑应用一次函数或二次函数,而三次函数以上参数检验时无统计学意义。为探索更好的整体趋势的预测,本研究对整体趋势应用灰色GM(1,1)模型进行预测,最终预测结果的预测精度小于二次函数时的预测精度,而下一步的研究可以长期趋势预测为重点,进行改良。在对传染病发病率进行预测时,一般认为序列在短期内不会发生大的变动,在此基础上对传染病的未来发展状况或趋势进行推断和预测。而实际中,传染病的发病率往往受到多种未知因素的影响,使预测结果存在不确定性,预测时间越长,预测精度便会逐渐降低,即预测误差会越来越大。因此,确定预测期限非常重要。本研究为了尽可能降低预测误差,只预测未来12个月的梅毒发病率。本研究应用改良时间序列分解模型对2014年梅毒月发病率进行预测。由于乘法模型和加法模型预测精度均较高,因此用两种方法分别进行预测。应用改良的时间序列分解模型乘法过程预测的2014年梅毒月发病率为2.1633/10万、2.1047/10万、2.8185/10万、2.6471/10万、2.7542/10万、2.7253/10万、2.8357/10万、2.7699/10万、2.6090/10万、2.3858/10万、2.4161/10万、2.3877/10万。应用改良的时间序列分解模型加法过程预测的2014年梅毒月发病率为2.2243/10万、2.1494/10万、2.8056/10万、2.6383/10万、2.7514/10万、2.7072/10万、2.8210/10万、2.7624/10万、2.5953/10万、2.3853/10万、2.4220/10万、2.3829/10万。乘法和加法模型的预测结果比较接近。2014年梅毒月发病率预测值显示我国梅毒疫情在平稳过渡中,无较大疫情发生。而整体趋势参考值范围可认为是梅毒疫情的可控范围,最大阈值和最小阈值分别为临界点。若某月实际发病率高于参考值范围最大值,可认为该月疫情较超出可控范围,需引起疾控人员注意,采取预警措施。58 4.5其他预测模型除了本研究中所涉及的预测模型,其他预测模型在实际预测中也有较广泛应用。郝飞等通过马尔科夫预测方法预测的股市收盘价格区间更好包含了实际值[91],但在医学卫生领域应用较少。杨永利等通过趋势外推预测得到的2012年我[92]国艾滋病年发病率与实际值的误差仅为6.14%。而谢合川等采用支持向量回归方法预测我国2010年细菌性痢疾的月发病率,与实际值比较,平均相对误差[93]13.23%。魏星等通过比较灰色模型、ARIMA模型和霍尔特双参数指数平滑法[94]在北京肺结核发病率的应用中发现,ARIMA模型预测结果较好。韩琴等通过比较GRNN模型和ARIMA模型发现;GRNN模型较适合合肥市新站区的性病发[95]病率预测。4.6创新点本研究主要有四个创新点:1.首次应用4种模型对我国梅毒月发病率进行预测,预测精度均较高;2.从4种模型中应用精度指标选择最优模型;3.对时间序列分解模型季节指数进行改良,改良后的预测精度提高;4.首次应用整体趋势参考值范围对我国梅毒疫情进行评估。从图3.1中可以看出,我国梅毒月发病率呈季节性趋势,夏季高发,而冬季发病率较少。以下几个原因可能会导致季节性,一是性活动存在相同的季节性-夏季频率高于冬季;另一个可能的原因是每年1月2月为岁末年初,传染病上报过程中可能存在上报不及时及漏报的现象。因此,需要从基层开始提高传染病的上报工作的质量。首先应明确医护人员的职责与观念,加强相关法律法规的教育,对医护人员进行培训,掌握上报程序;其次应健全制度、责任到人、遏制传染病[96]漏报;健全管理制度,加强监督检查。而对于其他传染病,例如结核、布病,若有与梅毒相同的发病特征,可以考虑应用时间序列分解模型,若长期趋势、周期趋势以及季节趋势都不明显,则预测的精度可能较差。由于研究的限制,本研究中仅单独以月发病数据为基础对未来月发病率进行59 预测,并没有考虑到其他因素,如气候、温度、地区、虫媒、人群行为等的影响。本文应用的是全国数据,而全国在气候、温度、地区、虫媒、人群行为等因素方面存在较大差异,无法统一标准,行政干预因素也是影响我国梅毒月发病率数据的因素之一,但由于相关的影响因素不能数据化,不能纳入分析。在以后的研究中,若能把相关的影响因素数据化,或对某一具有共同特征的局部地区,可应用时间序列泊松回归广义相加模型对梅毒月发病率进行预测。而以后的研究还可以探索应用其他模型对梅毒月发病率进行预测。所有的预测模型都是在过去的趋势保持到未来的发展,因此,若在未来会发生重大变化,按过去和现在的趋势对未来的预测结果可能会发生偏移。在实际应用中需建立动态分析评价的策略,不断加入新数据进行预测,不断修正和更新已有的预测模型,从而得到更科学合理的预测结果。采用经济实效的预测方法,掌握梅毒发病趋势,采取切实可行的防控措施。60 第5章结论1.应用时间序列分解模型预测精度要优于ARIMA模型、BP神经网络模型以及组合模型。2.时间序列分解模型季节指数改良后的预测精度优于改良前。3.应用改良后的时间序列分解模型预测2014年梅毒月发病率,与实际值相比,预测精度较高。4.预测梅毒月发病率过程中时间序列分解加法模型的预测精度和时间序列分解乘法模型的预测精度均较好,但加法模型预测精度稍优于乘法模型。5.应用整体趋势参考值范围预测值判断2014年我国梅毒月发病率属于可控范围,与实际值相符。61 参考文献[1]叶兴东,刘颖,戴向农,等.2000-2011年广州地区梅毒疫情报告结果分析[J].中国艾滋病性病,2013,19(3):198-200[2]TiwariAK,PandeyPK,DaraRC,etal.Evaluationofanewserologicaltestforsyphilisbasedonchemiluminescenceassayinatertiarycarehospital[J].AsianJournalofTransfusionScience,2015,9(1):65[3]NoblettJ,RobertsE.Theimportanceofnotjumpingtoconclusions:syphilisasanorganiccauseofneurological,psychiatricandendocrinepresentations[J].BMJcasereports,2015,2015:bcr2014207900[4]王惠榕,颜苹苹,林勋,等.福建省2004—2012年梅毒流行特征分析[J].海峡预防医学杂志,2014,20(1):15-17[5]PinesHA,RuschML,VeraA,etal.IncidentsyphilisinfectionamongpeoplewhoinjectdrugsinTijuana,Mexico[J].InternationalJournalofSTD&AIDS,2015:0956462414568394[6]李湘辉,张荣,陈仲,等.219例妊娠梅毒患者与配偶的梅毒血清学临床研究[J].中国艾滋病性病,2014,6:015.[7]ChopraS,GargA,ChopraM,etal.DecliningtrendsofSyphilisseroprevalanceamongantenatalcliniccasesandSTDcliniccasesinatertiarycarecentre:FromJanuary2002toDecember2012[J].Indianjournalofmedicalmicrobiology,2015,33(5):126[8]TewariS,MoorthyN.Cardiovascularsyphiliswithcoronarystenosisandaneurysm[J].IndianHeartJournal,2014.[9]唐作红,栾荣生,李春霞,等.2004-2012年攀枝花市梅毒流行特征分析[J].预防医学情报杂志,2014,30(10):864-866.[10]孙巧丽,蒋洪林,李旺华,等.2008-2012年湖北省梅毒流行趋势分析[J].现代预防医学,2014,21:003[11]普正豪,殷凯,莫坤,等.柳州市2008-2012年梅毒流行特征分析[J].医学动物防制,2014,6:006.62 [12]陈娟娟,郑惠能,颜玉炳,等.2004-2012年厦门市梅毒流行特征分析[J].预防医学论坛,2014,20(001):14-16[13]卢玉环,戴孟阳,郭严明.2004—2012年沈阳市梅毒疫情流行特征[J].职业与健康,2014,12:033[14]GonzálezV,FernándezG,DopicoE,etal.EvaluationoftheVITROSSyphilisTPAchemiluminescenceimmunoassayasafirst-linemethodforreversesyphilisscreening[J].JournalofClinicalMicrobiology,2015:JCM.00078-15[15]朱晓华,沈利,尹宁,等.上海市长宁区男男性行为人群梅毒感染情况及其危险因素分析[J].中华实验和临床感染病杂志(电子版),2014,8(4):40-43.[16]StolteyJ,CohenS.SyphilisTransmission:AReviewoftheCurrentEvidence[J].SexualHealth,2014.[17]陈丽华,管建粉,杨舟,等.九江地区孕妇性传播疾病相关知识及感染状况调查分析[J].中国现代药物应用,2012,6(13):135-136.[18]林建锋,谭仕健.孕产期妇女梅毒血清学检测在阻断母婴传播的诊疗价值[J].分子影像学杂志,2014,03[19]黄喜明,潘鹏.先天梅毒危险因素分析[J].中国热带医学,2014(004):476-478.[20]TuckerJD,GelpiA,BangsbergDR,etal.Thedisruptiveinfluenceofsyphiliscureswithinspecialistvenerealsystems:implicationsforHIVcurepreparedness[J].SexuallyTransmittedInfections,2015,91(1):2-3.[21]杨玉荣,贾媛,王继光,等.包头市医疗机构梅毒诊断准确率与梅毒疫情上升关系的调查[J].中国预防医学杂志,2014,15(1):67-71.[22]叶兴东,戴向农,何婉苹,等.2012年广州市网络直报梅毒准确性核查分析[J].中国艾滋病性病,2014,7:019.[23]廖元兴.梅毒治疗的几个问题[J].皮肤性病诊疗学杂志,2011,18(3):220-222.[24]蒋小东.兰溪市2004—2012年梅毒流行特征分析[J].上海预防医学,2014,26(1):13-15[25]王国利,吴瑞斌,朱亚刚,等.苏州市娱乐场所女性性工作者高危行为干预63 效果分析[J].江苏预防医学,2014,25(2):57-59.[26]袁建明,张国彬,夏宏丽,等.2010年南通市不同人群梅毒知晓率调查[J].医学动物防制,2012,28(02):121-121[27]高守芝,郑军,刘静,等.不同人群梅毒预防知识知晓率调查[J].中国预防医学杂志,2013,11(3):167-170.[28]江鸿,梅文华,崔俊宇,等.应用灰色系统GM(1,1)模型预测广东省梅毒发病率[J].中国艾滋病性病,2012,10:019.[29]梁祁,胡建利,吴莹,等.应用灰色系统GM(1,1)模型预测梅毒发病率[J].江苏预防医学,2010,21(6):17-19.[30]霍飞,董笑月,盛艳霞,等.GM(1,1)模型在天津市梅毒发病率预测中的应用[J].职业与健康,2008,24(13):1283-1284.[31]陈世平,杨慎华,刘明斌.南昌市2000—2011年梅毒发病率GM(1,1)模型预测[J].中国卫生统计,2013,30(4):551-553.[32]陈伟,陈正利,李少芳,等.ARIMA模型在河南省梅毒月发病率预测中的应用[J].中国卫生统计,2013,30(4):604-606.[33]李莉,余爱玲,王斌,苟伟斌,杨明宇,孟蕾.ARIMA模型在预测甘肃省梅毒月发病情况中的应用[J].中国皮肤性病学杂志,2015,02[34]周先锋,冯子健,杨维中,等.小波神经网络在梅毒发病率预测中的应用初探[J].四川大学学报:医学版,2011,42(4):544-547[35]李凯,陆忠华,恰汗,等.组合预测模型在梅毒流行病预测中的应用[J].中国卫生统计,2013,30(5):736-736.[36]沈松英,杨立刚,杨斌.广东省梅毒报告发病率曲线拟合及发病趋势预测[J].中国艾滋病性病,2011,17(3):341-343[37]NorströmT,RaninenJ.Istherealinkbetweenpercapitaalcoholconsumptionandyouthdrinking?Atime‐seriesanalysisforSwedenin1972–2011[J].Addiction,2015.[38]MumbareSS,GosaviS,AlmaleB,etal.Trendsinaveragelivingchildrenatthetimeofterminalcontraception:Atimeseriesanalysisover27yearsusingARIMA(p,d,q)nonseasonalmodel[J].Indianjournalofcommunitymedicine:officialpublicationofIndianAssociationofPreventive&SocialMedicine,2014,64 39(4):223.[39]徐标.基于BP神经网络的我国上市跨国公司汇率风险预警与防范研究[D].江苏大学,2011[40]CaoJ,ChenJ,LiH.AnAdaboost-BackpropagationNeuralNetworkforAutomatedImageSentimentClassification[J].TheScientificWorldJournal,2014,2014.[41]LiangZ,GongB,TangC,etal.DisplacementBackAnalysisforaHighSlopeoftheDagangshanHydroelectricPowerStationBasedonBPNeuralNetworkandParticleSwarmOptimization[J].TheScientificWorldJournal,2014,2014.[42]WangJ,HanS,ShenN,etal.FeaturesExtractionofFlotationFrothImagesandBPNeuralNetworkSoft-SensorModelofConcentrateGradeOptimizedbyShuffledCuckooSearchingAlgorithm[J].TheScientificWorldJournal,2014,2014.[43]Cai,Guanjing,etal."Combinationofuniformdesignwithartificialneuralnetworkcouplinggeneticalgorithm:aneffectivewaytoobtainhighyieldofbiomassandalgicidalcompoundofanovelHABscontrolactinomycete."Microbialcellfactories13.1(2014):75[44]DingH,LuQ,GaoH,etal.Non-invasivepredictionofhemoglobinlevelsbyprincipalcomponentandbackpropagationartificialneuralnetwork[J].Biomedicalopticsexpress,2014,5(4):1145-1152.[45]YangY,ZhengW,HuangS.EffectiveMultifocusImageFusionBasedonHVSandBPNeuralNetwork[J].TheScientificWorldJournal,2014,2014.[46]BarkaouiA,ChamekhA,MerzoukiT,etal.Multiscaleapproachincludingmicrofibrilscaletoassesselasticconstantsofcorticalbonebasedonneuralnetworkcomputationandhomogenizationmethod[J].Internationaljournalfornumericalmethodsinbiomedicalengineering,2014,30(3):318-338[47]郭睿.基于BP神经网络的天津港吞吐量预测研究[D].天津大学,2012[48]刘文东,吴莹,艾静,等.BP神经网络在痢疾发病趋势预测中的应用研究[J].中国卫生统计,2012,29(6):801-80465 [49]杨佳琦,陈露菲,陈淑红,等.BP神经网络在肾综合征出血热发病率预测中的应用[J].中华疾病控制杂志,2012,16(8):717-720.[50]徐学琴,孙宁,徐玉芳.基于BP神经网络的河南甲乙类法定报告传染病预测研究[J].中华疾病控制杂志,2014,06:561-563.[51]史书真.股价时间序列的分析与预测研究[D].大连理工大学,2013[52]刘晓敏,李明楚.基于BP神经网络的股指预测系统[D].辽宁大连:大连理工大学,2012[53]樊雯婧.合肥市疟疾发病预测数学模型应用及发病现况的流行病学研究[D].安徽医科大学,2013.[54]冯瑞.GDP时间序列的ARIMA模型研究[J].重庆工商大学学报(自然科学版),2014,12:34-37[55]KaneMJ,PriceN,ScotchM,etal.ComparisonofARIMAandRandomForesttimeseriesmodelsforpredictionofavianinfluenzaH5N1outbreaks[J].BMCbioinformatics,2014,15(1):276.[56]AnsariH,MansourniaMA,IzadiS,etal.PredictingCCHFincidenceanditsrelatedfactorsusingtime-seriesanalysisinthesoutheastofIran:comparisonofSARIMAandMarkovswitchingmodels[J].EpidemiologyandInfection,1-12.[57]孙少岩,逯家英,王化波.基于ARIMA模型对吉林省失地人口的研究[J].人口学刊,2014,4:003.[58]彭斯俊,沈加超,朱雪.基于ARIMA模型的PM2.5预测[J].安全与环境工程,2014,21(06)[59]宁静,宋秀萍,孙良,等.时间序列分析在阜阳市细菌性痢疾发病预测中的应用[J].安徽预防医学杂志,2014(3):169-171[60]何延治.基于时间序列分析的吉林省粮食产量预测模型[J].江苏农业科学,2014,10:159.[61]孙泗龙,李少博,范辰,等.基于ARIMA的GDP预测模型的构建及应用[J].辽宁科技大学学报,2014,37(4):337-342.[62]BatesJM,GrangerC.Thecombinationofforecast[J].OperationResearchQuarterly,1969(20):451-46866 [63]韩春蕾,高婉君.我国月度CPI的组合预测及分析[J].统计与决策,2014(1):11-13.[64]刘晓冬.ARIMA模型与GM组合模型预测中国人口死亡率的研究[D].潍坊医学院,2009[65]单锐,王淑花,李玲玲,高东莲.基于ARIMA、BP神经网络与GM的组合模型[J].辽宁工程技术大学学报(自然科学版),2012,01:118-122[66]蔡晓春,邹克.货币供应量比率Mi/M0的时间序列分解分析及预测[J].统计与决策,2012(8):115-118.[67]王灵风,徐艳.应用时间序列分解法预测门诊人次[J].泸州医学院学报,2004,27(3):276-278.[68]赵安平,王大山,肖金科,等.蔬菜价格时间序列的分解与分析[J].[69]陈秋月,杨泳冰,陈甜甜.基于时间序列分解的江苏省猪肉价格波动分析[J].安徽农业科学,2013,41(14):6499-6502.[70]王吉权,王福林,邱立春.基于BP神经网络的农机总动力预测[J].农业机械学报,2012,42(12):121-126.[71]DingH,LuQ,GaoH,etal.Non-invasivepredictionofhemoglobinlevelsbyprincipalcomponentandbackpropagationartificialneuralnetwork[J].Biomedicalopticsexpress,2014,5(4):1145-1152..[72]YangY,ZhengW,HuangS.EffectiveMultifocusImageFusionBasedonHVSandBPNeuralNetwork[J].TheScientificWorldJournal,2014,2014.[73]李建伟,梁爱琴,田辉.2011-2015年河南省农业机械总动力的预测[J].农机化研究,2012,06:47-50[74]MIAOJ,LIUR.Identificationofadulteratedmilkbasedontwo-dimensionalcorrelationnear-infraredspectraparameterizationandBPneuralnetwork[J].SpectroscopyandSpectralAnalysis,2013,33(11):3032-3035.[75]王映乔.基于神经网络的汇率预测及系统设计[D].西南财经大学,2007[76]易静,胡代玉,杨德香,等.三种预测模型在肺结核发病预测中的应用[J].中国全科医学,2012,15(13):1495-1497.[77]ChengY,ChenK,BaiL,etal.Backpropagationneuralnetworkbasedcontrolfortheheatingsystemofapolysiliconreductionfurnace[J].ReviewofScientific67 Instruments,2013,84(12):125108[78]李聪.基于BP神经网络的股票指数期货价格预测[D][J].青岛大学硕士学位论文,2012[79]范引光,吕金伟,戴色莺,等.ARIMA模型与灰色预测模型GM(1,1)在HIV感染人数预测中的应用[J].中华疾病控制杂志,2012,12:1100-1103.[80]夏荣尧.基于ARIMA模型的我国通货膨胀预测研究[D].湖南大学,2009.[81]吴昊澄,徐旭卿,王臻,等.浙江省细菌性痢疾月发病率ARIMA模型建立及预测分析[J].浙江预防医学,2012,24(1):14-16.[82]NeumannEJ,HallWF,StevensonMA,etal.Descriptiveandtemporalanalysisofpost-mortemlesionsrecordedinslaughteredpigsinNewZealandfrom2000to2010[J].NewZealandveterinaryjournal,2014,62(3):110-116.[83]马韶光.基于ARIMA模型的我国社会消费品零售总额的预测[J].现代商业,2015,1:010[84]朱奕奕,冯玮,赵琦,等.ARIMA乘积季节模型在上海市甲肝发病预测中的应用[J].复旦学报:医学版,2012,39(5):460-464.[85]YangL,BiZW,KouZQ,etal.Time‐SeriesAnalysisonHumanBrucellosisDuring2004–2013inShandongProvince,China[J].Zoonosesandpublichealth,2014[86]赵妍.ARIMA模型和控制图法在猪肺疫预测预警中的应用研究[D].东北农业大学,2013.[87]WakefieldMA,CoomberK,DurkinSJ,etal.TimeseriesanalysisoftheimpactoftobaccocontrolpoliciesonsmokingprevalenceamongAustralianadults,2001?2011[J].BulletinoftheWorldHealthOrganization,2014,92(6):413-422[88]吴昊澄,王臻,何凡,等.基于GM(1,1)-GRNN组合模型的肾综合征出血热发病率预测[J].中国媒介生物学及控制杂志,2012,23(4):347-349[89]陈银苹,吴爱萍,余亮科.组合模型对乙肝发病趋势的预测研究[J].解放军医学杂志,2014,39(1):52-56[90]蔡海洋,吴庆辉,吕精巧.组合模型在传染病预测中的应用研究[J].计算机仿真,2012,29(4):238-242.68 [91]郝飞.马尔科夫预测法在股市预测中的应用[J].科学之友(B版),2006,6:036[92]杨永利,毛赛彩,薛源,田翔宇,施学忠.GM(1,1)和趋势外推模型在我国艾滋病发病率预测中的应用[J].中国卫生统计,2014,06:952-954[93]解合川,任钦,曾海燕,等.支持向量机在传染病发病率预测中的应用[J].现代预防医学,2013,40(022):4105-4108.[94]魏星,丹子军,商斌,等.3种模型在肺结核发病率预测中的比较研究[J].北京医学,2010,32(9):744-747[95]韩琴,苏虹,王忱诚,等.ARIMA模型与GRNN模型对性病发病率的预测研究[J].现代预防医学,2012,39(6):1337-1340[96]张雪.浅谈基层医院如何做好传染病的上报工作[J].中国医学创新,2009,6(36):187-18769 作者简介及在学期间取得的科研成果姓名:颜康康性别:男出生日期:1987.19专业:流行病与卫生统计学经历:2008.09-2012.06滨州医学院统计学2012.09-2015.06吉林大学流行病与卫生统计研究方向:现场研究中的统计学应用与评价第一作者发表文章:1.YanKK,XuXJ,LiuXD,WangXK,HuaSC,WangCP,LiuX.Theassociationsbetweenmaternalfactorsduringpregnancyandtheriskofchildhoodacutelymphoblasticleukemia:ameta-analysis[J].PediatricBlood&Cancer.2015.62(7):1162-11702.LiuX,YanKK,LinXJ,ZhaoLY,AnWX,WangCP,LiuXD.TheassociationbetweenBRAFV600EmutationandpathologicalfeaturesinPTC[J].EuropeanArchivesofOto-Rhino-Laryngology,2014.271(11):3041-30523.颜康康,林雪君,李双,鲍红红,赵龙宇,刘欣.BRAFV600E基因突变和甲状腺乳头状癌临床病理特征关联性的meta分析[J].中华耳鼻咽喉头颈外科杂志,2014,49(9):759-7644.颜康康,林雪君,鲍红红,李双,刘欣.灰色GM(1,1)模型在艾滋病、淋病、梅毒发病率预测研究中的应用[J].实用预防医学.2015,22(3):371-37470 致谢时光荏苒,三年的硕士研究生学习即将结束,心中不禁感慨万千。一路走来,即有成长与进步,也有不足与缺憾,有自己辛勤的汗水,有自己的追求和理想,更倾注老师和同学给予我的深切关怀和无私帮助。在此谨以此文表达我对他们最由衷的感谢。首先感谢刘欣老师给予我的精心指导。她那严谨的治学精神、缜密的科研思维、朴实的学者风范,实事求是、刻苦进取的科研作风,细致耐心的教学态度是我人生和学术的终生导师和学习目标。在您的指导下,我的科研思维方式、论文写作水平都得到了很大提高。感谢刘欣老师对我的教导与宽容,是刘欣老师让我取得了现在的成果。在此,谨向我尊敬的导师表示崇高敬意和深深感谢!感谢公共卫生学院流行病与卫生统计教研室各位老师对我的教诲,让我熟练掌握专业课知识,提高了专业素养。同时,各位老师博大的胸怀、严谨的治学风范、兢兢业业的工作作风深深地感染着我、激励着我,这些高尚的品质将是我一生的榜样和追求的目标。感谢刘晓东老师,您孜孜不倦、不厌其烦的的帮助我,让我取得了现在的成就!感谢东北师范大学的王春鹏老师和胡果荣老师在本研究统计学方法方面给予了我悉心的指导和无私的帮助,使本课题得以顺利实施!感谢林雪君同学,三年共同走过,共同成长,要向她学习的地方还很多!感谢师妹李双、鲍红红、徐雪晶、刘美彤,是你们让我明白学术探讨的乐趣和团队合作的重要性,研究生三年过得快乐又充实。同时,感谢你们无私的帮助和支持保证了我课题的顺利完成。最后我要特别感谢与我同甘共苦的至亲和至爱,感谢一路有你们的陪伴!71

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭