机器学习模型在晚期血吸虫病预后预测中的应用研究

机器学习模型在晚期血吸虫病预后预测中的应用研究

ID:77629273

大小:6.08 MB

页数:159页

时间:2024-02-04

上传者:笑似︶ㄣ無奈
机器学习模型在晚期血吸虫病预后预测中的应用研究_第1页
机器学习模型在晚期血吸虫病预后预测中的应用研究_第2页
机器学习模型在晚期血吸虫病预后预测中的应用研究_第3页
机器学习模型在晚期血吸虫病预后预测中的应用研究_第4页
机器学习模型在晚期血吸虫病预后预测中的应用研究_第5页
机器学习模型在晚期血吸虫病预后预测中的应用研究_第6页
机器学习模型在晚期血吸虫病预后预测中的应用研究_第7页
机器学习模型在晚期血吸虫病预后预测中的应用研究_第8页
机器学习模型在晚期血吸虫病预后预测中的应用研究_第9页
机器学习模型在晚期血吸虫病预后预测中的应用研究_第10页
资源描述:

《机器学习模型在晚期血吸虫病预后预测中的应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

分类号学号D201578068学校代码10487密级习模型在晚期的应用研究预后预测中学科专业:流行病与卫生统计学指导教师:聂绍发教授答辩日期:2018年5月 独创性声明本人郑重声明:所呈交的学位论文是本人在导师的指导下独立进行的研究工作及取得的研究成果。尽我所知,除文中己经标明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研宄成果。对本文的研究做出贡献的个人和集体,均己在文中以明确方式标明。本人完全意识到,本声明的法律结果由本人承担。学位论文作者签名:'曰期:年月^曰学位论文版权使用授权书本学位论文作者完全了解学校有关保障、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和Y借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于1、保密口,在年解密后适用本授权书2、不保街。“”(请在以上相应方框内打V)^学位论文作者签名—:指导教师签名日期:声卜月r曰日期:年月7>^砌mn%sr HuazhongUniversityofScienceandTechnologyDoctoralDissertationApplicationofmachinelearningmodelsforpredictionofadvancedschistosomiasisprognosisCandidate:GuoLiMajor:EpidemiologyandHealthstatisticsSupervisor:Prof.ShaofaNieDate:May,2018 目录全文缩写词............................................................................................................1摘要....................................................................................................................2Abstract..................................................................................................................5前言........................................................................................................................9课题研究思路......................................................................................................15第一部分湖北省晚期血吸虫病患者现状研究................................................171材料与方法...............................................................................................172结果..........................................................................................................183讨论...........................................................................................................25第二部分应用kNN与SVM模型预测晚期血吸虫病预后...........................291材料和方法...............................................................................................302结果...........................................................................................................343讨论...........................................................................................................42第三部分应用ANN、DT及LR模型预测晚期血吸虫病预后*.....................461材料和方法...............................................................................................482结果...........................................................................................................523讨论...........................................................................................................54第四部分应用3种BN模型预测晚期血吸虫病预后..................................571材料和方法...............................................................................................582结果...........................................................................................................603讨论...........................................................................................................66第五部分应用集成学习模型预测晚期血吸虫病预后....................................691材料和方法...............................................................................................702结果...........................................................................................................743讨论...........................................................................................................84第六部分晚期血吸虫病临床预后指标探讨................................................871材料和方法..............................................................................................872结果..........................................................................................................883讨论..........................................................................................................90研究结论..............................................................................................................96创新点和局限性..................................................................................................97参考文献..............................................................................................................99综述机器学习模型在疾病预后预测等医疗领域的应用进展......................117附录1攻读学位期间主持基金和发表论文目录.....................................149附录2湖北省晚期血吸虫病人救助治疗个案调查表.............................150致谢....................................................................................................................154 华中科技大学博士学位论文全文缩写词英文缩写英文名称中文名称LRLogisticRegressionLogistic回归ANNArtificialNeuralNetwork人工神经网络DTDecisionTree决策树GBDTGradientBoostingDecisionTree梯度提升决策树RFRandomForest随机森林kNNkNearestNeighbourk最近邻SVMSupportVectorMachine支持向量机BNBayesianNetwork贝叶斯网络GBNGeneralBayesianNetwork广义贝叶斯网络NBNNaiveBayesianNetwork朴素贝叶斯网络TBNTree-augmentedBayesianNetwork树增强贝叶斯网络1 华中科技大学博士学位论文机器学习模型在晚期血吸虫病预后预测中的应用研究博士研究生:利国导师:聂绍发教授摘要目的1、开展湖北省晚期血吸虫病人现状调查,为掌握全省晚期血吸虫病分布和救治现状提供基线资料,为提高全省晚期血吸虫病人救治管理水平提供参考依据。2、以第一部分的调查数据为样本,基于机器学习模型分别对全省晚期血吸虫病人的预后转归进行预测,并用AUC、灵敏度和特异度指标对不同机器学习模型的预测效能进行比较研究。3、以孝南区晚期血吸虫病人为例,分别研究肝纤维化四项指标、B型超声检查和肝功能指标与晚期血吸虫病预后的关系。方法1、调查表由湖北省血防所统一设计,各疫区县(市、区)血防专业机构按调查表对辖区内在册晚期血吸虫病患者统一开展流行病学调查,按照相应病例纳入和排除标准进行筛选,共纳入4136名符合条件的晚期血吸虫病病人。收集患者实验室检查、临床和流行病学调查资料,并调查患者救治转归和治疗费用情况。2、以上述资料为样本,根据转归结局分为预后良好和预后不良两组。预后不良(死亡或病情恶化)被编码为1,预后良好(治愈或好转)被编码为0。晚期血吸虫病患者死亡主要是由于血吸虫病和血吸虫引起的并发症引起的,例如肝癌、肝昏迷、肝肾综合征和上消化道出血。因此,本研究中的死亡是指全因死亡。恶化指主要症状持续存在(例如无腹水消减征象或脾肿大型患者无手术指征)。将70%患者随机分配到训练组(2896人),30%患者分配到测试集(1240人),kNN、SVM、ANN、DT、LR、NBN、TAN、GBN、RF和GBDT模型都是在R3.4.3(RCoreTeamR,2016)软件中实现。kNN模型计算欧式距离,SVM模型采用核函数将低维数据映射到高维平面,ANN模型采用标准前馈式反向传播(BP)网络结构,2 华中科技大学博士学位论文DT模型基于C4.5算法,3种贝叶斯网络结构加入了先验知识,RF和GBDT模型均集成5000棵决策树进行预测。对于所有的比较,用双侧检验,P<0.05被认为是统计学差异的。模型预测效能采用ROC曲线下面积(AUC)、准确度、灵敏度、特异度等指标综合比较。3、第六部分以孝南区血防专科医院2015年收治的104例确诊晚期血吸虫病人资料作为研究对象,按照预后转归不同分为两组,预后良好组和预后不良组,分别探讨肝纤维化四项指标、B型超声检查指标和肝功能指标与晚期血吸虫病人预后的关系。结果1、患者主要分布在荆州,黄石、孝感等地,以腹水型和巨脾型为主。一般人口学特征中,腹水型和巨脾型两组患者间的年龄、性别、BMI、发育状况和营养状况的差异有统计学意义。通过对既往病史、症状体征、实验室检查、B超和X线检查的研究发现,老年组和青壮年组在多项指标中具有差异。临床救治方面,脾切除、腹水史、救治手段、治疗费用和治疗转归在腹水型、巨脾型两组间的差异有统计学意义。2、对kNN、SVM模型的研究发现,kNN模型和SVM模型在晚期血吸虫病人预后预测中的性能都比较理想(AUC>0.75),灵敏度,kNN模型优于SVM模型;特异度,SVM模型优于kNN模型。研究还发现,在不同参数条件下,随着k取值的降低,模型的性能逐渐提升。对ANN、决策树和LR模型的研究发现,每个预测模型都被证明是有效的并且有其自身的优势,但ANN模型在AUC和灵敏度方面优于LR和DT模型。3种贝叶斯网络模型的预测效果都较为理想,晚期血吸虫病患者预后预测研究更适合采用NBN(AUC=0.724)和TAN(AUC=0.737),因为这两种模型的AUC高于GBN(AUC=0.658)。而在NBN和TAN两种模型中,虽然AUC接近,但是由于TAN考虑了自变量间的相互关系,可能更符合人们日常认知,解释性更强。对于集成学习模型,随机森林和梯度提升决策树(参数n.tree=5000)都取得了不错的效果(AUC>0.75)。在训练集中,RF模型预测性能的主要指标(AUC、灵敏度和特异度)均优于GBDT和DT模型;RF模型的AUC在测试集中优于GBDT和DT模型,三个模型的灵敏度和特异度接近。值得注意的是,GBDT的预测性能指标并没有优于DT模型。这可能与模型的参数调整有关,也可能与数据集本身的特征有关,这一部分还探讨了调参过程对模型预测性能的影响。预后预测模型的选择,应在性能进行比较后,结合具体医学问题的实际需要,再加以选择。3、肝纤维化四项指标中,透明质酸(HA)和层黏蛋白(LN)可作为预后指标。3 华中科技大学博士学位论文B超结果显示,腹水可作为判断晚期血吸虫病患者预后的关键临床指标。肝功能指标中,AST/ALT可以作为判断晚期血吸虫病人预后的指标。结论1、对晚期血吸虫病患者开展流行病学调查,对了解晚期血吸虫病分布现状,提升晚期血吸虫病救治管理水平,以及制定科学合理的防治策略提供了基线资料和依据,具有重要意义。2、本研究中kNN、SVM等9种机器学习模型预测晚期血吸虫病的预后,都取得了良好的预测效果。在数据资料不满足特定分布的情况下,参数模型(如LR模型)和半参数模型(如Cox比例风险模型)不适用,本研究提供了新的思路,有助于不同方法之间结果的对比。kNN、SVM和ANN模型数据比传统预后预测模型要求低,DT模型显示了清晰的变量筛选过程,容易理解,3种BN模型在分析诸多自变量之间的交互作用时,可解释性最好。集成学习模型克服了单棵决策树泛化能力不足的缺点。而且机器学习模型容易调整参数,能生成预测效能更好的模型。3、肝纤维化四项指标中的透明质酸(HA)、层黏蛋白(LN),B超检查的腹水,以及肝功能检查的AST/ALT指标,可作为晚期血吸虫病临床预后指标。关键词:晚期血吸虫病;预后预测;预测模型;机器学习;应用4 华中科技大学博士学位论文ApplicationofmachinelearningmodelsforpredictionofadvancedschistosomiasisprognosisPhDCandidate:GuoLiSupervisor:Prof.ShaofaNieAbstractObjectives(1)InordertounderstandthecurrentdistributionandtreatmentstatusofadvancedschistosomiasispatientsinHubeiprovince,aprevalencesurveywasconducted,whichcouldalsoprovidereferencesforimprovingprovincialmanagementlevelofadvancedschistosomiasistreatment.(2)Takingthesurveydatainthefirstpartasasample,theprognosisoftheadvancedschistosomiasispatientsofintegralprovincewaspredictedbasedonmachinelearningalgorithmmodels.ThepredictionperformanceofthemachinelearningalgorithmmodelswerecomparedbytheareaundertheROCcurve(AUC),sensitivity,specificityandsoon.(3)TakingtheadvancedschistosomiasispatientsinXiaonanasanexample,therelationshipbetweenfourindexesofliverfibrosis,B-modeultrasonographyexaminationindicators,liverfunctionindicesandtheprognosisofadvancedschistosomiasiswerestudied.Methods(1)ThesurveyprogramwasdesignedbyHubeiSchistosomiasisControlInstituteandfieldinvestigationwasorganizedbyprofessionalphysiciansinallepidemiccountiesinHubeiprovince.Accordingtothecorrespondingcaseinclusionandexclusioncriteria,4136eligiblepatientswereincorporatedinthisstudy.Theclinical,laboratoryexaminationandepidemiologicalsurveydataofadvancedschistosomiasispatientswerecollectedforanalysis.Clinicaloutcomeandtreatmentcostswerealsoinvestigated.(2)Basedonthesurveydataofthefirstpart,thepatientsweredividedintotwogroups:goodprognosisandpoorprognosis.Theoccurrenceoftheevent(deathordeterioration)wascodedas1,andtheeventnotoccurred(clinicallycuredorimproved)wascodedas0.5 华中科技大学博士学位论文Mortalityinadvancedschistosomiasiswasmainlyduetoschistosomiasisandcomplicationscausedbyschistosomiasissuchaslivercancer,hepaticcoma,hepatorenalsyndrome(HRS)anduppergastrointestinalbleeding.Therefore,deathinthisstudyreferredtoall-causedeath.Thedeteriorationreferredtothepersistenceofthemainsymptoms(e.g.noevidenceofascitesreductionortheabsenceofsurgicalindicationsforsplenomegalytypepatients).70%ofthepatients(2896)wererandomlyassignedtothetraininggroup,while30%(1240)wereassignedtothetestinggroup.ThekNN,SVM,ANN,DT,LR,NBN,TAN,GBN,RF,andGBDTmodelswereallconstructedinR3.4.3software(RCoreTeamR,2017).TheEuclideandistancewascalculatedinkNNmodel.TheSVMmodelappliedthekernelfunctiontomapthelowdimensionaldatatothehighdimensionalplane.TheANNmodelappliedthestandardfeedforwardbackpropagation(BP)networkstructure.DTmodelwasbasedontheC4.5algorithm.ThethreeBayesiannetworkmodelsincorporatedthepriorknowledge.RFandGBDTmodelsintegrated5,000decisiontreesforprediction.Forallcomparisons,P<0.05wasconsideredstatisticallysignificantwithatwo-sidedtest.Themodels’predictiveperformancecomparisonwasbasedonacomprehensiveanalysisoftheareaundertheROCcurve(AUC),accuracy,sensitivity,specificityandsoon.(3)Inthesixthpart,104casesofadvancedschistosomiasispatientsdiagnosedin2015werecollectedfromXiaonanschistosomiasisspecializedhospital.Thepatientsweredividedintotwogroups:goodprognosisandpoorprognosis.Therelationshipbetweenfourindexesofliverfibrosis,B-modeultrasonographyexaminationindicators,liverfunctionindicesandprognosisofadvancedschistosomiasiswerestudied.Results(1)Inthisstudy,theadvancedschistosomiasispatientsweremainlyinJingzhou,Huangshi,Xiaoganandsoon.Theclinicaltypesweremainlyascitesandsplenomegalytypes.Indemographiccharacteristics,age,gender,BMI,developmentalandnutritionalstatusdifferedbetweenascitesandsplenomegalygroupswhichhasstatisticalsignificance.Anumberofindicatorsdifferedbetweentheelderlygroupandtheyoungadultsgroupthroughtheinvestigationofpastmedicalhistory,symptomsandsigns,laboratorytests,6 华中科技大学博士学位论文B-modeultrosoundandX-rayexamination.Ofclinicaltreatment,splenectomy,historyofascites,treatmentmeans,treatmentcostsandtreatmentoutcomedifferedbetweenthetwoagegroupswhichhadstatisticalsignificance.(2)ThestudyofkNNandSVMmodelshaveshownthattheywerebothappropriateforpredictingtheprognosisofadvancedschistosomiasispatients(AUC>0.75).ThekNNmodelwasmoresensitiveandtheSVMmodelwasbetterinspecificity.Thestudyalsofoundthat,underdifferentparameters,thepredictionperformanceofthemodelgraduallyincreasedwiththedecreasingofkparameter.ThecomparisonofANN,DTandLRmodelhaveshownthateachpredictionmodelwasprovedtobeeffectiveandhaditsownadvantages,theANNmodelperformedsuperiortoLRandDTmodelsintermsofAUCandsensitivity.ComparisonsofthethreeBayesiannetworkmodelshaveshownthatthepredictiveperformanceofthethreemodelswereapplicable.NBN(AUC=0.724)andTAN(AUC=0.737)weremoresuitableforprognosispredictionofadvancedschistosomiasispatients,becausetheAUCvaluesofNBNandTANwerehigherthanGBN(AUC=0.658).However,ofthemodelsofNBNandTAN,althoughAUCswereapproximate,TANmodelmaybemoreconsistentwithpeople'sdailycognitionandmoreinterpretablebecausetheinterdependenceofdifferentvariablesweretakenintoaccount.Fortheensemblelearningmodel,bothrandomforestandgradientboostingdecisiontrees(parametern.tree=5000)yieldedgoodresults(AUC>0.75).Inthetraininggroup,themainindexes(AUC,sensitivityandspecificity)oftheRFmodelwerebetterthantheGBDTandDTmodels.Inthetestinggroup,theAUCofRFmodelwasalsosuperiortoGBDTandDTmodel,whilethesensitivityandspecificitywereclosedtoeachother.However,itwasnoteworthythatthepredictiveperformanceofGBDTdidnotshowsuperiorityonDTmodel.Thismayberelatedtotheadjustmentoftheparametersofthemodelorthecharacteristicsofthedatasetitself.Theimpactoftheparameteradjustmentprocessonthepredictionperformanceoftheensemblelearningmodelwasalsoexploredinthissection.Thechoiceofprognosispredictionmodelshouldbemadeafterperformancecomparison,aswellascombiningwiththeactualneedsofspecificmedicalproblems.(3)Offourliverfibrosisindices,hyaluronicacid(HA)andlaminin(LN)couldbeusedasclinicalindicatorsforprognosisofadvancedschistosomiasis.B-ultrasoundresultshaveshownthatascitescouldbeusedasakeyprognosticindicatorinadvancedschistosomiasis7 华中科技大学博士学位论文patients.Oftheliverfunctionindices,AST/ALTcouldbeappliedasprognosisindex.Conclusions(1)InvestigatingtheepidemiologicalstatusofadvancedschistosomiasispatientsinHubeiProvincewashelpfultoprovidebaselineinformationandbasisforunderstandingthedistributionofadvancedschistosomiasispatients,improvingthemanagementleveloftreatmentandformulatingreasonablepreventionandtreatmentstrategyforadvancedschistosomiasispatients.(2)Inthisstudy,weapplied9kindsofmachinelearningmodelssuchaskNN,SVM,topredicttheprognosisofadvancedschistosomiasisandachievedgoodpredictionperformance.Ifdatamaterialsdidnotsatisfyspecificdistributionrequirements,parametricmodels(suchasLRmodels)andsemi-parametricmodels(suchasCoxproportionalhazardsmodels)werenotapplicable.Thisstudyprovidednewmethodswhichhelpedtocomparetheresultsbetweendifferentmethods.ThekNN,SVMandANNmodel’sdatarequirementswerelowerthantraditionalprognosticpredictionmodels.TheDTmodelhasshownaclearprocessofvariableselectionandwaseasytounderstand.ThethreeBNmodelswereexplicablewhenanalyzingtheinteractionamongmanyindependentvariables.Theensemblelearningmodelovercametheshortcomingsofthelackofgeneralizationinasingledecisiontree.Moreover,themachinelearningmodelwaseasytoadjustparametersandcouldthusgeneratedpredictionmodelswithbetterpredictiveperformance.(3)Someindicesofliverfibrosis(hyaluronicacidandlaminin),B-ultrasoundexamination(ascites)andliverfunctiontests(AST/ALT)couldbeusedasclinicalindicatorsofadvancedschistosomiasisprognosis.Keywords:Advancedschistosomiasis;Predictionofprognosis;Predictionmodel;Machinelearning,Application8 华中科技大学博士学位论文机器学习模型在晚期血吸虫病预后预测中的应用研究前言血吸虫病是由裂体吸虫属血吸虫引起的一种寄生虫病,广泛流行于拉美、亚洲和非洲74个国家和地区,全世界感染人数达2.4亿,受威胁人口约6.5亿。人口的增多和流动、卫生设施不健全、防治力度薄弱、全球气候变暖和水利设施的建设等诸多因素,都可能导致血吸虫病的扩散,对疫区经济发展和人民身体健康危害巨大。在人类寄生虫病中,它的重要性仅次于疟疾。虽然被归为“被忽略的热带病”(Neglectedtropicaldiseases,NTDs),但无论是世界范围还是在中国,血吸虫病的防治一直是重大公共卫生问题,尤其是在中国,血吸虫病从来没有“被忽略”,政府和全社会始终高度重视血防工作,并且在长达60多年的岁月里持续投入了大量的人力、物力和财力,以控制血吸虫病的传播。寄生于人体的血吸虫主要是日本血吸虫、曼氏血吸虫、埃及血吸虫、间插血吸虫病、马来血吸虫和湄公血吸虫6种。其中,日本血吸虫主要在中国、菲律宾和印度尼西亚等国流行。在中国,血吸虫病主要流行于长江流域的湖南、湖北、安徽、江苏和江西5省,以及西部山区的四川和云南2省。由于政府血防投入巨大,控制措施得当,中国的血吸虫病传播得到了有效控制,疫情下降幅度明显[1,2]。据2015年血吸虫病疫情通报资料,全国453个流行县(市、区)的总人口数约2.52亿,推算血吸虫病病人数77194例,全年未发现急感病人[3]。全国晚期血吸虫病病人在册人数30843例,湖北省有9098例,占比29.5%,居全国首位。晚期血吸虫病是血吸虫病发展阶段中最严重的转归,患者的肝功能受到严重破坏。一般会有5-10%的慢性病人进展到晚期阶段。根据其临床特征的不同,一般将其分为巨脾型、腹水型、结肠增殖型和侏儒型4种类型[4]。一、基于血防策略演变的湖北省血防历程总结国内外血吸虫病防治经验,其控制策略都是从单一措施逐渐发展为现在的综合措施。鉴于早期化疗药物的缺乏及1914年以来日本、突尼斯、黎巴嫩等局部地区控制钉螺策略的成功,1972年、1978年世卫组织第一和第二次血吸虫病专家委员会提出的策略是以消灭钉螺为主。随着血吸虫病诊断技术的提高和化疗药物奥沙尼喹、敌百虫,特别是吡喹酮的问世,1984年、1991年世卫组织第三和第四次血吸虫病专9 华中科技大学博士学位论文家委员会提出的防控策略是以控制病情为目标,人群化疗为主,并突出健康教育措施[5,6]。随着经济、社会和科学技术的发展和WHO防治策略的演变,湖北血吸虫病防控工作在国家卫计委、省政府领导下,大体经历了以下阶段。第一阶段是20世纪50年代到80年代初,以消灭钉螺为主的策略,虽然在局部地区取得了很好的效果,但由于湖北乃“千湖之省”,水网密布,水系复杂,影响因素众多,导致钉螺分布范围难以下降;第二阶段是20世纪80年代初期到中期,湖北血防策略是以化疗为主,辅以消灭易感地带钉螺,这也为80年代后期用化疗手段控制疫区血吸虫病病情打好了基础。在世行贷款项目“中国血吸虫病防治项目(1992-2002)”支持下,疫区居民血吸虫病患病率明显下降。但这一策略弊端也很突出,主要是不能控制再感染[7],难以切断传播链,病情无法得到持续稳定的下降,因此难以达到有效控制血吸虫病传播的目的[5]。随着世行项目结束和洪涝灾害的不断出现,疫区出现钉螺面积回升、疫情反弹,引起党中央高度重视。国务院出台了血吸虫病防控的中长期纲要(2004-2015年),在全国血防纲要指导下,湖北省政府根据疫区实际情况制定了全省血防规划纲要,采取以控制传染源为主的血吸虫病综合防治策略,这是湖北省血吸虫病防治策略演变的第三阶段,取得了重大成果,湖北省分别于2008年、2013年达到血吸虫病疫情控制和传播控制标准[8,9]。在湖北省政府制定的“十年送瘟神”(2008-2018年)目标引领下,目前正在努力实现到2018年底达血吸虫病阻断控制标准。二、湖北省晚期血吸虫病患者救助政策的实施情况2.1救助的必要性在血吸虫病疫区,晚期血吸虫病是由于居民大量或反复感染尾蚴,没有得到及时有效治疗,病情不断恶化导致的。晚期血吸虫病病程长、预后较差,疾病负担很重,而患者绝大多数都是农民、渔船民,收入微薄,常因为患有晚期血吸虫病丧失劳动力导致“因病返贫”、“因病致贫”甚至死亡。为恢复患者劳动能力,提高患者生活质量,自2005年起,中央及地方各级政府开始组织实施晚期血吸虫病患者救助工作。2005-2006年,当时的卫生部陆续制订了晚期血吸虫病人内科治疗、外科治疗救助项目的技术方案和管理办法等,为开展救治提供了一系列必要的规范[10]。湖北省卫生部门成立相关领导小组和技术小组,制订一系列管理规范,确定定点救助医院,审查救助对象,登记在册并公布,医疗救助经费严格按照规范管理,接受社会监督。资金来源按照中央、省、市、县级财政分级负担原则分摊,以中央财政为主,内科治疗补助标准为3000元/人,外科治疗补助标准为6000元/人,全省晚期血吸虫病人得到了有10 华中科技大学博士学位论文效救助[11]。2.2救助项目的绩效评价从卫生经济学角度,晚期血吸虫病疾病负担(DiseaseBurden,DB)重,可用于改善晚期血吸虫病人生存质量的卫生资源有限,因此寻求救助项目资源合理配置、提高管理水平、提高政策的科学化水平尤为必要。绩效评价可以有效配置公共资源,可用于晚期血吸虫病救助项目。现有其研究多局限于某一方面,如对内、外科治疗临床效果、生存质量、疾病负担的单一分析,缺乏全面综合的研究[12]。有学者对江西省实施的晚期血吸虫病人救助项目(2009-2014年)情况,分两阶段:政策的实施、项目对改善病人临床指标的效果评价开展了研究[13]。研究发现患者腹水、肝纤维化和门静脉高压等症状明显改善,男性比女性更难达到临床治愈可能与他们因为职业原因(农民、渔船民)更频繁接触疫水有关,受教育程度高者容易遵医嘱,也更容易达到临床治愈,5年共挽回2004个寿命损失年,临床治愈后,病人的预期寿命至少可以延长3年。还有研究把一般援助项目(GeneralAssistanceProgram,GAP)和免费救治项目(FreeTreatmentProgram,FTP)对晚期血吸虫病人救治的效果作比较,以确定FTP项目是否有必要推广[14]。患者常见的临床症状和超声检查均无差异,表明GAP和FTP框架下晚期血吸虫病患者病人肝损伤无差异,是否推广FTP值得商榷。2.3建立晚期血吸虫病救治管理信息系统及实施临床路径随着湖北省晚期血吸虫病救助项目的开展,历年资料存在信息量大、纸质资料易破损、信息查询及利用效率低下,湖北省血防所与武汉富斯特软件公司因此共同研发了《湖北省晚期血吸虫病救治管理信息系统》,以实时了解病人救治情况,并通过系统综合评价救助项目工作,了解项目投入及产出的情况[15]。该系统不但录入救治医疗机构和晚期血吸虫病人的信息、救治前后患者劳动能力、生存质量的变化,还通过调查表了解新发晚期血吸虫病病人情况,并根据三级指标对救治工作开展综合评价,系统的建立提高了湖北省晚期血吸虫病救治工作信息化程度和效率。临床路径(ClinicalPath,CP)起源于20世纪80年代美国波士顿的新英格兰医疗中心。CP是指医护人员在明确疾病诊断后,根据疾病或手术具体情况制定的合理、科学和有序的照顾患者计划,其核心是把疾病的诊断、治疗和护理工作标准化,从而达到治疗效果最佳。关于临床路径的研究很多,如一项临床多中心研究,探索了临床路径实施能否改善中国急性冠脉综合征(AcuteCoronarySyndrome,ACS)的管理[16];过度使用麻醉剂和长时间手术是患者住院时间(LengthOfhospitalStay,LOS)延长的11 华中科技大学博士学位论文独立预测因子,有研究引入旨在减少围手术期麻醉药使用的标准化临床护理路径[17],住院时间(LengthOfStay,LOS)缩短,使腹腔镜腹疝修补术(LaparoscopicVentralHerniaRepair,LVHR)患者生存质量得到改善;标准化CP在初次全关节置换患者中实施,可有效降低再入院率和LOS[18]。自2011年起,临床路径在湖北省晚期血吸虫病住院患者中实施,救治效率得到显著提高。国内从不同维度开展了进入临床路径晚期血吸虫病人救治效果的研究,如昆山第三人民医院开展的晚期血吸虫病患者抗纤维化治疗临床路径效果观察[19],钟森林[20]、廖红保[21]等开展的CP在腹水型患者中的应用效果研究,均表明CP比传统路径具有优势,值得推广应用。三、疾病预后预测模型的发展与应用疾病预后预测是指判断疾病的结局,如康复、死亡或某种并发症的产生;也包括判断疾病的可能病程,如给定时间线索,判断某个时间段内不同疾病结局发生的概率。疾病预后预测模型就是根据不同统计学方法构建数学公式,根据不同风险因素影响疾病结局的程度大小,推导疾病的生存概率和死亡风险。因为是直观的数理公式,便于操作,准确性高,在辅助临床决策方面作用巨大。近些年来,随着基因芯片和蛋白质组等新技术的发展,整合了分子标记物和临床特征信息的预后模型进一步提高了分析的精度。传统疾病预后预测模型主要包括Cox比例风险回归模型和Logistic回归模型。LR模型是应用最为普遍的预后预测模型之一,因为LR模型中各因素的影响可以被定量解释,相对风险(OddsRatio,OR)的近似估计可以很容易推导出来。但是,数据是否适合模型要求满足一定的条件,变量之间多重共线性和交互作用无法解决,特别是对于致病因素多且致病因素之间关系复杂的疾病。Cox比例风险回归模型是上世纪70年代提出来的一种半参数回归模型,它以病人生存时间和生存结局为因变量,能同时分析多种因素对病人生存期的影响。优点在于它对于数据的分布类型不做要求,在分析带有截尾数据的生存资料时不受影响。Cox模型克服了参数模型对资料满足特定分布的要求,也克服了非参数模型利用资料信息不充分的局限性。因为Cox模型考虑了疾病结局和生存时间两个维度,且不像LR模型那样要求资料满足事件发生率较低的假定,因此应用更为广泛。由于本研究只采用了晚期血吸虫病2015年1年的流行病学调查资料,故在本文中传统预后预测模型指的是LR模型,而没有运用Cox模型。随着人工智能(ArtificialIntelligence,AI)技术的快速发展,作为AI核心技术的机器学习算法在医疗领域也得到了广泛和深入的研究和应用。机器学习是一门人工智能的科学,研究如何在经验学习中改善具体算法的性能。如对于多重共线性问题,机12 华中科技大学博士学位论文器学习算法中的人工神经网络模型可以很好地解决,而且对数据的分布没有任何限制。对于致病因素间的交互作用,机器学习算法家族中的贝叶斯网络可以通过有向无环图定性地反映不同因素间的相互关系。在自变量数量众多(如,数千个),传统预后模型不稳定乃至根本无法生成,集成学习模型却可以解决,且模型稳健。类似于传统统计学方法,机器学习算法也提供了一些非参数模型,如k最近邻模型和支持向量机模型,它们在疾病预后预测领域也有广泛的运用。一般认为,在变量较多、影响因素之间的相互作用较为复杂的时候,机器学习算法模型可能优于LR模型。已有的晚期血吸虫病研究包括发病机制、诊断、治疗和生存质量评价多个方面。比如有研究表明晚期血吸虫病患者存在家族聚集性,在流行地区依然是不可忽视的传染源[22],发病机制研究表明免疫调节和遗传因素在疾病发展过程中起重要作用。B超检查和生化标记物不仅可用于病人的诊断和鉴别诊断,还可用于指导治疗的开展和治疗效果的评价,并可用于上消化道出血和门静脉高压症的风险预测[23]。吡喹酮可用于大多数患者,该疗法不仅可以降低传播风险,也有利于肝纤维化的改善。腹腔镜下曲张静脉套扎术在治疗晚期血吸虫病人上消化道出血时疗效显著,巨脾型患者接受脾切除术后,长期生存率可达90%以上,绝大多数可临床治愈,劳动能力基本恢复正常[24]。关于晚期血吸虫病预后方面的文献,主要有肝纤维化的存在和程度与疾病的进展和预后相关,WuS等学者招募了73名晚期血吸虫病患者,发现不同纤维化阶段晚期血吸虫病患者的LSM(肝硬度测量)存在差异,利用LSM值可以评估患者肝纤维化从而判断其预后。还有学者发现,晚期血吸虫病肝硬化患者与乙肝肝炎肝硬化患者凝血功能存在差异,对判断预后有参考意义。关于护理干预措施对改善晚期血吸虫病预后的研究较为丰富,也有人建议采用新型晚期血吸虫病分类方法,来重新评估疾病的疗效和预后。还有人发现,晚期血吸虫病患者HBV-DNA的存在与高死亡率相关,死亡原因是肝功能衰竭和肝细胞癌,对可检测到HBV-DNA的患者进行抗病毒治疗可能会改善预后。关于晚期血吸虫病的研究文献虽然比较丰富,但是研究中存在三个不足。一是缺乏翔实系统的大样本流行病学调查资料,样本量多局限于某一个专科医院或某一个县的几十或者几百个病例资料。二是缺乏晚期血吸虫病预后预测方面的研究。三是最近兴起的机器学习模型,已经在某些疾病的预后预测研究中显示出对于传统统计学方法的优势,但目前还没有在晚期血吸虫病中运用。针对晚期血吸虫病研究的不足,本研究利用湖北省血防所收集的全省晚期血吸虫病患者的大样本流行病学调查数据,基于新兴的机器学习模型开展晚期血吸虫病预后预测研究,以达到以下三个目的。一是全13 华中科技大学博士学位论文面分析湖北省晚期血吸虫病人现状,为晚期血吸虫病患者救助管理提供基线资料。二是将机器学习模型运用于基于个体的晚期血吸虫病预后预测中,对不同机器学习模型的预测性能加以比较,探索传统预后预测模型之外的疾病预后预测新方法。三是充分了解晚期血吸虫病预后转归,为制定合理的晚期血吸虫病防治策略提供依据。另外,本研究还利用孝南区104例晚期血吸虫病人的检查数据,研究各项指标与预后转归的关系,探讨晚期血吸虫病人的临床预后指标。14 华中科技大学博士学位论文课题研究思路本研究利用湖北省疾控中心血吸虫病防治研究所的2015年收集的全省晚期血吸虫病患者大样本流行病学调查资料,应用人工智能核心技术的机器学习算法模型对病人预后转归进行综合分析。研究内容主要包括对湖北省晚期血吸虫病人现状调查的分析;通过机器学习算法中的k最近邻、支持向量机、人工神经网络等多种模型对湖北省晚期血吸虫病人开展预后预测研究,并对机器学习模型的效果进行比较研究,以进一步完善湖北省晚期血吸虫病人的预后管理水平;另外,以孝南区晚期血吸虫病人的临床和实验室检测资料,对晚期血吸虫病人预后的相关指标进行了深入探讨。一、现状调查首先,对纳入研究的4136名湖北省晚期血吸虫病人的相关资料进行分析,了解湖北省晚期血吸虫病人的基本情况。从以下三方面开展分析:一是晚期血吸虫病人的临床分型和地区分布;二是患者的一般人口学特征;三是患者的既往病史、症状体征等临床特征和实验室检查结果,及其临床救治情况。二、机器学习模型在晚期血吸虫病预后预测中的应用研究经过现状研究,发现晚期血吸虫病是一种致病因素多、发病机制复杂、临床表现差异较大、预后转归受多种因素影响的疾病,且自变量之间存在多重共线性和交互作用。传统预后预测模型在预测这类疾病预后时受限,为解决这个问题,本研究利用人工智能核心技术的多种机器学习算法来预测晚期血吸虫病人预后,并对不同算法的预测性能加以评价和比较。具体分为以下部分:k最近邻模型、支持向量机模型的应用;人工神经网络、决策树与Logistic回归模型的应用;3种贝叶斯网络模型的应用;集成学习模型的应用。三、晚期血吸虫病预后指标探讨——以孝南区为例收集孝南区血防专科医院2015年调查的104例确诊晚期血吸虫病人资料作为研究对象。按照转归不同分为预后良好、不良两组。分别研究肝纤维化指标、B超检查指标和肝功能指标与患者预后的关系。本研究在进行现状研究后,利用多种机器学习模型对病人的预后情况进行预测,并对不同模型的效能进行评价和比较研究,以期进一步完善预后预测分析的统计学模型,也充分了解晚期血吸虫病预后转归,为制定合理的晚期血吸虫病防治策略提供依据。另外,以孝南区晚期血吸虫病人资料为例,对病人预后指标的选择进行了探讨。本研究的技术路线图如下所示:15 华中科技大学博士学位论文地区分布及一般人口学特征机器学习模型在晚期血吸虫病预后预测中的应用研究对湖北省晚期血吸虫病湖北省晚期血患者流行病学调查结果吸虫病患者现既往病史、症状体征、实验进行描述性分析,为完状研究室检查、B超和X线检查善救治管理水平提供基临床救治情况线资料和依据kNN、SVM模型比对机器学习模型在晚期血吸虫ANN、决策树和LR比对评价各个机器学习模型病预后预测中在晚期血吸虫病病人预的应用研究3种贝叶斯网络模型比对后预测中的作用,分别比较其预测性能集成学习模型比对晚期血吸虫病肝纤维化指标人临床预后指探讨各项指标与晚标探讨——以B超检查指标期血吸虫病患者预孝南区为例后的关系肝功能指标16 华中科技大学博士学位论文第一部分湖北省晚期血吸虫病患者现状研究血吸虫成虫在宿主血管中繁殖多年,成功地逃避免疫系统的“监视”,每天排出成千上万的虫卵,要么排泄到环境中造成污染,要么被包裹在人体的组织中,被包裹的虫卵可以诱导明显的免疫介导的肉芽肿炎性反应,产生的症状从贫血、生长发育迟缓、认知功能受损、物理适应性下降,到器官特异性效应,如严重肝脾肿大、门脉高压、门静脉周纤维化,泌尿生殖器炎症和疤痕。血吸虫成虫在人体平均存活3~10年,最长甚至可达40年[25]。湖北省处于长江中下游,省内湖泊众多,水系复杂,有“千湖之省”的称谓,钉螺沿水系分布,因此纵横交错的复杂水系给血吸虫病防控带来了极大难度,是全国血吸虫病流行最严重的地区之一。全省共有63个疫区县(市、区)、519个疫区乡镇、5408个疫区村,疫区人口约1000万。随着血吸虫病综合防治工作的开展,全省的血吸虫病疫情得到了有效控制。为了掌握全省晚期血吸虫病病人的现状,完善全省晚期血吸虫病人救治管理信息系统,2015年在湖北省疾控中心血防所统一组织下,在全省有登记在册晚期血吸虫病人的疫区市、县(市、区)开展了全面的晚期血吸虫病人流行病学调查,结果如下。1材料与方法1.1研究对象2015年湖北省登记在册的晚期血吸虫病患者。被调查的患者来自湖北省血吸虫病疫区,主要分布在长江、汉北河等流域,晚期血吸虫病的治疗方法根据其临床表现和分型而定。腹水型患者应用对症和护肝治疗。如果出现脾功能亢进症状,则需要对巨脾型患者行脾切除术,在患者一般情况良好(比如没有腹水或者上消化道出血症状),可以病情稳定6个月以后用吡喹酮治疗。每一份病例资料和调查表均由专业的内科医生检查,病例入选标准如下:(1)诊断为晚期血吸虫病;(2)有血吸虫病治疗史或频繁、长期的疫水接触史;(3)粪检发现血吸虫卵或毛蚴,或者直肠活检发现血吸虫卵或血清免疫学检查呈阳性;(4)有腹胀、乏力和/或食欲不振等症状患者;(5)获得了患者的知情同意。为避免混杂因素对患者预后预测的影响,病例排除标准有:17 华中科技大学博士学位论文(1)原发性肝癌或其他肝内占位性病变;(2)梗阻性黄疸或溶血性黄疸;(3)合并有其他严重的心血管、肾脏、造血或神经系统疾病。临床分型和病情分类:根据卫生部2006年颁布的“血吸虫病诊断标准”(WS261-2006),晚期血吸虫病是指有肝纤维化和门脉高压综合征的血吸虫病,有严重的生长障碍或显著的结肠肉芽肿增生症状。根据《血吸虫病防治手册》,临床上分为巨脾型、腹水型、结肠增殖型和侏儒型4种类型。1.2研究方法根据湖北省血防所统一设计的流行病学调查方案,按照上述病例纳入和排除标准进行筛查,纳入4136名符合条件的晚期血吸虫病病人。在核实病人一般人口统计学特征的基础上,调查病人的既往病史、症状体征等情况。实验室检查包括血常规、肝功能、肾功能,腹部B超检查以腹内肿块、胆囊病变、门脉高压和肝实质纤维化等为重点。另外,还调查了患者救治等情况。在这次调查过程中,有专门的质量控制措施,如数据双录入、逻辑纠错等。由于随访时间短,且晚期血吸虫病人管理规范,虽然样本量较大,但队列研究中出现的失访情况没有出现,对于变量中出现的缺失值,一般按照中值或者众数替代法,缺点是可能会引入噪声。流行病学调查问卷见附录2。1.3统计学方法应用SPSS22.0软件进行统计学分析,计数资料以百分比表示,两组间比较采用χ2检验,P<0.05代表差异有统计学意义。2结果2.1地区分布从图1可见,晚期血吸虫病患者主要分布在荆州(2186人),黄石(477人)和孝感(432人)等地。18 华中科技大学博士学位论文图1患者地区分布本次调查中,患者主要为腹水型(3482人)和巨脾型(637人),侏儒型和结肠增殖型患者罕见,共17人。见图2。图2不同临床分型的病人数2.2一般人口学特征从表1可见,人口特征中性别(χ2=4.615,P=0.032)、年龄(χ2=52.352,P=0.000)、体重指数BMI(χ2=7.991,P=0.046)、发育(χ2=11.997,P=0.001)和营养状况(χ2=17.878,19 华中科技大学博士学位论文P=0.000)5个因素在两组患者间分布差异有统计学意义。两组间职业、年收入分布的差异没有统计学意义(P>0.05)。表1一般人口学特征巨脾型腹水型变量分类χ2P构成比病例构成比(%)病例(%)男38860.9227565.34性别4.6150.032女24930.1120734.66<3040.63180.5230~30547.88120734.66年龄52.3520.00060~31950.08206459.2880~91.411935.54农民60995.6337196.8职业2.4090.121其他284.41113.2年收入<1000042867.2221063.53.2370.072(元)≥1000020932.8127236.518.5~23.944970.5232466.74<18.57011.03459.91BMI7.9910.04624~287211.346013.21>28467.235310.13正常63499.5338697.24发育11.9970.001不良30.5962.76良好538.349514.22营养中等55286.7278179.8717.8780.000状况不良325.02065.912.3既往病史将研究对象划分青壮年组(<60岁)、老年组(≥60岁)两组。既往病史中,首次诊断为血吸虫病时间、首次诊断为晚期血吸虫病时间、腹水史、腹水发生次数、腹水初发时间、末次腹水时间、消化道出血次数、肝炎史和输血史,差异有统计学意义(P<0.05)。末次治疗时间不超过两年的,两组没有差异(P=0.89),末次治疗时间不超过2年的比例都较高,接近90%。见表2。20 华中科技大学博士学位论文表2既往病史年龄<60岁年龄≥60岁变量分类χ2P构成比构成比例数例数(%)(%)首次诊断血吸<1019612.82308.816.1040.00虫病时间(年)≥10133987.2237191.2首次诊断晚期<10114974.9171165.8血吸虫病时间37.2330.00≥1038625.189034.2(年)有19512.7240392.4腹水史2624.0710.00无134087.31987.6≥564041.7136452.4腹水发生次数44.6440.00<589558.3123747.6腹水初发时间<1097563.5147756.818.1240.00(年)≥1056036.5112443.2末次腹水时间<10131885.86231889.129.6320.002(年)≥1021714.1428310.88消化道出血次≤3143193.22247895.277.7920.005数>31046.781234.73有39725.948918.8肝炎史28.6060.00无113874.1211281.2有79852.079030.4输血史190.6560.00无73748.0181169.6末次治疗时间≤2136688.99231188.850.0190.89(年)>216911.0129011.152.4症状体征从表3可见,食欲减退、腹痛腹泻、腹胀症状,老年组和青壮年组之间分布的差异有统计学意义(P<0.05)。呕(便)血、黄疸、蜘蛛痣和肝掌症状在两组间差异无统计学意义(P>0.05)。腹壁静脉显露、下肢浮肿、肝质地、肝区痛和脾肿大症状,两组间差异有统计学意义(P<0.05)。21 华中科技大学博士学位论文表3症状体征年龄<60岁年龄≥60岁变量分类χ2P构成比构成比例数例数(%)(%)有51233.4110442.4食欲减退33.5070.000无102366.6149757.6≥517911.738014.6腹痛腹泻7.1800.007<5135688.3222185.4有51533.6113643.7腹胀41.2620.000无102066.4146556.3有432.8773.0呕(便)血0.0870.768无149297.2252497.0有322.1692.7黄疸1.3080.253无150397.9253297.3有291.9532.0肝掌0.1090.741无150698.1254898.0有261.7592.3蜘蛛痣1.5830.208无150998.3254297.7腹壁静脉显有744.81736.75.7600.016露无146195.2242893.3有17211.252020.0下肢浮肿53.5000.000无136388.8208180.0有926.01997.7肝区痛4.0540.044无144394.0240292.3有42527.785132.7肝质地11.4530.001无111072.3175067.3无73347.75146156.17脾肿大1-4级27.4660.00080252.25114043.83/切除2.5实验室检查总胆红素、碱性磷酸酶、谷草转氨酶、γ-谷氨酰转肽酶、白蛋白在两组间分布差异没有统计学意义(P>0.05)。红细胞计数、白细胞计数、血红蛋白、血小板计数、直接胆红素、谷丙转氨酶、A/G、乙肝两对半、血肌酐和血尿素氮指标在两组间差异有统计学意义(P<0.05)。见表4。22 华中科技大学博士学位论文表4实验室检查结果年龄<60岁年龄≥60岁变量分类χ2P构成比构成比例数例数(%)(%)异常74148.3161161.9红细胞计数73.4780.000正常79451.799038.1异常38224.984432.4血血红蛋白26.4750.000正常115375.1175767.6常异常29319.161723.7规白细胞计数12.0780.001正常124280.9198476.3异常31420.581531.3血小板计数57.5580.000正常122179.5178668.7异常30920.157422.1总胆红素2.1600.142正常122679.9202777.9异常26317.158022.3直接胆红素15.8730.000正常127282.9202177.7异常33321.741115.8谷丙转氨酶22.7170.000正常120278.3219084.2异常45829.874828.8谷草转氨酶0.5440.461肝正常107770.2185371.2功异常32521.259923.0碱性磷酸酶1.9190.166能正常121078.8200277.0γ-谷氨酰转异常67544.0121346.62.7570.097肽酶正常86056.0138853.4异常32120.960423.2白蛋白2.9660.085正常121479.1199776.8异常64542.0126048.4A/G16.0310.000正常89058.0134151.6有46930.661723.7乙肝两对半23.2710.000无106669.4198476.3异常15510.132212.4肾血肌酐4.9280.026正常138089.9227987.6功异常15310.042216.2能血尿素氮31.5740.000正常138290.0217983.823 华中科技大学博士学位论文2.6B超检查肝脏实质纤维化、腹部液性暗区、门脉高压和胆囊病变在两组间的分布差异有统计学意义(P<0.05)。侧支静脉曲张、胆囊壁增厚、肝内肿块回声在两组间分布差异没有统计学意义(P>0.05)。见表5。表5B超检查结果年龄<60岁年龄≥60岁变量分类χ2P构成比构成比例数例数(%)(%)无90759.1144155.4肝实质纤维化5.3450.021有62840.9116044.6无148596.7252196.9侧支静脉扩张0.1050.746有503.3803.1无113674.0175267.4腹部液性暗区20.2480.000有39926.084932.6无150397.9254497.8肝内肿块回声0.0520.819有322.1572.2无142993.1236791.0门脉高压5.5940.018有1066.92349.0无111172.4195175.0胆囊壁增厚3.4780.062有42427.665025.0无109471.3177168.1胆囊病变4.5890.032有44128.783031.92.7X线检查从表6可见,经食道钡剂造影检查,食管胃底静脉曲张在两组间差异无统计学意义(P>0.05)。表6X线检查结果年龄<60岁年龄≥60岁变量分类构成比病例χ2P病例数构成(%)(%)数食道胃底无147996.4252096.90.8600.354静脉曲张有563.6813.124 华中科技大学博士学位论文2.8患者救治情况可见脾切除(χ2=120.825,P=0.000)、腹水史(χ2=204.532,P=0.000)、救治手段(χ2=10.111,P=0.006)、治疗费用(χ2=42.905,P=0.000)和治疗转归(χ2=187.695,P=0.000)5个因素在腹水、巨脾两组患者中分布的差异有统计学意义。而治疗史、腹水程度和救治对象类型在两组间分布的差异没有统计学意义(P>0.05)。见表7。表7晚期血吸虫病患者临床救治情况巨脾型腹水型χ2P变量分类构成比构成比例数例数(%)(%)有59593.4325293.4治疗史0.0000.991无426.62306.6有38360.1128436.9脾切除120.8250.000无25439.9219863.1有48375.8325993.6腹水史204.5320.000无15424.22236.4轻中度63599.7346299.4腹水程度0.6870.407重度20.3200.6确认救治58191.2324293.1救治对象类确认复发406.31825.23.4620.177型确认新发162.5581.7内科治疗60595.0335496.3救治手段外科手术203.1491.410.1110.006病原治疗121.9792.3≤5876.942065.9180651.9治疗费用42.9050.000>5876.921734.1167648.1预后好59393.1230266.1治疗转归187.6950.000预后差446.9118033.93讨论从地区分布来看,晚期血吸虫病患者主要分布于荆州地区,这与荆州市位于长江沿线,疫情向来是湖北省最严重的地区有关。通过时空聚集性分析,有学者研究发现荆州市血吸虫病感染率空间分布呈高值聚集[26,27]。病人地区分布与各地疫情严重程度基本一致。轻疫区,也是防治任务较轻的地区,如宜昌市,仍有病人在册,提示全省血防工作要根据实际情况精准施策[28]。患者临床分型主要是腹水型,其次是巨脾型,结肠增殖型和侏儒型患者很少,救治管理工作应针对主要晚期血吸虫病类型开展[29]。本研究中,年龄因素在腹水、巨脾型两组患者中分布不同,腹水组的高龄患者比例(60-79岁)更多,可能是因为腹水型患者发病机制更复杂,病程更长所引起。性别25 华中科技大学博士学位论文分布差异,男性比女性多,一般认为男性会从事接触疫水更频繁的劳动生产活动,所以反复感染血吸虫的概率更高,有学者利用对鄱阳湖地区血吸虫感染的风险因素做时空分析,结果也显示男性感染风险更高[30]。腹水型患者中男性比例更高,可能是因为腹水型患者肝功能减退更为显著,而男性与女性相比,除了接触疫水频次更多,也有更多吸烟、喝酒等损害肝功能的行为[31,32],进一步诱发了腹水的发生。BMI在两组中分布不同,腹水型患者BMI≥24的比例更高(23.35%)高于巨脾型(18.52%),可能是因为腹水症状导致体重增加所致,而BMI超标有可能导致吡喹酮治疗给药剂量不足。有研究表明,BMI超重或者肥胖组,有吡喹酮治疗剂量不足的风险,低剂量的吡喹酮给药导致治愈率较低,这会限制治疗方案对血吸虫病的总体发病率和患病率的影响,对于BMI超标者,还应该考虑到由于药物在体内脂肪的分布,药物生物利用度可能会降低[33-35]。腹水型患者中有发育不良症状的比例(2.75%)高于巨脾型患者(0.47%),说明腹水可能对生长发育的影响更大。腹水型患者中营养不良者比例(5.92%)也高于巨脾型患者(5%),可能与腹水影响食欲有关。血吸虫病引起食欲不振,食物摄入减少,新陈代谢需求增加,吸收障碍和直接营养物质损失可导致缺铁性贫血,血吸虫病与贫血和生长障碍之间的关联有过研究[36]。在埃塞俄比亚,一项研究证明个人卫生差与消瘦,发育迟缓,贫血和血吸虫伴其它寄生虫多重感染有密切关系[37]。也有学者认为,寄生虫感染引起厌食,腹泻和营养物质吸收不良,促进营养物质向生物体防御机制的偏离,因此导致营养缺陷的发生或恶化[38]。职业因素在血吸虫病传播影响因素研究中多见,一般认为因为由于职业原因,农民、养殖业从事者、渔船民接触疫水频次更多,一般被认为风险更高[39]。随着机耕实践的普及和疾病传播的抑制,现在这些传统高风险工作的人可能得到很好保护,可能解释本研究中职业因素分布无差异的现象。一项健康教育研究表明,农民表示虽然懂得自我保护的重要性,但在农田工作时戴橡胶手套或穿靴子既不舒适也不方便,说明职业相关行为变化非常困难,而在四川、云南等山区,由于农业机械的可用性和实用性差,耕牛依然是主要劳动工具[40],因此职业因素的分析混杂因素较多。年收入大部分少于1万元且两组间无差异,反映腹水型、巨脾型患者绝大多数都来自农村低收入群体,患者由于劳动力丧失导致因病返贫、因病致贫,表明救助项目的实施很有必要且必须持之以恒。既往病史中,因为老年组患者一般发病更早,迁延更长,导致老年组中首次诊断血吸虫病(或晚期血吸虫病)的时间更长、腹水史者比例更高、腹水发生次数不少于5次者的比例更高,腹水初发时间更早。而末次治疗时间不超过2年的比例,老年组26 华中科技大学博士学位论文和青壮年组没有差异,都在88%以上,说明救治项目管理水平较高,患者普遍得到及时有效的治疗或干预,而未在2年内得到救治的病人依旧存在,说明患者救治的依从性、晚期血吸虫病救治管理水平仍需进一步提升。青壮年组末次腹水发生时间较长、有肝炎史和输血史的比例更高,可能与研究的年龄分组较少(2组)、调查者回忆偏倚等因素有关,也有可能是青壮年组一般是农村家庭主要劳动力,从事重体力劳动较多,社交活动更为频繁而导致感染肝炎,或者就医意识更为强烈使得输血史比例者更高。症状体征中,老年组由于病程迁延导致身体机能下降更为明显、免疫力降低,出现食欲减退、腹痛腹泻腹胀等症状者更多。呕(便)血、蜘蛛痣、肝掌和黄疸为晚期血吸虫病非特异性症状,在老年组和青壮年组中比例都很低,且没有差异。有腹壁静脉显露、下肢浮肿、肝区痛、肝质地坚硬症状,老年组比例更高,可能也是与老年组病程迁延更长有关。值得注意的是,有脾肿大症状在青壮年组中比例更高,可能与高龄巨脾型晚期血吸虫病患者死亡比例增高有关。实验室检查指标中,老年组患者有红细胞、白细胞和血小板计数和血红蛋白指标异常比例的更高。这可能与患者脾功能亢进导致血液中这些指标下降有关,但由于未区分临床分型,只能初步判断,具体的原因需分组研究。因为血清白蛋白异常的原因很多,例如白蛋白的丢失和消耗、白蛋白合成功能下降,多数学者认为白蛋白和A/G比指标异常是因为感染HBV发展到肝炎肝硬化导致的。提示白蛋白、A/G比两个指标异常,有必要加强晚期血吸虫病患者的支持治疗。B超检查中,老年组肝纤维化3级者、有门脉高压、胆囊病变表现的患者比例更高,而侧支静脉曲张(P=0.746)、肝内有无肿块回声(P=0.819)、胆囊壁有无增厚(P=0.062)三项指标在两组间无差异。肝纤维化是晚期血吸虫病预后的重要指标,在本文第六部分详述。门脉高压一般施用脾切除加贲门周围血管离断术治疗,也有学者对这种术式的远期疗效进行了研究。断流术彻底离断贲门附近的血管,通过阻断门静脉侧支循环阻止反向血流,从而控制了食管胃底静脉压,达到降低上消化道出血的概率,改善肝细胞功能,降低肝性脑病的发病率,但是,断流不彻底的话,会导致门静脉系统血栓形成,胃底黏膜存在反常血流,导致门静脉高压症状依然存在[41]。X线检查,老年组和青壮年组在食道胃底静脉曲张症状方面无差异,这可能是跟这种征象非特异性发生有关,结果显示两组的食管胃底静脉曲张检出比例都很低。临床救治情况方面,脾切除史在两组间分布有差异,是因为仅巨脾型患者救治一般需要行脾切除术。腹水史在两组间有差异,是因为它是腹水型患者的突出临床表现。27 华中科技大学博士学位论文血吸虫虫卵产生于宿主的肠系膜和门静脉,包被于肝血窦中,在门脉处引起强烈的炎症和纤维化,导致门脉压增高和静脉曲张,导致出血和死亡。部分患者肝纤维化与脾肿大有关,导致疾病恶化,部分由于门脉压的增高。通过对湖北省晚期血吸虫病人的流行病学调查,了解到全省在册患者的一般人口学特征、临床和实验室检查指标和救治管理现状,为提升全省晚期血吸虫病人的救治管理水平提供了重要依据,也为患者预后预测研究提供了基线资料。28 华中科技大学博士学位论文第二部分应用kNN与SVM模型预测晚期血吸虫病预后血吸虫病在中国长江流域广泛流行,严重损害居民健康和社会经济发展。在血吸虫病流行区,晚期血吸虫病是由于居民大量或反复感染尾蚴,又没有得到及时有效的救治导致的。时间短则一年,长则数十年,是血吸虫病最严重的转归,其主要的危害是对肝脏的严重损害。根据不同临床表现,一般分为巨脾型、腹水型、结肠增殖型和侏儒型4种类型[42]。随着以“传染源控制为主”血防策略的实施,血吸虫病的疾病负担大幅降低,成效显著[43]。目前结肠增殖型和侏儒型患者罕见,但腹水型和巨脾型病例数依然较高。晚期血吸虫病容易合并乙型肝炎,二者一旦演变为混合性肝硬化,会导致病情更为复杂,也增加了预后预测的难度。目前缺乏晚期血吸虫病患者预后预测的研究。对于晚期血吸虫病这样病程长、致病因素复杂的病种,常用的Logistic回归、Cox回归模型由于无法克服多重共线性效应,且无法分析自变量间交互作用,本文拟利用机器学习算法中两种非参数模型,k最近邻(kNearestNeighbour,kNN)模型和支持向量机(SupportVectorMachine,SVM)模型,对湖北省晚期血吸虫病人开展预后预测分析,并对模型的效果进行比较分析。kNN模型主要思想为特征空间中的一个样本,假如与它最相似的k个样本中的大多数属于某一个类别,那么这个样本也属于此类别,也称为特征空间中最邻近。kNN算法只依赖于极少数的相邻样本做分类决策,基于极限原理。对于交叉较多或类别重叠的待分样本而言,kNN模型有独特优势。它不仅可以用于分类,也可用于回归。例如,一个样本可以先找到其k个最近邻居,按这k个不同距离邻居对样本影响程度的不同,设置不同的权重计算得到样本的属性值,其中权值一般设置为与邻居和样本的距离成反比。神经网络和传统统计学方法在应用中会遇到如网络结构不易确定,过拟合和欠拟合,局部最优和维度灾难的问题[44]。而SVM模型的优势正是可以在处理小样本、非线性和识别高维模式问题,并能够在函数拟合等其他机器学习问题中得到应用。SVM模型应用非常广泛。如在地球物理反演领域SVM模型解决了非线性反演的困境,预测地下水的涌水量问题。还有石油测井中对粘粒含量、地层孔隙度的预测、天气预报等。SVM模型在医学研究,特别是预后预测领域的研究尚不多见[45]。29 华中科技大学博士学位论文1材料和方法1.1研究对象根据病例纳入和排除标准,纳入4136例晚期血吸虫病患者,其中男性2674例,女性1462例,分为预后良好、不良两组。预后良好指的是治愈和病情好转的情况,预后不良指的是恶化和病情死亡的情况。预后不良事件(死亡或病情恶化)被编码为1,预后良好(治愈或病情好转)被编码为0。死亡主要是由血吸虫病和其并发症引起,例如肝肾综合征,肝癌,肝昏迷和上消化道出血,本研究中死亡指的是全因死亡。病情恶化指主要症状持续存在(如无腹水消减征象或脾肿大型患者无手术指征)。1.2研究方法(1)k最近邻(kNN)模型kNN模型是20世纪60年代Cover和Hart提出的,是机器学习算法中一种简单易懂模型,目前广泛应用于文本分类、图像识别、字符识别等领域。该模型的主要思路基于:一个数据集中k个样本中,大多属于一类,而一个样本与这k个样本最相似,则该样本也属于这一类。与机器学习中急切学习(Eagerlearning)对应,kNN模型属于惰性学习(Lazylearning),即kNN模型可以没有学习过程,或者说训练过程。kNN模型还具有计算复杂度较高的特点,新样本与数据集中每个数据之间都要计算欧氏距离,计算复杂度与数据个数成正比,所以kNN模型理论上更适用于样本量较少的数据集。k取不同值,kNN模型分类的结果可能差别很大。见图1。图1kNN模型示意图30 华中科技大学博士学位论文在对新数据点进行分类时,kNN对新数据点和其他数据点的距离进行计算,新数据点归入其距离最近的点所在的类别。计算距离的方法有欧氏距离(EuclideanDistance)、闵可夫斯基距离(MinkowskiDistance)和曼哈顿距离(ManhattanDistance)等,其中以欧氏距离最为常见。计算二维平面上点a(x,y)与点b(x,y)欧氏距离:112222D1=(xx)(yy)(1)1212计算三维平面上a(x,y,z)与b(x,y,z)的欧氏距离111222222D2=(xx)(yy)(zz)(2)121212闵可夫斯基距离更确切地说是一组距离。它定义为,假如两个n维变量点a(x,x,.....,x)与点b(x,x,......,x)间的闵可夫斯基距离为11121n21222nnpD3=pxx(3)1k2kk1曼哈顿距离也称为城市街区距离(CityBlockdistance),二维平面上点a(x,y)11与点b(x,y)之间22D4=∣x-x∣+∣y-y∣(4)1212两个n维向量点a(x,x,.....,x)与点b(x,x,......,x)间的曼哈顿距离:11121n21222nnD5=x1kx2k(5)k1(2)支持向量机(SVM)模型SVM模型是基于结构风险最小化原理和VC维理论的机器学习算法。该模型在给定有限样本时,可以在模型的复杂程度(在训练样本上的精度)和学习能力(能无错误地识别任意样本)之间寻求最佳折中,以获得最好的泛化能力。核函数是SVM模型的关键。为了解决低维空间难以划分的问题,我们选择将其映射到高维空间,但是31 华中科技大学博士学位论文这样会大大增加计算的复杂度,而高维空间的核函数可以巧妙解决模型计算复杂度的问题。不同的核函数对应不同的SVM模型。由于我们确定核函数是基于已知样本,其与总体之间的差异我们要用两个参变量来校正,即惩罚系数和松弛系数。在SVM的求解过程中,一般根据部分数据就可以决定SVM模型,我们把这些数据成为支持向量,“机”意为机器,在机器学习领域,一种算法称为一种机器。在下图中,R、S、G等其他靠近中间黑线的点可以看做支持向量机,它们可以决定黑线的具体参数。见图2。图2二维平面线性可分的SVM模型示意图a.线性分类SVM模型支持线性分类,它的优点在于无需样本数据。公式如下:Tf(x)xwb(6)w和b是基于训练数据得到的。b.非线性分类需要部分支持向量(样本数据),即a0的数据。向量inwayx(7)i1iii因此,非线性分类器(即函数)表达式为:32 华中科技大学博士学位论文nf(x)i1aiyiK(xi,x)b(8)公式中,xi是训练数据i;yi是训练数据i的标签值(valuelabel);ai是训练数据i的朗格拉日乘子。核函数2xxK(x,x)exp()(9)1222σa,σ和b是训练数据中产生的值,调节σ可以匹配不同的维度,σ越小,维度越高。见图3。图3高维超平面分类示意图综上,我们可以将SVM模型的核心步骤归纳如下:Tf(x)xwb(1)建立SVM模型是为了找到一个最佳超平面(hyperplane)=0,求解w和b。f(x)(2)通过分类的两个最近点,求的约束条件。(3)求得约束条件后,再用拉格朗日乘数法(Lagrangemultiplierapproach)和aKKT条件,求拉格朗日乘子i和b。ξ(4)加入松弛变量来处理异常点。aa0(5)用SMO法求解拉格朗日乘子i和b。若发现有些点i,在分类器中可33 华中科技大学博士学位论文a以剔除。此时,分类器的参数就是拉格朗日乘子i和b,无须再求解w。(6)对于非线性分类问题,可以使用核函数(kernalfunction)映射到高维度空间解决。kNN和SVM模型中,超参数的设定采用经验法和重复试验法确定。1.3统计学指标将70%患者分配到训练组(2896人),30%患者分配到测试集(1240人),kNN模型和SVM模型都是在R3.4.3(RCoreTeamR,2017)软件中实现。对于所有的比较,用双侧检验,P<0.05被认为是统计学差异的。使用受试者工作特征曲线(ReceiverOperatingCharacteristiccurve,ROC)下面积AUC(AreaUndertheCurve,AUC)比较2种机器学习模型的预测性能。分类准确性是指被正确分类病例的比例。实际有病的样本被正确地判定为真阳性的比例称为灵敏度,一般用来衡量筛检试验正确检出有病者的能力。实际无病的人被正确地判定为真阴性的比例称为特异度,一般是衡量筛检试验正确检出无病者的能力。以TP(TruePositive),FP(FalsePositive),TN(TrueNegative),FN(FalseNegative)分别代表真阳性,假阳性,真阴性和假阴性。准确度=(TP+TN)/(TP+FP+TN+FN)(10)灵敏度=TP/(TP+FN)(11)特异性=TN/(FP+TN)(12)2结果2.1变量筛选与比较由表8可知,16个变量在训练组和测试组两组间差异无统计学意义,说明变量在两组间可比(P>0.05)。表8晚期血吸虫病样本训练集与测试集中变量的比较训练(N=2896)测试集(N=1240)变量定义分类χ2PN%N%农民280296.8119296.1职业1.0230.312其他职业943.2483.9<10000187164.677862.71.3110.252年收入(元)≥10000102535.446237.334 华中科技大学博士学位论文<18.529010.012710.218.5~23.9194467.183867.6BMI(kg/m²)0.7720.85624≤BMI<2838313.215212.6≥282799.712310.0正常282997.7120897.4发育状况0.2650.607不良672.3322.6良好38013.117314.0营养状况普通235681.498979.71.6050.448不良1605.5786.3血检136947.256745.7粪检61021.028823.2诊断依据13.5120.319血检+粪检85829.635428.6直肠镜检590.2312.5腹水型217775.289972.5诊断依据23.2540.071非腹水型71924.834127.5无1836.3685.5治疗史1.0620.303有271393.7117294.5无172059.474159.8脾切除史0.0480.826有117640.649940.2无2719.41008.1腹水史1.7780.182有262590.6114091.9无153853.166853.9心血管疾病34411.914811.9消化系统病62121.426021.0并发症神经系统病160.650.42.3110.805呼吸系统病722.5312.5泌尿系统病491.7141.1其他疾病2568.81149.2轻中度288199.5123399.4腹水程度0.0360.850重度150.570.6腹水型44315.319415.6巨脾型243984.2104384.1临床分类3.9100.271结肠增殖20.120.2侏儒型120.410.1确认救治268292.6115493.1救助类型确认复发1585.5685.51.1480.563确认新发561.9181.5内科治疗277595.8120096.8治疗手段2.1050.147外科手术1214.2403.2治疗费用≤5876.9157854.565753.00.7920.37435 华中科技大学博士学位论文(元)>5876.9131845.558347.02.2kNN、SVM模型性能指标比较两个模型在预测晚期血吸虫病预后方面都具有良好的预测性能(AUC>0.75),见表9。在训练集和测试集中,kNN模型灵敏度更优(Mann-WhitneyUtest,P<0.05);SVM模型特异度更优(Mann-WhitneyUtest,P<0.05)。见表9。表9kNN、SVM模型预测性能指标比较训练集测试集评价指标kNN(k=63)SVMkNN(k=63)SVMAUC0.8850.8620.8810.827灵敏度0.9890.8320.9910.812特异度0.7810.8390.7720.818PPV0.0330.3210.0270.353NPV0.0860.0760.0890.086截断值0.0330.8920.0270.8042.3训练集、测试集中kNN、SVM模型ROC曲线由图3可见,训练集中kNN模型和SVM模型的灵敏度、特异度等指标值;由图4可见,测试集中kNN模型和SVM模型的灵敏度、特异度等指标值。在训练集和测试集中,kNN模型灵敏度更优;SVM模型特异度更优。36 华中科技大学博士学位论文(a)(b)图3训练集kNN模型(a)与SVM模型(b)ROC曲线37 华中科技大学博士学位论文(c)(d)图4测试集kNN模型(c)与SVM模型(d)ROC曲线38 华中科技大学博士学位论文2.4不同参数条件下,测试集kNN模型的性能随着k值分别取63,20,10和5,取值逐步减小,kNN模型的灵敏度、特异度和AUC均逐步升高。见表10。表10不同参数条件下kNN模型性能评价指标k=63k=20k=10k=5AUC0.8810.9330.9540.963灵敏度0.9910.9910.9920.994特异度0.7720.8750.9160.932PPV0.0270.0240.0200.014NPV0.0890.0510.0350.028截断值0.0270.0240.0200.0142.5不同参数条件下,测试集kNN模型ROC曲线从ROC曲线可以直观地看出,随着参数k的减小,模型的AUC、灵敏度和特异度等指标逐步增加。见图5。39 华中科技大学博士学位论文(a)k=63(b)k=2040 华中科技大学博士学位论文(c)k=10(d)k=5图5测试集kNN模型在不同参数取值条件下的ROC曲线41 华中科技大学博士学位论文3讨论湖北省历史上曾广泛流行血吸虫病,该病对居民的健康造成严重危害,阻碍疫区经济发展,其中尤以晚期血吸虫病阶段为甚。自2004年全国预防控制血吸虫病中长期规划纲要出台以来,由于政府的高度重视和全社会的共同努力,湖北省血防工作投入巨大,成效显著,疫情下降幅度很大,分别于2008、2013年底(均比纲要提前两年)达到血吸虫病疫情控制和传播控制标准[46,47]。按照省部联合行动治理血吸虫病和湖北省政府“十年送瘟神”的目标,全省将努力在2018年底达到血吸虫病传播阻断标准[48]。尽管血防工作成效显著,但由于钉螺孳生环境尚未得到彻底改变,钉螺易感地带人畜活动依然频繁[49],在湖北省这样的湖沼型地区钉螺沿水系广泛分布,控制难度很大,血吸虫病传播风险依然存在。比如近些年湖北省部分疫区风险监测中仍有阳性野粪、哨鼠检出。关于血吸虫病传播的危险因素分析,已有大量研究加以阐述[50-52]。本文针对晚期血吸虫病预后预测这一研究不足领域,采用kNN和SVM两种非参数机器学习模型加以研究。经研究发现,两种模型的诊断性能较为良好(AUC>0.75),而kNN易调整参数,在疾病预后预测方面值得进一步研究。kNN模型不需要训练和优化,当样本增大到一定容量时,k也增大到合适的值,其近邻的误差可与贝叶斯方法相比。kNN模型在处理高维问题或数据质量不好时,效果不好。在疾病预后预测研究中,当有n个训练样本的时候,n越大,计算的复杂度也越大,耗时也越长。参数k的选择一般取决于具体研究问题及其背景,取值多为样本数的平方根。对相关变量与晚期血吸虫病患者预后的关系,职业决定了患者接触含尾蚴的疫水的频次,如农民和渔船民,而接触疫水频次越多,导致肝功能损伤的程度相应越严重,预后越差。患者多为低收入群体,在常规救助项目以外,不一定得到有效的护理和营养改善预后。相反,患者发育状况和营养状况好、BMI正常,对于改善疾病预后是利好因素。治疗史、脾切除史,患者得到及时有效治疗一般可以改善预后。腹水史、腹水程度和并发症影响患者症状的严重程度,腹水史越长、腹水程度越严重,并发症越多或越严重,很可能导致患者预后不良。不同诊断依据、不同临床分类、不同救助类型、不同治疗手段(内科/外科)的患者,由于症状的严重程度不同,预后转归可能不同。治疗费用高的患者,可能症状更为严重,预后更差。在医疗实践中,两种模型的运用也越来越常见。膀胱癌是一种常见的泌尿生殖系统恶性肿瘤[53],根治性膀胱切除术是肌肉浸润性膀胱癌的明确治疗手段。但患者术后42 华中科技大学博士学位论文死亡率较高,因此需建立能准确预测术后死亡率的模型。机器学习已经成为处理高维度数据有前途的技术,也越来越广泛地应用于癌症预后预测等领域。机器学习模型可以揭示隐含的非线性相互作用的关系,良好的可解释性有利于构建有效的泛化模型。一项研究采用机器学习方法预测根治性膀胱切除术的5年死亡率,包括SVM,kNN和其他5种机器学习模型[54]。在一个临床病理数据集中,对香港某医院泌尿科117名病人的数据进行分析。实验结果表明,kNN模型的AUC为0.7222,SVM模型的AUC为0.7556,都可以作为根治性膀胱癌切除术的预后预测模型。癌症研究领域的一项重要内容是缺失值插补。一项研究评估了一些统计和机器学习插补方法的性能,这些方法曾被用于庞大、真实乳腺癌数据集的患者复发情况。该数据库包括来自属于西班牙乳腺癌研究组(GEICAM)的32家不同医院诊断的3679名可手术的浸润性乳腺癌患者人口统计学,治疗和复发生存信息[55]。研究使用了kNN、自组织映射(SelfOrgnizingMap,SOM)、多层感知器(MultilayerPerceptron,MLP)等机器学习技术进行数据插补,并将结果与从列表删除(ListDeletion,LD)插补方法得到的结果进行比较。使用人工神经网络测量早期癌症复发的预测准确性,其中使用具有推测缺失值的数据集来估计不同的ANN。Friedman's检验显示AUC值的差异有统计学意义,成对比较试验结果表明MLP,kNN和SOM的AUC分别高于基于LD的预后模型的AUC。表明基于机器学习技术的方法最适合缺失值的估算,与基于传统统计程序的方法相比,预测精度显著提高。有研究使用临床因素和基因表达数据来评估一组机器学习技术在预测霍奇金淋巴瘤预后中的表现[56]。研究采用130例霍奇金淋巴瘤患者一组临床变量和超过54,000个基因特征数据作为样本。选用的机器学习分类器包括三种“黑箱”算法(kNN,ANN和SVM)以及两种基于可理解规则(决策树和创新逻辑学习机方法)的方法。“黑箱”算法组,SVM模型明显胜过其他方法。在两种基于规则的算法中,逻辑学习机预测效能更好,并且可以基于临床变量和基因表达的组合识别一组简单易懂的规则。一个非编码基因(XIST)由DT模型确定,与非复发患者和女性患者早期阶段过表达的X染色体失活有关。女性霍奇金淋巴瘤患者预后较好可能与XIST表达有关[57]。关于SVM模型,在医疗预后预测领域的研究也逐年增加。对于获得性脑损伤(AcquiredBrainInjury,ABI)的准确诊断和预后预测,了解意识丧失的神经生物学机制是至关重要的。然而,关于哪些区域和网络可作为ABI意识水平和恢复结果的生物标志物没有共识。有研究使用静息状态fMRI,评估了99名ABI患者和34名健康对照受试者全脑网络的内在功能连接强度(FunctionalConnectionStrength,FCS),康复43 华中科技大学博士学位论文结局使用格拉斯哥预后量表评估[58]。研究中采用SVM模型,揭示了FCS模式预测无反应性清醒/昏迷/植物状态和昏迷的患者是否会恢复意识,准确率为81.25%,最具有判别意义的区域是PCC/PCU。这些发现表明,人后内侧皮质的内在功能连接模式可以作为ABI患者意识水平和恢复结果的潜在指标。SVM模型的特点使它非常适合处理高维神经影像数据,因此可以作为儿童和青少年神经发育结果的预测模型。例如有研究用结构和静息状态功能MRI数据预测儿童和青少年使用脑成熟度[59,60]。美国华盛顿大学医学院的一项研究,评估了来自50名早产儿(出生在23~29周,没有中重度脑损伤)的静息状态功能磁共振成像数据,用50名足月产的儿童作为对照[61]。研究采用214个感兴趣的区域,SVM模型在两组之间区分的准确率为84%(P<0.0001)。目前的方法对与早产有关的脑发育破坏的程度很敏感(用胎龄作为破坏程度的替代指标),而研究结果表明SVM模型可能提供预测个别婴儿的神经发育结果的手段。在神经疾病领域,也有研究通过分析来自欧洲癫痫数据库的216名患者样本,提出了基于多通道高维特征集和SVM模型预测癫痫患者发作的特定算法,旨在产生警报并减少误报的影响。在预后和生存研究中,一般要使用分子特征或临床数据来鉴定具有预测能力的多组生物标记物。但是基因组或者临床数据样本常常是截尾、小样本、高维度的,因此,迫切需要可以解决这类问题的模型。虽然SVM模型是对于处理这类数据有优势,但也有研究提出了一种新方法,将评估模型分类准确性的AUC评分和生存分析中的Harrell一致性指数(ConsistencyIndex,CI)关联,将生存时间回归问题转换为二元分类问题[62]。这是一种AUC优化方法,称为AUC优化的最近质心分类器(NearestCentroidClassifier,NCC),来鉴定新的多组生物标志物。研究中建立的优化模型,可以直接最大化AUC,同时最小化选择特征的数量,在最近的NCC框架中构建预测器。NCC-AUC通过验证乳腺癌的基因组数据和IB期非小细胞肺癌(Non-smallCellLungCarcinoma,NSCLC)的临床数据表明预测性能良好,在分类精度方面,优于SVM模型和支持向量机递归属性消除(SupportVectorMachine-RecursiveFeatureElmination,SVM-RFE)。该模型倾向于选择一个平均冗余度较低且生物学意义丰富的多生物标记物组,并且在将患者分成高风险类别和低风险类别方面一直优于Cox模型和L1-Cox模型。预测模型在晚期血吸虫病预后领域缺乏研究,但是在预测血吸虫病发病风险方面,却有重要应用。随着中国许多地区接近消除血吸虫病疾病,获得日本血吸虫的定量数据越来越困难[63]。有研究在考察了我国东部地区血吸虫病的分布情况后,将流行44 华中科技大学博士学位论文病学,人口遗传学和高分辨率生态学数据相结合,构建预测目标区域血吸虫病发病率的模型,又称为“空间显性血吸虫病风险”[64]。结果表明,中间宿主遗传参数与疾病分布密切相关,海拔高度,最低气温,年降水量,遗传距离,单倍型与否这5个变量可以区分地方性。模型预测与县级人群感染率相关。模型的可视化表明,疾病发生风险最高的位置在洞庭湖、鄱阳湖地区,以及长江流域一些洪泛区。高风险地区是相互关联的,这表明洞庭湖、鄱阳湖与长江的复杂的水文相互作用可能对中国东部的血吸虫病发病非常重要,这一研究结果在血吸虫病防治实践中得到证实。研究结果也证明了遗传参数对于风险建模的价值,特别是可以减少模型预测误差。这些发现对理解日本血吸虫感染当前分布的决定因素以及设计未来防治策略具有重要意义线性回归和Logistic回归模型在血吸虫病传播危险因素分析中的不足,已经有学者加以研究[65]。Logistic回归模型可视为广义线性模型,是一种假设驱动模型。研究认为像人工神经网络这样的非线性模型更适合说明血吸虫病传播的风险因素之间复杂的非线性关系[66,67]。还有研究组合人工神经网络和时间序列模型预测血吸虫病的未来发病率,组合模型由于克服了人工神经网络和时间序列模型各自的不足,在发病率预测方面取得了不错的效果[68,69]。而诸如人工神经网络这样的机器学习模型,还没有用于晚期血吸虫病预后研究,是血吸虫病研究领域的空白。本文第三部分将对人工神经网络与决策树、Logistic回归模型在晚期血吸虫病预后中的预测性能进行研究。本研究中,采用两种非参数机器学习模型——kNN和SVM模型对湖北省晚期血吸虫病预后转归情况进行预测,采用AUC、灵敏度、特异度等指标衡量两个模型的预测性能。kNN模型和SVM模型在晚期血吸虫病人预后预测中的性能都比较理想(AUC>0.75),kNN模型灵敏度优于SVM模型;SVM模型特异度优于kNN模型。研究还发现,在不同参数条件下,随着k取值的降低,kNN模型的性能逐渐提升。45 华中科技大学博士学位论文第三部分应用ANN、DT及LR模型预测晚期血吸虫病预后全球约有2.4亿人感染血吸虫病,因血吸虫病导致的疾病负担约有331万DALY[70-72]。此外,有meta分析和文献认为,实际上由于血吸虫病感染导致的全球负担可能要高出这个数字好几倍[71]。这种担忧主要有以下原因,第一个原因是低敏感度的血吸虫病诊断方法和卫生资源投入不足,可能导致血吸虫病流行区的诊断不足(Underdiagnosis)。第二个原因是DALY值的计算中,血吸虫病的残疾权重值(DisabilityWeight,DW)可能设的过低(0.005-0.006),几乎只与面部白斑相当[73]。第三个原因是,DALY评估中,仅仅以是否感染血吸虫为唯一健康结局,而没有考虑血吸虫病不同临床阶段(急性,慢性和晚期)的差异。第四个原因是不同血吸虫种系之间的差别也很大,比如日本血吸虫病和埃及血吸虫病、曼氏血吸虫病的病理过程差异很大。虽然可能存在以上低估疾病负担的情况,血吸虫病依然被认为是世界上最重要的几种“被忽略的热带病”之一。血吸虫病在历史上曾广泛流行于中国的12个省、市、自治区[74]。目前血吸虫病流行区主要分布在湖北、湖南、安徽、江苏和江西5个湖沼型地区和云南、四川2个山区。福建、广东、浙江、上海和广西5个省(市、自治区)自1985年以来已经成功阻断了血吸虫病传播[75]。5个湖沼型血吸虫病流行区中,湖北钉螺面积最大,地理上位于长江中下游[76]。作为“千湖之省”,全省湖泊众多,水系复杂,历史上和现在都是全国血吸虫病疫情最严重的地区之一[77]。到2015年底,湖北省在册晚期血吸虫患者9098人,占全国晚期血吸虫病人总数29.50%,居全国首位。晚期血吸虫病是由5-10%的慢性血吸虫病人发展到后期的极端形式,据文献,其严重程度甚至超过了在非洲和美洲发现的晚期肝脾型曼氏血吸虫病。根据卫生部2006年颁布的“血吸虫病诊断标准”(WS261-2006),晚期血吸虫病是指发生门脉高压综合征和肝纤维化的血吸虫病,有严重的生长障碍或显著的结肠肉芽肿增生症状。反复或大量感染尾蚴的居民,没有得到及时、有效、彻底的治疗,在经历短则1年,长则数10年的病理发展过程后导致晚期血吸虫病。晚期血吸虫病的临床症状包括腹水,脾肿大,门静脉高压,胃食管静脉曲张破裂出血,结肠肉芽肿病变和严重生长迟缓[78,79],在重度流行区比较常见,因为反复暴露于含尾蚴的疫水,意味着早期慢性血吸虫病病例可能在常规控制项目中得不到有效治疗。留在结肠和肝脏组织中的日本血吸虫虫卵刺激组织产生肉芽肿反应,导致门静脉周组织的持续纤维化并发展为干线型纤维化。尽管经过免疫调控可下调肉芽肿反应,可以防止2-5年乃至更46 华中科技大学博士学位论文长时间的慢性发病,但是血吸虫引起的门静脉周纤维化依然会导致门脉血管阻塞和肝实质受损,最终导致晚期血吸虫发生。死亡主要是由于自发性细菌性腹膜炎、上消化道出血和肝功能衰竭等因素引起。用于疾病预后预测的模型可以回答以下问题:如患者病情的严重程度以及疾病是否可以治愈,也可以用来指导临床治疗,辅助医疗决策。因此预后预测模型具有重要意义。具体来说,它可以用来了解疾病的发展趋势和后果,帮助医生确定疾病治疗的紧迫性。还可以用于评估治疗的有效性,研究影响疾病预后的各种影响因素。Logistic回归(LogisticRegression,LR)模型是非线性概率回归模型。作为一种流行病学多元分析方法,它被广泛应用于探索二元因变量与影响因素之间关系的研究,比如探索疾病的影响因素并根据危险因素去预测疾病发生率。例如,为了探讨胃癌(GastricCancer,GC)的危险因素,可以选择临床体征和生活方式不同的GC组和非GC组。这里的因变量是胃癌(“是”或者“否”),而自变量涵盖广泛,如年龄、性别、幽门螺杆菌感染、饮食习惯等。模型中的参数可以是连续的也可以是分类的,通过LR分析,我们可以大致了解哪些是GC的危险因素。人工神经网络(ArtificialNeuralNetwork,ANN)模型是模拟人脑的生理结构及其传递信息方式的数学模型。它由一系列相互连接的“神经元”组成,结构是由输入层、隐藏层和输出层组成。输入层包含接收可用于分析的输入变量特征(如各种人口统计学、临床或实验室特征数据)的神经元,输出层输出的是不同因变量值的神经元。ANN可以通过示例学习并修改权重,将每个输入与相应的输出相关联。每次将实际输出值与期望输出值比较,如果存在误差,则产生一个错误信号,通过反向传播(BackPropagation,BP)的方式来改变神经元之间连接的权重以减少网络的整体误差。随着学习过程不断进行,模型的实际输出值与期望输出的误差逐步减小,直至达到最小。这个过程称为网络的收敛。在训练过程结束以后,可以通过学习生成的ANN模型去预测新的输入数据产生输出值(预测),称之为推理。这就是ANN模型对数据集的预测模式。以往的研究表明,与Cox比例风险回归(CoxProportionalHazardregression,CPH)模型相比,ANN模型是确定胃癌患者预后变量更优工具[80]。另一项研究表明,人们发现ANN模型在预测慢加急性肝衰竭(AcuteOnChronicHepatitisBLiverFailure,ACHBLF)3个月死亡率方面比终末期肝病模式评分(ModelforEnd-stageLiverDisease,MELD)更为准确[81]。除此以外,还有在眼科青光眼的视野评估研究中,经过训练的ANN模型的性能至少不比专业医生差[82]。47 华中科技大学博士学位论文机器学习中的决策树(DecisionTree,DT)模型,由基于最优特征截断值(CutoffValue)的决策规则组成,递归地将自变量分解成不同的组,以分层方式预测结果。DT模型的原理类似方差分析中的方差分解,基本目的都是通过一些属性值将研究人群划分为几个相对均匀的子集。不同DT模型算法都遵循以下原理:子集内部的变量值高度一致,尽可能将相关的变异分在不同的子集中。不同之处在于评价指标,方差分析(ANOVA)的评价指标用的是P值,方差,DT模型用的是信息熵或者Gini系数(GiniCoefficient)。据文献报道,利用未经选择的恶性胸膜间皮瘤(Malignantpleuralmesothelioma,MPM)患者诊断时记录的常规变量,DT模型可以可靠地区分高危和低风险患者[83]。DT模型也可以用5年死亡风险为指标快速评估慢性阻塞性肺病(ChronicObstructivePulmonaryDisease,COPD)的严重程度[84]。在另一项研究中,基于C4.5算法的DT模型用于预测前列腺癌风险,显示了不同种族间的不同的作用模式[85]。传统的LR模型是最受欢迎,应用最为普遍的预测模型之一(还有Cox比例风险回归模型)。因为LR模型中各因素的影响可以被定量解释,相对风险(OddsRatio,OR)的近似估计可以很容易推导出来。但是,数据是否适合模型要求满足一定的条件,变量之间多重共线性和交互作用无法解决。ANN模型具有解决这种问题的能力,而且对数据的分布没有特殊限制。一般认为,在自变量较多、自变量之间的相互作用较为复杂,为非线性关系的时候,ANN模型优于LR模型。而DT模型能以树型的结构显示清晰的变量筛选过程,与LR模型的OR值相比,DT模型更有利于临床医师的理解。因此,本研究的目的是比较三种模型(ANN、LR和DT)预测晚期血吸虫病预后的效果,采用10折交叉验证法,根据AUC,准确度,灵敏度和特异度指标评估预测模型的预测性能。1材料和方法1.1研究对象同第二部分。1.2研究方法数据收集包括人口学数据,住院费用,临床特征,治疗情况和结果。这项研究是回顾性的,汇总来自湖北省各疫区县(市、区)血吸虫病专科医院的调查记录。将患48 华中科技大学博士学位论文者随机分配到训练组(总病例的70%)以建立ANN,DT和LR模型。其余患者(占全部病例的30%)被分配到测试组,以评估模型性能。在4136例晚期血吸虫病患者中,训练组2896人,测试组1240人。如表1所示,所有三个模型的训练组和测试组的输入变量的效果差异没有统计学意义(P>0.05),表明数据分组的可靠性。ANN模型、基于C4.5算法的DT模型和LR模型都是在R3.4.3(RCoreTeamR,2017)软件中实现。对于所有的比较,用双侧检验,P<0.05被认为是统计学差异的。(1)ANN模型ANN模型是医学领域应用最广泛的模型之一,如成像技术的解释,预后,诊断或诊断测试。较之于其他统计模型,ANN模型通常参数更多。本研究中ANN模型采用标准前馈式反向传播(BP)网络结构,包括输入层16个神经元,隐藏层20个神经元,输出层2个神经元。隐藏层和输出层应用S型函数,用梯度下降法计算突触间的权重。采用10折交叉验证法,初始学习率设为0.07,动量设为0.95,迭代次数设为200,批量大小设为256。图6显示了ANN模型的结构。如何确定隐藏层神经元的数量,目前还没有公认的理论,本研究通过重复的试错法测试,采用模型达到最佳灵敏度和特异度时的隐藏层神经元数量:20。即采用重复试验法确定ANN模型的超参数。49 华中科技大学博士学位论文图6ANN模型示意图注:ANN模型含输入层16个神经元,隐藏层20个神经元和输出层2个神经元。样本数为4136个病例。16个输入变量是职业,年收入,BMI,发育,营养状况,诊断证据1,诊断证据2,治疗史,脾切除史,腹水史,其他疾病,腹水程度,临床分型,病人治疗类型,治疗手段,和治疗费用。(2)LR模型对于分类因变量,采用LR模型,利用患者人口学特征和其他疾病参数,确定各种疾病的危险因素。LR模型公式计算给定疾病的概率y(如果所选病例患有该疾病,则y1,否则y0)。如果受试者患有该疾病,则条件概率表示为p(y∣1X)pX(1)LR的公式可以表示为:log[(px∣1px01x12x2kxk(2)其中Xxxx代表自变量,用“entry”法构建LR模型。LR模型使用训练1,2,,k集数据构建,并在测试集中验证。(3)DT模型图7所示为基于C4.5算法的决策树模型,用于预测晚期血吸虫病的预后。C4.5算法由决策树ID3算法发展而来,是多层分类算法,二者工作原理相同,但是计算的信息增益不同。在ID3算法中,参照增益算法来开展学习过程,如方程(3)50 华中科技大学博士学位论文和(4)所示,与信息增益的特征选择过程相同。在C4.5算法中,学习过程使用ID3归一化增益,如等式(5)和(6)所示:cEntropy(S)=−pilog2(pi)(3)tsvGain(S,A)=Entropy(S)−vValues(A)Entropy(Sv)(4)sGainRation(S,A)=Gain(S,A)/SplitInfo(S,A)(5)csvsvSplitInfo(S,A)=log2()(6)t1ss图7基于C4.5算法的决策树模型示意图51 华中科技大学博士学位论文1.3统计学指标同第二部分。2结果变量筛选,同第二部分,见表8。对于训练集和测试集,ANN,LR和DT模型的ROC曲线如图8和9所示。在训练集中,ANN模型对晚期血吸虫病患者预后的AUC值为0.927,LR模型为0.828,DT模型为0.823。ANN模型的AUC值优于DT和LR模型。在测试集中,晚期血吸虫病患者预后的AUC值为ANN模型0.832,LR模型0.835,DT模型0.815。ANN,DT和LR模型的AUC值是近似的。表11列出了训练组和测试组三种模型的性能比较。我们评估差异查看其是否有统计学意义。AUC值可以表示为归一化的Mann–WhitneyU统计量。关于所有模型的归一化分母是一致的,因此我们可以从非参数检验的角度显示AUC值的优越性。具体来说,给定每个样本的真实标签,AUC值越大,Mann-WhitneyU统计量越大,模型的分类能力越好。我们另外进行两个成对AUC值的测试来证实这个优越性。对于ANN和DT,结果显示差异是显著的(Z=15.74,P=0.000)。对于ANN和LR,得到相似的结果如下(Z=15.12,P=0.000),差异也具有统计学意义。表11训练集和测试集中三个模型的性能比较训练集测试集评价指标ANNDTLRANNDTLRAUC0.92670.82290.82760.83180.81480.8349灵敏度0.75270.67340.68650.64420.63600.6745特异度0.92070.89440.83880.88770.90050.8465准确度0.86600.81940.79900.80320.80320.799252 华中科技大学博士学位论文图8训练集中三种模型ANN,DT和LR的ROC曲线和AUC值.图9测试集中三种模型ANN,DT和LR的ROC曲线和AUC值53 华中科技大学博士学位论文3讨论晚期血吸虫病是由于血吸虫重复感染或急性感染未得到及时有效的治疗所致,是血吸虫病最严重的形式[86]。临床表现为门脉高压,门静脉周肝纤维化,脾肿大,充血等严重情况[87,88]。机器学习模型可以从大量数据中提取以前未知但含有潜在价值的关系和模式,通过筛选、探索和建模过程提供清晰有用的信息[89,90]。近年来,机器学习算法发展迅速[91,92],目前也正在被用于临床,可以提高预后预测的准确性,辅助临床决策[90,93]。在这些预测模型中,LR,ANN和DT模型是最广泛使用的几种[90,94-96]。然而,目前关于利用机器学习算法建立晚期血吸虫病预后预测模型的研究尚未查见。因此,本研究利用湖北省血吸虫病防治研究所的晚期血吸虫病流行病学调查数据,开发和比较三种预后预测模型的效能。ANN模型由于具备系统应用机器学习的能力而受到越来越广泛的关注,机器学习的过程也称为训练。人工神经网络可以连续调整连接权值等参数,并将样本集作为连接权矩阵存储在外部环境下。当ANN再次接受输入时,系统可以提供适当的输出。在本研究中,模型中有许多神经元,对样本量也有严格的要求。因此,只有通过单因素分析筛选出的与晚期血吸虫病预后密切相关的变量可以作为输入变量。一个好的预测模型区分能力强,可准确区分高风险和低风险人群。区分的能力通常用ROC曲线下面积来表示,称为AUC。AUC值越高,该模型区分能力越好。由于血吸虫病防治实践中已知晚期血吸虫病患者预后转归多倾向于不良,预测模型的灵敏性应尽可能高,以避免假阴性的产生,一般情况下把AUC≥0.75作为模型预测性能优良的标准。用指定训练集的数据对ANN模型进行评估,ANN模型的预测精度为0.8660,优于LR模型(0.7990)和DT模型(0.8194)。在训练集中,ANN,LR和DT模型的AUC分别为0.9267,0.8276和0.8229,经Mann-WhitneyU检验,ANN模型具有最好的的预测性能。与LR和DT模型相比,ANN模型对晚期血吸虫病预后转归与致病因素之间的关系具有最佳拟合效果。血吸虫病的发病机制是受多因素影响的复杂过程,因此,使用传统的LR模型来预测疾病的发展受到多重共线性的限制。DT模型虽然可以很好地应用于离散值,当属性值增多时,效果却往往变差。虽然ANN模型可以处理更多的属性值,但他们有潜在的过拟合效应,并且当自变量更多时,他们的网络训练速度会降低。54 华中科技大学博士学位论文尽管有其局限性,但LR模型已经被广泛采用,因为它具有很多非常显著的优点[97,98]。LR模型具有判别和预测功能,又适用于定性和半定量指标[99]。此外,LR模型可以利用对数变换将非线性关系转化为线性关系,限制条件较少。为了建立预测模型,LR框架可以自动选择高度相关的指标作为自变量纳入方程,使LR模型方便,可行,易于推广[100,101]。应该指出的是,一旦我们在医疗实践中构建了LR预测模型,它指的是每种疾病本身的LR模型,而不是任何疾病。与LR模型相比,DT模型不仅可以检测统计学上有差异的危险因素,还可以直观地比较各种危险因素对晚期血吸虫病患者预后影响的强度[102,103]。DT模型可以同时处理不同类型的数据和丢失的数据值,而不必事先处理参数。DT模型训练速度快,分类效率高,能够处理大量复杂的非线性数据[104-106]。ANN模型模拟生物神经网络的功能和结构,建立具有较强容错性、适应性和非线性综合推理能力,以及能解决变量间多重共线性和交互作用的非线性数学模型[107,108]。虽然医学领域的输入和输出变量之间往往存在着复杂的关系,但人们已经在临床上使用ANN模型来有效地解决这个问题,并成功地应用到大量复杂的样本统计中[109-111]。ANN模型不仅可以实现疾病的客观检测和分类,还可以提高疾病预后和鉴别诊断的效率。虽然ANN模型具有以上诸多优点,该模型仍有一些局限性。首先,网络随着参数,函数和初始值的设置而改变。这些设置的正确性缺乏理论基础,一般设置只能由经验和反复测试来确定。其次,不同于LR模型,ANN模型没有公认的变量进入和剔除的准则。第三,ANN模型没有提供任何有关每个自变量的医学解释。因此,模型的假设检验方法,置信区间等问题需要更多的研究[112]。这些机器学习模型在医疗实践中的应用值得关注。使用ANN模型和广义相加模型(GeneralizedAdditionModel,GAM)估计慢性肾病患者的肾小球滤过率(GlomerularFiltrationRate,GFR)的研究发现,只有在模型中变量数量较多,特别是变量间有多重共线性效应时,ANN的优势才明显[113]。由于单一的数据集来源,ANN很难解决模型内部真实性(可重复性)的问题。尽管如此,ANN模型较之于LR方面的优势体现在:能处理不完整输入变量和噪声,良好的泛化能力和高容错性。LR模型由于其较好的解释性,在疾病预后研究中仍占有重要的地位。在一项使用大型国家级样本查找关节炎疼痛原因的研究中,DT模型纳入了200多个变量,其准确性高达85.68%[114]。在大数据时代,DT模型促进了算法由假设驱动到数据驱动的转换。像ANN模型一样,当有更多的协变量时,DT模型的鲁棒性更好。树型结构可以产生更贴近人类思维的视觉分类规则。但是,DT模型也存在着每次树的划分都可能引入偏倚的缺点,另外55 华中科技大学博士学位论文还存在高方差和不稳定性的缺点。本研究构建了3种预测模型:ANN模型,LR模型和DT模型用于晚期血吸虫病的预后研究。虽然每个预测模型都被证明是有效的并且有各自的优势,但ANN模型在AUC和灵敏度方面优于LR和DT模型。为了达到最高水平的预测准确性并更好地协助临床医师,应在比较三种预测模型性能后,结合具体医学问题的需要加以选择。56 华中科技大学博士学位论文第四部分应用3种BN模型预测晚期血吸虫病预后在中国乃至全世界,血吸虫病一直是最重要的公共卫生问题之一[115]。新中国成立初,全国约有1200万血吸虫病人,其中晚期血吸虫病患者60万人,约占5%[116]。根据2015年全国血吸虫病年报,全国血吸虫病患者有77194人,其中晚期血吸虫病30843人,血吸虫病人数大幅下降,其中湖北晚期血吸虫病人数为9098例。晚期血吸虫病危害巨大,疾病负担严重,患者的生产劳动能力受损,生存质量明显降低,对患者家庭造成“因病致贫”或“因病返贫”的后果。由于晚期血吸虫病人病程长、临床表现差异大、致病因素复杂,政府组织实施的晚期血吸虫病救助项目投入了巨大的人力、物力和财力,但是晚期血吸虫病的预后预测尚缺乏研究。国外缺乏翔实的晚期血吸虫病病例资料,国内的研究大多是针对临床路径或不同术式实施前后的简单效果学评价。湖北省翔实的晚期血吸虫病患者流行病学调查资料,为开展疾病预后预测研究提供了良好基础。传统的预后预测研究多采用Cox回归模型(病例资料有时间维度,一般为5年的生存资料)[117]、Logistic回归模型(病例资料缺乏时间维度,如1年流行病学调查资料)[118]。ANN模型由于具有处理多重共线性和变量交互作用的能力,近年来在疾病预后研究中也得到广泛使用[119]。但是,以上模型都存在其不足之处,如模型要求数据满足一定的条件,无法处理非线性关系、多重共线性和变量的交互作用,对于病程长、致病因素复杂的疾病(如晚期血吸虫病)解释性差。ANN模型由于存在“黑箱”理论,解释性也不好,且模型的参数调整能力受限。本研究针对以上模型的不足,利用贝叶斯网络模型开展湖北省晚期血吸虫病预后预测研究。贝叶斯网络属于机器学习方法的一种,由于该模型易调整参数,处理多变量时解释性强,可视化效果好,因此越来越多地运用于疾病预后研究等医疗领域[120,121]。临床上左心室辅助装置(LeftVentricularAssistDevice,LVAD)植入后的主要不良事件为继发右心室衰竭(RightVentricularFailure,RVF),植入后RVF根据发病时间不同分为急性(<48小时),早期(48小时至14天)和晚期(>14天)。美国卡耐基梅隆大学NatashaA.Loghmanpour博士利用最具预测性的变量构建树增强贝叶斯网络模型(Tree-augmentedBayesianNetwork,TAN),分别预测了急性、早期和晚期RVF,准确率在91%到97%之间,AUC在0.83和0.90之间,灵敏度为90%,特异度在98%和99%之间,明显优于以前公布的风险评分[122]。这些模型可以帮助临床决策,同时筛选LVAD治疗的候选人。57 华中科技大学博士学位论文胆囊癌(GallbladderCancer,GBC)是胆道最具侵袭性的癌症,也是世界范围内最常见的胆道恶性肿瘤,从诊断时起中位生存时间最短,彻底治愈的唯一选择是手术切除。然而,目前只有10%的GBC患者是具有治愈意图的手术候选者,由于各个地区经济、文化态度等差异,现有标准可能并不适合所有地区,因此,确定影响GBC患者生存的关键因素,对于预测生存时间和治疗决策至关重要。基于数据的统计学方法已广泛应用于GBC患者生存的预后因素的分析[123,124]。诸如T期,患者年龄,手术类型和复发等预后因素已被传统统计学方法揭示。然而,这些研究均忽略了多种因素的交互作用,因此有研究利用BN模型挖掘因素之间的关系,模型的准确率为81.15%,根据建立的BN模型,性别,年龄和病理类型是GBC患者的独立生存因素,N期,肝浸润,T分期,M分期和手术类型是预测生存时间的因变量,根据重要措施排序的分析结果,手术类型和TNM分期是影响GBC预后的最重要因素[125]。来自新墨西哥大学的学者JohnBurge研究了使用离散动态贝叶斯网络(dispersedDynamicBayesianNetworks,dDBNs)这一数据驱动机器学习模型识别神经解剖感兴趣区的功能相关性。与许多神经影像学分析技术不同,dDBNs不受限于线性和/或高斯噪声假设。神经解剖学区域作为离散的,而不是连续具有多项分布的随机变量,dDBNs模型可通过时间序列建模来实现。研究表明与正常老年人相比,老年痴呆受试者的内嗅皮层和枕叶皮质受累减少,脑叶和杏仁核受累更多。1材料和方法1.1研究对象同第二部分。1.2研究方法在第二、第三部分变量筛选基础上,同时纳入年龄和性别两个变量,共18个属性变量。训练组与测试组的划分同第二、第三部分。贝叶斯网络模型:贝叶斯网络(Bayesiannetwork,BN)是一种概率图模型,又称信念网络(BeliefNetwork),其结构为有向无环图(DirectedAcyclicGraphicalmodel,DAG)。随机变量通过DAG中的节点{,,...,}来表示,用箭头来连接认为有因12n果关联的变量,箭头前的节点为“因”(父节点),箭头后的节点为“果”,在节点间生成条件概率PH|E(表示节点E直接影响节点H,EH)。所以,DAG中58 华中科技大学博士学位论文的箭头表示两个未知参数间为非条件独立。DAG中包括所有的随机变量,在一个研究系统中根据变量间是否条件独立的关系,绘制贝叶斯网络。有向无环图以G(I,E)表示,DAG中所有节点集合用I表示。有向连接线段的集合以E表示,令随机变量X以DAG中某节点i代表,X(Xi)I,则X节点联合概率表达如下:pxp(χi|χpa(i))(1)iI公式中,pai代表节点i的父节点,i为pai的子节点。对于任意一个未知参数,联合概率都可以通过将其局部概率相乘得到,公式如下。p(,...,)p()p(|)p(|,...,)(2)1k121k1k1条件依赖以箭头表示,随机变量用圆圈表示,按照网络拓扑结构的不同定义,常见的可以分为以下三种贝叶斯网络结构。(1)朴素贝叶斯网络朴素贝叶斯网络(NaïveBayesianNetwork,NBN)模型假设属性事件之间相互独立,研究属性事件与因变量之间的关系。该模型算法简单,易于理解。假设属性特征之间相互独立,只涉及二维存储,分类过程中时空开销小。理论上,NBN模型误差率与其他分类方法相比是最小的,它假设属性特征之间相互独立的前提。其次,变量之间相关性较大或变量个数比较多的时候,分类效果不甚理想。在医学预后中,致病因素多、因素间存在交互效应时,预测效果可能较差。(2)树增强贝叶斯网络NBN模型假设自变量(即属性事件)相互独立,因变量的结果是依赖于各个自变量取值的,拥有最大后验概率值的自变量决定决策属性。但这种理想情况在现实中不多见,树增强贝叶斯网络(Tree-augmentedBayesianNetwork,TAN)不但研究自变量与结局变量之间的关系,也将自变量之间的关系纳入分析。(3)广义贝叶斯网络广义贝叶斯网络(GeneralizedBayesianNetwork,GBN),把结局变量作为普通的一个属性特征纳入研究,研究所有的变量之间的关系。3种贝叶斯网络模型示意图见图10。超参数的设定,采用经验法和重复试验法确定。59 华中科技大学博士学位论文图10贝叶斯网络模型示意图(a)朴素贝叶斯网络模型(NBN);(b)树增强贝叶斯网络模型(TAN);(c)广义贝叶斯网络模型(GBN)1.3统计学指标同第二部分。2结果2.1变量筛选与比较由表12可知,18个变量在训练组和测试组间的差异无统计学意义,变量在两组之间可比(P>0.05)。60 华中科技大学博士学位论文表12晚期血吸虫病样本训练集与测试集重要变量的比较训练集(N=2896)测试集(N=1240)变量定义分类χ2PN%N%≥60岁182763.177462.4年龄0.1660.684<60岁106936.946637.6男性189165.378763.5性别1.2730.259女性100534.745336.5农民280296.8119296.1职业1.0230.312其他职业943.2483.9<10000187164.677862.7年收入(元)1.3110.252≥10000102535.446237.3<18.529010.012710.218.5-23.9194467.183867.6BMI(kg/m²)0.7720.85624≤BMI<2838313.215212.6≥282799.712310.0正常282997.7120897.4发育状况0.2650.607不良672.3322.6良好38013.117314.0营养状况普通235681.498979.71.6050.448不良1605.5786.3血检136947.256745.7粪检61021.028823.2诊断依据13.5120.319血检+粪检85829.635428.6直肠镜检590.2312.5腹水型217775.289972.5诊断依据23.2540.071非腹水型71924.834127.5无1836.3685.5治疗史1.0620.303有271393.7117294.5无172059.474159.8脾切除史1.7780.826有117640.649940.2无2719.41008.1腹水史1.7780.182有262590.6114091.9无153853.166853.9心血管疾病34411.914811.9消化系统病62121.426021.0并发症神经系统病160.650.42.3110.805呼吸系统病722.5312.5泌尿系统病491.7141.1其他疾病2568.81149.261 华中科技大学博士学位论文轻中度288199.5123399.4腹水程度0.0360.850重度150.570.6腹水型44315.319415.6巨脾型243984.2104384.1临床分类3.9100.271结肠增殖20.120.2侏儒型120.410.1确认救治268292.6115493.1救助类型确认复发1585.5685.51.1480.563确认新发561.9181.5内科治疗277595.8120096.8治疗手段2.1050.147外科手术1214.2403.2治疗费用≤5876.9157854.565753.00.7920.374(元)>5876.9131845.558347.02.2三种贝叶斯网络模型结构2.2.1朴素贝叶斯网络(NBN)模型由图11可知,结局变量治疗转归(zlzg)和年龄(AGE)、性别(sex)、职业(WORKER)等18个自变量之间的相互关系,18个自变量间均相互独立,分别对治疗转归产生影响。图11朴素贝叶斯网络(NBN)模型结构图注:zlzg:治疗转归;AGE年龄;sex性别;WORKER职业;ANNUITY家庭年纯收入;BMI体重指数;VIABILITY发育状况;NOURISHMENT营养状况;EVIDENCE1诊断依据1;EVIDENCE2诊断依据2;Iszls:晚期血吸虫病治疗史;Isqc:是否有脾切除史;Isfs:是否有腹水62 华中科技大学博士学位论文史;Qtjb:伴其他疾病;Fzxfw:腹水程度分级;Wxfx:晚期血吸虫病分型;Jzdx:救治对象类型;Jzsd:救治手段;Hj1:救治费用。2.2.2树增强贝叶斯网络(TAN)模型由图12可知,除了18个自变量与结局变量治疗转归(zlzg)之间的关系以外,自变量之间,如年龄(AGE)变量通过影响脾切除史(Isqc)影响治疗转归(zlzg),职业(WORKER)通过影响营养状况(NOURISHMENT)影响治疗转归,营养状况通过影响BMI影响治疗转归等。图12树增强贝叶斯网络(TAN)模型结构图2.2.3广义贝叶斯网络(GBN)模型由图13可知,治疗手段(Jzsd)影响治疗转归(zlzg),治疗转归与救治费用(Hj1)相互影响,救治对象类型(Jzdx)影响晚期血吸虫病治疗史(Iszls)等。GBN模型中,显示的某些因果关系难以解释,如治疗转归(zlzg)对职业(WORKER)和性别(sex)的影响,这可能与模型本身的特征有关。63 华中科技大学博士学位论文图13广义贝叶斯网络(GBN)模型结构图2.3三种BN模型性能指标比较由表13可知,在训练集和测试集中,NBN、TAN的AUC都优于GBN(Mann-WhitneyUtest,P<0.05)表133种BN模型预测性能比较训练组测试组评价指标NBNTANGBNNBNTANGBNAUC0.7110.7250.6580.7240.7370.658灵敏度0.8990.8980.7900.8890.8920.773特异度0.5240.5530.5270.5600.5820.543PPV0.3130.3030.4840.3200.3050.497NPV0.1840.1750.2030.1730.1650.200截断值0.3130.3030.4840.3200.3050.4972.43种BN模型ROC曲线由图14和15可知,在训练集和测试集中,NBN、TAN的AUC都优于GBN。64 华中科技大学博士学位论文abc图14训练集3种BN模型ROC曲线aNBNbTANcGBNdef图15测试集3种BN模型ROC曲线dNBNeTANfGBN65 华中科技大学博士学位论文3讨论晚期血吸虫病主要临床表现为门脉高压、巨脾和腹水,严重者全身症状明显,还可出现消化道出血、内分泌紊乱等症状[126]。症状轻患者及时治疗,可以达到病情好转、治愈的效果[127];一旦出现全身症状如消化道出血,伴腹水、脾肿大,或产生其它系统严重并发症的患者,预后往往较差,治疗无效甚至死亡,后果严重[128]。已有的研究表明,血吸虫感染导致肝细胞对致癌物更敏感,血吸虫病一旦合并乙肝病毒感染,对肝脏的损害要更为严重[129]。晚期血吸虫病合并HBV感染,比单纯血吸虫病患者发生癌变的可能性要大为增加[130],这类患者也可能由门脉高压继发上消化道出血,预后很差[131]。因此,很有必要建立晚期血吸虫病预后预测模型,以辅助临床医师判断病人预后。为了补充现有研究的空白,本文利用湖北省晚期血吸虫病流行病学调查资料,使用了3种BN模型对患者预后转归进行预测,研究表明3种贝叶斯网络模型的预测效果均较为理想,在模型预测性能比较后发现更适合采用NBN(AUC=0.724)和TAN(AUC=0.737),因为这两种模型的AUC高于GBN(AUC=0.658)。可能的原因是,研究主要是分析自变量与结局变量治疗转归的关系,GBN将结局变量视为属性事件,可能导致其重要性不够突出,造成模型的诊断性能下降。在NBN和TAN两种模型中,虽然AUC接近,但是由于TAN考虑了自变量间的相互关系,可能更符合人们日常认知,解释性更强,因此在临床医师选择预后预测工具的时候,可能推荐TAN较好。与LR、Cox回归相比,BN模型用先验分布来表示已有的知识或经验,经典统计学派认为其具有主观性[132]。但是,在实际应用中,BN模型涵盖了先验分布和似然函数两部分信息,因此依然不失其客观性。一般来说,BN模型对于传统统计学方法的优势在于,它可以通过不断更新样本数据达到更新先前认知的目的,既结合了当前数据的信息,也将先验信息作为一种资源加入了模型当中[133]。其次,BN模型的可视化效果好,分析框架简洁易懂,不像传统统计学方法需要复杂的数学推导,更有利于临床医师的理解。第三,BN容易处理截尾数据、缺失数据,还可以全面稳健地估计模型。R软件操作中,可以根据已有的经验,将DAG进行微调,设置变量间箭头的方向,使得模型更符合人类的常识认知,相对于传统统计学方法,这是一个巨大的优势。选择BN模型的主要目的是充分利用专家的经验和历史数据,特别是小样本、多参数场合。BN模型不足之处在于其先验分布的选择不一定合理,难点在于如何将先验信息通过先验分布客观反映在模型中。66 华中科技大学博士学位论文和ANN模型类似,BN模型也是有向图,他们都遵从马尔科夫假设,即每一个节点(node)只取决于相邻的前一级节点。对于模式分类的问题,ANN、BN模型效果相似,诊断性能相近,模型的训练方式也比较接近,但效率可能不同[134]。ANN和BN都适合自变量多、样本量大的模式分类问题,训练计算量很大。它们也有不同点,ANN用已知模型去训练参数,属于判别模型,而BN是生成联合概率,属于后验性质。在模型的运用上,BN在调整参数方面比ANN更为灵活,且BN为白盒理论,可解释性强,一般调整模型参数使之更符合人类日常认知,特别适合用于疾病预后研究,ANN在这方面存在一定不足,其结构的标准化增加了模型的参数调整难度,受制于“黑盒”理论,模型的可解释性弱[135]。BN较之ANN不足的地方在于,ANN模型可以先对各个输入节点进行线性组合,最后再对组合的一个变量进行非线性变换,用计算机容易实现。BN中属性事件的组合毫无限制,可以组合成任意的函数,虽然灵活,也增加了模型的复杂性。在医疗实践中,BN模型也显示出自身的优点和局限性。以疾病预后研究为例,BN在处理致病因素复杂、因素间存在交互作用时,显示出自身的优点。克罗恩病(CrohnDisease,CD)是一种慢性进行性疾病,病因不明,且容易复发和发生致残,临床特征是间歇性复发。尽管有一半患者复发倾向较低,另一半进展迅速的病例却需要手术,而即使实施手术,也难以治愈[136]。因此有必要建立CD预后模型,以指导医生选择改善患者健康状况的生活方式。一项研究利用多中心和回顾性CD患者队列(N=489),进行早期手术或免疫抑制疗法,建立BN模型和风险矩阵,在内部和一个多中心前瞻性队列中分别验证。BN模型确定CD患者再手术失败的临床和人口学危险因素,并通过风险矩阵对其影响进行量化,该模型适合在早期治疗疾病时辅助医疗决策[137]。有研究采用胸部CT扫描图像,建立计算机辅助检测方案,对肺部肿瘤进行分割,计算肿瘤相关图像特征。在特征选择之后,分别基于2个基因组生物标志物和8个图像特征建立BN分类器来预测I期非小细胞肺癌(Non-smallCellLungCancer,NSCLC)患者手术后复发风险。当使用基于图像特征和生物标志物的分类器时,AUC值分别为0.78±0.06和0.68±0.07,基于定量图像特征的贝叶斯网络模型分类效果更好。BN模型为癌症复发风险预测提供了一种有效的工具[138]。癌症是以累积突变为特征的过程,然而,推动肿瘤进展的确切时间和基因改变的顺序仍然不可知。而BN模型可以通过累积过程模拟癌症进展,用期望最大化算法估计模型参数,通过模拟退火程序获得底层相互作用图。有研究应用这种方法对不同癌67 华中科技大学博士学位论文症类型的细胞遗传学数据进行模拟,发现多个复杂的致癌基因路径大大偏离简化模型,如线性或者树模型。该研究展示了如何将BN模型用于基于遗传学的生存预测,以支持癌症的诊断和预后。本研究使用了3种BN模型对晚期血吸虫病患者的预后转归进行预测,结果显示3种BN模型的预测效果都较为理想,在模型预测性能比较中,NBN(AUC=0.724)和TAN(AUC=0.737)更为适合,因为这两种模型的AUC高于GBN(AUC=0.658)。NBN和TAN模型虽然AUC接近,由于TAN模型考虑了自变量间的相互关系,更符合人们日常认知,解释性更强,因此TAN模型更适合用于临床疾病预后预测工具。。68 华中科技大学博士学位论文第五部分应用集成学习模型预测晚期血吸虫病预后归功于湖北省多年来“以传染源控制为主”策略血防工作的巨大成效[139-141],以及晚期血吸虫病患者救治力度的提升,临床治愈的晚期血吸虫病患者比例逐年提高,新发晚期血吸虫病患者下降幅度明显[142,143]。晚期血吸虫病救治项目自2005年实施以来,虽然对改善患者病情,提高患者生存质量,控制晚期血吸虫病的发生发展起到一定作用,但依然存在复治率较高,治愈率低和基于医生经验的预后预测准确度不高的问题[144]。国内对晚期血吸虫病的研究主要有现患率的调查、生存质量研究。宿主由于血吸虫虫卵沉积,对虫卵可溶性抗原(SolubleEggAntigen,SEA)产生细胞免疫为主的免疫应答,引起胶原蛋白的沉积以及虫卵肉芽肿的形成,导致肠壁和肝脏的纤维化,门脉血流障碍,引起晚期血吸虫病。有关晚期血吸虫病肝纤维化机制的研究表明,肝星状细胞激活在肝纤维化发生过程中非常关键,也有研究发现绿原酸(CGA)通过LX2细胞中IL-13/miR-21/Smad7信号相互作用方式可以抑制其肝纤维化的进展[145]。低表达的FOXO1和miR-182高表达都能促进肝纤维化细胞的增殖和抑制细胞凋亡,通过反馈PI3K/AKT信号通路促进肝纤维化的进展[146]。短链非编码RNA又称微小RNA(miRNA),可以抑制基因转录物的翻译,在细胞增殖、分化和迁移、代谢过程中发挥关键作用,有研究表明hsa-miR-150-5p,hsa-miR-10a-5p,hsa-miR-199a-3p,hsa-miR-4521,hsa-miR-222/221,hsa-miR-663b和hsa-miR-143-3p(与无修正相关)通过限制新陈代谢中细胞外基质蛋白组织、脂质动员和氧化损伤应激而在肝纤维化进程中发挥重要作用[147]。晚期血吸虫病的治疗一般采取驱虫治疗,可缓慢逆转肝纤维化但不能完全逆转,吡喹酮治疗者肝纤维化症状可得到有效缓解[148]。一般采取腹水浓缩回输治疗肝纤维化性顽固性腹水,采取食管静脉曲张结扎术控制上消化道出血症状[149]。脾脏具有重要的免疫功能,对巨脾型患者是否切除脾脏曾存在争议,有研究表明,脾切除术能明显改善患者全身状态,较之于未切脾组,切脾组并发症发生率、病死率都较低。多数学者认为,巨脾和正常脾脏在免疫调节作用上差异明显,一般对符合手术指征的巨脾型患者建议行脾切除术。晚期血吸虫病预后预测方面的研究尚缺乏,为了巩固患者救治效果,控制晚期血吸虫病复发率,提高救治水平,有必要进行晚期血吸虫病预后预测的研究。本研究第三部分运用了决策树模型(DecisionTree,DT),其树型结构可解释性强,然而其泛69 华中科技大学博士学位论文化能力弱制约了决策树模型的应用。本章节拟对决策树模型进行改进,采用机器学习中的集成学习算法探索预测性能更好的预后预测模型。集成学习(Ensemblelearning)也称基于委员会的学习(Committee-basedlearning)和多分类器学习系统(Multi-classifierlearning),可以同时结合多个分类器来完成学习任务,。集成学习一般先产生一组个体学习器,通常是从训练数据中由一个现有学习算法产生,如ANN,C4.5决策树算法。如果是由同类的个体学习器集成,如“神经网络集成”都由ANN模型构成,“决策树集成”都由DT模型构成,这种同质性集成学习模型中的学习器称之为“基学习器”。如模型中同时包含ANN和DT模型,则为异质性集成学习模型,模型中的个体学习器称为“组件学习器”。鉴定RNA残基对于理解蛋白质-RNA相互作用的机制和功能重要性可以提供有价值的线索,然而,蛋白质-RNA晶体结构中可用于实验性识别的能量热点有限,导致难以开发有效的鉴定方法,RNA结合热点残基的预测方法仍处于起步阶段。有研究利用异质集成学习方法,采用概念不同的机器学习分类器集成PrabHot用于蛋白质-RNA结合热点的预测,可检验蛋白质-RNA中的热点残基,分类采用Boruta算法,AUC为0.86,明显优于先进的RNA结合热点预测方法HotSPRing[150]。限于篇幅,异质性集成学习模型在本研究中不作讨论。决策树模型有许多良好的特性,比如它的预测速度快,模型生成的树型结构容易理解,模型训练的时间复杂度不高。但是,单一决策树存在的主要弊端是过拟合(Over-fitting),虽然可用剪枝调整,效果却不太理想,组合模型可以克服这样的问题,所以本研究将利用两种集成学习方法——随机森林(RandomForest,RF)和梯度提升决策树(GradientBoostedDecisionTree,GBDT)模型来预测患者预后转归。GBDT模型多在生态学研究、网页搜索排行等领域应用,优势主要体现为预测能力强,在输出空间通过强大的损失函数处理异常值的鲁棒性强。它还可以处理混合类型的数据。由于提升的时序性,GBDT模型的劣势主要表现在不能并行处理,可扩展性较差,耗时较长。RF模型也集成多棵决策树,克服了DT模型泛化能力不足的缺点。1材料和方法1.1研究对象同第二部分。1.2研究方法70 华中科技大学博士学位论文变量筛选同第四部分。1.2.1决策树的构建决策树思想起源于科学家希望寻找最纯净的划分数据集的方法,即尽可能将目标变量分开,也可以理解为衡量分类误差率。得到决策树的方法取决于衡量不纯度的指标,C4.5、ID3和CART算法分别采用信息增益率,信息增益和Gini系数衡量不纯度。本研究中DT模型统一采用C4.5算法。决策树的主要步骤有建树和剪枝。(1)按次序选择属性DT模型一般把每个特征试一遍,选取那个能够使分类效果最好的特征。若A属性比B属性产生的纯度增益大,则A属性是优先选取的属性,即A属性是B属性的父节点。(2)分裂训练数据依然是通过不纯度为准则来分裂数据集。如C4.5算法用信息增益率作为分类规则,连续属性用二分裂分类,离散属性用多分裂分类,信息增益率选取前后信息增益率中最大的。(3)剪枝就是在决策树长成以后,会出现过拟合(Over-fitting),这时通过剪枝来停止树的生长,控制树的规模。若模型有以下6种情况,可以用剪枝对过拟合的树进行处理,删除无意义“枝叶”,得到简化版的树。数学方法上采用给分裂准则加上惩罚系数来处理。①节点中所有观测值属于一类;②决策树的深度未达到设定的阈值;③该节点中全部观测属性值一致;④没有属性满足分裂准则的设定阈值;⑤该节点的子结点包含的观测数小于设定的阈值;⑥该节点的观测值小于父节点应含观测数设置的阈值。基于C4.5算法的DT模型见本文第三部分的研究方法。1.2.2随机森林(RandomForest,RF)模型RF模型是一种经典的集成学习算法模型,包含了多棵决策树,输出类别由单棵树输出类别的众数决定,类似于投票决定。决策树模型相当于用在数据集中学到的知识对新的数据分类,而随机森林模型希望运用多棵决策树进行分类,克服单棵决策树容易过拟合的缺点,最终分类效果超过单一决策树,从而解决DT泛化能力弱的问题。理论上,RF模型比DT模型在稳定性和准确性方面都有提升。随机森林计算开销小,容易实现。一般认为:决策树+bagging=随机森林。RF模型的生成步骤有:71 华中科技大学博士学位论文1、用bootstrap方法从原始训练集中有放回地随机抽取k个新样本集,以构建k棵分类树,未被抽到的样本组合叫做袋外数据(k个)。2、设有n个特征,在每一棵分类树的所有节点处都随机抽取m个特征,再对抽取特征的信息量进行计算,节点分裂选择在最具分类效能的特征处开展。3、每棵分类树都不做任何剪枝,允许其最大限度地生长。4、生成的多棵分类树即组成随机森林,可用随机森林模型应用于新的数据集分类,按RF模型投票结果决定分类结果。见图16。图16随机森林模型结构示意图1.2.3梯度提升决策树(GradientBoostedDecisionTree,GBDT)GBDT是一种组合算法,可以认为是Boost算法的一种改进,原始的Boost算法是开始时给每个样本赋予的权重值相等,即最开始时认为每个样本的重要性是一样的。模型的每一次训练,都会使得估计的数据点有所差异,我们在模型训练以后,降低分类正确点的权重,提高错分类点的权重。一旦某些点错误分类次数很多,相应地,赋予它的权重将会很高。一般在指定迭代次数N以后,模型训练会得到N个树深较浅的基分类器(Basiclearner),虽然树深较浅,由于树的棵数多(本研究中1000棵决策树起),将它们加以组合,并且按照错误率越大则基分类器越小的原理进行加权,或者让它们投票选出一个最终预测模型。梯度提升与传统的Boost差别很大,因为GBDT模型通过多次计算,逐渐减少上一次的残差(Residual),所以新模型的构建是在残差逐步减小的梯度方向上。传统的Boost算法是对错的、正确的样本分别进行加权,而在GBDT模型中,建立的新模型都可以使上一个模型的残差沿着梯度方向减少。给定一个训练集T(x,y),(x,y),...,(x,y),损失函数为L(y,f(x))1122nn72 华中科技大学博士学位论文f(x)输出结果为一颗决策树:。梯度提升的算法如下。①初始化。估计一个常数值,极小化损失函数,此时DT只有一个节点。Nf(x)argmincL(yi,c)i1(1)②迭代,建M棵提升树。第一层循环:fromm=1toM第二层循环:fromi=1toM。将当前模型损失函数负梯度的值作为残差估计值。L(y,f(x))iir(2)mif(xi)f(x)fm1(x)Rj1,2,...,J对rmj,mj拟合一棵决策树,获得第m棵树叶节点区域第三层循环,fromj=1toJ,计算cmjargmincL(yi,fm1(xi)c)xiRmj(3)接着利用先行搜索方法去估计叶节点区域的值,以极小化损失函数。J更新fm(x)fm1(x)j1cmjI(xRmj)(4)③最终得到我们所需的模型MJf(x)fM(x)cmjI(xRmj)m1j1(5)集成学习模型中超参数的设定,采用经验法和重复试验法确定。73 华中科技大学博士学位论文1.3统计学指标同第二部分。2结果2.1变量筛选与比较同第四部分,见表12。2.2RF、GBDT与DT模型性能指标比较由表14可见,在训练集和测试集中,RF模型的AUC均高于GBDT模型和DT模型。表14RF、GBDT与DT模型预测性能指标比较(n.tree=5000)训练集测试集指标RFGBDTDTRFGBDTDTAUC0.9580.8140.8370.8460.8180.825灵敏度0.8720.8390.8330.8000.8110.805特异度0.9020.7840.8060.8260.7990.812PPV0.2510.3260.3280.3640.3590.362NPV0.0460.0990.0900.0840.0950.089截断值0.7620.6070.6340.7330.5560.4492.3训练集、测试集中RF、GBDT与DT模型ROC曲线由图17可见,训练集中RF、GBDT和DT模型的灵敏度、特异度等指标大小。由图18可见,测试集中RF、GBDT和DT模型的灵敏度、特异度等指标大小。74 华中科技大学博士学位论文(a)(b)75 华中科技大学博士学位论文(c)图17训练集RF(a)、GBDT(b)与DT(c)模型ROC曲线(d)76 华中科技大学博士学位论文(e)(f)图18测试集RF(d)、GBDT(e)与DT(f)模型ROC曲线77 华中科技大学博士学位论文2.4不同参数条件下,测试集RF、GBDT模型的性能表现随着树的棵数n值分别取5000,4000,3000,2000和1000,取值逐步减小,RF模型灵敏度呈轻度下降,AUC和特异度保持稳定。见表15和16。表15不同参数条件下RF模型性能评价指标n.tree=5000n.tree=4000n.tree=3000n.tree=2000n.tree=1000AUC0.8460.8470.8460.8460.846灵敏度0.8000.8040.7970.7820.802特异度0.8260.8230.8290.8480.823PPV0.3640.3610.3670.3780.363NPV0.0840.0850.0830.0760.085截断值0.7330.7160.7510.7870.725表16不同参数条件下GBDT模型性能评价指标n.tree=5000n.tree=4000n.tree=3000n.tree=2000n.tree=1000AUC0.8180.8150.8130.7980.765灵敏度0.8110.8110.7940.7960.628特异度0.7990.7990.8040.7640.815PPV0.3590.3590.3780.3880.519NPV0.0950.0950.0940.1110.110截断值0.5560.5970.6860.6910.6842.5不同参数条件下,测试集RF、GBDT模型ROC曲线从ROC曲线可以看出,随着参数n的减小,RF模型的AUC、灵敏度、特异度稳定不变;GBDT模型的AUC、灵敏度指标逐步下降。见图19和20。(a)n.tree=5000bn.tree=4000cn.tree=300078 华中科技大学博士学位论文dn.tree=2000en.tree=1000图19测试集RF模型在不同参数取值条件下的ROC曲线an.tree=5000bn.tree=4000cn.tree=3000dn.tree=2000(e)n.tree=1000图20测试集GBDT模型在不同参数取值时的ROC曲线79 华中科技大学博士学位论文2.6随机森林与GBDT的区别随机森林模型:DT+bagging=RFGBDT:DT+Boosting=GBDT二者的区别在于Boosting和bagging的差别,见表17。表17随机森林与GBDT的区别BoostingBagging特点(GBDT)(RF)取样方式根据错误率均匀采样训练集选择与前面各轮学习结果有关随机精度高低于Boosting预测函数的权重有无函数生成顺序有时序性可并行生成常见应用文本分类节省NN算法中时间开销2.7RF、GBDT模型对自变量重要性排序RF、GBDT模型中,自变量重要性排序结果相近,前三位均是治疗费用、年收入和脾切除术,见图21。RF模型误差与树的棵数(n.tree)的关系见图22,随着树的棵数增加,模型的误差减小并趋于稳定。(a)80 华中科技大学博士学位论文(b)图21RF(a)、GBDT(b)模型对自变量重要性排序注:zlzg:治疗转归;AGE:年龄;sex:性别;WORKER:职业;ANNUIT:家庭年纯收入;BMI:体重指数;VIABILITY:发育状况;NOURISHMENT:营养状况;EVIDENCE1:诊断依据1;EVIDENCE2:诊断依据2;Iszls:晚期血吸虫病治疗史;Isqc:是否有脾切除史;Isfs:是否有腹水史;Qtjb:伴其他疾病;Fzxfw:腹水程度分级;Wxfx:晚期血吸虫病分型;Jzdx:救治对象类型;Jzsd:救治手段;Hj1:救治费用。图22RF模型误差与参数树的棵数(trees)的关系图81 华中科技大学博士学位论文2.8决策树分类图晚期血吸虫病预后预测DT模型分类图,见图23,由图可知用DT模型筛选晚期血吸虫病预后因素的过程。与第三部分DT模型的区别在于,除了16个自变量以外,图23中的的DT模型还纳入了年龄和性别因素。82 华中科技大学博士学位论文图23晚期血吸虫病预后测试集DT模型分类图83 华中科技大学博士学位论文3讨论在本文第三部分研究的基础上,针对决策树模型的不足,首次采用集成学习模型对湖北省晚期血吸虫病预后进行预测,两种集成学习模型:随机森林和梯度提升决策树(参数n.tree=5000)都取得了不错的效果(AUC>0.75)。在训练集中,RF模型预测性能的主要指标(AUC、灵敏度和特异度)均优于GBDT和DT模型;RF模型测试集中的AUC优于GBDT和DT模型,灵敏度和特异度接近。而值得注意的是,GBDT的预测性能指标并没有优于DT模型。这可能与模型的参数调整有关,也可能与数据集本身的特征有关。参数调整主要指的是决策树的棵数,交叉验证的方法等。为了验证模型参数调整过程对预测性能的影响,本文对RF和GBDT模型关键参数:决策树的棵数(n.tree)进行不同组合的实验。结果显示,当n.tree分别取值5000、4000、3000、2000和1000的时候,RF模型的AUC几乎不变,维持稳定,而GBDT模型的AUC逐渐递减,这证明对于随机森林模型,决策树棵数达1000以后,模型的性能趋于稳定,而GBDT模型距离达到模型性能稳定的决策树棵数(n.tree)还有差距,也可以解释为什么在n.tree=5000时,GBDT模型的AUC尚小于DT模型。这提出了两个新的问题,第一个是对于GBDT模型,在验证湖北省晚期血吸虫病人的流行病学调查数据集时,n.tree取值多少可以达到AUC稳定?第二个是对于同样的数据集,GBDT要想取得和RF模型相近的预测性能,是否需要更多棵树?这需要进一步实验验证和理论推导。另外,本研究中根据经验统一采用10折交叉验证,但如何选取交叉验证方法也需要进一步论证,如留一法、5折、10折交叉验证等,方法不同可能会对模型预测效果产生影响。值得一提的是,机器学习算法中,对于参数设置的合理性,是目前机器学习领域的薄弱环节,也是机器学习模型受到数学理论学界诟病的原因。RF和GBDT模型在R软件可以通过特定的程序实现自变量重要性的排序。本文对湖北省晚期血吸虫病人的数据集进行了研究,两种模型的结果非常接近,排名前三位的都是治疗费用、年收入和脾切除术。前两个因素可能决定了患者治疗是否彻底,治疗费用越高、年收入越高,可能对于大多数晚期血吸虫病患者的临床治愈效果越好,而脾切除术的实施也能改善预后,证明巨脾和正常脾脏的免疫调节机制并不相同,符合脾切除手术指征的巨脾型患者实施脾切除术对改善病人预后有好处。研究还显示了,当n.tree逐步增加时,随机森林算法的误差逐步下降。最后对于纳入了年龄、性别两个重要变量的决策树的树型结构进行了可视化展示。虽然有集成算法,但是DT模型在晚期血吸虫病预后预测领域有它的优势,并不能完全被取代,84 华中科技大学博士学位论文比如可视化效果好,可解释性强,可以提取规则,本研究中DT模型的AUC大于GBDT。临床预后问题中,具体使用哪一种模型,要结合研究目的和数据集的具体特征而定,才更为科学合理。由于模型分类效果好,且泛化能力更强,随机森林模型和梯度提升决策树模型在医疗领域的应用越来越广泛。局部晚期直肠癌的标准治疗方案是术前放化疗后手术直肠系膜切除[151]。然而,预测患者对治疗的反应仍是一个临床挑战。有研究使用激光捕获显微切割,从前瞻性预处理样品(n=15)中分离来自基质和肿瘤腺体的RNA获得转录组学图谱和杂交PrimeViewAffymetrix阵列[152]。研究还使用GSE39396模拟了癌相关的成纤维细胞特异性基因过滤数据。响应者和非响应者的基质/肿瘤腺体的差异表达基因的分析显示大部分变化与间质室相关,主要编码细胞外基质和核糖体组分。我们建立了癌相关成纤维细胞(Cancer-associatedFibroblasts,CAF)特异性分类器,采用RF模型确定最好的预测指标是COL3A1和FN1,重建留一交叉验证回归模型提高了分类性能,PPV为93.3%。一项研究证明RF模型可能有助于描述心血管风险,预测结果,并在人群研究中确定生物标志物[153]。研究选取了来自动脉粥样硬化的多民族研究(MultiethnicStudyofAtherosclerosis,MESA)的参与者,使用基线测量数据来预测12年随访期间的心血管结果。MESA旨在研究亚临床疾病进展为心血管事件,参与者最初没有心血管疾病[154-156]。来自MESA的6814名病例来自美国6个临床中心,4个种族,年龄为45岁至84岁,纳入参与者成像和无创检测,问卷调查和生物标记等735个变量。RF模型用来确定前20位预测因子。与传统的心血管危险因素相比,成像,心电图和血清生物标志物在前20名列表中占有重要地位,年龄是全因死亡率最重要的预测指标。颈动脉超声检查和空腹血糖水平是中风的重要预测指标。冠状动脉心脏病和所有动脉粥样硬化性心血管疾病合并结局最重要的预测指标是冠状动脉钙化评分,发生心力衰竭的主要预测指标是心肌肌钙蛋白-T,以及左心室结构和功能,心房颤动的主要预测指标是年龄、肌酐和踝臂指数。在所有结果中,TNF-α和IL-2可溶性受体和NT-proBNP水平是重要的。RF模型优于既定风险评分,预测准确性提高(Brier评分下降10-25%)。非酒精性脂肪性肝病(NonalcoholicFattyLiverDisease,NAFLD)中进展性纤维化的存在是肝脏死亡率最重要的预测指标[157-159],然而用于预测晚期纤维化诊断精度高的肠道微生物来源标记的数据很有限。在一项前瞻性研究中,学者使用从粪便样品中提取的DNA的全基因组鸟枪测序来表征肠道微生物组合物[160]。本研究包括86例活检证实为NAFLD的特征性患者,其中72例为轻/中度(0-2期纤维化)NAFLD,14例为进展性纤维化(3、4期纤维化),确定了包含40个特征的研究组(P<0.006),85 华中科技大学博士学位论文其中包括37种细菌物种,用于构建RF模型以区分轻度/中度NAFLD和进展期纤维化。该模型诊断准确性较高(AUC=0.936)。这项研究提供了粪便微生物组学衍生的宏基因组标签可用于检测NAFLD进展性纤维化的初步证据。GBDT模型在医学领域的应用也在增加,一项研究利用2011-2013年间在日本年度体检中收集的数据,分别由43,524人和17,789人组成训练集和测试集,分别使用GBDT、RF和LR模型预测测试数据集中的高尿酸血症[161]。采用欠采样法建立预测模型以处理不平衡数据集。结果显示三种模型AUC差异没有统计学意义,预测能力相似,RF和GBDT模型分别在灵敏度和特异性方面提供了最佳性能,欠采样并没有显著提高预测能力。研究证明机器学习模型(虚拟健康检查)可用来识别高风险高尿酸血症患者,这个研究对降低医疗成本可能有价值。高通量筛选(High-throughputScreening,HTS)广泛应用于药物开发、临床诊断到毒性评估等多个领域[162,163]。萤火虫萤光素酶常用作报告物来监测化合物对HTS中特定靶或途径活性的影响。然而,基于萤光素酶的HTS的假阳性率相对较高,因为与荧光素酶报告物直接相互作用的许多混杂化合物或伪像通常被确定为活性化合物。因此,有必要开发一种快速筛选方法来鉴定这些能直接抑制萤光素酶活性的化合物。有研究开发了一种分子相互作用能量成分(MolecularInteractionEnergyComponent,MIEC)GBDT模型的虚拟筛选(VirtualScreening,VS)分类模型来分辨萤光素酶抑制剂与非抑制剂[164]。采用广义博恩表面积(MolecularMechanicGeneralizedBornSurfaceArea,MM-GBSA)自由能分解方法计算MIECs,对萤光素酶活性位点上各小分子的结合模式进行了能量表征,然后在MIEC上构建GBDT模型。对测试集的预测表明,优化的MIEC-GBDT模型优于分子对接和MM-GBSA重新评估。结果表明,MIEC-GBDT模型是可靠的,可以用作在基于萤光素酶的HTS实验中鉴定潜在干扰化合物。本文在前文研究的基础上,针对决策树模型的不足,首次采用集成学习模型对湖北省晚期血吸虫病预后进行预测,RF和GBDT模型(参数n.tree=5000)都取得了良好效果(AUC>0.75)。在训练集中,RF模型预测性能的主要指标(AUC、灵敏度和特异度)均优于GBDT和DT模型;测试集中,RF模型的AUC也优于GBDT和DT模型,三者灵敏度和特异度接近。而值得注意的是,GBDT的预测性能指标并没有优于DT模型。这可能与模型的参数调整有关,也可能与数据集本身的特征有关。研究结果,当n.tree分别取值不同时,RF模型的AUC保持稳定,而GBDT模型的AUC逐渐递减,这证明对于分类树棵数到达1000以后,RF模型性能稳定,而GBDT模型尚未达到模型性能稳定的分类树棵数。86 华中科技大学博士学位论文第六部分晚期血吸虫病临床预后指标探讨关于晚期血吸虫病人生活质量调查研究发现,患者的平均体重和身高均低于同年龄段的健康人,28.3%的高龄患者即使基本治愈,也有降低或丧失劳动能力的倾向。许多研究表明,由于晚期血吸虫病患者健康严重受损,功能障碍导致活动受限,其劳动能力,社会交往,收入,婚姻,家庭等都受到不同程度的影响,少数病人遭受歧视,导致他们缺乏幸福感,生活质量下降,而完善的社会保障机制和公共卫生体系是影响患者生活质量的主要因素[165]。目前,当局乃至全社会都在努力构建晚期血吸虫病患者救助的社会保障和公共卫生体系。在湖北,自2004年以来,政府将晚期血吸虫病患者救助项目列入重大民生项目予以政策和资金支持。然而由于疾病自身的特点,每年依然有治疗无效和死亡的病例。宿主组织中血吸虫虫卵沉积,释放可溶性虫卵抗原(SEA)可介导宿主以细胞免疫为主的免疫应答反应,引起虫卵肉芽肿性反应。患者一旦得不到及时有效治疗,虫卵肉芽肿即在肝脏和肠壁形成广泛的纤维化和相互连接的瘢痕,导致肠壁和肝脏的纤维化,最终引起晚期血吸虫病。肉芽肿可闭塞血管,门静脉系统周围大量纤维组织增生,在B超图像上反映为网络状结构和增强增粗的光点回声[166],除了腹腔积液以外,B超图像中也可见肝脏、脾脏、门脉和胆囊[167],有研究认为,晚期血吸虫病患者因为接受B超检查的可视化治疗而产生积极对抗疾病的心态[168]。晚期血吸虫病患者最突出的特征是肝脏受损[169]。肝组织受损时,转氨酶的水平会升高[170]。另外,胆红素由肝细胞合成与排泄[171],间接胆红素由老化红细胞分解产生,随血液循环在肝细胞中分布,肝细胞摄取的间接胆红素在葡萄醛酸基转移酶作用下形成直接胆红素,随胆汁排出。胆红素的代谢在肝功能异常时会发生障碍,血清中胆红素水平随之升高。在肝功能损害不断加重时,其激活的免疫反应也不断加重,肝细胞的破坏越多,肝功能损害程度就越重,此时白蛋白相应减少,球蛋白明显升高,A/G比例发生变化,一般可将A/G(白球蛋白比)作为评估肝实质损伤程度的指标。由上可知,肝功能及B超检查、肝纤维化四项指标与晚期血吸虫病人预后的关系亟待探讨。本文以孝南区104例患者为例,探讨以上指标与患者预后的关系。87 华中科技大学博士学位论文1材料和方法1.1研究对象收集孝南区血防专科医院2015年调查的104例确诊晚期血吸虫病人资料作为研究对象。入选标准:诊断为晚期血吸虫病;有血吸虫病治疗史或存在长期、频繁的疫水接触史;粪检发现血吸虫卵或毛蚴,或者直肠活检发现血吸虫卵或血清免疫学检查呈阳性;有腹胀、乏力和/或食欲不振等症状患者;获得了患者的知情同意。病例排除标准如下:原发性肝癌或其他肝脏占位性病变;梗阻性黄疸或溶血性黄疸;合并有其他严重的心血管、肾脏、造血或神经系统疾病按照预后结局不同分为两组,预后良好、不良两组。1.2研究方法标本采集:病人入院后,在无菌条件下空腹采集静脉血5ml,将血置于真空采血容器中,采血后立即与抗凝剂混匀,室温下送检,离心机转速3000r/min,离心10min后送检。肝纤四项检测:检测透明质酸(HyaluronicAcid,HA),层黏蛋白(Laminin,LN),IV型胶原(CollagenIV,CIV)和III型前胶原(ProcollagenIII,PCIII),用全自动化学发光仪AutoLumoA2000按照标准操作程序进行检测(委托武汉市瑞泰兰丁医学检验所有限公司检测)。B超检查:病人采用仰卧位或侧卧位,用超声诊断仪对病人脾脏、肝脏和腹腔多方位检查,主要观察:(1)脾脏大小,包括脾长、脾厚;(2)门静脉内径宽度;(3)腹水状况。条件允许情况下,也可同时观察肝内光点变化,肝脏左右径值和肝内血管变化等,有助于全面判断病情。肝功能指标检测:利用全自动生化分析仪检测肝功能总胆红素(Tbil)、谷丙转氨酶(ALT)、谷草转氨酶(AST)、TP(总蛋白)和A/G(白球蛋白比)。1.3统计学方法应用SPSS22.0软件进行统计学分析,计数资料以构成比表示,采用χ2检验进行两组间比较,P<0.05表示差异有统计学意义。88 华中科技大学博士学位论文2结果104例晚期血吸虫病患者中,男性64人,女性40人。年龄42~87岁,平均(66.7±10.0)岁。肝纤维化四项指标检测结果见表18。透明质酸(χ2=7.583,P=0.006)、层黏蛋白(χ2=4.379,P=0.036)的分布差异有统计学意义,III型前胶原PCIII、IV型胶原CIV分布差异无统计学意义(P>0.05)。表18两组患者肝纤维化四项指标分析预后良好预后不良肝纤四项χ2P病例数构成比(%)病例数构成比(%)正常5065.791035.71HA7.5830.006异常2634.211864.29正常6990.792175.00LN4.3790.036异常79.21725.00正常6585.532175.00PCIII1.5840.208异常1114.47725.00正常6484.212071.43CIV2.1520.142异常1215.79828.57患者B超检查指标检测结果见表19。腹水(χ2=5.069,P=0.024)分布差异有统计学意义。脾长、脾厚和门静脉PV分布差异无统计学意义(P>0.05)。表19两组患者B超结果分析预后良好预后不良B超结果构成比χ2P例数例数构成比(%)(%)无4660.531035.71腹水5.0690.024有3039.471864.29正常3951.321035.71脾长1.9990.157异常3748.681864.29正常2735.53828.57脾厚0.4430.506异常4964.472071.43门静脉正常6180.262071.430.9270.336(PV)异常1519.74828.57患者肝功能检查指标检测结果见表20。AST/ALT指标(χ2=9.022,P=0.029)分布差异有统计学意义。总胆红素Tbil、总蛋白TP和白球蛋白比(A/G)分布差异无统计学意义(P>0.05)。见表20。89 华中科技大学博士学位论文表20两组患者肝功能指标分析预后良好预后不良肝功能指标构成比构成比χ2P病例数病例数(%)(%)<11722.37517.861~25572.371657.14AST/ALT9.0220.0292~322.63517.86>322.6327.14正常4356.581346.43Tbil0.8480.357超标3343.421553.57正常6889.472278.57TP2.0880.148异常810.53621.431.5-2.5911.84310.71A/G0.0250.873<1.56788.162589.293讨论3.1肝纤维化四项指标晚期血吸虫病肝脏内弥漫性细胞外基质(Extracellularmatrix,ECM)过度沉积引起肝纤维化,过度的纤维化可使肝脏萎缩、变硬引起肝硬化。肝纤维化是向肝硬化过渡的一个阶段,过程可逆转,病情相对较轻,肝纤维化四项指标可反映肝脏纤维化程度。其中1项指标升高,肝脏可能已经出现纤维增生;要是2-3项指标升高,一般有明显的纤维增生。当4项指标均有升高,尤其透明质酸(HyaluronicAcid,HA)升高数倍时,应考虑肝脏高度纤维化甚至早期肝硬化出现。本研究发现血清层黏蛋白(Laminin,LN)和HA指标可能是判断晚期血吸虫病患者预后的指标。IV型胶原(CollagenIV,CIV)作为肝纤维化的早期标志,其他与基底膜相关疾病也可出现该指标异常,如硬皮病,中晚期糖尿病和甲状腺功能亢进。III型前胶原(ProcollagenIII,PCIII)与CIV类似,也是肝纤维化的早期标志,反映肝内III型胶原合成,但无特异性。血清PCIII水平在其他器官纤维化时也升高。这可能解释了本研究血清CIV、PCIII水平在两组分布差异无统计学意义。HA是由间质细胞合成的一种酸性粘多糖,可定量反映肝细胞受损程度和肝脏内纤维生成量,是肝硬变和肝纤维化的敏感指标(肝硬化患者血清HA极度升高),比90 华中科技大学博士学位论文肝活检更能反映病肝全貌并有助于评估肝病发展趋势。为了避免侵入性的肝脏组织活检,有研究用一组血清标记物(HA、金属蛋白酶抑制剂1、α2-巨球蛋白)作为肝纤维化的临床指标,以判断HCV患者的预后[172]。这项前瞻性研究结果支持血清标志物在肝纤维化检测中的应用,AUC为0.826,代表这组血清标志物检测纤维化诊断价值较高。在另一项结缔组织生长因子(ConnectiveTissueGrowthFactor,CTGF)、基质金属蛋白酶-13(MatrixMetalloproteinase,MMP-13)在促进肝纤维化作用研究中,NDMA给药导致WT小鼠血清中HA、ALT、AST、TGF-β1大量升高,肝星形细胞激活后大量坏死,引起胶原纤维沉积,这也证明了HA升高是肝纤维化必经阶段[173]。酒精性肝病里,HA升高,肝纤维化程度加重,预后不良[174],HA被证明可以鉴别有肝纤维化症状的几种不同形式肝病[175]。用ARFI结合肝纤维化四项指标诊断原发性胆汁性肝硬化程度,诊断效果令人满意,具有临床应用价值[176]。层黏蛋白(Laminin,LN)在肝内主要由贮脂细胞和内皮细胞合成,是一种构成细胞间质的非胶原糖,与胶原一起构成基底膜成分,其生物功能是作为细胞黏着于基质膜的介质,并与多种基底膜成分结合,不仅可调节细胞生长与分化,也与门静脉压力和肝纤维化活动程度呈正相关。在血吸虫病和慢性病毒性丙型肝炎患者中都确定血清LN作为肝纤维化指标的诊断准确性[177]。ELISA结果显示,所有肝纤维化患者的血清LN与对照组相比,均显著升高(P<0.001)。另外,与血吸虫病或病毒性丙肝患者相比,血吸虫病和病毒性肝炎患者血清中的LA浓度增加。血清LN的显著增加可能是由于强烈刺激纤维蛋白生成,特别是在双重感染的情况下(血吸虫和丙型肝炎病毒)。晚期血吸虫病的门静脉高压症状,一旦导致静脉曲张出血,后果是致命的。一项研究发现晚期血吸虫病患者血清HA、LN与对照组相比明显升高[178],这些数据与巴西的研究结果一致[179-180]。血清LN水平在肝纤维化症状改善时相应下降[181]。因此,血清HA、LN指标与纤维化分期,肝脏炎症分级和慢性肝炎程度都相关,可作为晚期血吸虫病患者的预后指标。目前关于日本血吸虫病肝纤维化的机制研究很多。在血吸虫感染后,成虫一般迁移到肠系膜静脉,在感染后5-6周开始产卵。虫卵可以逆血流进入肠道进行排泄,或在肝血管系统中形成栓塞,造成肝内阻力(IntrahepaticResistance,IHR)升高,肝星状细胞(HepaticStellateCell,HSC)和成纤维细胞由IL-4/IL-13激活,沉积的胶原基质包围髓样和淋巴样细胞组成肉芽肿,隔离毒性虫卵抗原,引起炎性肉芽肿性反应。有研究认为,大多数血吸虫病感染者可发展成为轻度肠道血吸虫病,一小部分无法缓解的病变可发展成为与门脉高压、肝纤维化相关的肝脾型血吸虫病,可危及生命[182]。91 华中科技大学博士学位论文在小鼠模型中,有的发生明显的急性肝炎或急性死亡,而有的发展到慢性阶段,肝纤维化是其预后不良的主要因素,这种差异很大程度上取决于宿主的遗传背景。虽然肉芽肿性肝纤维化可以保护晚期血吸虫病患者肝细胞免受毒性损伤,但是在肝损伤持续的情况下,免疫调节失控若引起ECM过度沉积,将导致肝硬变甚至肝细胞癌[183]。肝细胞和胆管细胞的凋亡或坏死会导致IL-6,IL-1β,TNF-α的分泌,并导致吞噬性白细胞和HSC的募集。其中HSC往往在凋亡肝细胞发生吞噬作用后,或在炎症介质如PDGF,TGF-β和IL-13中发生反式激活,在肝纤维化进程中非常关键[184]。与其他慢性肝病相反,血吸虫病肝损伤表现为迟发型超敏反应,ECM沉积量相对较高,但发展为肝硬化或者肝细胞癌(HepatocellularCarcinoma,HCC)的风险相对较低,组织包埋的血吸虫卵引起持续的肝损伤,并引发具有早期强烈的Th1性肉芽肿反应,分泌IL-1β,IL-12,TNF-α和INF-γ。在慢性感染阶段,在虫卵沉积发生于Th2介导的连续反应后。其特征在于IL-4,IL-5,IL-10,IL-13的分泌和IgE的产生[185]。促纤维化的Th2环境促进巨噬细胞的替代性活化,从而调节肉芽肿性炎症,吡喹酮治疗能有效地清除成虫但不影响晚期血吸虫病肝纤维化及其临床结局。有研究证明血吸虫卵刺激IL-22转录物的产生并抑制血吸虫感染小鼠中IL22-BP(BindingProtein)转录物的积累。血吸虫卵选择性刺激慢性血吸虫感染个体的血液白细胞培养物中产生IL-22,而培养物中的高IL-22水平与防止肝纤维化和门静脉高压相关[186]。某些渔船民有20年以上接触疫水史,却未感染或仅轻度感染,这是由于肝纤维化得到了有效控制,而不是抗感染的先天保护作用。研究显示渔民的门脉直径与IL22的水平负相关,说明肝纤维化最严重阶段高IL22水平可能起到保护作用。肝脏组织修复在HCV感染中可能比在血吸虫感染中更重要,因为HCV对肝细胞具有非常大的细胞毒性,而血吸虫病患者可以将虫卵隔离在肉芽肿中阻止有毒物质扩散。促进IL-22BP表达的突变和血吸虫病会加重肝纤维化和肝硬化,表明IL-22BP和IL-22可能是预防和治疗肝纤维化的靶点。在遗传学方面,有学者建立血吸虫病动物模型研究microRNA-21调节肝纤维化的机制。SMAD蛋白激活证实了TGF-β1和IL-13在上调HSC中microRNA-21表达的累加作用,揭示了IL-13介导的血吸虫病肝纤维化的机制,并强调抑制重组腺相关病毒(recombinantAdeno-AssociatedVirus8,rAAV8)介导的microRNA-21可能有治疗血吸虫病肝纤维化的潜力。此外,下调HSC中microRNA-21通过增强SMAD7的表达可使肝纤维化逆转,抑制TGF-β1/SMAD和IL-13/SMAD途径。92 华中科技大学博士学位论文3.2B超检查与肝组织活检相比,B超检查除了具有无创伤性的优点,在晚期血吸虫病患者诊断方面的灵敏度和特异度与之相近。有学者提出,B超检查可以用于指导晚期血吸虫病人治疗和预测门脉高压和上消化道出血风险[187]。研究表明,ARFI超声弹力成像测量的中位数速度与非酒精性脂肪性肝病(Non-alcoholFattyLiverDisease,NAFLD)患者的肝纤维化程度呈正相关,并与以下参数有关:肝硬度(r=0.75,P<0.00001),血清HA水平(r=0.459,P=0.0009),血清IV型胶原7S结构域水平(r=0.445,P=0.0015)。本研究发现在两组中腹水指标有差异,说明腹水可能作为晚期血吸虫病患者的临床预后指标。腹水是晚期血吸虫病常见症状,患病率高达60-90%,是由肉芽肿炎性聚集和门脉纤维化引起的,很多研究还表明腹水与持续的肝纤维化和肝损伤有关,虫卵引起肉芽肿导致物理性静脉血管阻塞、肝纤维化、门静脉高压和血浆胶体渗透压降低,最终引起腹水症状的产生。因此,血管损伤和纤维化的病理生理指标也能够预测腹水发生风险[188]。晚期血吸虫病肝硬化B超检查的典型情况有:脾脏肿大,门静脉增宽≥14mm,脾静脉增宽≥9mm。由于原发性肝癌、脂肪肝和肝炎后肝硬化在B超图像中与其高度类似,所以测量脾厚、脾长和门静脉内径等指标,有助于鉴别诊断。作为高灵敏度的筛检手段,B超检查方法可能假阳性率较高,也可能会导致过度医疗,但B超检查的可视化效果好,便于向受检者解释[189]。还有研究发现晚期血吸虫病患者B超检查可查见肝实质特征性改变,分级可与其他原因引起的肝脏疾病进行区分。平均门脉内径随着肝实质B超的光点分级提高,也依次增加(P<0.05)。有研究认为,晚期血吸虫病人上消化道出血与门静脉内径高度和食管静脉曲张程度高度相关,而B超检查对肝实质病变分级,可以间接反映肝脏病变和门脉高压的程度。B超检查是无创性的,可反复进行,一旦检查中发现食管或胃底静脉曲张,可以预防性服用降低门脉压的药物,预防上消化道出血[190-191]。B超也可以用来评估肝肿大,脾肿大和门静脉高压引起门静脉扩张的情况。50岁以上的成年人受感染的可能性低于年轻人,可能与生命后期与疫水接触的减少或获得性免疫有关。虽然肝组织活检是评估纤维化的“金标准”,在临床上,肝纤维化一般通过B超评估,这是一种安全,快速,无创和相对廉价的技术,用于评估个体和社区血吸虫病调查。国外自上世纪70年代以来,B超检查就已应用于血吸虫病检测,也用于评估肝脏负担和门脉高压[192-193]。93 华中科技大学博士学位论文除B超以外,CT图像的纹理特征分析使肝纤维化分期成为可能,但在异质性纤维化分布的情况下不太准确,不如超声瞬时弹性成像[194]。MRI除了在常规图像上检测肝纤维化的形态学指标如脾肿大和门静脉高压,也可以实现整个腹部覆盖[195]。磁共振技术MRS也可以用于诊断慢性肝血吸虫病患者的门脉系统性脑病(Portal-systemicEncephalopathy,PSE),导致Mn沉积的门静脉系统分流可能是T1加权像显示基底节高信号的主要原因[196]。一般当宿主血吸虫虫卵的排泄量小于100个虫卵/克粪便的时候(即虫荷<40条成虫),评估疾病负担非常困难。免疫诊断技术过度依赖于循环抗体,在检测时存在时间延迟。在诊断技术的研究中,荧光分子断层成像技术(FluorescenceMolecularTomography,FMT)利用血吸虫消化道中富含的组织蛋白酶激活的近红外成像探针,对小鼠模型中的虫荷定量,但不能用于人体。近期有研究证明,氟脱氧葡萄糖(Fluorodeoxyglucose,FDG)正电子发射断层扫描(PositronEmissionTomography,PET)有助于非侵入性对血吸虫感染者的虫荷定量[197]。3.3肝功能指标目前关于肝功能指标与晚期血吸虫病患者预后关系的研究不多,一项研究调查了江西省494名晚期血吸虫病患者和69名健康受试者,评估患者肝功能异常及与合并HBV感染的相关性。研究发现患者ALT,AST异常率比对照组明显要高,表明不仅肝功能受损,而且也直接影响肝细胞。血吸虫合并乙肝病毒感染是患者预后不良的危险因素。对混合感染者,须提前做好常规保肝治疗[198]。血吸虫病患者的肝脏代谢变化显著,总蛋白(TotalProtein,TP)异常率升高,TP由球蛋白(Globin,GLB)和白蛋白(Albumin,ALB)组成。其中ALB由肝脏生成,肝功能受损时ALB降低。GLB由免疫器官产生,病原体感染或受到炎症影响,GLB增加。在肝硬化和慢性肝炎患者中,GLB增加,ALB下降,ALB/GLB比倒置,表明晚期血吸虫病人肝功能存在不同程度的损害。当肝细胞的损伤不像急性肝炎的早期那样严重时,只有肝细胞的细胞质中的酶被释放。ALT升高高于AST,AST/ALT低于1.0。当肝炎患者恢复时,AST/ALT比例也恢复至正常水平[199]。肝细胞受损严重可导致线粒体和细胞质中的酶释放到血液中,AST升高程度高于ALT,AST和ALT是目前反映肝细胞功能的最常用指标。轻型慢性、急性肝炎病人虽然有肝细胞损伤,但线粒体完整,只有肝细胞质内的ALT释放入血,故主要表现为ALT升高,AST/ALT<1。中重度慢性和急性重症肝炎患者不仅有肝细胞损伤,线粒体也受损,ALT和线粒体AST都释放入血,故表现为94 华中科技大学博士学位论文ALT和AST均升高,AST/ALT≥l。肝癌和肝硬化病人的肝细胞线粒体严重损伤,AST、ALT均升高,AST升高更显著,AST/ALT>1,甚至>20。有脾切除史患者可以恢复肝功能,在中国血吸虫病和乙肝病毒(HBV)感染是肝病的主要原因,二者混合感染严重损害肝功能,导致病人预后不良[200-201]。一旦慢性乙肝感染确立,HBV可能终生存活于肝脏,不仅导致严重的HBV后遗症如肝硬化和肝细胞癌,还构成传播病毒的储库。血吸虫肉芽肿刺激纤维组织形成,HBV引起细胞的肿胀和斑点性坏死,肝功能加速恶化导致失代偿性肝病[202]。但是,我们还应该看到,不同于肝纤四项和腹水指标,肝功能指标的影响因素众多,很多疾病都可能影响肝功能指标的变化,肝功能指标是不是晚期血吸虫病预后的特异性指标,还有待进一步研究。本部分以孝南区为例,研究晚期血吸虫病患者肝纤维化四项、B超检查和肝功能检查结果与预后的关系,发现肝纤维化四项指标中透明质酸和层黏蛋白,B超检查的腹水,肝功能检查AST/ALT指标可作为患者预后临床指标。95 华中科技大学博士学位论文研究结论1、通过流行病学调查,比较全面掌握了全省在册晚期血吸虫病人的基本人口学特征、临床和实验室检查特征和救治管理状况。为提升全省晚期血吸虫病人的救治管理水平提供了重要的参考依据,也对开展预后研究提供了基础资料,。2、人工智能领域机器学习模型对于克服传统预后预测模型的多重共线性效应、变量间交互作用和数据分布要求较高等局限性,有良好的作用。kNN模型和SVM模型在晚期血吸虫病人预后预测中的性能都比较理想(AUC>0.75),kNN模型灵敏度优于SVM模型;SVM模型特异度优于kNN模型。研究还发现,在不同参数条件下,随着k取值的降低,kNN模型的性能逐渐提升。ANN模型,LR模型和DT模型都被证明是有效的并且有各自的优势,但ANN模型在AUC和灵敏度方面优于LR和DT模型。3种BN模型的预测效果都较为理想,在模型预测性能比较中,NBN(AUC=0.724)和TAN(AUC=0.737)更为适合,因为这两种模型的AUC高于GBN(AUC=0.658)。NBN和TAN模型虽然AUC接近,由于TAN模型考虑了自变量间的相互关系,更符合人们日常认知,解释性更强,因此在TAN模型更适合用于临床疾病预后预测工具。RF和GBDT模型(参数n.tree=5000)都取得了良好效果(AUC>0.75)。在训练集中,RF模型预测性能的主要指标(AUC、灵敏度和特异度)均优于GBDT和DT模型;RF模型在测试集的AUC也优于GBDT和DT模型,三者灵敏度和特异度接近。而值得注意的是,GBDT的预测性能指标并没有优于DT模型。为了验证参数调整过程对模型预测性能的影响,本文研究结果显示,当n.tree分别取值5000、4000、3000、2000和1000的时候,RF模型的AUC保持稳定,而GBDT模型的AUC递减,说明对于RF模型,决策树棵数到达1000以后,模型的性能趋于稳定,而GBDT模型尚未达到模型性能稳定的分类树棵数。为了达到最高水平的预测准确性并更好地协助临床医师,应在比较预测模型性能后,结合具体医学问题的需要加以选择。3、以孝南区为例,发现肝纤维化四项指标中透明质酸和层黏蛋白,B超检查中腹水,肝功能检查中AST/ALT指标可作为晚期血吸虫病预后临床指标。96 华中科技大学博士学位论文创新点和局限性一、创新点国内外少见晚期血吸虫病预后预测研究,而且晚期血吸虫病影响因素多、致病机制复杂,传统统计学模型(主要是Logistic回归模型、Cox比例风险模型)不太适用。本研究应用机器学习模型,围绕晚期血吸虫病的预后预测进行了分析。1、本研究采用kNN和SVM两种非参数机器学习模型预测晚期血吸虫病的预后,都取得了良好的预测效果(AUC>0.75)。在数据资料不满足特定分布的情况下,参数模型(如LR模型)和半参数模型(如Cox比例风险模型)不适用时,本研究提供了新的选择,为类似研究开辟了新的思路,也有助于不同方法之间结果的对比。kNN和SVM模型容易调整参数,能生成预测效能更好的模型,可以辅助临床医师决策。2、本研究采用ANN模型、决策树和LR模型预测晚期血吸虫病预后,三个模型都取得了良好预测效果。ANN比LR模型对数据要求更低,克服了LR模型无法解决多重共线性和变量间交互作用的缺点,可以一次性纳入多个自变量进行分析,而且自变量个数越多,越能显示ANN模型的优势,这给类似研究提供了新的方法。决策树模型显示了清晰的变量筛选过程,容易理解,较之于传统统计学方法推导过程复杂且不易理解,DT模型更有助于辅助临床医师决策。3、本研究采用3种贝叶斯网络模型预测晚期血吸虫病预后,其中TAN模型在分析诸多影响晚期血吸虫病预后因素之间的交互作用时,可解释性最好。BN模型利用了先验知识,成功解决了自变量的交互作用不易分析的难题,有助于其他类似研究借鉴。4、本研究首次将集成学习模型应用于晚期血吸虫病预后预测,它不但支持了决策树部分的研究,同时RF模型和GBDT模型能集成多棵决策树进行预测,克服了单棵决策树泛化能力不足的缺点,有助于模型的外推。同时,集成学习模型也容易调整参数,可以生成预测效能更好的模型,为类似研究提供了新的思路和方法。二、局限性1、本研究为回顾性研究。在收集流行病学调查数据过程中,部分项目可能存在回忆偏倚,数据的完整性有欠缺,对结果产生了一定的影响,但不会降低研究结果的可信度。2、是机器学习算法中,每个模型都有自身的缺点,如ANN模型存在“黑盒”理论,kNN模型、SVM模型和集成学习模型参数调整过程缺乏理论依据,决策树模型97 华中科技大学博士学位论文泛化能力不足,贝叶斯网络模型利用先验经验的主观性,都给模型在解释性和应用带来一定的困难。具体到每一个特定疾病的预后研究,侧重点往往不同,比如预后不良导致的后果很严重时,预测模型应尽量提高灵敏度,以避免假阴性的产生;预后不良不会带来严重后果,但是筛查成本很高,预测模型应尽量提高特异度,避免假阳性的产生,这些情况的差异也给机器学习模型的应用带来困难。3、用机器学习模型预测晚期血吸虫病预后,除了将回顾性队列分为训练组和测试组进行内部验证以外,最好还要在独立的前瞻性队列上进行外部验证,但本研究限于经费,并未开展前瞻性队列研究以验证模型的有效性。由于本研究中采用的绝大多数模型AUC>0.75,并通过了内部测试集的验证,在预后预测研究中可以认为是好的预测模型。98 华中科技大学博士学位论文参考文献[1]RossAG,OlvedaRM,AcostaL,etal.RoadtotheeliminationofschistosomiasisfromAsia:thejourneyisfarfromover[J].MicrobesInfect,2013,15(13):858-865.[2]XuJ,YuQ,TchuenteLA,etal.EnhancingcollaborationbetweenChinaandAfricancountriesforschistosomiasiscontrol[J].LancetInfectDis,2016,16(3):376-383.[3]张利娟,徐志敏,钱颖骏,等.2015年全国血吸虫病疫情通报[J].中国血吸虫病防治杂志,2016,28(6):611-617.[4]JiaTW,UtzingerJ,DengY,etal.Quantifyingqualityoflifeanddisabilityofpatientswithadvancedschistosomiasisjaponica[J].PLoSNeglTropDis,2011,5(2):e966.[5]GrayDJ,McManusDP,LiY,etal.Schistosomiasiselimination:lessonsfromthepastguidethefuture[J].LancetInfectDis,2010,10(10):733-736.[6]BieriFA,GrayDJ,WilliamsGM,etal.Health-educationpackagetopreventworminfectionsinChineseschoolchildren[J].NEnglJMed,2013,368(17):1603-1612.[7]RossAG,OlvedaRM,LiY.Anaudaciousgoal:theeliminationofschistosomiasisinourlifetimethroughmassdrugadministration[J].Lancet,2015,385(9983):2220-2221.[8]陈艳艳.湖北省血吸虫病空间流行特征及预测分析[D].华中科技大学流行病与卫生统计学,2014.[9]甘秀敏.血吸虫病流行的评估与预测预警研究[D].华中科技大学流行病与卫生统计学,2011.[10]王汝波,辜小南,陈柳燕,等.全国晚期血吸虫病治疗救助情况调查[J].中国热带医学,2010,10(8):934-936.[11]ZhangLJ,LiSZ,WenLY,etal.TheEstablishmentandFunctionofSchistosomiasisSurveillanceSystemTowardsEliminationinThePeople'sRepublicofChina[J].AdvParasitol,2016,92:117-141.[12]杨芬,刘羽中,谭晓东,等.2014年湖北省晚期血吸虫病核查与救治项目绩效评价[J].中国卫生经济,2016,35(12):95-98.[13]SongL,WuX,RenJ,etal.Assessmentoftheeffectoftreatmentandassistance99 华中科技大学博士学位论文programonadvancedpatientswithschistosomiasisjaponicainChinafrom2009to2014[J].ParasitolRes,2016,115(11):4267-4273.[14]SongL,WuX,ZhangB,etal.Across-sectionalsurveycomparingafreetreatmentprogramforadvancedschistosomiasisjaponicatoageneralassistanceprogram[J].ParasitolRes,2017,116(11):2901-2909.[15]《湖北省晚期血吸虫病救治管理信息系统》及临床路径实施:全国血吸虫病诊治技术与临床研究学术研讨会,湖北荆州,2013[C].[16]DuX,PatelA,LiX,etal.Treatmentandoutcomesofacutecoronarysyndromesinwomen:AnanalysisofamulticenterqualityimprovementChinesestudy[J].IntJCardiol,2017,241:19-24.[17]LeonardJ,HiekenTJ,HusseinM,etal.Delineationoffactorsassociatedwithprolongedlengthofstayafterlaparoscopicventralherniarepairleadstoaclinicalpathwayandimprovesqualityofcare[J].SurgEndosc,2016,30(4):1614-1618.[18]KeeJR,EdwardsPK,BarnesCL.EffectofRiskAcceptanceforBundledCarePaymentsonClinicalOutcomesinaHigh-VolumeTotalJointArthroplastyPracticeAfterImplementationofaStandardizedClinicalPathway[J].JArthroplasty,2017,32(8):2332-2338.[19]牛雪花,华海涌,郭文建,等.晚期血吸虫病抗肝纤维化治疗临床路径的实施效果观察[J].中国血吸虫病防治杂志,2017,29(4):475-477.[20]钟森林,田学根,陈德银,等.临床路径在腹水型晚期血吸虫病患者中的应用效果评价[J].热带病与寄生虫学,2014(3):143-145.[21]廖红保.220例腹水型晚期血吸虫病患者临床路径救治效果[J].中国血吸虫病防治杂志,2015(3):319-320.[22]LiuR,DongHF,JiangMS.ThenewnationalintegratedstrategyemphasizinginfectionsourcescontrolforschistosomiasiscontrolinChinahasmaderemarkableachievements[J].ParasitolRes,2013,112(4):1483-1491.[23]NingA,WuX,LiH,etal.AbnormalliverfunctionindifferentpatientswithSchistosomajaponicum[J].ParasitolRes,2015,114(1):85-90.[24]WuW,FengA,HuangY.ResearchandcontrolofadvancedschistosomiasisjaponicainChina[J].ParasitolRes,2015,114(1):17-27.[25]ColleyDG,BustinduyAL,SecorWE,etal.Humanschistosomiasis[J].Lancet,100 华中科技大学博士学位论文2014,383(9936):2253-2264.[26]何亮才,袁梅枝,王加松,等.2004-2014年荆州市血吸虫病疫情分析[J].中国血吸虫病防治杂志,2016,28(2):189-192.[27]陈艳艳,蔡顺祥,刘建兵,等.湖北省2008-2012年血吸虫病空间流行分析[J].中华流行病学杂志,2014,35(12):1366-1370.[28]秦长梅.宜昌市城区15年血吸虫病监测结果与分析[J].湖北预防医学杂志,2001,12(1):21.[29]周晓蓉,杨军晶,陈莉,等.晚期血吸虫病腹水型临床路径的制定与初步应用[J].公共卫生与预防医学,2014,25(3):103-105.[30]PengWX,TaoB,ClementsA,etal.Identifyinghigh-riskareasofschistosomiasisandassociatedriskfactorsinthePoyangLakeregion,China[J].Parasitology,2010,137(7):1099-1107.[31]ChoudhuryAR,ChoudhuryKN,IslamSM.RelationshipofdentaldiseaseswithcoronaryarterydiseasesanddiabetesinBangladesh[J].CardiovascDiagnTher,2016,6(2):131-137.[32]YadavD,MishraS,GuptaM,etal.EstablishmentofreferenceintervalforliverspecificbiochemicalparametersinapparentlyhealthynorthIndianpopulation[J].IndianJClinBiochem,2013,28(1):30-37.[33]BaanM,Galappaththi-ArachchigeHN,GagaiS,etal.TheAccuracyofPraziquantelDosePolesforMassTreatmentofSchistosomiasisinSchoolGirlsinKwaZulu-Natal,SouthAfrica[J].PLoSNeglTropDis,2016,10(5):e4623.[34]ZwangJ,OlliaroPL.Clinicalefficacyandtolerabilityofpraziquantelforintestinalandurinaryschistosomiasis-ameta-analysisofcomparativeandnon-comparativeclinicaltrials[J].PLoSNeglTropDis,2014,8(11):e3286.[35]WangX,GurarieD,MungaiPL,etal.Projectingthelong-termimpactofschool-orcommunity-basedmass-treatmentinterventionsforcontrolofSchistosomainfection[J].PLoSNeglTropDis,2012,6(11):e1903.[36]StecherCW,SackoM,MadsenH,etal.AnemiaandgrowthretardationassociatedwithSchistosomahaematobiuminfectioninMali:apossiblesubtleimpactofaneglectedtropicaldisease[J].TransRSocTropMedHyg,2017,111(4):144-153.[37]MahmudMA,SpigtM,MulugetaBA,etal.Riskfactorsforintestinalparasitosis,101 华中科技大学博士学位论文anaemia,andmalnutritionamongschoolchildreninEthiopia[J].PathogGlobHealth,2013,107(2):58-65.[38]TukahebwaEM,MagnussenP,MadsenH,etal.AveryhighinfectionintensityofSchistosomamansoniinaUgandanLakeVictoriaFishingCommunityisrequiredforassociationwithhighlyprevalentorganrelatedmorbidity[J].PLoSNeglTropDis,2013,7(7):e2268.[39]RasoG,LiY,ZhaoZ,etal.SpatialdistributionofhumanSchistosomajaponicuminfectionsintheDongtingLakeRegion,China[J].PLoSOne,2009,4(9):e6947.[40]WangS,CarltonEJ,ChenL,etal.Evaluationofaneducationalinterventiononvillagers'knowledge,attitudeandbehaviourregardingtransmissionofSchistosomajaponicuminSichuanprovince,China[J].ActaTrop,2013,127(3):226-235.[41]黄先龙,王方红,张建凯.晚期血吸虫病门脉高压症术后门静脉血栓形成的危险因素分析[J].中国血吸虫病防治杂志,2015,27(2):177-179.[42]GrayDJ,RossAG,LiYS,etal.Diagnosisandmanagementofschistosomiasis[J].BMJ,2011,342:d2651.[43]ChenYY,LiuJB,HuangXB,etal.NewintegratedstrategyemphasizinginfectionsourcecontroltocurbSchistosomiasisjaponicainamarshlandareaofHubeiProvince,China:findingsfromaneight-yearlongitudinalsurvey[J].PLoSOne,2014,9(2):e89779.[44]BakhtiarizadehMR,Moradi-ShahrbabakM,EbrahimiM,etal.NeuralnetworkandSVMclassifiersaccuratelypredictlipidbindingproteins,irrespectiveofsequencehomology[J].JTheorBiol,2014,356:213-222.[45]IslamSM,SajedT,KearneyCM,etal.PredSTP:ahighlyaccurateSVMbasedmodeltopredictsequentialcystinestabilizedpeptides[J].BMCBioinformatics,2015,16:210.[46]LiSZ,ZhengH,AbeEM,etal.ReductionpatternsofacuteschistosomiasisinthePeople'sRepublicofChina[J].PLoSNeglTropDis,2014,8(5):e2849.[47]XiaS,XueJB,ZhangX,etal.PatternanalysisofschistosomiasisprevalencebyexploringpredictivemodelinginJianglingCounty,HubeiProvince,P.R.China[J].InfectDisPoverty,2017,6(1):91.[48]HongXC,XuXJ,ChenX,etal.Assessingtheeffectofanintegratedcontrol102 华中科技大学博士学位论文strategyforschistosomiasisjaponicaemphasizingbovinesinamarshlandareaofHubeiProvince,China:aclusterrandomizedtrial[J].PLoSNeglTropDis,2013,7(3):e2122.[49]XiaoH,LiS,ChenX,etal.ProtectionmotivationtheoryinpredictingintentiontoengageinprotectivebehaviorsagainstschistosomiasisamongmiddleschoolstudentsinruralChina[J].PLoSNeglTropDis,2014,8(10):e3246.[50]MariL,CiddioM,CasagrandiR,etal.Heterogeneityinschistosomiasistransmissiondynamics[J].JTheorBiol,2017,432:87-99.[51]ZhouYB,ChenY,LiangS,etal.Multi-hostmodelandthresholdofintermediatehostOncomelaniasnaildensityforeliminatingschistosomiasistransmissioninChina[J].SciRep,2016,6:31089.[52]LiY,TengZ,RuanS,etal.AmathematicalmodelfortheseasonaltransmissionofschistosomiasisinthelakeandmarshlandregionsofChina[J].MathBiosciEng,2017,14(5-6):1279-1299.[53]ChanES,YeeCH,HouSM,etal.CurrentmanagementpracticeforbladdercancerinHongKong:ahospital-basedcross-sectionalsurvey[J].HongKongMedJ,2014,20(3):229-233.[54]WangG,LamKM,DengZ,etal.Predictionofmortalityafterradicalcystectomyforbladdercancerbymachinelearningtechniques[J].ComputBiolMed,2015,63:124-132.[55]JerezJM,MolinaI,Garcia-LaencinaPJ,etal.Missingdataimputationusingstatisticalandmachinelearningmethodsinarealbreastcancerproblem[J].ArtifIntellMed,2010,50(2):105-115.[56]ParodiS,ManneschiC,VerdaD,etal.LogicLearningMachineandstandardsupervisedmethodsforHodgkin'slymphomaprognosisusinggeneexpressiondataandclinicalvariables[J].HealthInformaticsJ,2018,24(1):54-65.[57]AgreloR,SouabniA,NovatchkovaM,etal.SATB1definesthedevelopmentalcontextforgenesilencingbyXistinlymphomaandembryoniccells[J].DevCell,2009,16(4):507-516.[58]WuX,ZouQ,HuJ,etal.IntrinsicFunctionalConnectivityPatternsPredictConsciousnessLevelandRecoveryOutcomeinAcquiredBrainInjury[J].JNeurosci,103 华中科技大学博士学位论文2015,35(37):12932-12946.[59]DosenbachNU,NardosB,CohenAL,etal.PredictionofindividualbrainmaturityusingfMRI[J].Science,2010,329(5997):1358-1361.[60]PereiraF,MitchellT,BotvinickM.MachinelearningclassifiersandfMRI:atutorialoverview[J].Neuroimage,2009,45(1Suppl):S199-S209.[61]SmyserCD,DosenbachNU,SmyserTA,etal.Predictionofbrainmaturityininfantsusingmachine-learningalgorithms[J].Neuroimage,2016,136:1-9.[62]ZouM,LiuZ,ZhangXS,etal.NCC-AUC:anAUCoptimizationmethodtoidentifymulti-biomarkerpanelforcancerprognosisfromgenomicandclinicaldata[J].Bioinformatics,2015,31(20):3330-3338.[63]CarltonEJ,BatesMN,ZhongB,etal.EvaluationofmammalianandintermediatehostsurveillancemethodsfordetectingschistosomiasisreemergenceinsouthwestChina[J].PLoSNeglTropDis,2011,5(3):e987.[64]SchraderM,HauffeT,ZhangZ,etal.SpatiallyexplicitmodelingofschistosomiasisriskineasternChinabasedonasynthesisofepidemiological,environmentalandintermediatehostgeneticdata[J].PLoSNeglTropDis,2013,7(7):e2327.[65]GrayDJ,ThriftAP,WilliamsGM,etal.Five-yearlongitudinalassessmentofthedownstreamimpactonschistosomiasistransmissionfollowingclosureoftheThreeGorgesDam[J].PLoSNeglTropDis,2012,6(4):e1588.[66]ChenYY,HuangXB,XiaoY,etal.SpatialanalysisofSchistosomiasisinHubeiProvince,China:aGIS-basedanalysisofSchistosomiasisfrom2009to2013[J].PLoSOne,2015,10(4):e118362.[67]HuY,ZhangZ,ChenY,etal.SpatialpatternofschistosomiasisinXingzi,JiangxiProvince,China:theeffectsofenvironmentalfactors[J].ParasitVectors,2013,6:214.[68]ZhouL,YuL,WangY,etal.AhybridmodelforpredictingtheprevalenceofschistosomiasisinhumansofQianjiangCity,China[J].PLoSOne,2014,9(8):e104875.[69]ZhouL,XiaJ,YuL,etal.UsingaHybridModeltoForecastthePrevalenceofSchistosomiasisinHumans[J].IntJEnvironResPublicHealth,2016,13(4):355.[70]BockarieMJ,Kelly-HopeLA,RebolloM,etal.Preventivechemotherapyasastrategyforeliminationofneglectedtropicalparasiticdiseases:endgamechallenges[J].104 华中科技大学博士学位论文PhilosTransRSocLondBBiolSci,2013,368(1623):20120144.[71]JiaTW,ZhouXN,WangXH,etal.Assessmentoftheage-specificdisabilityweightofchronicschistosomiasisjaponica[J].BullWorldHealthOrgan,2007,85(6):458-465.[72]HotezPJ,AlvaradoM,BasanezMG,etal.Theglobalburdenofdiseasestudy2010:interpretationandimplicationsfortheneglectedtropicaldiseases[J].PLoSNeglTropDis,2014,8(7):e2865.[73]KingCH,DickmanK,TischDJ.Reassessmentofthecostofchronichelminticinfection:ameta-analysisofdisability-relatedoutcomesinendemicschistosomiasis[J].Lancet,2005,365(9470):1561-1569.[74]UtzingerJ,ZhouXN,ChenMG,etal.ConqueringschistosomiasisinChina:thelongmarch[J].ActaTrop,2005,96(2-3):69-96.[75]ZhouXN,WangLY,ChenMG,etal.ThepublichealthsignificanceandcontrolofschistosomiasisinChina--thenandnow[J].ActaTrop,2005,96(2-3):97-105.[76]ZhuH,CaiSX,LiuJB,etal.AspatialanalysisofhumanSchistosomajaponicuminfectionsinHubei,China,during2009-2014[J].ParasitVectors,2016,9(1):529.[77]WuXH,ZhangSQ,XuXJ,etal.EffectoffloodsonthetransmissionofschistosomiasisintheYangtzeRivervalley,People'sRepublicofChina[J].ParasitolInt,2008,57(3):271-276.[78]OlvedaDU,OlvedaRM,MontesCJ,etal.Clinicalmanagementofadvancedschistosomiasis:acaseofportalveinthrombosis-inducedsplenomegalyrequiringsurgery[J].BMJCaseRep,2014,2014.DOI:10.1136/bcr-2014-203897[79]HuangLH,QiuYW,HuaHY,etal.Theefficacyandsafetyofentecavirinpatientswithadvancedschistosomiasisco-infectedwithhepatitisBvirus[J].IntJInfectDis,2013,17(8):e606-e609.[80]ZhuL,LuoW,SuM,etal.ComparisonbetweenartificialneuralnetworkandCoxregressionmodelinpredictingthesurvivalrateofgastriccancerpatients[J].BiomedRep,2013,1(5):757-760.[81]ZhengMH,ShiKQ,LinXF,etal.Amodeltopredict3-monthmortalityriskofacute-on-chronichepatitisBliverfailureusingartificialneuralnetwork[J].JViralHepat,2013,20(4):248-255.105 华中科技大学博士学位论文[82]AnderssonS,HeijlA,BiziosD,etal.Comparisonofcliniciansandanartificialneuralnetworkregardingaccuracyandcertaintyinperformanceofvisualfieldassessmentforthediagnosisofglaucoma[J].ActaOphthalmol,2013,91(5):413-417.[83]BrimsFJ,MeniawyTM,DuffusI,etal.ANovelClinicalPredictionModelforPrognosisinMalignantPleuralMesotheliomaUsingDecisionTreeAnalysis[J].JThoracOncol,2016,11(4):573-582.[84]EstebanC,ArosteguiI,MorazaJ,etal.DevelopmentofadecisiontreetoassesstheseverityandprognosisofstableCOPD[J].EurRespirJ,2011,38(6):1294-1300.[85]Barnholtz-SloanJS,GuanX,Zeigler-JohnsonC,etal.Decisiontree-basedmodelingofandrogenpathwaygenesandprostatecancerrisk[J].CancerEpidemiolBiomarkersPrev,2011,20(6):1146-1155.[86]ZhouXN,XuJ,ChenHG,etal.ToolstosupportpolicydecisionsrelatedtotreatmentstrategiesandsurveillanceofSchistosomiasisjaponicatowardselimination[J].PLoSNeglTropDis,2011,5(12):e1408.[87]LuDB,ZhouL,LiY.Improvingaccesstoanti-schistosometreatmentandcareinnonendemicareasofChina:lessonsfromonecaseofadvancedschistosomiasisjaponica[J].PLoSNeglTropDis,2013,7(1):e1960.[88]LeiteLA,PimentaFA,MartinsDFC,etal.Hemostaticdysfunctionisincreasedinpatientswithhepatosplenicschistosomiasismansoniandadvancedperiportalfibrosis[J].PLoSNeglTropDis,2013,7(7):e2314.[89]DeolA,WebsterJP,WalkerM,etal.DevelopmentandevaluationofaMarkovmodeltopredictchangesinschistosomiasisprevalenceinresponsetopraziquanteltreatment:acasestudyofSchistosomamansoniinUgandaandMali[J].ParasitVectors,2016,9(1):543.[90]BassiP,SaccoE,DeMarcoV,etal.Prognosticaccuracyofanartificialneuralnetworkinpatientsundergoingradicalcystectomyforbladdercancer:acomparisonwithlogisticregressionanalysis[J].BJUInt,2007,99(5):1007-1012.[91]KourouK,ExarchosTP,ExarchosKP,etal.Machinelearningapplicationsincancerprognosisandprediction[J].ComputStructBiotechnolJ,2015,13:8-17.[92]StojadinovicA,NissanA,EberhardtJ,etal.DevelopmentofaBayesianBeliefNetworkModelforpersonalizedprognosticriskassessmentincoloncarcinomatosis[J].106 华中科技大学博士学位论文AmSurg,2011,77(2):221-230.[93]AndersonB,HardinJM,AlexanderDD,etal.Comparisonofthepredictivequalitiesofthreeprognosticmodelsofcolorectalcancer[J].FrontBiosci(EliteEd),2010,2:849-856.[94]BirjandiM,AyatollahiSM,PourahmadS.TheReliabilityofClassificationofTerminalNodesinGUIDEDecisionTreetoPredicttheNonalcoholicFattyLiverDisease[J].ComputMathMethodsMed,2016,2016:3874086.[95]BiglarianA,BakhshiE,GohariMR,etal.Artificialneuralnetworkforpredictionofdistantmetastasisincolorectalcancer[J].AsianPacJCancerPrev,2012,13(3):927-930.[96]GohariMR,BiglarianA,BakhshiE,etal.Useofanartificialneuralnetworktodetermineprognosticfactorsincolorectalcancerpatients[J].AsianPacJCancerPrev,2011,12(6):1469-1472.[97]MengXH,HuangYX,RaoDP,etal.Comparisonofthreedataminingmodelsforpredictingdiabetesorprediabetesbyriskfactors[J].KaohsiungJMedSci,2013,29(2):93-99.[98]HoWH,LeeKT,ChenHY,etal.Disease-freesurvivalafterhepaticresectioninhepatocellularcarcinomapatients:apredictionapproachusingartificialneuralnetwork[J].PLoSOne,2012,7(1):e29179.[99]BiglarianA,BakhshiE,GohariMR,etal.Artificialneuralnetworkforpredictionofdistantmetastasisincolorectalcancer[J].AsianPacJCancerPrev,2012,13(3):927-930.[100]FeiY,HuJ,GaoK,etal.Predictingriskforportalveinthrombosisinacutepancreatitispatients:Acomparisonofradicalbasisfunctionartificialneuralnetworkandlogisticregressionmodels[J].JCritCare,2017,39:115-123.[101]KimSM,HanH,ParkJM,etal.AcomparisonoflogisticregressionanalysisandanartificialneuralnetworkusingtheBI-RADSlexiconforultrasonographyinconjunctionwithintrobservervariability[J].JDigitImaging,2012,25(5):599-606.[102]FernandezL,MedianoP,GarciaR,etal.RiskFactorsPredictingInfectiousLactationalMastitis:DecisionTreeApproachversusLogisticRegressionAnalysis[J].MaternChildHealthJ,2016,20(9):1895-1903.107 华中科技大学博士学位论文[103]AminiP,MaroufizadehS,SamaniRO,etal.PrevalenceandDeterminantsofPretermBirthinTehran,Iran:AComparisonbetweenLogisticRegressionandDecisionTreeMethods[J].OsongPublicHealthResPerspect,2017,8(3):195-200.[104]AminiP,AhmadiniaH,PoorolajalJ,etal.EvaluatingtheHighRiskGroupsforSuicide:AComparisonofLogisticRegression,SupportVectorMachine,DecisionTreeandArtificialNeuralNetwork[J].IranJPublicHealth,2016,45(9):1179-1187.[105]Rezaei-DarziE,FarzadfarF,Hashemi-MeshkiniA,etal.ComparisonoftwodataminingtechniquesinlabelingdiagnosistoIranianpharmacyclaimdataset:artificialneuralnetwork(ANN)versusdecisiontreemodel[J].ArchIranMed,2014,17(12):837-843.[106]SenthilKA,GoyalMK,OjhaCS,etal.Applicationofartificialneuralnetwork,fuzzylogicanddecisiontreealgorithmsformodellingofstreamflowatKasolinIndia[J].WaterSciTechnol,2013,68(12):2521-2526.[107]AgharezaeiL,AgharezaeiZ,NematiA,etal.ThePredictionoftheRiskLevelofPulmonaryEmbolismandDeepVeinThrombosisthroughArtificialNeuralNetwork[J].ActaInformMed,2016,24(5):354-359.[108]KritasS,DejaegerE,TackJ,etal.Objectivepredictionofpharyngealswallowdysfunctionindysphagiathroughartificialneuralnetworkmodeling[J].NeurogastroenterolMotil,2016,28(3):336-344.[109]Nilsaz-DezfouliH,Abu-BakarMR,ArasanJ,etal.ImprovingGastricCancerOutcomePredictionUsingSingleTime-PointArtificialNeuralNetworkModels[J].CancerInform,2017,16:1886534930.[110]WiseES,StonkoDP,GlaserZA,etal.PredictionofProlongedVentilationafterCoronaryArteryBypassGrafting:DatafromanArtificialNeuralNetwork[J].HeartSurgForum,2017,20(1):E7-E14.[111]YooTK,KimDW,ChoiSB,etal.SimpleScoringSystemandArtificialNeuralNetworkforKneeOsteoarthritisRiskPrediction:ACross-SectionalStudy[J].PLoSOne,2016,11(2):e148724.[112]MendesRG,deSouzaCR,MachadoMN,etal.Predictingreintubation,prolongedmechanicalventilationanddeathinpost-coronaryarterybypassgraftsurgery:acomparisonbetweenartificialneuralnetworksandlogisticregression108 华中科技大学博士学位论文models[J].ArchMedSci,2015,11(4):756-763.[113]LiuX,LiNS,LvLS,etal.AcomparisonoftheperformancesofanartificialneuralnetworkandaregressionmodelforGFRestimation[J].AmJKidneyDis,2013,62(6):1109-1115.[114]HungM,BounsangaJ,LiuF,etal.ProfilingArthritisPainwithaDecisionTree[J].PainPract,2017.DOI:10.1111/papr.12645[115]GryseelsB,PolmanK,ClerinxJ,etal.Humanschistosomiasis[J].Lancet,2006,368(9541):1106-1118.[116]YangGJ,LiuL,ZhuHR,etal.China'ssustaineddrivetoeliminateneglectedtropicaldiseases[J].LancetInfectDis,2014,14(9):881-892.[117]WeatheraldJ,BouclyA,ChemlaD,etal.PrognosticValueofFollow-UpHemodynamicVariablesAfterInitialManagementinPulmonaryArterialHypertension[J].Circulation,2018,137(7):693-704.[118]BascomKE,DziodzioJ,VasaiwalaS,etal.DerivationandValidationoftheCRESTModelforVeryEarlyPredictionofCirculatoryEtiologyDeathinPatientsWithoutST-Segment-ElevationMyocardialInfarctionAfterCardiacArrest[J].Circulation,2018,137(3):273-282.[119]CucchettiA,PiscagliaF,GrigioniAD,etal.Preoperativepredictionofhepatocellularcarcinomatumourgradeandmicro-vascularinvasionbymeansofartificialneuralnetwork:apilotstudy[J].JHepatol,2010,52(6):880-888.[120]GreshamGK,WellsGA,GillS,etal.Chemotherapyregimensforadvancedpancreaticcancer:asystematicreviewandnetworkmeta-analysis[J].BMCCancer,2014,14:471.[121]BaumanJE,MichelLS,ChungCH.Newpromisingmoleculartargetsinheadandnecksquamouscellcarcinoma[J].CurrOpinOncol,2012,24(3):235-242.[122]LoghmanpourNA,KormosRL,KanwarMK,etal.ABayesianModeltoPredictRightVentricularFailureFollowingLeftVentricularAssistDeviceTherapy[J].JACCHeartFail,2016,4(9):711-721.[123]HariDM,HowardJH,LeungAM,etal.A21-yearanalysisofstageIgallbladdercarcinoma:ischolecystectomyaloneadequate?[J].HPB(Oxford),2013,15(1):40-48.[124]TamrakarD,PaudelI,AdhikaryS,etal.RiskFactorsforGallbladderCancerin109 华中科技大学博士学位论文NepalaCaseControlStudy[J].AsianPacJCancerPrev,2016,17(7):3447-3453.[125]CaiZQ,GuoP,SiSB,etal.AnalysisofprognosticfactorsforsurvivalaftersurgeryforgallbladdercancerbasedonaBayesiannetwork[J].SciRep,2017,7(1):293.[126]SongL,WuX,ZhangB,etal.Across-sectionalsurveycomparingafreetreatmentprogramforadvancedschistosomiasisjaponicatoageneralassistanceprogram[J].ParasitolRes,2017,116(11):2901-2909.[127]SongL,WuX,RenJ,etal.AssessmentoftheeffectoftreatmentandassistanceprogramonadvancedpatientswithschistosomiasisjaponicainChinafrom2009to2014[J].ParasitolRes,2016,115(11):4267-4273.[128]ChenMG.AssessmentofmorbidityduetoSchistosomajaponicuminfectioninChina[J].InfectDisPoverty,2014,3(1):6.[129]ZhouHB,WangH,ZhouDX,etal.Etiologicalandclinicopathologiccharacteristicsofintrahepaticcholangiocarcinomainyoungpatients[J].WorldJGastroenterol,2010,16(7):881-885.[130]AbruzziA,FriedB,AlikhanSB.CoinfectionofSchistosomaSpecieswithHepatitisBorHepatitisCViruses[J].AdvParasitol,2016,91:111-231.[131]LuDB,ZhouL,LiY.Improvingaccesstoanti-schistosometreatmentandcareinnonendemicareasofChina:lessonsfromonecaseofadvancedschistosomiasisjaponica[J].PLoSNeglTropDis,2013,7(1):e1960.[132]OniskoA,DruzdzelMJ,AustinRM.Howtointerprettheresultsofmedicaltimeseriesdataanalysis:ClassicalstatisticalapproachesversusdynamicBayesiannetworkmodeling[J].JPatholInform,2016,7:50.[133]YuanJQ,TsoiKK,YangM,etal.Systematicreviewwithnetworkmeta-analysis:comparativeeffectivenessandsafetyofstrategiesforpreventingNSAID-associatedgastrointestinaltoxicity[J].AlimentPharmacolTher,2016,43(12):1262-1275.[134]LiuZ,LiuY,ShanH,etal.AFaultDiagnosisMethodologyforGearPumpBasedonEEMDandBayesianNetwork[J].PLoSOne,2015,10(5):e125703.[135]FelipeVP,SilvaMA,ValenteBD,etal.Usingmultipleregression,BayesiannetworksandartificialneuralnetworksforpredictionoftotaleggproductioninEuropeanquailsbasedonearlierexpressedphenotypes[J].PoultSci,110 华中科技大学博士学位论文2015,94(4):772-780.[136]CosnesJ,Gower-RousseauC,SeksikP,etal.Epidemiologyandnaturalhistoryofinflammatoryboweldiseases[J].Gastroenterology,2011,140(6):1785-1794.[137]DiasCC,RodriguesPP,CoelhoR,etal.DevelopmentandValidationofRiskMatricesforCrohn'sDiseaseOutcomesinPatientsWhoUnderwentEarlyTherapeuticInterventions[J].JCrohnsColitis,2017,11(4):445-453.[138]EmaminejadN,QianW,GuanY,etal.FusionofQuantitativeImageandGenomicBiomarkerstoImprovePrognosisAssessmentofEarlyStageLungCancerPatients[J].IEEETransBiomedEng,2016,63(5):1034-1043.[139]WangX,WangW,WangP.Long-termeffectivenessoftheintegratedschistosomiasiscontrolstrategywithemphasisoninfectioussourcecontrolinChina:a10-yearevaluationfrom2005to2014[J].ParasitolRes,2017,116(2):521-528.[140]ZhuH,YapP,UtzingerJ,etal.PolicySupportandResourcesMobilizationfortheNationalSchistosomiasisControlProgrammeinThePeople'sRepublicofChina[J].AdvParasitol,2016,92:341-383.[141]ChenYY,HuangXB,XiaoY,etal.SpatialanalysisofSchistosomiasisinHubeiProvince,China:aGIS-basedanalysisofSchistosomiasisfrom2009to2013[J].PLoSOne,2015,10(4):e118362.[142]单晓伟,蔡顺祥,刘建兵,等.2009-2014年湖北省血吸虫病监测点疫情分析[J].热带医学杂志,2016,16(11):1448-1451.[143]雷正龙,张利娟,徐志敏,等.2014年全国血吸虫病疫情通报[J].中国血吸虫病防治杂志,2015,27(6):563-569.[144]周晓蓉,龚新国,黄水生,等.湖北省2004-2011年晚期血吸虫病患者救治动态分析[J].公共卫生与预防医学,2012,23(5):27-29.[145]WangY,YangF,XueJ,etal.AntischistosomiasisLiverFibrosisEffectsofChlorogenicAcidthroughIL-13/miR-21/Smad7SignalingInteractionsInVivoandInVitro[J].AntimicrobAgentsChemother,2017,61(2).DOI:10.1128/AAC.01347-16[146]HuangY,FanX,TaoR,etal.EffectofmiR-182onhepaticfibrosisinducedbySchistosomiasisjaponicabytargetingFOXO1throughPI3K/AKTsignalingpathway[J].JCellPhysiol,2018.DOI:10.1002/jcp.26469[147]CabantousS,HouX,LouisL,etal.Evidenceforanimportantroleofhost111 华中科技大学博士学位论文microRNAsinregulatinghepaticfibrosisinhumansinfectedwithSchistosomajaponicum[J].IntJParasitol,2017,47(13):823-830.[148]WuW,HuangY.ApplicationofpraziquantelinschistosomiasisjaponicacontrolstrategiesinChina[J].ParasitolRes,2013,112(3):909-915.[149]WuW,FengA,HuangY.ResearchandcontrolofadvancedschistosomiasisjaponicainChina[J].ParasitolRes,2015,114(1):17-27.[150]PanY,WangZ,ZhanW,etal.Computationalidentificationofbindingenergyhotspotsinprotein-RNAcomplexesusinganensembleapproach[J].Bioinformatics,2017.DOI:10.1093/bioinformatics/btx822[151]LevolgerS,vanVledderMG,AlberdaWJ,etal.Musclewastingandsurvivalfollowingpre-operativechemoradiotherapyforlocallyadvancedrectalcarcinoma[J].ClinNutr,2017.DOI:10.1016/j.clnu.2017.06.028[152]Goncalves-RibeiroS,Sanz-PamplonaR,VidalA,etal.Predictionofpathologicalresponsetoneoadjuvanttreatmentinrectalcancerwithatwo-proteinimmunohistochemicalscorederivedfromstromalgene-profiling[J].AnnOncol,2017,28(9):2160-2168.[153]Ambale-VenkateshB,YangX,WuCO,etal.CardiovascularEventPredictionbyMachineLearning:TheMulti-EthnicStudyofAtherosclerosis[J].CircRes,2017,121(9):1092-1101.[154]NazzalC,SheaS,Castro-DiehlC,etal.EducationalInequalitiesinCardiovascularRiskFactorandBloodPressureControlinElderlyAdults:ComparisonofMESACohortandChileanNHSSurveyOutcomeMeasures[J].GlobHeart,2017.DOI:10.1016/j.gheart.2017.09.001.[155]ChenTK,KatzR,EstrellaMM,etal.AssociationBetweenAPOL1GenotypesandRiskofCardiovascularDiseaseinMESA(Multi-EthnicStudyofAtherosclerosis)[J].JAmHeartAssoc,2017,6(12).DOI:10.1161/JAHA.117.007199.[156]MitchellCC,KorcarzCE,TattersallMC,etal.Carotidarteryultrasoundtexture,cardiovascularriskfactors,andsubclinicalarterialdisease:themulti-ethnicstudyofatherosclerosis(MESA)[J].BrJRadiol,2018.DOI:10.1259/bjr.20170637[157]TasneemAA,LuckNH,MajidZ.Factorspredictingnon-alcoholicsteatohepatitis(NASH)andadvancedfibrosisinpatientswithnon-alcoholicfattyliverdisease112 华中科技大学博士学位论文(NAFLD)[J].TropDoct,2017:1789459637.[158]HagstromH,NasrP,EkstedtM,etal.FibrosisstagebutnotNASHpredictsmortalityandtimetodevelopmentofsevereliverdiseaseinbiopsy-provenNAFLD[J].JHepatol,2017,67(6):1265-1273.[159]DrolzA,WehmeyerM,DiedrichT,etal.[CombinationofNAFLDFibrosisScoreandliverstiffnessmeasurementforidentificationofmoderatefibrosisstages(II&III)innon-alcoholicfattyliverdisease][J].ZGastroenterol,2018,56(1):43-50.[160]LoombaR,SeguritanV,LiW,etal.GutMicrobiome-BasedMetagenomicSignatureforNon-invasiveDetectionofAdvancedFibrosisinHumanNonalcoholicFattyLiverDisease[J].CellMetab,2017,25(5):1054-1062.[161]IchikawaD,SaitoT,UjitaW,etal.Howcanmachine-learningmethodsassistinvirtualscreeningforhyperuricemia?Ahealthcaremachine-learningapproach[J].JBiomedInform,2016,64:20-24.[162]FolmerRH.IntegratingbiophysicswithHTS-drivendrugdiscoveryprojects[J].DrugDiscovToday,2016,21(3):491-498.[163]SwissR,NilesA,CaliJJ,etal.ValidationofaHTS-amenableassaytodetectdrug-inducedmitochondrialtoxicityintheabsenceandpresenceofcelldeath[J].ToxicolInVitro,2013,27(6):1789-1797.[164]ChenF,SunH,LiuH,etal.Predictionofluciferaseinhibitorsbythehigh-performanceMIEC-GBDTapproachbasedoninteractionenergeticpatterns[J].PhysChemChemPhys,2017,19(15):10163-10176.[165]WuW,FengA,HuangY.ResearchandcontrolofadvancedschistosomiasisjaponicainChina[J].ParasitolRes,2015,114(1):17-27.[166]罗伏军,姚作平.不限钠饮食加利尿剂治疗晚期血吸虫病腹水效果[J].中国血吸虫病防治杂志,2010,22(5):493-494,499.[167]顾体梅,张勇,杨佐南.缬沙坦联合利尿剂治疗晚期血吸虫病肝纤维化难治性腹水临床研究[J].浙江医学,2011,33(2):261-262.[168]刘敏.B超诊断晚期血吸虫病肝腹水的临床研究[J].当代医学,2013(33):113-114.[169]朱峰.拉米夫定联合吡喹酮对血吸虫病小鼠肝功能的影响[J].海南医学院学报,2014,20(10):1323-1325.113 华中科技大学博士学位论文[170]杜华.晚期血吸虫病与HBV感染的关系[J].中国血吸虫病防治杂志,2013,25(1):115,117.[171]郭凯文,邱文洪,牛安欧.消退素RvE1对日本血吸虫病所致肝损伤的保护作用[J].现代预防医学,2013,40(13):2505-2508.[172]ZamanA,RosenHR,IngramK,etal.AssessmentofFIBROSpectIItodetecthepaticfibrosisinchronichepatitisCpatients[J].AmJMed,2007,120(3):280-289.[173]GeorgeJ,TsutsumiM,TsuchishimaM.MMP-13deletiondecreasesprofibrogenicmoleculesandattenuatesN-nitrosodimethylamine-inducedliverinjuryandfibrosisinmice[J].JCellMolMed,2017,21(12):3821-3835.[174]JinX,YuMS,HuangY,etal.MiR-30e-UCP2pathwayregulatesalcoholichepatitisprogressbyinfluencingATPandhydrogenperoxideexpression[J].Oncotarget,2017,8(38):64294-64302.[175]WuFM,EaringMG,AboulhosnJA,etal.PredictivevalueofbiomarkersofhepaticfibrosisinadultFontanpatients[J].JHeartLungTransplant,2017,36(2):211-219.[176]ZhangHC,HuRF,ZhuT,etal.Primarybiliarycirrhosisdegreeassessmentbyacousticradiationforceimpulseimagingandhepaticfibrosisindicators[J].WorldJGastroenterol,2016,22(22):5276-5284.[177]LucaciC,AcalovschiM.Hormonalandcytokineimplicationsinthepathophysiologyofosteoporosisoccurringinchronicliverdiseases[J].Maedica(Buchar),2012,7(4):358-363.[178]SinkalaE,KapuluMC,BesaE,etal.Hepatosplenicschistosomiasisischaracterisedbyhighbloodmarkersoftranslocation,inflammationandfibrosis[J].LiverInt,2016,36(1):145-150.[179]MarinhoCC,BretasT,VoietaI,etal.SerumhyaluronanandcollagenIVasnon-invasivemarkersofliverfibrosisinpatientsfromanendemicareaforschistosomiasismansoni:afield-basedstudyinBrazil[J].MemInstOswaldoCruz,2010,105(4):471-478.[180]WyszomirskaRM,NishimuraNF,AlmeidaJR,etal.HighserumlamininandtypeIVcollagenlevelsinschistosomiasismansoni[J].ArqGastroenterol,2005,42(4):221-225.114 华中科技大学博士学位论文[181]HuangLH,QiuYW,HuaHY,etal.Theefficacyandsafetyofentecavirinpatientswithadvancedschistosomiasisco-infectedwithhepatitisBvirus[J].IntJInfectDis,2013,17(8):e606-e609.[182]BeschinA,DeBaetselierP,VanGinderachterJA.Contributionofmyeloidcellsubsetstoliverfibrosisinparasiteinfection[J].JPathol,2013,229(2):186-197.[183]SombetzkiM,LoebermannM,ReisingerEC.Vector-mediatedmicroRNA-21silencingamelioratesgranulomatousliverfibrosisinSchistosomajaponicuminfection[J].Hepatology,2015,61(6):1787-1789.[184]PellicoroA,RamachandranP,IredaleJP,etal.Liverfibrosisandrepair:immuneregulationofwoundhealinginasolidorgan[J].NatRevImmunol,2014,14(3):181-194.[185]ChuahC,JonesMK,BurkeML,etal.Cellularandchemokine-mediatedregulationinschistosome-inducedhepaticpathology[J].TrendsParasitol,2014,30(3):141-150.[186]SertorioM,HouX,CarmoRF,etal.IL-22andIL-22bindingprotein(IL-22BP)regulatefibrosisandcirrhosisinhepatitisCvirusandschistosomeinfections[J].Hepatology,2015,61(4):1321-1331.[187]WuW,FengA,HuangY.ResearchandcontrolofadvancedschistosomiasisjaponicainChina[J].ParasitolRes,2015,114(1):17-27.[188]CasteraL.NoninvasiveAssessmentofLiverFibrosis[J].DigDis,2015,33(4):498-503.[189]FleckerRH,PrayIW,SantivanezSJ,etal.AssessingUltrasonographyasaDiagnosticToolforPorcineCysticercosis[J].PLoSNeglTropDis,2017,11(1):e5282.[190]AkpataR,NeumayrA,HoltfreterMC,etal.TheWHOultrasonographyprotocolforassessingmorbidityduetoSchistosomahaematobium.Acceptanceandevolutionover14years.Systematicreview[J].ParasitolRes,2015,114(4):1279-1289.[191]BardaB,CoulibalyJT,HatzC,etal.Ultrasonographicevaluationofurinarytractmorbidityinschool-agedandpreschool-agedchildreninfectedwithSchistosomahaematobiumanditsevolutionafterpraziquanteltreatment:Arandomizedcontrolledtrial[J].PLoSNeglTropDis,2017,11(2):e5400.[192]SkellyPJ.Theuseofimagingtodetectschistosomesanddiagnose115 华中科技大学博士学位论文schistosomiasis[J].ParasiteImmunol,2013,35(9-10):295-301.[193]OlvedaDU,OlvedaRM,LamAK,etal.UtilityofDiagnosticImagingintheDiagnosisandManagementofSchistosomiasis[J].ClinMicrobiol,2014,3(2).DOI:10.4172/2327-5073.1000142[194]HsiangMS,CarltonEJ,ZhangY,etal.UseofultrasonographytoevaluateSchistosomajaponicum-relatedmorbidityinchildren,SichuanProvince,China,2000-2007[J].AmJTropMedHyg,2010,82(1):103-111.[195]LiY,MeiL,QiangJ,etal.MagneticResonanceSpectroscopyforEvaluatingPortal-SystemicEncephalopathyinPatientswithChronicHepaticSchistosomiasisJaponicum[J].PLoSNeglTropDis,2016,10(12):e5232.[196]LiY,QiangJW,JuS.BrainMRimagingchangesinpatientswithhepaticschistosomiasisjaponicumwithoutliverdysfunction[J].Neurotoxicology,2013,35:101-105.[197]SalemN,BalkmanJD,WangJ,etal.Invivoimagingofschistosomestoassessdiseaseburdenusingpositronemissiontomography(PET)[J].PLoSNeglTropDis,2010,4(9).DOI:10.1371/journal.pntd.0000827[198]NingA,WuX,LiH,etal.AbnormalliverfunctionindifferentpatientswithSchistosomajaponicum[J].ParasitolRes,2015,114(1):85-90.[199]Al-HanafiN,MonemF.HepatitisBsplice-generatedproteinantibodiesinSyrianchronichepatitisBpatients:incidenceandsignificance[J].HepatMon,2014,14(4):e13166.[200]El-SabahAA,El-MetwallyMT,AbozinadahNY.HepatitisCandBvirusinschistosomiasispatientsonoralorparenteraltreatment[J].JEgyptSocParasitol,2011,41(2):307-314.[201]XieH,ChenD,LuoX,etal.SomecharacteristicsofIL-5-producingTcellsinmouseliverinducedbySchistosomajaponicuminfection[J].ParasitolRes,2013,112(5):1945-1951.[202]SweT,BaquiA,NaingAT,etal.Non-necrotizingcolonicgranulomainducedbyschistosomiasis[J].JCommunityHospInternMedPerspect,2016,6(6):33114.116 华中科技大学博士学位论文综述机器学习模型在疾病预后预测等医疗领域的应用进展利国综述聂绍发教授审校随着信息技术的快速发展,几乎每个领域的数据都呈爆发式增长,常用的数据库管理系统和传统统计学模型已不能满足分析需要,数据挖掘技术应运而生。作为人工智能(ArtificialIntelligence,AI)领域的核心技术——机器学习(MachineLearning,ML)理论发展和实践应用日渐成熟,一些常见的机器学习模型在医疗领域也越来越广泛得到运用,譬如人工神经网络、贝叶斯网络、决策树、支持向量机、随机森林,在病人预后预测、辅助医疗决策、医学影像判断等众多领域起到了巨大作用。机器算法在医疗领域的广泛应用也催生了模型之间的比对研究。在大数据和人工智能时代,将机器学习模型和智能优化算法的结合,将进一步探索到医疗大数据背后许多有价值的指标。这也是流行病与卫生统计学未来重要的发展方向之一。本文选取目前在应用比较多、理论较为成熟的人工神经网络、决策树、贝叶斯网络、支持向量机、随机森林和k最近邻算法模型为例,以疾病预后预测领域为主,系统阐述机器学习模型在医疗领域的应用研究进展。一、人工神经网络(ArtificialNeuralNetwork,ANN)人工神经网络是20世纪80年代人工智能领域兴起的研究热点,作为一种逻辑策略的表达,ANN模型在模式识别、智能机器人、经济、自动控制等诸多领域成功解决了现代计算机无法解决的问题。ANN模型用于患者预后预测等领域的研究也较多。一项研究比较Cox比例风险回归模型和人工神经网络模型预测胃癌的预后因子的准确度[1]。Cox比例风险回归模型发现疾病分期、腹膜扩散、根治性外科手术和BMI与生存时间显著相关,ANN模型发现疾病分期、根治性外科手术、血清CA19-9水平、腹膜扩散和BMI是最重要的因素,ANN模型准确率更高。ANN模型和Talcott模型被用来预测发热伴中性粒细胞缺乏癌症患者的预后,并验证中国人群中多国癌症支持疗法学会(MultinationalAssociationOfSupportiveCareInCancer,MASCC)风险指数的性能[2]。结果显示,在识别低风险患者的能力上,MASCC模型优于Talcott模型,与ANN模型性能相当。Talcott模型将住院患者、合并症患者和患有不可控癌症患者代表三组高危患者,门诊患者中有发热伴中性粒细胞缺乏、患有可控癌症且没有并发症的患者代表低风险组,简单快速评估患者预后[3]。MASCC在Talcott模型基础上,选取了7个独立的临床因素,每个因素被赋予一定的117 华中科技大学博士学位论文权重,评分范围为0-26,高分代表预后良好,即≥21分为低风险组,研究中主要关注低风险患者的假阳性率。尽管有已经有研究通过测量血浆或血清中的炎症标志物来改善对发热性嗜中性白细胞减少症后菌血症或潜在感染的预测,但是它们对MASCC风险指数的预测价值还有待证明[4]。通过在模型中纳入新型可以识别宿主感染状况的生物标记物,可以降低预测低风险患者时的假阳性率。乙型肝炎相关的慢加急性肝功能衰竭(AcuteOnChronicHepatitisBLiverFailure,ACHBLF)占慢加急性肝功能衰竭的70%,每年导致120000人死亡[5]。M.H.Zheng等用终末期肝病评分模型(ModelforEndStageLiverscoring,MELD)和ANN模型预测三个月ACHBLF死亡风险,ANN模型通过调整神经元之间的连接权重,关联输入和输出变量[6]。为了避免ANN模型的局限性——过度训练,将训练组的280个样本再分为训练组(196,70%)及验证组(84,30%)进行交叉验证。结果显示ANN模型在训练组(P<0.001)和测试组(P<0.006)的AUC值均大于MELDscoring模型。有研究确定了老年慢性病人健康相关生活质量(HealthRealtedQualityofLife,HRQoL)的影响因素,并构建预测模型以帮助确定需要干预的风险群体[7]。预测模型运用随机森林、支持向量机、ANN模型和决策树模型等机器学习技术和Logistic回归技术。这些预测性能良好的模型可以运用到个体化健康管理策略中。模型效果对比分析发现,LR模型效果最优(F-score=0.49,accuracy=0.93,均为最高)。LR模型发现5个因素决定老年慢性病人的HRQoL:月收入,慢性病的诊断,抑郁症,不适和感知的健康状况。XunLiu用ANN模型和回归模型估计慢性肾病病人的肾小球滤过率,并比较两种模型的性能[8]。研究通过随机化和遗传算法初始化网络的权重阈值,以优化模型。研究结果显示,ANN模型并没有显示出比回归模型更好的性能。因为研究中采用的广义相加模型(GAM)研究的很深入,可能是适合人群的最佳回归模型,虽然精度有限。其次,研究中使用的单过滤标记可能限制了ANN模型拟合非线性函数的能力。在多个滤过变量加入模型、变量之间存在多重共线性时,ANN模型的优势更为明显。一项研究比较响应面(ResponseSurfaceMethod,RSM)方法和ANN模型估计重组大肠杆菌BL21(E.coliBL21)产生脂肪酶的能力[9]。选用的四个重要自变量是葡萄糖、NaCl、温度和诱导时间。RSM模型的拟合优度(R2)良好,但是绝对平均误差(AbsoluteAverageDeviation,AAD)、均方根误差(RootMeanSquareError,RMSE)都不理想,模型在预测设计点边缘值时低于预期。ANN模型预测值更接近观测值,决定系数R2,调整决定系数,AAD和RMSE值更高。和RSM类似,ANN模型也可118 华中科技大学博士学位论文以对变量的重要性排序,但是ANN模型不像RSM可以预测变量间的交互作用。RSM系统的主要缺点是需要用二阶多项式来拟合数据,而许多含曲率的系统,如对称或不对称的钟型曲线,可能不是很适合用二阶多项式来解释[10]。有研究比较了临床医师和ANN模型在青光眼性视神经病患者中进行视野评估(VisualFieldTesting)的准确性和确定性[11]。医生判断的灵敏度为83%,特异度为90%,ANN模型的灵敏度93%、特异度91%。二者特异度相似,但ANN模型的灵敏度更高(P<0.001)。一个经过有效训练的ANN模型在对青光眼视神经患者的视野评估中,表现不会差于临床医师。Hon-YiShi等人用ANN模型和LR模型预测创伤性脑手术后的院内死亡率,并对模型性能进行比较[12]。ANNvsLR,AUC89.61%vs77.39%,准确度95.23%vs82.44%,Hosmer-LemeshowC统计量43.90vs53.18,ANN模型优于LR模型(P<0.001),而最佳预测指标是外科医生的平均手术量等级(文中按年均手术量分为4个等级),高等级医院和医生使得死亡率低,也许是由于他们被高科技和跨学科护理团队所支持。实验中显示了ANN模型相对于LR的优势:处理噪声和不完全输入变量的能力,高容错性和从输入数据推广的能力。研究也提出了以往对于ANN和其他模型比对研究中的问题,单一数据集来源难以解决模型内部真实性(可重复性)的问题。文中数据来源于台湾BNHI1998-2009年的16956个创伤性脑损伤(TraumaticBrainInjury,TPI)病人,使用注册数据的多中心研究,避免了单中心数据的偏倚[13]。但是研究也有局限性,比如利用理疗索赔数据不一定准确,漏掉一些可能相关的重要自变量如GCS评分,无法考虑病人选择医院时的可及性或者转院的影响。通常进行前列腺活检是基于发现血清前列腺特异性抗原(Prostate-specificantigen,PSA)水平异常或直肠指诊(Digitalrectumexamination,DRE)异常[14]。HakJongLee发现,在用ANN、LR和SVM三种模型基于经直肠超声诊断(TransrectalUltrasonography,TRUS)介导前列腺活检的结果判断是否诊断为前列腺癌[15]。其中,SVM模型是首次用于前列腺癌的预测。试验结果显示SVM模型的AUC值更高,预测性能更好(P<0.01)。有研究首次运用径向基人工神经网络预测急性胰腺炎(AcutePancreatitis,AP)介导的门腔肠系膜静脉血栓(PortalVenousThrombosis,PVT)的发生,并和Logistic回归模型做了对比[16]。径向基函数神经网络(RadialBasisFunctionArtificialNeuralNetwork,RBFANN)模型的灵敏度、特异度及AUC值均优于LR模型(P<0.05)。AUC值更高表明RBFANN模型在预测AP介导的PVT的发生时预测准确度更高。分析其原因,是因为每一个自变量在隐藏层和输出层都经历了一次非119 华中科技大学博士学位论文线性转换,使ANN模型比LR模型更好地模拟非线性关系,研究还发现D-二聚体,红细胞比容,血清淀粉酶和凝血时间是重要影响因素。TravisM.Dumont等用ANN模型预测动脉瘤性蛛网膜下腔出血(aneurysmalSubarachnoidHemorrhage,aSAH)后症状性脑动脉痉挛的发生,并与LR模型作比较[17],发现ANN模型的灵敏度和特异度更优。在LR模型中,淘汰不重要的变量,在ANN模型中却包含了这些重要性不太高的变量,并对其隐含的非线性关系作了估计,研究附录部分还对反向传播权重更新规则作了详述。电子化医疗索赔(ElectronicMedicalClaims,EMCs)数据可以用来预测多种疾病的发生,Chen-YingHung等基于电子化医疗索赔840487个病例的大数据,运用人工智能的深度神经网络方法(DeepNeuralNetwork,DNN)预测人群卒中5年内的发生[18]。试验证明了,DNN和GBDT模型要优于SVM和LR模型。DNN模型通过分层、反向传播的方式进行训练,以生成易处理的优化模型。比ANN的优势在于,DNN不用再进行特征提取,直接进行端对端的处理,省略了调整参数的繁琐步骤[19]。随着医疗系统数据的爆发式增长,DNN也运用于其他疾病的预测,如骨质疏松症,心力衰竭[20,21]。由于DNN的架构非常复杂,其内在分析过程难以解释,也导致有反对将DNN模型运用于临床辅助决策的意见。AnjuSHARMA用ANN、SVM模型和贝叶斯分类器预测致突变性[22]。SVM模型的总体预测准确度为71.73%,明显高于ANN模型(59.72%)和贝叶斯分类器(66.61%)。这表明SVM模型可以更好地用于预测致突变性。YajuanWang等用电子健康记录(ElectronicHealthRecord,EHR)的结构化和非结构化的数据来早期预测心衰发作[21]。用的模型是机器学习的自然语言处理(NaturalLanguageProcessing,NLP)。二、决策树(DecisionTree,DT)决策树是一种归纳机器学习算法,自顶向下、无回溯、不断搜索重要分裂变量,核心技术是树的生长和剪枝,其目的是在特定学习任务指导下,用一组无次序、无规则的数据建立简洁、直观的树型结构,在医疗领域的应用非常广泛。目前,临床上恶性胸膜间皮瘤(MalignantPleuralMesothelioma,MPM)患者的预后模型还不多见。不同于常规的LR模型,决策树分析能最大化MPM病人预后的敏感性,使低风险患者的错分概率最小化,且不受数据的限制。研究显示,可以利用临床诊断时广泛存在并常规使用的变量建立基于CART算法的决策树预后模型,以区分早期高风险死亡风险的患者和可能经历长期生存的MPM患者[23]。决策树模型的的120 华中科技大学博士学位论文AUC值在训练队列中为0.76,在验证组中为0.68,因为选取的是临床上常用的指标,故该决策树模型在预测MPM患者预后时具有普适性和可接受性。在左心室辅助装置(LeftVentricularAssistDevice,LVAD)植入后,右心室衰竭是常见的并发症,有高达10-30%的发生率,因此很多患者同时植入左、右心室辅助装置,以规避二次手术的风险。因此在临床上判断预后,区分患者是否需要一次性植入双侧辅助装置(BilateralVentricularAssistDevice,BiVAD)就显得非常必要。有研究用合成少数过采样技术(SyntheticMinorityOversamplingTechnique,SMOTE)与DT模型判断预后,跨肺动脉瓣压力阶差(PulmonaryTransvalvularGradient,PTG)被确定为最重要预后因子[24]。SMOTE数据采样技术的应用解决了组间数据分布不均衡和样本量不足的问题。SMOTE数据采样技术改善分类器性能在其他研究也有应用。单中心研究可能会影响模型的外推,如果有多中心的数据就能消除单中心的偏差并计算其置信度。DT模型可预测稳定期慢性阻塞性肺疾病(ChronicObstructivePulmonaryDisease,COPD)患者发生住院和死亡事件的可能性,可以帮助临床医生建立一个对设计治疗策略有用的风险等级[25]。以往基于第1秒最大呼气量(ForcedExpiratoryVolume1,FEV1)建立的BODE指数是主要预测模型,为线性预测模型。关节炎是导致残疾的主要原因之一,伴随劳动力的丧失,以往利用各种因素预测疼痛的研究受限于有限的样本量,而Hung,M.等应用机器学习算法中的决策树模型来识别国家级大型样本,来自于2011-2012年医疗支出专家组调查的数据,开发出DT算法确定了导致疼痛风险的因素和模式。纳入了200多个变量进行计算,在确定的12个变量中,身体和心理功能评分、爬楼梯能力和整体感觉评估是最具有区别性的预测因子。模型的C-statistics=0.9108,准确率为85.68%,灵敏度为0.862,特异度为0.852,精度为0.849。在人工智能+大数据时代,医疗保健研究的算法有必要从假设驱动转向数据驱动方案[26]。有研究[27]用北京社区健康记录中的数据重新分析,开发了一个更简化的决策模型,作为无法识别的糖尿病的筛查工具。并在另外一个乡镇人群中验证。经计算,只有三个非实验室风险因素(年龄,BMI和高血压的存在与否)和较少的分支用于新模型。内部和外部验证的AUC值分别为0.708和0.629。糖尿病受试者的HOMA-IR显著升高,但HOMA-B无明显差异。这个简单的工具将帮助全科医生和居民快速轻松评估糖尿病的风险,研究也证实了胰岛素抵抗和糖尿病早期阶段之间的强相关性。He,JZ等[28]用亲和纯化和质谱法把PDIA3,CNPY2和STMN1确定为潜在的ezrin121 华中科技大学博士学位论文蛋白相互作用蛋白。共焦显微镜和共免疫沉淀分析进一步证实了ezrin蛋白与PDIA3,CNPY2和STMN1的共定位和相互作用。食管鳞状细胞癌(EaophagealSquamouscellcarcinoma,ESCC)样本的组织芯片数据(n=263)显示,与低表达组相比,高表达组CNPY2的5年总生存期(OverallSurvival,OS)和无病生存期(DiseaseFreeSurvival,DFS)明显较低(OS,P=0.003;DFS,P=0.011);STMN1亦然(OS,P=0.01;DFS,P=0.002)。相比之下,PDIA3的过度表达与有利的生存显著相关(OS,P<0.001;DFS,P=0.001)。Cox回归显示了PDIA3,CNPY2和STMN1在ESCC中的预后价值。决策树分析显示,ezrin蛋白相互作用蛋白的结果分类可用于更好地预测ESCC患者的OS和DFS。有研究[29]在北海道大学医院开展单中心回顾性研究,试图用决策树模型来发现多种危险因素的组合是否会增加万古霉素(Vancomycin,VCM)相关的肾毒性的风险,并与LR模型进行了比较。2011至2016年,共有592名患者接受静脉注射VCM。肾毒性定义为血清肌酸酐从基线增加至≥0.5mg/dL或增至≥50%。从以前的报道中提取了VCM肾毒性的危险因素,用DT模型分析,并构建了卡方自动交互检测算法,采用10折交叉验证法计算模型的错误分类风险。87名(14.7%)患者发生肾毒性。提取伴随药物(呋塞米和血管升压药),VCM谷浓度≥15.0mg/L,治疗持续时间≥14天为变量构建DT模型,其中将患者分成6个基于不同肾毒性率的亚组,范围从4.6%到69.6%不等。DT和LR模型的预测精度相似(均为87.3%),表明DT模型准确度较高,可用于评估不良药物反应。非小细胞性肺癌(Non-smallCellLungCarcinoma,NSCLC)的准确分期便于优化管理,目前有关于NSCLC微创病理评估的诸多研究。一项基于澳大利亚墨尔本教学医院的NSCLC病例的决策树研究[30],比较支气管内超声引导经支气管针吸活检(EndobronchialUltrasound-guidedTransbronchialNeedleAspiration,EBUS-TBNA)和外科纵隔镜检查、传统TBNA的成本效益,发现EBUS-TBNA是最经济的方式(2961澳元),EBUS-TBNA(阴性结果未经手术确认))的成本为3344美元,传统的TBNA成本为3754美元,纵隔镜检查成本为8859美元。EBUS-TBNA的灵敏度对成本影响最大,而纵隔淋巴结转移率决定了外科确认的阴性EBUS-TBNA结果是否是经济的方式。体外受精(InVitroFertilization,IVF)胚胎移植技术日益成熟,给很多不孕不育夫妇带来了福音。由于体外受精低成功率的局限,许多医生尝试开展多胚胎移植技术以克服。然而由于多胚移植往往意味着新生儿和母亲的预后不良,如早产风险和其后122 华中科技大学博士学位论文新生儿的发病和死亡风险增加。最初限定胚胎移植个数≤2,随着辅助生殖技术的发展,现在更多提倡单胚胎移植(SingleEmbryoTransfer,SET),在斯堪的纳维亚、加拿大魁北克省、比利时和荷兰等地由法律规定只能开展SET。基于女性本身的个体特征和分娩史,女性个体之间早产风险不同。一项研究[31]用DT模型评估纳入早产风险会如何影响IVF中SET和双胚胎移植(DoubleEmbryoTransfer,DET)的选择。有低早产风险和不良预后的女性选择DET,而有高早产风险和预后良好的女性选择SET。在常规临床实践和新型靶向治疗试验中,肺栓塞(PulmonaryEmbolism,PE)都是常见的致死性原因。PE的预后分类是值得研究的,低风险的患者可以仅通过门诊治疗或者早期出院等方式降低医疗成本,而高风险的患者则需要加强护理和监测[32]。癌症相关症状性PE的几个最重要的预后因子已被确定,如存在转移、无法移动、低体重和生命体征改变[33]。但是偶发性和症状性PE预后因子尚未确定。一项研究[34]利用来自西班牙14个临床中心,1075个PE和癌症患者的资料,采用DT模型确定其预后因素。PE诊断后208名患者(19.3%,CI为17.1–21.8%)发生了严重并发症,15天内死亡率为10.1%。确定了6个相关预后因素,有Hestia样临床决策规则,ECOG-PS评分,氧饱和度,PE特异性症状,肿瘤反应和原发性肿瘤切除。DT模型的AUC为0.779(95%CI,0.717–0.840)。全世界有2.5亿人感染HBV病毒,主要的疾病负担位于资源贫乏国家,如西非50岁以下的肝细胞癌患者中有70%是由于HBV病毒感染引起的[35]。筛查可以将无症状感染者筛选出来并给予早期抗病毒治疗,是一项重要的公共卫生干预手段。然而在贫穷国家开展关于HBV感染者筛查项目成本效益分析的研究很少。有研究发现赞比亚人群30岁以上人群HBsAg感染率为8.8%,组合决策树和马尔科夫状态转移模型做增量成本效益比(TheIncrementalCostEffectivenessRatio,ICER)卫生经济学分析,每挽回1个DALY花费540美元,每挽回1个寿命年花费645美元,每挽回1个QALY花费551美元[36]。在协变量很多的时候,包括流行病学和费用指标,模型的鲁棒性也很好。很多新诊断为前列腺癌的患者由于是惰性肿瘤,发展比较缓慢,Gleason评分较低的前列腺癌患者不需要特别处理[37,38]。即使有“观察等待”和“主动监测”等方式,区分Gleason评分低的前列腺癌为惰性亚组和进展性亚组仍然是一个不小的临床挑战,这可以根据老化和衰老的基因表达来区分,区分目的主要是为了避免过度医疗。一项研究利用基因组富集性分析(GeneSetEnrichmentAnalysis,GSEA)[39],确定了惰性前列腺癌中的19个基因标签,又进一步用DT模型把这些基因分类,确定了FGFR1、123 华中科技大学博士学位论文PMP22和CDKN1A三个基因,可以准确预测Gleason评分较低的前列腺癌患者的转归,并在独立队列上验证。一项研究[40]为发病不到6个月、未经治疗的类风湿关节炎患者选择第一种疾病缓解型抗风湿药物(DiseaseModifyingAntirheumaticDrug,DMARD)制定临床实践的DT模型,采用的方法是德尔菲法。在所确定的77个项目中,有41个选定用以指导DMARD选择。他们被重组为五个领域:类风湿关节炎活动,预测结构损伤的因素,病人特点,DMARD特征,医师的特点。大多数情况下推荐级别最高的2个DMARD是来氟米特和甲氨蝶呤。依那西普是一种替代方案,这些药物在疾病活动度高时与不良预后和类风湿因子阳性有关。研究表明从简单情景开始,使用成对方法,可以设计临床DT模型来选择第一种DMARD治疗极早期类风湿性关节炎。三、贝叶斯网络(BayesianNetwork,BN)胆囊癌(GallbladderCancer,GBC)唯一的治愈手段是手术[41]。一项研究基于贝叶斯网络模型研究影响胆囊癌根治术术后生存的预后因素。数据分析多基于单因素的分析,如肿瘤分期、手术种类、病人年龄和复发等,却没有考虑这些因素之间的相互影响。而人工智能在医疗数据中的应用日渐广泛,辅助医生开展临床分期、决策和预后预测。一项研究[42]认为之前关于胆囊癌术后生存的数据挖掘方法忽略了不确定性下的变量选择和预后因子之间的因果关系。而该研究中采取BN模型和重要性度量值去确定GBC根治术术后生存的预后因子。树增强BN模型的准确性为81.15%。独立影响因子是年龄、性别和病理分期。生存时间预测因子是N分期,肝脏浸润,T分期,M分期,手术类型。手术类型和TNM分期被确定为影响GBC预后的最重要因素。镰状细胞病发病是由于血红蛋白β链(HemoglobinBeta-chain,HBB)突变。一项研究[43]使用可代表所有基因型镰状细胞病的3380名患者数据,利用BN模型,纳入25个临床和实验室变量估计镰状细胞病的严重程度,作为预测5年内死亡风险的评分。模型的可靠性被2个独立病例组所支持。结合过往已经确定的死亡风险因素,如肾功能不全和白细胞增多,BN模型确定了溶血性贫血严重程度的实验室标记物和相关临床事件作为死亡风险因素。该BN模型可计算疾病严重程度评分以作出治疗决策。严重程度评分可作为基因型表型关联研究中疾病总体严重度的估计,并且该模型提供了另外的方法来研究镰状细胞病的复杂病理生理学。建立克罗恩病(CrohnDisease,CD)预后模型可以指导医生选择治疗方案的决策过程,从而改善患者的健康状况和生活质量[44,45]。一项研多中心、回顾性队列研究分析进行早期手术或免疫抑制CD患者的临床/人口数据,以建立贝叶斯网络模型和风险124 华中科技大学博士学位论文矩阵,最终的结果在内部验证,并在一个多中心、前瞻性队列验证[46]。研究表明诊断年龄,肛周疾病,疾病侵袭性和早期治疗决策是预后重要因素,并被用来构建用户友好的矩阵,从而使这些临床和人口学危险因素适用于在疾病早期治疗中帮助医生进行治疗决策的工具。围手术期治疗已被用于改善上泌尿道膀胱细胞癌(UpperTractofUrinaryCarcinoma,UTUC)患者的预后,但是最佳的管理策略仍然没有建立。2015年一项研究对Embase,WebofScience和Cochrane数据库进行了检索,根据所报告的结果总生存(OS),疾病特异性生存(Disease-specificsurvival,DSS)和无复发生存(RecurrenceFreeSurvival,RFS)将所有纳入的研究分为三组,采用随机效应贝叶斯网络荟萃分析方法计算死亡的相对风险比,还根据三项结果对三种不同的治疗进行了排名[47]。研究表明,辅助化疗(AdjuvantChemotherapy,AC)、膀胱灌注化疗和同步放化疗可以改善UTUC的预后;在DSS,新辅助化疗(NewAdjuvantChemotherapy,NAC)对改善UTUC预后比AC更有作用。有多重并发症(并发症种类>2)的患者往往住院时间延长,死亡风险增高。然而,关于使患者发生多重并发症风险的影响因素,以及哪些并发症倾向于在这些患者中发生知之甚少。一项研究采用2005-2011年美国外科医师学会国家质量改进项目数据库中确定的470,108名普外科手术患者,评估患者术后多重并发症发生率[48]。采用卡方检验和LR模型分析,对并发症≤2种与多重并发症患者进行比较。通过BN模型探索术后多重并发症发生的预测因子。研究发现发生多重并发症的最强预测因素是慢性护理机构或养老院的入院情况,依赖性功能状态,以及美国麻醉医师学会身体状况分类标准,BN模型同时可以确定旨在干扰高风险患者多重并发症级联的干预目标。退行性腰椎疾病导致的跌倒损伤会影响日常生活活动[49],已有单因素和/或多因素分析研究了这种症状恢复的预测因子,但是结论存在争议[50,51]。对于临床医生BN模型的结果很直观,可以帮助他们理解退行性腰椎疾病引起的跌倒的预后。一项研究建立两个BN模型[52],研究发现直接预测因子分别是胫前肌力量(分数≤1或≥2)和持续时间(≤30天或>30天)。年龄,疝软盘和腿痛被确定为间接预测因子。研究也开发了一种决策支持工具,临床医生可以输入胫前肌的肌肉力量和持续时间,并由此获得胫后肌肌肉力量的概率估计值。一项研究通过建立BN模型,以估计住院患者在医院“住院”或在接下来的7天中每一天死亡的概率。样本来自于就诊于悉尼大都会医院(N=32634),模型的平均每日精度达到80%,AUC为0.82。模型的预测能力在预测24小时内事件时最高(AUC125 华中科技大学博士学位论文=0.83),随着时间的推移略有下降。死亡是最可预测的结果,日平均准确率为93%,AUC为0.84。结果表明BN模型可以对EHR进行建模,为患者结果提供实时预测,确定预期出院,预期继续住院,预期死亡和可能再入院,使得未来患者轨迹的可视化成为可能,比传统的独立点预测死亡或再入院提供更丰富的信息,从而可以更好地支持临床决策[53]。动态贝叶斯网络(DynamicBayesianNetworks,DBNs)是贝叶斯网络在时间序列上的扩展,可以模拟随机过程中的离散时间和变量随着时间变化的趋势,在某一个时间片段的序列[54,55]。由于DBNs代表医学问题的时间性质和明确解释预测结果的能力,通常可被用作临床预后模型,譬如thevanGerven预测类癌患者预后的模型和Pittsburg宫颈癌筛查模型(PittsburgCervicalcancerscreeningmodel,PCCSM)[56,57]。时间抽象(Timeabstraction,TA)是一个基于知识的过程,将原始时间数据抽象转化为更高层次的基于区间的概念。有研究提出将DBNs和集成TA方法结合,构建扩展DBN模型预测冠心病(CoronaryHeartDisease,CHD)的发生风险,取得了很好的效果[58]。头颈癌是全世界第六大常见癌症,其中鳞状细胞癌约占90%。大多数头颈部鳞状细胞癌(HeadandNeckSquamousCellCarcinoma,HNSCC)发生在口腔,口咽和喉部[59]。烟草和酒精的消费,以及之前感染人乳头状瘤病毒,都是HNSCC的主要危险因素。口咽鳞状细胞癌由于发病率在增加而尤其受到关注,特别是在年轻的不吸烟的患者中。准确的分期对于治疗计划和预后至关重要,现有的分期系统却不能完全预测临床表现和预后[60]。在绝大多数HNSCC患者中,p53的突变和失活是肿瘤转化的必要和早期事件,TP53突变与HNSCC预后不良有关。一项具有里程碑意义的前瞻性研究发现,只有破坏性突变会干扰p53-DNA复合物的形成。随着医学影像在头颈癌评估中起到越来越重要的作用,量化图像特征的数学技术广泛应用于多种病理学,从多发性硬化症,注意力缺陷/多动症,阿尔茨海默病到宫颈癌,脑肿瘤[61-65]。一项研究利用机器学习技术构建BN模型,在MR图像上使用ST纹理特征,通过p53状态客观区分p53阳性和阴性头颈癌[66]。晚期胰腺癌预后不良,治疗进展缓慢,最近的随机临床试验(RandomizedControlledTrials,RCTs)已经证明与单独使用胞苷相比,联合治疗对于生存预后有益处[67]。一项研究进行了系统评价和贝叶斯网络荟萃分析,以评估化疗方案治疗晚期胰腺癌的安全性和有效性[68]。主要终点为总生存期(OS),无进展生存期(ProgressionFreeSurvival,PFS)和安全性。预后因素包括3-4级发热性中性粒细胞减少症,腹泻,呕吐,疲劳和感觉神经病,一些联合治疗可能在治疗晚期胰腺癌方面有益。为了更充126 华中科技大学博士学位论文分地阐明不同联合化疗方案的效益和危害,需要严格进行比较研究,或对患者一级资料进行网络荟萃分析。内源性大麻素系统调节癌细胞增殖,高大麻素CB1受体表达与前列腺癌预后不良相关。在前列腺癌中CB1受体信号传导的下游介质是已知的,但缺乏关于潜在上游监管组织的信息[69]。一项研究用BN模型分析来自良好表征肿瘤组织微阵列的数据,研究确定了前列腺癌中内源性大麻素系统的两个潜在的调节器,并允许在肿瘤构建失调的内源性大麻素信号网络,应设计进一步的研究来测试前列腺癌和其他实体瘤中网络分析预测的准确性[70]。高通量技术的进步为我们提供了丰富的数据资源,例如作为全基因组关联研究(GenomeWideAssociationStudy,GWAS)的结果,我们积累了大量的单核苷酸多态性(SingleNucleotidePolymorphism,SNP)数据集,150种与60种常见疾病和性状相关的风险位点也因此被确定[71,72]。但是很多遗传风险可能是由于未发现的上位相互作用,这些相互作用是几个基因结合起来影响疾病的相互作用,而仅仅通过简单地结合各个基因座的作用不能预测对表型的影响,鉴于其重要性,研究人员试图使用基因组数据检测上位性,比较多个模型可知,在1000个SNP数据集上SVM模型表现最好,在其他数据集上BN模型表现最好,贝叶斯多变量分类器(EBMC)整体表现最好[73]。当有几个强大的预测因素时,EBMC的表现要优于朴素BN,而当有很多弱预测因素时,朴素BN模型表现更好。对于所有基于BN的方法,预测能力并没有随着维度的增加而降低。虽然制药业和学界一再努力,但对哮喘的理解仍然较为贫乏[74]。无监督的机器学习算法,如探索性因子分析(Exploratoryfactoranalysis,EFA)和分层聚类(HierarchicalClustering,HC)被用于鉴定哮喘的表型,结果部分一致,部分不一致。原因在于研究人群的变量选择不同,人口统计学和临床特征变量的差异[75]。一项研究选用383名哮喘儿童的数据集,纳入EFA和HC的变量有肺功能,炎症和过敏标记,家族史,环境暴露和药物[76]。集群和原始变量与哮喘严重程度有关(LR和BN分析),哮喘预后因素是药物治疗用法,目前症状,肺功能,家族哮喘史,BMI指数和哮喘发病年龄。BN显示有条件变量之间的依赖。研究表明寻找哮喘表型需要更仔细的标记选择,在不同的研究人群中保持一致,并且对无监督结果的解释需更谨慎。患者远程监护汇集了大量关于患者疾病轨迹的信息,这些信息可能用于早期预测成年哮喘患者恶化的潜在用途尚未得到有效评估。一项研究探索将机器学习算法和患者远程监测数据结合来预测哮喘恶化的发生[77],包含哮喘患者提供的每日自我监测报告的7001条数据集。127 华中科技大学博士学位论文预测建模包括分层训练数据集的准备,预测特征选择以及对结果分类器的评估。非小细胞性肺癌(NSCLC)占肺癌病例的75%以上,CT越来越多用于肺癌和其他肺部疾病(如COPD)的筛查[78],也很有必要开发有效的临床标志物和预测模型以更准确地预测术后的预后转归,以更有效地治疗和控制I期NSCLC患者。已有研究证实ERCC1基因产物和RRM1的调节亚基可用于NSCLC患者的预后预测。尽管如此,使用基因组生物标志物仍存在许多限制,如成本较高,信号探测和/或主观评级中的处理错误以及较低的特异性。因此,从CT图像中计算出新的定量图像标记物来预测癌症预后研究的兴趣日益增加,正基于此,一项研究[79]基于8个图像特征的BN模型,和基于2个基因组生物标志物的MLP模型分别预测I期NSCLC患者复发风险,研究显示BN分类器效果更好。四、支持向量机(SupportVectorMachine,SVM)有研究[80]利用第三军医大学西南医院烧伤研究所登记的1999-2008年6220例烧伤病人数据,根据其入院特点,建立预测死亡率的数学模型。病例的分布用主成分分析进行描述性的展示,确定单因素与死亡率的关联,用LR模型筛选和死亡率显著相关的变量。再用SVM模型开发预测死亡率的模型,对该模型的预测能力进行了评估和验证。研究发现入院时与死亡率无关的变量包括性别,年龄,总烧伤面积,全层烧伤面积,吸入性损伤,休克,入院前期等。LR的敏感性和特异性分别为99.75%和85.84%,AUC为0.989(95%CI:0.979-1.000;p<0.01)。该模型正确分类了99.50%的案件。SVM模型预测的准确率接近100%,不仅可以预测成人组,而且还可以预测儿童组,具有很高的鲁棒性(92%-100%)。有研究表明,膝关节骨关节炎(Osteoarthritis,OA)的病理性运动变化在疾病进展中有促进作用[81]。TaeKeunYoo等[82]研究楼梯升高时的运动变化与疼痛,放射学严重程度以及膝关节OA预后之间的关系。18名老年女性OA患者和20名健康对照者入组,楼梯上升的运动数据是通过使用3D运动分析系统获得,进行了7年的随访,用SVM筛选的预测指标包括:最大前骨盆倾斜时间,上楼梯时间,初始足部接触时的膝关节屈曲和踝关节背屈。预后不良定义为随访期持续性膝关节或者全膝关节疼痛。SVM预测准确性:OA(97.4%),疼痛(83.3%),影像学显示的严重程度(83.3%)和不良结果(69.2%)。有研究[83]利用大数据和SVM模型去确定喉癌复发的预测基因集。从公共数据库下载喉癌的两个基因表达谱数据(GSE25727和GSE27020)。通过Cox回归分析鉴定与肿瘤复发有关的基因,即信息基因,构建PPI网络。用优化的SVM分类器对特128 华中科技大学博士学位论文定PPI网络中基因的复发喉癌样本进行分类。SVM由其他两个独立的数据集验证。用获得的331个信息基因构建了特异性的喉癌复发PPI网络,其中含有信息基因和关键的非信息基因。PPI特异性网络中前10位基因依次为中介度中心性(BetweenessCentrality,BC)值,APP,NTRK1,TP53,PTEN,FN1,ELAVL1,HSP90AA1,XPO1,LDHA和CDK2。包括前80个基因的优化SVM模型分类准确度为100%。SVM模型经另一个数据集验证,其准确率为97.47%。这80个基因组被确定为预测喉癌复发的生物标志物,对不同复发风险患者的治疗方案可能会有所不同。为确定PAK6是否是胃癌(GastricCancer,GC)的预后预测指标,并且构建能够鉴定对5-FU/L-OHP化疗高度敏感的患者子集的分类器,一项研究回顾性分析了242名GC患者免疫组织化学标本,并基于SVM模型开发分类器[84]。在279名患者的独立队列中验证模型。PAK6高表达与不良预后和5-FU/L-OHP化疗耐药性增加有关。CS-SVM模型可以有效区分II、III期患者,化疗患者的总生存期(OS)和5年无病生存期(DFS)差异有统计学意义。此外,化疗显著延长了高CS-SVM患者在训练和验证队列中的DFS和OS。研究证明,PAK6增加了化疗耐药性,是一个独立的预后因子。CS-SVM模型可区分II期和III期患者,可以从化疗中受益,从而促进患者咨询和个性化管理。呼吸道合胞病毒(Respiratorysyncytialvirus,RSV)可引起不同程度病变,从普通感冒到重度下呼吸道感染。由于RSV感染可能迅速进展至严重疾病,所以对感染者的预后预测尤为重要[85,86]。一项回顾性研究研究为了确定可以准确预测RSV病程的基因标签,使用来自39名住院婴儿的早期血液微阵列转录组的数据,应用性别标准化转录组数据对年龄进行支持向量机学习,发现了84个基因标签可以将RSV感染最严重的婴儿和结局不太严重的区分开来[87]。使用留一法进行交叉验证,得出实验组数据的AUC为0.966。在53名婴儿组成的独立队列中验证,其AUC为0.858。而基因标签、年龄和性别的组合算得AUC为0.971。因此这些基因标签可以作为支持RSV患者的临床管理中预后测试的依据。一项研究[88]提出了基于多类SVM模型和多通道高维特征集预测癫痫患者发作的特定算法。多级分类的特征集和后处理方案相结合,旨在产生警报并减少误报的影响。研究样本来自欧洲癫痫数据库的216例患者,其中包括185例患者头皮脑电图记录和31例患者的颅内数据。模型的灵敏度为38.47%,每小时误报率为0.20,在24个病人(11%)显示统计学意义。该研究提出了一个大型异构多中心前瞻性分析数据集,显示长期脑电图记录的前瞻性试验依然存在局限。与受约束数据集和/或样本内评129 华中科技大学博士学位论文估相比,基于保守假设的统计框架可生成一种切实可行的方法。这些结果的改进,定义了一组适当的特征,能够改善癫痫发作前和未发作前状态之间的区别,从而使混杂变量的影响最小化。支持向量回归(SupportVectorRegression,SVR)模型广泛应用于响应预测领域,但是较少应用于生存分析。一项研究[89]尝试用SVR模型做生存分析,含不同核函数的SVR模型和传统的Cox比例风险模型同时训练,并基于不同的指标进行比较。研究者用3种不同特征选择(FeatureSelection)方法去选择最优特征子集:SVR模型和统计学检验,基于一致性指数的单变量特征选择,递增特征消除。以伊朗哈马丹市肿瘤门诊的573个乳腺癌病例为研究对象。较之于非线性SVR模型,线性SVR模型能更好地预测乳腺癌患者的生存时间。基于这三种特征选择的方法,转移状态,孕激素受体状态和人EGFR2状态是与生存最相关的特征。当所有变量纳入后,SVR模型与Cox模型的表现相似或略有优势。早期确定百草枯(Paraquat,PQ)中毒对及时、准确的预后非常重要。虽有研究证明血浆PQ浓度可作为PQ中毒的临床指标,但由于仪器操作的不方便,该指标的应用并不多见。一项研究[90]采用机器学习模型,运用血常规检验指标去确定PQ中毒及其程度。研究发现SVM模型合并特征选择技术可以准确预测PQ中毒的风险状况,并用这个方法检验了79个病例。用真实世界的数据评估模型预测效能,以确定灵敏度、特异度和准确度。结果表明在存活和死亡的PQ中毒者血常规指标中差异有统计学意义(P<0.01),最相关的风险因素经特征选择确定为中性粒细胞和白细胞。因此,PQ中毒的程度或者预后可以初步通过血常规指标来确定,而不需要知道PQ血浆浓度。一项研究[91]利用临床指标和基因表达数据来评估一组机器学习模型在霍奇金淋巴瘤预后预测中的表现。130个霍奇金淋巴瘤患者的样本中,包括一小组临床指标和超过54000个基因特征。机器学习模型包括基于“黑箱”理论的算法(k近邻算法,ANN和SVM),和两种基于可理解规则的算法(DT和新型逻辑学习机模型)。这些模型中,SVM表现最好。而在两种基于可理解规则的算法中,逻辑学习机表现更优秀,并基于临床变量和基因表达的组合来识别一组简单易懂的规则。DT模型确定非编码基因XIST参与早期阶段X染色体的失活,在女性和未复发患者中过度表达。XIST表达可能是女性患者预后较好的原因。Fms样酪氨酸激酶3(FmsLikeTyrosinekinase3,FLT3)在造血祖细胞中表达,在急性髓系白血病(Acutemyelogenousleukemia,AML)中,内部串联重复(Internal130 华中科技大学博士学位论文TandemDuplication,ITD)是最常见突变,发病率约为30-35%。一项研究[92]分析了AML样品的基因表达谱以鉴定具有预测FLT3/ITD突变能力的特征基因。研究中欧洲生物信息学研究所下载4个数据集,其中2个被定义为训练组,另外2个被定义为测试组,用SVM和RF模型作为分类器,通过使用训练样本对微阵列数据的显著性分析差异鉴定差异表达基因(Differentiallyexpressedgenes,DEGs),对特征基因进行功能富集分析,训练组共确定585个DEGs,其中580个上调,5个下调。SVM和RF的正确率,特异度和PPV均>90%,灵敏度和NPV>80%,SVM比RF分类效果略好,特征基因主要涉及能量代谢、染色质组织和蛋白质翻译等13个生物学途径。研究中鉴定的特征基因可用于预测AML患者FLT3/ITD状态。放射治疗引起的毒性症状引起广泛关注,但是研究不多。MartinA.Eber等[93]利用6种模型——LR,弹性网络回归,SVM,RF,ANN和MARS模型去预测前列腺外放射治疗后的泌尿系统症状。预测变量包括表面剂量数据、合并症和药物摄入量。分析4种症状:排尿困难、血尿、尿失禁和尿频,每种症状都有三种定义,症状发生率在2.3%到76.1%之间。匹配的模型由重复交叉验证生成,罕见事件的端点采用合成少数超采样技术,对训练数据进行参数优化,用AUC值比较模型性能。经比较,LR和MARS模型最有可能成为预测泌尿系统症状的最佳策略,弹性网络和RF产生竞争性的结果。模型的预测能力适度,并有端点依赖性。新的特征,如空间剂量分布图,纳入模型可能会产生更理想的预测模型。肌萎缩侧索硬化症(AmyotrophicLateralSclerosis,ALS)是一种成人运动神经元疾病,目前却缺乏一种早期鉴别诊断ALS的生物标志物。18F-FDGPET脑成像结合数学统计模型提供了一种新的思路。一项研究[94]在独立的前瞻性大样本中验证基于VOI的判别分析、基于体素的SVM模型结合18F-FDGPET法来区分ALS和对照组。判别分析组预测新的ALS准确率为88.8%,而SVM模型准确率为100%,ALS和PLS患者之间的脑代谢几乎完全相同,不能单独分开。使用Kaplan-Meier生存分析,广泛的额颞下代谢意味着较低的存活(P<0.001)。智能优化算法的优势是能处理复杂非线性问题,灵活性和适应性良好。有研究[95]采用基于相关特征快速提取的方法去除冗余和不相关特征,使癌症分类质量提高。基于粒子群算法(Particleswarmoptimization,PSO)优化的SVM模型与人工蜂群(Artificialbeecolony,ABC)方法结合,提出了PA-SVM模型,适用于9个癌症数据集。结果表明新方法有效,鲁棒性良好。组合模型克服了PSO智能算法的局限性——容易陷入局部最优解,和ABC算法的局限性—挖掘能力不足,是未来智能算法结合131 华中科技大学博士学位论文机器学习的新方向。五、随机森林(RandomForest,RF)模型前列腺癌(ProstaticCancer,PCa)分子亚型定义为互斥,包括SPINK1过表达和ETS基因融合(最常涉及ERG)[96,97]。临床评估可能有助于疾病的分层,补充已有的预后测试方法。一项研究[98]用完成根治性前列腺切除术的队列,共1577名患者,去确定基于微阵列的分子亚型分析的有效性和临床病理影响因素。用基于微阵列的RFERG分类模型进行训练和验证,对ETS+和SPINK1+的预测采用异常表达分析。m-ERG分类器在独立验证子集(155个样本)中显示了95%的准确度。整个队列中45%的前列腺癌分类为m-ERG+,9%为m-ETS+,8%为m-SPINK1+,38%为m-SPINK1+/三阴性(m-ERG-/m-ETS-/m-SPINK1-)。在多元分析中,m-ERG+肿瘤与伴较大的前列腺外延伸、术前PSA和Gleason评分较低有关;m-ETS+肿瘤与精囊侵入有关(P=0.01);m-SPINK1+(三阴性)有更高的Gleason评分,并在黑人/非裔美国人中更常见。临床结局在各分子亚型中分布的差异无统计学意义。瑞戈非尼和TAS-102近来被证明在难治性转移性结直肠癌(metastaticColorectalRefractoryCancer,mCRC)患者中有显著的生存获益。注册试验的选择标准是预期寿命≥12周,在严重的、经过预处理的病人中需要确定适当的临床选择工具来提高成本效益比[99-101]。一项研究[102]试图评估难治性mCRC患者12周内建立能够预测死亡概率的列线图。411个ECOGPS≤2的、接受瑞格菲尼、TAS-102或其他治疗的难治性mCRC患者作为样本,运用RF模型推断预后变量,PS(P<0.0001)、原发性肿瘤切除(P=0.027)、LDH(P=0.001)和腹膜受累(P=0.081)被选为列线图的四个变量,模型鉴别能力高(C=0.778),并在验证组中得以证实(C=0.778),研究认为其可以作为预测难治性mCRC患者12周内死亡概率的有效工具,由于四个变量易获得,用于智能手机的“ColonLife”APP可以协助研究人员改善mCRC患者对于晚期疗法的选择。人类乳腺癌的第一代分子谱可以预测治疗反应的特征,但对于如何最好地组合各种数据类型以产生最佳预测因子却知之甚少。乳腺癌细胞系的结合反映了其分子病理生物学的许多方面,测量其组学和生物治疗反应非常适合开发最具预测性的分子特征集策略。一项研究用最小二乘SVM和RF模型鉴定70个乳腺癌细胞系对90个实验性或已批准治疗剂反应相关的分子特征,分析指标有蛋白质表达、启动子甲基化、基因突变等指标[103]。研究发现转录亚型对25%的化合物预测因子有贡献,增加其他分子数据能改变65%的预测,然而没有单一的分子数据集始终超过其他数据集,说明治132 华中科技大学博士学位论文疗反应介导由基因组的多个层面调控。将预测因子应用于TCGA数据集,发现在子集中依然存在,所以,将患者与基于转录亚型的治疗策略相匹配将提高治疗反应,将其他特征指标纳入可能提供额外的收益,这为建立一个指导临床试验的系统生物学策略提供了可能。阿尔兹海默病(Alzheimerdisease,AD)又称为老年痴呆,一般由于淀粉样β-蛋白(Amyloidbeta-protein,Aβ)积聚,导致在明显的认知障碍之前有一段很长的临床前期,所以更早期预防Aβ积累可能是一个有效的治疗策略[104,105]。为了确定在不久的将来是否能确定Aβ阴性但具有高Aβ阳性风险的人,一项研究[106]利用35名认知健康个体的纵向生物标记物,开展长达9年的队列研究,受试者基线脑脊液(CerebrospinalFluid,CSF)Aβ42为正常水平,接受脑脊液CSF取样3年以上,用RF模型检测未来Aβ阳性的预测因子(CSFAβ水平下降低于先前验证的截断值192ng/L),检测得到的预测因子包括CSF中的蛋白质水平、海马体积、遗传学指标、人口统计学指标和认知评分。试验结果为11例受试者CSFAβ42指标下降,CSFAβ阳性,基线CSFAβ42水平是未来CSFAβ阳性的重要预测因子(准确率79%,95%CI为70-87%)。这个研究可以通过筛检Aβ聚积的高风险人群,从而在极早期预防AD。另外,虽然有些方法已经显示出优异的AD诊断/预后准确性,但是PET的高成本和CSF采样的侵入性导致它们无法常规用于临床测试,非侵入性和高通量血液检测是更符合实际的做法。已知在细胞外环境中采样时,miRNA表达水平可以反映生物系统的生理状态,也揭示了它对人类疾病的诊断潜力[107]。一项研究[108]收集了澳大利亚AIBL研究队列的血清外泌体miRNA(N=49),使用qRT-PCR验证测序结果,用RF模型进行预测,预测模型的特异度和灵敏度分别为77%和87%。缺血性卒中(Ischemicstroke,IS)的诊断通常是通过CT排除出血性卒中,但是所有IS中有40-50%在入院时CT扫描无异常。血清标志物检测的诊断价值有限,以往定义的生物标记物主要有NSE、GFAP、S100钙结合蛋白或IL6[109]。这些标记物对急性脑损伤响应延迟且特异性有限。miRNA作为疾病诊断和预后标志的前景良好,IS可能通过各种同时发生的病理生理过程影响循环miRNA的表达水平,包括血小板聚集、内皮功能障碍、神经元和神经胶质损伤以及免疫反应。一项研究[110]利用RF模型,确定与急性IS相关的miRNA,确定它们在卒中后90天的进程,探索其作为早期诊断因子的效用。结果发现循环miRNA中与急性IS患者相关的有miR-125a-5p,miR-125b-5p,miR-143-3p,可作为早期IS患者的诊断因子。1型糖尿病(Type1Disease,T1D)的死亡风险大约是普通人群的3倍,而心血管133 华中科技大学博士学位论文疾病(Cardiovasculardisease,CVD)是造成这种超额死亡率的主要因素[111]。因为T1D比T2D诊断年龄小很多,所以暴露于CVD风险因素的时间也更长。已知的CVD危险因素在T1D中作用不同,如更为长远的高血糖效应,且男性CVD风险没有增加,说明T1D和T2D的病理生理因素可能存在差异。已有的CVD风险模型如“英国前瞻性糖尿病研究(UKProspectiveDiabetesStudy,UKPDS)风险引擎”等,已被证明低估了T1D的CVD风险,因此针对T1D开发CVD风险预测模型尤为必要[112]。对4306名诊断T1D患者,研究[113]采用两步来建立预测模型,首先用一个非参数、数据驱动的方法(RF和生存树分析)来识别潜在的风险因素及其相互作用,再用泊松回归推导出最终模型。最终模型中包括年龄、性别、LDL、HbA1c等10项指标,对于5年CVD事件,推导数据C-statistic=0.826(95%CI,0.807-0.845),验证数据集C-statistic=0.803(95%CI,0.767-0.839)。Hosmer-Lemeshow检验显示在两个队列中都有很好的校准(P>0.05),这种高效能模型可以辅助临床决策。六、k最近邻算法(k-NearestNeighborAlgorithm,kNN)原发性和转移性黑色素瘤具有相同的细胞来源,有研究[114]探讨可以鉴别它们的生物标记物。原发性肿瘤是异质性的,因此能反映肿瘤转移过程中不间断的基因变化,有研究利用GA/kNN模型来探索这种异质性,利用来自TCGA的450个原发性和转移性皮肤黑色素瘤(SKCM)样品的基因表达和miRNA表达数据预测原发性肿瘤的转移进展。来自RNA-seq数据的转移进展评分与患者淋巴结临床分期显著相关,来自miRNA-seq数据的评分与Clark水平显著相关,SKCM样品许多特征性上皮谱系基因的表达缺失与预测的转移进展评分高度相关,因此可将这些基因/miRNA作为预测SKCM转移进展的生物标记物。实性假乳头状瘤(SolidPseudopapillaryTumor,SPT)是一种恶性程度低、预后良好的胰腺肿瘤,但是SPT与胰腺神经内分泌肿瘤(PancreaticNeuroendocrineTumors,PanNET)、导管腺癌(PancreaticDuctalAdenocarcinoma,PDAC)等恶性胰腺肿瘤不易鉴别。有研究[115]利用共表达模式构建SPT基因调控网络,用kNN分类器确定区分SPT和恶性胰腺肿瘤的基因组,共发现hsa-miR-194、hsa-miR-7等14个候选生物标记物。候选生物标记物中,如hsa-miR-24和SOX11可能导致细胞增殖,但可以抑制肿瘤侵袭和转移,因此有助于了解胰腺癌发生的分子机制,也可能作为恶性胰腺肿瘤的治疗靶点。有研究[116]为了确定前列腺癌(PC)患者总体和特异性PCa生存的生物标记物,用瑞典一个前列腺癌研究队列(N=189)作为样本,使用已发表的微阵列数据集确定134 华中科技大学博士学位论文了641个胚胎干细胞基因预测因子,利用Cox比例风险模型和Kaplan-Meier分析做生存分析,用kNN算法来估计总体生存。研究发现,基因标签可以用来估计整体生存时间,一旦在未来研究中得以验证,可将其纳入PCa常规临床诊断和预后程序中,基于估计的生存收益来作最佳治疗决策。恶性间皮瘤(MalignantMesothelioma,MM)由于广泛接触石棉引起,由于其不良生存,所以需要正确与同一部分的其他病变加以区分,如间皮细胞增生或转移到胸腹膜的其他癌症。由于遗传和免疫组化标记不能完全区分,为了评估SSA、染色质结构分析、光密度测定和形态学测量的预后和诊断性能,一项研究[117]利用自动kNN模型区分福氏染色组织切片中的间质细胞增生、恶性间皮瘤和肺腺癌。结果表明,对于MM的诊断,染色质结构参数优于SSA,光密度测量和形态测量(识别分数=96.8%),SSA参数可以很好地描述肿瘤的分型,其与组织中的空间排列有关(识别分数=94.9%)。一项研究[118]用含有287个代表癌症相关基因/基因座克隆的BAC阵列分析148个原发性乳腺癌,受试者基因拷贝数小于5%(中位数)或少于11%(三分位数)的患者总体生存较好,基于拷贝数变化的无监督层次聚类标识了四个聚类,用与雌激素受体(EstrogenReceptor,ER)、肿瘤分级和NPI相关的基因构建kNN分类器,平均错误率为24.7%,25.7%和35.7%。研究表明,基于肿瘤DNA拷贝数分布建立乳腺癌分子分类学,可能比表达微阵列分析更有实际意义。虽然子宫内膜癌预后总体良好,早发现并及时预防对减轻其疾病负担依然具有重要意义。一项研究[119]用LR、SHP、kNN和CART分析了I-III期子宫内膜癌患者和健康对照组的64个血清生物标记物组(对照组N=135,病例组N=115),研究发现子宫内膜癌鉴别能力最强的生物标记物是催乳素,可能潜在用于开发基于血液测试去早期检测高危人群中的子宫内膜癌,用灵活的统计学方法将多个血清标记物的信息相结合可以很好地鉴定癌症。用来自加拿大安大略省、包含综合健康评估信息数据的家庭护理患者(N=24724)的样本,一项研究[120]用kNN模型和已有的临床评估规程(ActivityofDailyLivingClinicalAssessmentProcedures,ADLCAP),比较两者预测患者康复潜力的性能,康复潜力被定义为患者功能改善或者在近一年的随访期内在家。结果表明,模型的假阳性、假阴性率均较低,用似然比统计量比较可知kNN模型比ADLCAP性能更优良,研究表明kNN模型可用于辅助临床决策。135 华中科技大学博士学位论文七、其他模型其他模型有深度学习的卷积神经网络(ConvolutionalNeuralNetwork,CNN)模型。人工智能领域著名学者吴恩达和他斯坦福的团队最近提交了一篇新论文提出了CheXNet的新技术,研究人员表示:在识别胸透照片中肺炎等疾病方面,新技术的准确率已经超过了人类专业医师(论文:CheXNet:Radiologist-LevelPneumoniaDetectiononChestX-RayswithDeepLearning)。在病人入院时,为了帮助医生更好地核对和计划用药方案、降低用药的安全风险,有研究设计卷积神经网络分析病人就诊记录,预测病人出院时的用药,CNN可以从有噪声和非结构化的文本中提取语义表征,在2.5万份病人就诊记录上对CNN评估,与4种基准模型进行了比较。该方法在宏平均F1分数上,相对于最好的基准模型有20%的提升。(论文:PredictingDischargeMedicationsatAdmissionTimeBasedonDeepLearning)。八、小结传统统计学中Logistic回归、Cox比例风险回归模型最常用于病人预后预测研究,其方法存在一些无法克服的弱点,如无法处理非线性效应、多重共线性效应和变量间的交互作用等。为克服该局限性,近年来很多研究利用人工智能领域的机器学习算法在临床上开展预后预测研究,在其他医疗领域也得到了越来越广泛的运用,并取得了很好的效果。136 华中科技大学博士学位论文参考文献[1]ZhuL,LuoW,SuM,etal.ComparisonbetweenartificialneuralnetworkandCoxregressionmodelinpredictingthesurvivalrateofgastriccancerpatients[J].BiomedRep,2013,1(5):757-760.[2]HuiEP,LeungLK,PoonTC,etal.Predictionofoutcomeincancerpatientswithfebrileneutropenia:aprospectivevalidationoftheMultinationalAssociationforSupportiveCareinCancerriskindexinaChinesepopulationandcomparisonwiththeTalcottmodelandartificialneuralnetwork[J].SupportCareCancer,2011,19(10):1625-1635.[3]TalcottJA,SiegelRD,FinbergR,etal.Riskassessmentincancerpatientswithfeverandneutropenia:aprospective,two-centervalidationofapredictionrule[J].JClinOncol,1992,10(2):316-322.[4]deSouzaVL,SerufoJC,DaCRM,etal.PerformanceofamodifiedMASCCindexscoreforidentifyinglow-riskfebrileneutropeniccancerpatients[J].SupportCareCancer,2008,16(7):841-846.[5]SarinSK,KumarA,AlmeidaJA,etal.Acute-on-chronicliverfailure:consensusrecommendationsoftheAsianPacificAssociationforthestudyoftheliver(APASL)[J].HepatolInt,2009,3(1):269-282.[6]ZhengMH,ShiKQ,LinXF,etal.Amodeltopredict3-monthmortalityriskofacute-on-chronichepatitisBliverfailureusingartificialneuralnetwork[J].JViralHepat,2013,20(4):248-255.[7]LeeSK,SonYJ,KimJ,etal.PredictionModelforHealth-RelatedQualityofLifeofElderlywithChronicDiseasesusingMachineLearningTechniques[J].HealthcInformRes,2014,20(2):125-134.[8]LiuX,LiNS,LvLS,etal.AcomparisonoftheperformancesofanartificialneuralnetworkandaregressionmodelforGFRestimation[J].AmJKidneyDis,2013,62(6):1109-1115.[9]NeloferR,RamananRN,RahmanRN,etal.ComparisonoftheestimationcapabilitiesofresponsesurfacemethodologyandartificialneuralnetworkfortheoptimizationofrecombinantlipaseproductionbyE.coliBL21[J].JIndMicrobiol137 华中科技大学博士学位论文Biotechnol,2012,39(2):243-254.[10]FatihaB,SamehB,YoucefS,etal.Comparisonofartificialneuralnetwork(ANN)andresponsesurfacemethodology(RSM)inoptimizationoftheimmobilizationconditionsforlipasefromCandidarugosaonAmberjet((R))4200-Cl[J].PrepBiochemBiotechnol,2013,43(1):33-47.[11]AnderssonS,HeijlA,BiziosD,etal.Comparisonofcliniciansandanartificialneuralnetworkregardingaccuracyandcertaintyinperformanceofvisualfieldassessmentforthediagnosisofglaucoma[J].ActaOphthalmol,2013,91(5):413-417.[12]ShiHY,HwangSL,LeeKT,etal.In-hospitalmortalityaftertraumaticbraininjurysurgery:anationwidepopulation-basedcomparisonofmortalitypredictorsusedinartificialneuralnetworkandlogisticregressionmodels[J].JNeurosurg,2013,118(4):746-752.[13]CadotteDW,VachhrajaniS,PirouzmandF.TheepidemiologicaltrendsofheadinjuryinthelargestCanadianadulttraumacenterfrom1986to2007[J].JNeurosurg,2011,114(6):1502-1509.[14]StephanC,JungK,CammannH,etal.Anartificialneuralnetworkconsiderablyimprovesthediagnosticpowerofpercentfreeprostate-specificantigeninprostatecancerdiagnosis:resultsofa5-yearinvestigation[J].IntJCancer,2002,99(3):466-473.[15]LeeHJ,HwangSI,HanSM,etal.Image-basedclinicaldecisionsupportfortransrectalultrasoundinthediagnosisofprostatecancer:comparisonofmultiplelogisticregression,artificialneuralnetwork,andsupportvectormachine[J].EurRadiol,2010,20(6):1476-1484.[16]FeiY,HuJ,GaoK,etal.Predictingriskforportalveinthrombosisinacutepancreatitispatients:Acomparisonofradicalbasisfunctionartificialneuralnetworkandlogisticregressionmodels[J].JCritCare,2017,39:115-123.[17]SkochJ,TahirR,AbruzzoT,etal.Predictingsymptomaticcerebralvasospasmafteraneurysmalsubarachnoidhemorrhagewithanartificialneuralnetworkinapediatricpopulation[J].ChildsNervSyst,2017,33(12):2153-2157.[18]Chen-YingH,Wei-ChenC,Po-TsunL,etal.Comparingdeepneuralnetworkandothermachinelearningalgorithmsforstrokepredictioninalarge-scalepopulation-basedelectronicmedicalclaimsdatabase[J].ConfProcIEEEEngMedBiolSoc,2017,2017:3110-3113.138 华中科技大学博士学位论文[19]LeCunY,BengioY,HintonG.Deeplearning[J].Nature,2015,521(7553):436-444.[20]KimSK,YooTK,OhE,etal.Osteoporosisriskpredictionusingmachinelearningandconventionalmethods[J].ConfProcIEEEEngMedBiolSoc,2013,2013:188-191.[21]WangY,NgK,ByrdRJ,etal.Earlydetectionofheartfailurewithvaryingpredictionwindowsbystructuredandunstructureddatainelectronichealthrecords[J].ConfProcIEEEEngMedBiolSoc,2015,2015:2530-2533.[22]SharmaA,KumarR,VaradwajPK,etal.Acomparativestudyofsupportvectormachine,artificialneuralnetworkandbayesianclassifierformutagenicityprediction[J].InterdiscipSci,2011,3(3):232-239.[23]BrimsFJ,MeniawyTM,DuffusI,etal.ANovelClinicalPredictionModelforPrognosisinMalignantPleuralMesotheliomaUsingDecisionTreeAnalysis[J].JThoracOncol,2016,11(4):573-582.[24]WangY,SimonM,BondeP,etal.PrognosisofrightventricularfailureinpatientswithleftventricularassistdevicebasedondecisiontreewithSMOTE[J].IEEETransInfTechnolBiomed,2012,16(3):383-390.[25]EstebanC,ArosteguiI,MorazaJ,etal.DevelopmentofadecisiontreetoassesstheseverityandprognosisofstableCOPD[J].EurRespirJ,2011,38(6):1294-1300.[26]HungM,BounsangaJ,LiuF,etal.ProfilingArthritisPainwithaDecisionTree[J].PainPract,2017.DOI:10.1111/papr.12645[27]XinZ,HuaL,WangXH,etal.ReanalysisandExternalValidationofaDecisionTreeModelforDetectingUnrecognizedDiabetesinRuralChineseIndividuals[J].IntJEndocrinol,2017,2017:3894870.[28]HeJZ,WuZY,WangSH,etal.Adecisiontree-basedcombinationofezrin-interactingproteinstoestimatetheprognosticriskofpatientswithesophagealsquamouscellcarcinoma[J].HumPathol,2017,66:115-125.[29]ImaiS,YamadaT,KasashiK,etal.Usefulnessofadecisiontreemodelfortheanalysisofadversedrugreactions:Evaluationofariskpredictionmodelofvancomycin-associatednephrotoxicityconstructedusingadataminingprocedure[J].JEvalClinPract,2017,6(23):1240-1246[30]SteinfortDP,LiewD,ConronM,etal.Cost-benefitofminimallyinvasivestagingofnon-smallcelllungcancer:adecisiontreesensitivityanalysis[J].JThoracOncol,139 华中科技大学博士学位论文2010,5(10):1564-1570.[31]KamphuisEI,vanWelyM,ReppingS,etal.Shouldtheindividualpretermbirthriskbeincorporatedintotheembryotransferpolicyininvitrofertilisation?Adecisionanalysis[J].BJOG,2015,122(6):825-833.[32]FontC,Carmona-BayonasA,Fernandez-MartinezA,etal.Outpatientmanagementofpulmonaryembolismincancer:dataonaprospectivecohortof138consecutivepatients[J].JNatlComprCancNetw,2014,12(3):365-373.[33]FontC,Carmona-BayonasA,BeatoC,etal.Clinicalfeaturesandshort-termoutcomesofcancerpatientswithsuspectedandunsuspectedpulmonaryembolism:theEPIPHANYstudy[J].EurRespirJ,2017,49(1).DOI:10.1183/13993003.00282-2016[34]Carmona-BayonasA,Jimenez-FonsecaP,FontC,etal.Predictingseriouscomplicationsinpatientswithcancerandpulmonaryembolismusingdecisiontreemodelling:theEPIPHANYIndex[J].BrJCancer,2017,116(8):994-1001.[35]SchweitzerA,HornJ,MikolajczykRT,etal.EstimationsofworldwideprevalenceofchronichepatitisBvirusinfection:asystematicreviewofdatapublishedbetween1965and2013[J].Lancet,2015,386(10003):1546-1555.[36]NayagamS,ContehL,SicuriE,etal.Cost-effectivenessofcommunity-basedscreeningandtreatmentforchronichepatitisBinTheGambia:aneconomicmodellinganalysis[J].LancetGlobHealth,2016,4(8):e568-e578.[37]GronlundE,JohanssonS,NyholmT,etal.DosepaintingofprostatecancerbasedonGleasonscorecorrelationswithapparentdiffusioncoefficients[J].ActaOncol,2017:1-8.[38]JedroszkaD,OrzechowskaM,HamouzR,etal.Markersofepithelial-to-mesenchymaltransitionreflecttumorbiologyaccordingtopatientageandGleasonscoreinprostatecancer[J].PLoSOne,2017,12(12):e188842.[39]IrshadS,BansalM,Castillo-MartinM,etal.Amolecularsignaturepredictiveofindolentprostatecancer[J].SciTranslMed,2013,5(202):122r-202r.[40]LeLoetX,BerthelotJM,CantagrelA,etal.Clinicalpracticedecisiontreeforthechoiceofthefirstdiseasemodifyingantirheumaticdrugforveryearlyrheumatoidarthritis:a2004proposaloftheFrenchSocietyofRheumatology[J].AnnRheumDis,2006,65(1):45-50.[41]GoetzeTO,PaolucciV.[IncidentalT1b-T3gallbladdercarcinoma.Extended140 华中科技大学博士学位论文cholecystectomyasanunderestimatedprognosticfactor-resultsoftheGermanregistry][J].Chirurg,2014,85(2):131-138.[42]CaiZQ,GuoP,SiSB,etal.AnalysisofprognosticfactorsforsurvivalaftersurgeryforgallbladdercancerbasedonaBayesiannetwork[J].SciRep,2017,7(1):293.[43]SebastianiP,NolanVG,BaldwinCT,etal.Anetworkmodeltopredicttheriskofdeathinsicklecelldisease[J].Blood,2007,110(7):2727-2735.[44]DiasCC,RodriguesPP,DaCA,etal.ClinicalprognosticfactorsfordisablingCrohn'sdisease:asystematicreviewandmeta-analysis[J].WorldJGastroenterol,2013,19(24):3866-3871.[45]DiasCC,RodriguesPP,DaCA,etal.Clinicalpredictorsofcolectomyinpatientswithulcerativecolitis:systematicreviewandmeta-analysisofcohortstudies[J].JCrohnsColitis,2015,9(2):156-163.[46]DiasCC,RodriguesPP,CoelhoR,etal.Erratum:DevelopmentandValidationofRiskMatricesforCrohn'sDiseaseOutcomesinPatientsWhoUnderwentEarlyTherapeuticInterventions[J].JCrohnsColitis,2017,11(4):515.[47]YangX,LiP,DengX,etal.Perioperativetreatmentsforresecteduppertracturothelialcarcinoma:anetworkmeta-analysis[J].Oncotarget,2017,8(2):3568-3580.[48]TevisSE,CobianAG,TruongHP,etal.ImplicationsofMultipleComplicationsonthePostoperativeRecoveryofGeneralSurgeryPatients[J].AnnSurg,2016,263(6):1213-1218.[49]WangY,NatarajA.Footdropresultingfromdegenerativelumbarspinaldiseases:clinicalcharacteristicsandprognosis[J].ClinNeurolNeurosurg,2014,117:33-39.[50]LiuK,ZhuW,ShiJ,etal.Footdropcausedbylumbardegenerativedisease:clinicalfeatures,prognosticfactorsofsurgicaloutcomeandclinicalstage[J].PLoSOne,2013,8(11):e80375.[51]BhargavaD,SinhaP,OdakS,etal.Surgicaloutcomeforfootdropinlumbardegenerativedisease[J].GlobalSpineJ,2012,2(3):125-128.[52]TakenakaS,AonoH.PredictionofPostoperativeClinicalRecoveryofDropFootAttributabletoLumbarDegenerativeDiseases,viaaBayesianNetwork[J].ClinOrthopRelatRes,2017,475(3):872-880.[53]CaiX,Perez-ConchaO,CoieraE,etal.Real-timepredictionofmortality,141 华中科技大学博士学位论文readmission,andlengthofstayusingelectronichealthrecorddata[J].JAmMedInformAssoc,2016,23(3):553-561.[54]MariniS,TrifoglioE,BarbariniN,etal.ADynamicBayesianNetworkmodelforlong-termsimulationofclinicalcomplicationsintype1diabetes[J].JBiomedInform,2015,57:369-376.[55]PetousisP,HanSX,AberleD,etal.Predictionoflungcancerincidenceonthelow-dosecomputedtomographyarmoftheNationalLungScreeningTrial:AdynamicBayesiannetwork[J].ArtifIntellMed,2016,72:42-55.[56]KangS,NamBH,ParkJY,etal.Riskassessmenttoolfordistantrecurrenceafterplatinum-basedconcurrentchemoradiationinpatientswithlocallyadvancedcervicalcancer:aKoreangynecologiconcologygroupstudy[J].JClinOncol,2012,30(19):2369-2374.[57]AustinRM,OniskoA,DruzdzelMJ.ThePittsburghCervicalCancerScreeningModel:ariskassessmenttool[J].ArchPatholLabMed,2010,134(5):744-750.[58]OrphanouK,StassopoulouA,KeravnouE.DBN-Extended:ADynamicBayesianNetworkModelExtendedWithTemporalAbstractionsforCoronaryHeartDiseasePrognosis[J].IEEEJBiomedHealthInform,2016,20(3):944-952.[59]AngKK,SturgisEM.Humanpapillomavirusasamarkerofthenaturalhistoryandresponsetotherapyofheadandnecksquamouscellcarcinoma[J].SeminRadiatOncol,2012,22(2):128-142.[60]BaumanJE,MichelLS,ChungCH.Newpromisingmoleculartargetsinheadandnecksquamouscellcarcinoma[J].CurrOpinOncol,2012,24(3):235-242.[61]AbbasianAA,GharbaliA,SanieiY,etal.ApplicationofTextureAnalysisinDiagnosisofMultipleSclerosisbyMagneticResonanceImaging[J].GlobJHealthSci,2015,7(6):68-78.[62]ChangCW,HoCC,ChenJH.ADHDclassificationbyatextureanalysisofanatomicalbrainMRIdata[J].FrontSystNeurosci,2012,6:66.[63]ZhangJ,YuC,JiangG,etal.3DtextureanalysisonMRIimagesofAlzheimer'sdisease[J].BrainImagingBehav,2012,6(1):61-69.[64]LuciaF,VisvikisD,DesseroitMC,etal.Predictionofoutcomeusingpretreatment(18)F-FDGPET/CTandMRIradiomicsinlocallyadvancedcervicalcancertreatedwithchemoradiotherapy[J].EurJNuclMedMolImaging,2017.142 华中科技大学博士学位论文DOI:https://doi.org/10.1007/s00259-017-3898-7[65]KarlbergA,BerntsenEM,JohansenH,etal.Multimodal(18)F-FluciclovinePET/MRIandUltrasound-GuidedNeurosurgeryofanAnaplasticOligodendroglioma[J].WorldNeurosurg,2017,108:981-989.[66]DangM,LysackJT,WuT,etal.MRItextureanalysispredictsp53statusinheadandnecksquamouscellcarcinoma[J].AJNRAmJNeuroradiol,2015,36(1):166-170.[67]ReniM,CordioS,MilandriC,etal.Gemcitabineversuscisplatin,epirubicin,fluorouracil,andgemcitabineinadvancedpancreaticcancer:arandomisedcontrolledmulticentrephaseIIItrial[J].LancetOncol,2005,6(6):369-376.[68]GreshamGK,WellsGA,GillS,etal.Chemotherapyregimensforadvancedpancreaticcancer:asystematicreviewandnetworkmeta-analysis[J].BMCCancer,2014,14:471.[69]Diaz-LaviadaI.Theendocannabinoidsysteminprostatecancer[J].NatRevUrol,2011,8(10):553-561.[70]HaggstromJ,CiprianoM,ForshellLP,etal.Potentialupstreamregulatorsofcannabinoidreceptor1signalinginprostatecancer:aBayesiannetworkanalysisofdatafromatissuemicroarray[J].Prostate,2014,74(11):1107-1117.[71]LambertJC,HeathS,EvenG,etal.Genome-wideassociationstudyidentifiesvariantsatCLUandCR1associatedwithAlzheimer'sdisease[J].NatGenet,2009,41(10):1094-1099.[72]HuX,PickeringE,LiuYC,etal.Meta-analysisforgenome-wideassociationstudyidentifiesmultiplevariantsattheBIN1locusassociatedwithlate-onsetAlzheimer'sdisease[J].PLoSOne,2011,6(2):e16616.[73]JiangX,CaiB,XueD,etal.Acomparativeanalysisofmethodsforpredictingclinicaloutcomesusinghigh-dimensionalgenomicdatasets[J].JAmMedInformAssoc,2014,21(e2):e312-e319.[74]PapierniakES,LowenthalDT,HarmanE.Noveltherapiesinasthma:leukotrieneantagonists,biologicagents,andbeyond[J].AmJTher,2013,20(1):79-103.[75]SirouxV,BasaganaX,BoudierA,etal.Identifyingadultasthmaphenotypesusingaclusteringapproach[J].EurRespirJ,2011,38(2):310-317.[76]ProsperiMC,SahinerUM,BelgraveD,etal.Challengesinidentifyingasthma143 华中科技大学博士学位论文subgroupsusingunsupervisedstatisticallearningtechniques[J].AmJRespirCritCareMed,2013,188(11):1303-1312.[77]FinkelsteinJ,JeongIC.Machinelearningapproachestopersonalizeearlypredictionofasthmaexacerbations[J].AnnNYAcadSci,2017,1387(1):153-165.[78]MapelliP,BettinardiV,FallancaF,etal.18F-FAZAPET/CTinthePreoperativeEvaluationofNSCLC:Comparisonwith18F-FDGandImmunohistochemistry[J].CurrRadiopharm,2017.DOI:10.2174/1874471010666171108162319[79]EmaminejadN,QianW,GuanY,etal.FusionofQuantitativeImageandGenomicBiomarkerstoImprovePrognosisAssessmentofEarlyStageLungCancerPatients[J].IEEETransBiomedEng,2016,63(5):1034-1043.[80]HuangY,ZhangL,LianG,etal.Anovelmathematicalmodeltopredictprognosisofburntpatientsbasedonlogisticregressionandsupportvectormachine[J].Burns,2016,42(2):291-299.[81]FelsonDT.Clinicalpractice.Osteoarthritisoftheknee[J].NEnglJMed,2006,354(8):841-848.[82]YooTK,KimSK,ChoiSB,etal.Interpretationofmovementduringstairascentforpredictingseverityandprognosisofkneeosteoarthritisinelderlywomenusingsupportvectormachine[J].ConfProcIEEEEngMedBiolSoc,2013,2013:192-196.[83]YangB,GuoQ,WangF,etal.A80-genesetpotentiallypredictstherelapseinlaryngealcarcinomaoptimizedbysupportvectormachine[J].CancerBiomark,2017,19(1):65-73.[84]JiangY,LiuW,LiT,etal.PrognosticandPredictiveValueofp21-activatedKinase6AssociatedSupportVectorMachineClassifierinGastricCancerTreatedby5-fluorouracil/OxaliplatinChemotherapy[J].EBioMedicine,2017,22:78-88.[85]SimoesEA.Respiratorysyncytialvirusinfection[J].Lancet,1999,354(9181):847-852.[86]FalseyAR,McElhaneyJE,BeranJ,etal.Respiratorysyncytialvirusandotherrespiratoryviralinfectionsinolderadultswithmoderatetosevereinfluenza-likeillness[J].JInfectDis,2014,209(12):1873-1881.[87]JongVL,AhoutIM,vandenHamHJ,etal.Transcriptomeassistsprognosisofdiseaseseverityinrespiratorysyncytialvirusinfectedinfants[J].SciRep,2016,6:36603.[88]DireitoB,TeixeiraCA,SalesF,etal.ARealisticSeizurePredictionStudyBasedon144 华中科技大学博士学位论文MulticlassSVM[J].IntJNeuralSyst,2017,27(3):1750006.[89]GoliS,MahjubH,FaradmalJ,etal.SurvivalPredictionandFeatureSelectioninPatientswithBreastCancerUsingSupportVectorRegression[J].ComputMathMethodsMed,2016,2016:2157984.[90]ChenH,HuL,LiH,etal.AnEffectiveMachineLearningApproachforPrognosisofParaquatPoisoningPatientsUsingBloodRoutineIndexes[J].BasicClinPharmacolToxicol,2017,120(1):86-96.[91]ParodiS,ManneschiC,VerdaD,etal.LogicLearningMachineandstandardsupervisedmethodsforHodgkin'slymphomaprognosisusinggeneexpressiondataandclinicalvariables[J].HealthInformaticsJ,2016.DOI:10.1177/1460458216655188[92]LiC,ZhuB,ChenJ,etal.FeaturegenespredictingtheFLT3/ITDmutationinacutemyeloidleukemia[J].MolMedRep,2016,14(1):89-94.[93]YahyaN,EbertMA,BulsaraM,etal.Statistical-learningstrategiesgenerateonlymodestlyperformingpredictivemodelsforurinarysymptomsfollowingexternalbeamradiotherapyoftheprostate:Acomparisonofconventionalandmachine-learningmethods[J].MedPhys,2016,43(5):2040.[94]VanWeehaegheD,CeccariniJ,DelvaA,etal.ProspectiveValidationof18F-FDGBrainPETDiscriminantAnalysisMethodsintheDiagnosisofAmyotrophicLateralSclerosis[J].JNuclMed,2016,57(8):1238-1243.[95]GaoL,YeM,WuC.CancerClassificationBasedonSupportVectorMachineOptimizedbyParticleSwarmOptimizationandArtificialBeeColony[J].Molecules,2017,22(12).DOI:10.3390/molecules22122086.[96]SvenssonMA,LaFargueCJ,MacDonaldTY,etal.TestingmutualexclusivityofETSrearrangedprostatecancer[J].LabInvest,2011,91(3):404-412.[97]KunjuLP,CarskadonS,SiddiquiJ,etal.NovelRNAhybridizationmethodfortheinsitudetectionofETV1,ETV4,andETV5genefusionsinprostatecancer[J].ApplImmunohistochemMolMorphol,2014,22(8):e32-e40.[98]TomlinsSA,AlshalalfaM,DavicioniE,etal.Characterizationof1577primaryprostatecancersrevealsnovelbiologicalandclinicopathologicinsightsintomolecularsubtypes[J].EurUrol,2015,68(4):555-567.[99]GrotheyA,VanCutsemE,SobreroA,etal.Regorafenibmonotherapyforpreviously145 华中科技大学博士学位论文treatedmetastaticcolorectalcancer(CORRECT):aninternational,multicentre,randomised,placebo-controlled,phase3trial[J].Lancet,2013,381(9863):303-312.[100]LiJ,QinS,XuR,etal.RegorafenibplusbestsupportivecareversusplaceboplusbestsupportivecareinAsianpatientswithpreviouslytreatedmetastaticcolorectalcancer(CONCUR):arandomised,double-blind,placebo-controlled,phase3trial[J].LancetOncol,2015,16(6):619-629.[101]MayerRJ,VanCutsemE,FalconeA,etal.RandomizedtrialofTAS-102forrefractorymetastaticcolorectalcancer[J].NEnglJMed,2015,372(20):1909-1919.[102]PietrantonioF,MiceliR,RimassaL,etal.Estimating12-weekdeathprobabilityinpatientswithrefractorymetastaticcolorectalcancer:theColonLifenomogram[J].AnnOncol,2017,28(3):555-561.[103]KourouK,ExarchosTP,ExarchosKP,etal.Machinelearningapplicationsincancerprognosisandprediction[J].ComputStructBiotechnolJ,2015,13:8-17.[104]PalomboF,TamagniniF,JeynesJ,etal.DetectionofAbetaplaque-associatedastrogliosisinAlzheimer'sdiseasebrainbyspectroscopicimagingandimmunohistochemistry[J].Analyst,2017.DOI:10.1039/c7an01747b[105]ZhangJ,GuoY,WangY,etal.Long-termtreadmillexerciseattenuatesAbetaburdensandastrocyteactivationinAPP/PS1mousemodelofAlzheimer'sdisease[J].NeurosciLett,2017.DOI:https://doi.org/10.1016/j.neulet.2017.12.025[106]MattssonN,InselPS,DonohueM,etal.PredictingReductionofCerebrospinalFluidbeta-Amyloid42inCognitivelyHealthyControls[J].JAMANeurol,2015,72(5):554-560.[107]ChengL,QuekCY,SunX,etal.ThedetectionofmicroRNAassociatedwithAlzheimer'sdiseaseinbiologicalfluidsusingnext-generationsequencingtechnologies[J].FrontGenet,2013,4:150.[108]ChengL,DoeckeJD,SharplesRA,etal.PrognosticserummiRNAbiomarkersassociatedwithAlzheimer'sdiseaseshowsconcordancewithneuropsychologicalandneuroimagingassessment[J].MolPsychiatry,2015,20(10):1188-1196.[109]HuangW,LvB,ZengH,etal.ParacrineFactorsSecretedbyMSCsPromoteAstrocyteSurvivalAssociatedWithGFAPDownregulationAfterIschemicStrokeviap38MAPKandJNK[J].JCellPhysiol,2015,230(10):2461-2475.146 华中科技大学博士学位论文[110]TiedtS,PrestelM,MalikR,etal.RNA-SeqIdentifiesCirculatingmiR-125a-5p,miR-125b-5p,andmiR-143-3pasPotentialBiomarkersforAcuteIschemicStroke[J].CircRes,2017,121(8):970-980.[111]HuxleyRR,PetersSA,MishraGD,etal.Riskofall-causemortalityandvasculareventsinwomenversusmenwithtype1diabetes:asystematicreviewandmeta-analysis[J].LancetDiabetesEndocrinol,2015,3(3):198-206.[112]StevensRJ,KothariV,AdlerAI,etal.TheUKPDSriskengine:amodelfortheriskofcoronaryheartdiseaseinTypeIIdiabetes(UKPDS56)[J].ClinSci(Lond),2001,101(6):671-679.[113]VistisenD,AndersenGS,HansenCS,etal.PredictionofFirstCardiovascularDiseaseEventinType1DiabetesMellitus:TheStenoType1RiskEngine[J].Circulation,2016,133(11):1058-1066.[114]LiY,KrahnJM,FlakeGP,etal.Towardpredictingmetastaticprogressionofmelanomabasedongeneexpressiondata[J].PigmentCellMelanomaRes,2015,28(4):453-463.[115]LiP,HuY,YiJ,etal.Identificationofpotentialbiomarkerstodifferentiallydiagnosesolidpseudopapillarytumorsandpancreaticmalignanciesviaageneregulatorynetwork[J].JTranslMed,2015,13:361.[116]PengZ,SkoogL,HellborgH,etal.Anexpressionsignatureatdiagnosistoestimateprostatecancerpatients'overallsurvival[J].ProstateCancerProstaticDis,2014,17(1):81-90.[117]WeynB,VanDeWouwerG,KoprowskiM,etal.Valueofmorphometry,textureanalysis,densitometry,andhistometryinthedifferentialdiagnosisandprognosisofmalignantmesothelioma[J].JPathol,1999,189(4):581-589.[118]ChinSF,WangY,ThorneNP,etal.Usingarray-comparativegenomichybridizationtodefinemolecularportraitsofprimarybreastcancers[J].Oncogene,2007,26(13):1959-1970.[119]YurkovetskyZ,Ta'AsanS,SkatesS,etal.Developmentofmultimarkerpanelforearlydetectionofendometrialcancer.Highdiagnosticpowerofprolactin[J].GynecolOncol,2007,107(1):58-65.[120]ZhuM,ChenW,HirdesJP,etal.TheK-nearestneighboralgorithmpredicted147 华中科技大学博士学位论文rehabilitationpotentialbetterthancurrentClinicalAssessmentProtocol[J].JClinEpidemiol,2007,60(10):1015-1021.148 华中科技大学博士学位论文附录1攻读学位期间主持基金和发表论文目录一、主持基金1、湖北省卫生计生委血吸虫病防治科研项目:长江沿岸重点环境血吸虫感染实时监测预警平台的构建(基金号:WJ2017X011)二、发表论文1、LiG,NieS*,ZhouX,etal.ComparisonofthreedataminingmodelsforpredictionofadvancedschistosomiasisprognosisintheHubeiprovince[J].PlosNeglectedTropicalDiseases.Published:February15,2018DOI:10.1371/journal.pntd.0006262.(IF=3.834)。2、利国,周晓蓉*,陈艳艳等.2016年湖北省血吸虫病重点水域哨鼠监测结果及风险分析[J].中国血吸虫病防治杂志,2017,29(4):412-415。3、利国,周晓蓉*,陈艳艳等.2015年湖北省血吸虫病重点水域哨鼠监测结果分析[J].疾病监测,2017,32(5):405-408。4、利国,周晓蓉*,李翔等.2014-2016年武汉市血吸虫病重点水域哨鼠监测结果分析[J].公共卫生与预防医学,2017,28(6):49-51。5、利国,周晓蓉*,楼理洋等.哨鼠监测中日本血吸虫成虫和虫卵玻片标本的制备方法[J].热带病与寄生虫学,2017,15(4):207-209。6、涂画,利国*,杨正宇等.基于SWOT模型的湖北省农村血防改厕项目管理策略分析[J].中国公共卫生管理,送审(通讯作者)。7、杨军晶,利国*,周晓蓉等.2017年湖北省血吸虫病重点水域哨鼠监测结果分析[J].公共卫生与预防医学,送审(通讯作者)。149 华中科技大学博士学位论文附录2湖北省晚期血吸虫病人救助治疗个案调查表150 华中科技大学博士学位论文151 华中科技大学博士学位论文152 华中科技大学博士学位论文153 华中科技大学博士学位论文致谢首先,衷心感谢我的导师——聂绍发教授三年来在科研、学习、工作和生活上对我的关心,特别是在我选题方面倾注的大量心血,这是我得以完成博士阶段学业最重要的原因。从博士课程、选题和SCI写作、申报课题,我的每一步成长都离不开聂老师无微不至的关怀。求学之路艰辛,“士之致远,先器识,后文艺”。在聂老师教导下,我最大的感悟是,要想在学术道路上走得远走得稳,必须先有“同舟同心,济世救民”的格局和坚定的决心,才能克服重重困难,把学问做的精深,铁肩担道义,妙手著文章,乃吾辈之责。衷心感谢湖北省疾控中心的黄希宝副院长,血防所的刘斯所长,刘建兵副所长,慢病所的蔡顺祥所长等各位领导和同事对我的帮助。衷心感谢周晓蓉副主任医师,为我了解晚期血吸虫病这一领域的专业知识、获取晚期血吸虫病流行病学调查数据提供了大量的帮助和支持。衷心感谢武汉大学数学系张恒韬、陈元祺同学,为掌握人工智能机器学习算法,两位90后年轻人牺牲了大量时间与我一起研究机器学习算法的编程和优化,从你们身上,我感受到年轻人的锐气和不怕吃苦的精神。衷心感谢我的硕士导师魏晟教授,给我引荐聂老师。衷心感谢刘巧艳同学,刘跃伟、江洪波、刘建华师兄,陈艳艳师姐,在我SCI写作和投稿中提供了大量有益的建议和帮助,感谢程瑶、张燕茹师妹,在我博士论文写作阶段提供的好建议。衷心感谢2012级MPH全班同学,对我毫无保留的信任和支持,让我感受到友情的力量,衷心感谢同门兄弟姐妹们的鼓励、支持和帮助。衷心感谢同济医学院公共卫生学院全体老师多年来对我的学习和生活上对我关心、帮助和支持。我的本科、硕士和博士阶段都承蒙公共卫生学院老师们的关照,深受老师们治学精神的影响。谁言寸草心,报得三春晖?母校的恩泽,我一生都报答不完。感谢所有帮助、支持过我的亲朋好友们,包括通过邮件给予我无私帮助和指导、素未谋面的审稿人、编辑。最后,深深感谢我的父母亲的养育之恩,感谢我的女朋友和她父母对我学业和工作的支持,家人的理解、支持和鼓励是我科研道路上不断前行的动力。154 *华中科技大学学位评定委员会办公室印制

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭