基于机器学习的A型流感病毒跨种传播和抗原关系预测研究

基于机器学习的A型流感病毒跨种传播和抗原关系预测研究

ID:76108742

大小:6.64 MB

页数:120页

时间:2024-02-04

上传者:笑似︶ㄣ無奈
基于机器学习的A型流感病毒跨种传播和抗原关系预测研究_第1页
基于机器学习的A型流感病毒跨种传播和抗原关系预测研究_第2页
基于机器学习的A型流感病毒跨种传播和抗原关系预测研究_第3页
基于机器学习的A型流感病毒跨种传播和抗原关系预测研究_第4页
基于机器学习的A型流感病毒跨种传播和抗原关系预测研究_第5页
基于机器学习的A型流感病毒跨种传播和抗原关系预测研究_第6页
基于机器学习的A型流感病毒跨种传播和抗原关系预测研究_第7页
基于机器学习的A型流感病毒跨种传播和抗原关系预测研究_第8页
基于机器学习的A型流感病毒跨种传播和抗原关系预测研究_第9页
基于机器学习的A型流感病毒跨种传播和抗原关系预测研究_第10页
资源描述:

《基于机器学习的A型流感病毒跨种传播和抗原关系预测研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

分类号学号D200877545学校代码10487密级博士学位论文基于机器学习的A型流感病毒跨种传播和抗原关系预测研究学位申请人:王佳学科专业:计算机应用技术指导教师:周艳红教授答辩日期:2012年10月27日 ADissertationSubmittedinPartialFulfillmentoftheRequirementsfortheDegreeofDoctorofPhilosophyinEngineeringPredictingInterspeciesTransmissionandAntigenicRelationshipofInfluenzaAVirusesBasedonMachineLearningMethodsPh.D.Candidate:.WangJiaMajor:ComputerApplicationTechnologySupervisor:Prof.ZhouYanhongHuazhongUniversityofScience&TechnologyWuhan430074,P.R.ChinaOctober27,2012 独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:日期:年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密□,在____________年解密后适用本授权书。本论文属于不保密□。(请在以上方框内打“√”)学位论文作者签名:指导教师签名:日期:年月日日期:年月日 华中科技大学博士学位论文摘要禽流感病毒是禽适应的A型流感病毒,在过去的十几年间,禽流感病毒的跨种传播给人类社会造成了重大的生命财产损失,引起了社会的高度关注。H3N2亚型流感病毒是另一种对人类社会具有重要影响的A型流感病毒,它的抗原变异让疫苗失去作用,为全球流感病毒监控工作带来较大的困难。研究这两类A型流感病毒的跨种传播和抗原关系具有重要的理论和现实意义。基于机器学习、信息论、特征选择等方法研制并改进了禽流感病毒禽到人的跨种传播和H3N2亚型流感病毒的抗原关系预测模型,同时识别了禽流感病毒禽到人传播的90个特征氨基酸位置以及18个H3N2流感病毒抗原变异关键氨基酸位置,从而可以为公共健康提供早期预警,为相关的分子决定因素和底层机制研究提供思路。首先,根据现在尚未有实验验证的不能实现禽到人传播的禽流感病毒的情况,结合一分类SVM适用于负样本较难确定的问题的特点,探索了使用一分类SVM来预测禽流感病毒禽到人传播的可行性,通过氨基酸组成、二肽组成及自相关系数编码禽流感病毒蛋白质序列,构建了一分类SVM预测模型,其预测精度超过了当前已有的反向神经网络预测模型。其次,在前期工作建测试用的负样本时,发现构建的负样本比已有的预测模型中用到的负样本具有更高的可靠性,因此扩大了两类样本的数据规模并采取传统的两分类方法提升预测禽流感病毒禽到人的跨种传播同时挖掘有生物学意义的特征。通过信息熵的方法首先选择了90个特征氨基酸位置,基于理化性质编码这些特征位置后使用了多种特征选择方法包括Relief,mRMR,信息增益及遗传算法选取了最优特征子集,利用这个最优特征子集构建的预测模型性能有了大幅提高,同时最终选择的理化特性在两类样本中差异明显,表明了这些特征的有效性,此外其中的两个理化性质得到多个生物学研究结果的支持。再次,人工收集了来自于相关文献中记录的H3N2流感病毒抗原变异数据,将最近三个H3N2抗原变异研究中用到的数据规模扩大了近一倍。然后比较了多种打分策I 华中科技大学博士学位论文略,包括优势比,互信息,Phi相关系数并联合多元线性回归最终识别了18个H3N2流感病毒抗原变异关键位置,这18个关键位置均位于HA蛋白的5个抗原表位中,有8个位置与已识别的正选择位置相吻合,说明了本研究识别的18个抗原变异关键位置对H3N2流感病毒抗原变异具有重要作用。最后,在上一部分工作的基础上,期望改进H3N2流感病毒抗原关系的预测模型,降低假阳性。基于氨基酸的某些突变可能并不造成抗原变异,而当理化性质改变时才造成抗原变异的提示,集成了多种理化性质变化来改进预测H3N2流感病毒的抗原关系。通过互信息与层次聚类筛选了候选理化性质,最终的实验结果表明构建的预测模型比上一部分工作构建的模型性能有了较大提高,同时优于当前其他三个H3N2抗原关系预测模型,包括汉明距离预测模型,分组打分多元线性回归模型以及决策树。此外进一步构建了H3N2流感病毒抗原关系预测的Web工具,为相关研究人员提供在线服务。关键词:机器学习;支持向量机;多元线性回归;特征选择;信息论;A型流感病毒;跨种传播;抗原关系II 华中科技大学博士学位论文AbstractAvianinfluenzavirusisaclassofavian-adaptedinfluenzaAviruses.Duringthepastdecade,avianinfluenzavirustookmanypeople’slivesandbroughtbigpanicandcloseattentiontohumansociety.InfluenzaH3N2virusisanotherclassofinfluenzaAviruseswithsignificantimpactonpublichealth.Theirantigenicvariantsresultinreducedorevenlosteffectivenessofthecurrentvaccine,causingtroubleintheworkofglobalinfluenzasurveillance.TheresearchaboutinterspeciestransmissionandantigenicvariantsofthetwokindsofinfluenzaAvirusesisofgreatimportantancebothintheoreticalandpracticalaspects.Basedonmachinelearning,informationtheoryandfeatureselectionmethods,thepredictionmodelsofavain-to-humantransmissionofavianinfluenzavirusesandantigenicrelationshipofinfluenzaH3N2virusesareimproved.Meanwhile,90signatureaminoacidpositionsforavain-to-humantransmissionofavianinfluenzavirusesand18criticalaminoacidpositionsforantigenicvariantsofinfluenzaH3N2virusesareidentified.Thisstudytherebycanprovideearlywarningforpublichealthandvaluablecluesfortherelatedresearchaboutmoleculedeterminantsandunderlyingmechanism.First,duetothefactthattherearenoexperimentallyconfirmedavianinfluenzaviruseswhichcannotdirectlyinfecthumantobeconsideredasnegativesamplesandone-classsupportvectormachineisanapproachsuccessfullyappliedinsolvingproblemswherethenegativeclassisnotwelldefined,thusweexploredthefeasibilityofusingone-classsupportvectormachinetopredictavian-to-humantransmissionsofavianinfluenzaviruses.Thefinalpredictionmodelconstructedwithaminoacidcomposition,dipeptidecompositionandautocorrelationachievesgoodperformance.Thepredictionaccuracyishigherthanthatofthepreviouspredictionmodelofbackpropagationneuralnetwork.Secondly,whenweestablishedthenegativetestingdatasetinthelaststudy,itwasfoundthatournegativedataaremorereliablethanthenegativedatausedinthepreviouspredictonmodel.Therefore,weincreasedthenumberoftwokindsofsamplesandattemptedtoconstructtraditionalbinary-classmodeltoimprovethepredictionofavian-to-humantransmissionsofavianinfluenzaviruses.The90signaturepositionswereIII 华中科技大学博士学位论文selectedwithentropymethod.BasedonfourfeatureselectionmethodsincludingRelief,mRMR,informationgainandgeneticalgorithm,theoptimalphysicochemicalfeaturesubsetwasmined.Theperformanceofthefinalprecidtionmodelconstructedwiththeoptimalfeaturesubsetachievesgreatimprovementthanthatoftheotherexistingpredictionmodels.Theexperimentalresultsofcross-validationandanindependenttestshowthatthefinalfeaturesandthemodelisefficienttopredictthetransmissionofavianinfluenzavirusesfromaviantohuman.Thirdly,394antigenicrelationshipdataofH3N2influenzaviruswerecollectedfromrelatedpublications.Then,differentscoringmethodsincludingphicoefficient,oddsratioandmutualinformationwerecompared.Baseonmultiplelinearregressionmodelandthebetterscoringmethod(i.e.phicoefficient),18aminoacidpositionswereidentifiedtobecriticalforantigenicvariantsofH3N2influenzavirus.Allthe18criticalpositionsarelocatedinfiveepitopesofHAprotein.Additionally,8positionsareidenticaltotheidentifiedpositiveselectionpositionsinotherstudies.Theresultsindicatethatthe18positionplayimportantrolesinantigenicvariantsofH3N2influenzavirus.Finally,basedontheaforementionedwork,wetriedtoimprovethepredictionmodelofantigenicrelationshipofH3N2influenzavirusandreducethefalsepositive.BasedonthehintthatphysicochemicalpropertychangewouldbemoreeffectiveforantigenicvariantsofH3N2influenzavirus,usingthephysicochemicalfeaturecandidatesselectedbymutualinformationandhierarchicalclustering,thefinalpredictionmodelwasconstructedwithstepwisemultiplelinearregression.Theexperimentalresultsontrainingandtestingdatasetsindicatethatourpredictionmodelsurpasstheexsitingprecitionmodelsincludingthehammingdistancemodel,thegroupscoringmodelandthedecisiontreemodel.Furthermore,wedevelopedawebtoolnamedasH3N2-ARtoprovidetheonlineserviceofpredictingantigenicrelationshipofH3N2influenzavirusfortheresearchersinthisfield.Keywords:machinelearning;supportvectormachine;multiplelinearregression;featureselection;informationtheory;influenzaAvirus;interspeciestransmission;antigenicrelationshipIV 华中科技大学博士学位论文目录摘要................................................................................................................IAbstract............................................................................................................III1绪论1.1课题来源..................................................................................................(1)1.2研究背景、目的、意义..........................................................................(1)1.3国内外研究现状......................................................................................(4)1.4主要研究内容........................................................................................(14)2一分类SVM预测禽流感病毒禽到人的传播2.1引言........................................................................................................(17)2.2数据集....................................................................................................(18)2.3一分类SVM..........................................................................................(20)2.4特征选择................................................................................................(26)2.5性能评估方法........................................................................................(28)2.6结果与讨论............................................................................................(28)2.7本章小结................................................................................................(31)3基于理化特征选择预测禽流感病毒禽到人的传播3.1引言........................................................................................................(33)3.2数据集....................................................................................................(35)3.3算法步骤................................................................................................(36)3.4序列位置熵值........................................................................................(37)3.5理化性质编码氨基酸序列....................................................................(38)V 华中科技大学博士学位论文3.6特征选择与模型构建............................................................................(39)3.7性能评估方法........................................................................................(41)3.8结果与讨论............................................................................................(41)3.9本章小结................................................................................................(50)4联合位置打分及MLR识别H3N2流感病毒抗原变异关键位置4.1引言........................................................................................................(51)4.2抗原关系................................................................................................(53)4.3数据集....................................................................................................(54)4.4Phi相关系数..........................................................................................(55)4.5氨基酸位置重要性打分........................................................................(56)4.6多元线性回归模型................................................................................(57)4.7氨基酸关键位置统计推论....................................................................(58)4.8结果与讨论............................................................................................(59)4.9本章小结................................................................................................(67)5基于理化性质变化改进预测H3N2流感病毒抗原关系5.1引言........................................................................................................(68)5.2数据集....................................................................................................(69)5.3编码抗原变异关键位置........................................................................(70)5.4互信息....................................................................................................(71)5.5层次聚类................................................................................................(72)5.6逐步多元线性回归................................................................................(72)5.7性能评估方法........................................................................................(73)5.8结果与讨论............................................................................................(73)VI 华中科技大学博士学位论文5.9本章小结................................................................................................(80)6总结与展望6.1禽流感病毒跨种传播............................................................................(81)6.2H3N2流感病毒抗原关系.....................................................................(82)致谢.......................................................................................................(83)参考文献.......................................................................................................(84)附录1攻读学位期间发表的主要论文......................................................(97)附录2攻读学位期间申请及取得的软件著作版权..................................(98)附录3攻读学位期间参与的课题及项目..................................................(99)附录4流感病毒H3N2亚型抗原距离及抗原关系................................(100)VII 华中科技大学博士学位论文1绪论1.1课题来源本论文在以下项目的资助下完成:(1)科技部国家科技基础条件平台建设专项:生物信息学网络计算应用系统;(2)教育部科技基础资源数据平台建设专项:人类遗传基因信息数据整合及共享信息平台;(3)国家自然科学基金面上项目:高免疫原性T细胞抗原表位预测方法及其应用研究。1.2研究背景、目的、意义流感病毒属于正粘病毒科流感病毒属,由于其核蛋白和基质蛋白的抗原特性的差[1]异,流感病毒被分为A、B、C三个血清型。A型流感病毒在三个血清型中研究较多,且它造成的影响更为广泛、深远。该型流感病毒大范围存在于自然界中,从人、猫、猪、马、虎、鲸等多种哺乳动物和各种禽类以及鸟类中都可以分离到A型流感病毒株[2-5]。其表面蛋白共有两个,包括血凝素蛋白HA和神经氨酸酶蛋白NA,根据这两个表面蛋白的抗原特性的差异,A型流感病毒被进一步分为16个HA亚型及9个NA[6]亚型。A型流感病毒能造成禽类及鸟类全身性的感染,同时可以造成一些哺乳动物呼吸[1]气管性传染病甚至导致死亡。此外A型流感病毒是一类非常重要的人类病原体,对人类的公共健康有重大的影响。在过去的一个世纪中,几次流行病大爆发均由A型流感病毒引起。其中,1918年的西班牙流感(H1N1亚型)最具毁灭性,在全球夺走了[7]至少两千万人的性命。1957的亚洲流感(H2N2亚型)最早出现于中国南部,然后传播到东亚的其他国家乃至北美,在秋季席卷到欧洲,在全球造成了大约一百万人的[8]死亡。香港流感(H3N2亚型)在1968年的七月第一次被分离到,在1969及19701 华中科技大学博士学位论文年的冬天达到最高峰,此次的H3N2病毒是上一次的H2N2亚型病毒与禽流感病毒发生基因重配的结果,其中禽流感病毒提供了血凝素基因HA及聚合酶复合体基因[9,10]PB1,就死亡率而言,香港流感相对温和。最近一次的流感爆发于2009年的2月,最早出现于墨西哥,6个月后席卷全球,一度造成了人们的恐慌。由于它是猪源的H1N1流感病毒,在国内又称之为猪流感。尽管一般认为2009年H1N1流感的爆发相对温和,但仍然存在非常严重的急性呼吸系统疾病及并发症的案例,特别是在年轻人及中[8]年人中间出现了较多的案例。[11]禽流感病毒是指禽适应的A型流感病毒。现在学术界已经广泛认为野生水禽是[12,13]A型流感病毒的天然宿主,在A型流感病毒所有144个可能的亚型组合中,野生[8,11]水禽中共检测到了105个亚型。禽流感病毒毒型众多,且有较高的进化率,变异性很强。过去十几年禽流感疫情的爆发导致养殖场大量屠宰养殖的家禽,给家禽养殖[2]业造成了巨大的损失乃至毁灭性的打击,因此禽流感病毒的研究越来越受到各个国家家禽养殖业的重视。一般在家禽类中,禽流感病毒被分为高致病性禽流感和低致病性禽流感。高致病性禽流感病毒在静脉注射给4-6周的小鸡后10天里至少可以杀死[14][15]75%的小鸡,一些分离株甚至在接种后的36-48小时造成100%的死亡率。然而由于宿主范围或种间屏障的制约,严重限制了禽流感病毒的跨种传播,故而[8]长期以来,人们认为禽流感病毒对于人类是不致病的。1997年香港禽流感病毒爆发导致了6人死亡,科学家首次从人体内直接分离到H5N1禽流感病毒,从而证实禽流[16-18]感病毒可以跨越种间屏障直接感染人。自从1997年后,持续有报道表明几种禽流感病毒亚型(例如H5N1、H9N2、H7N7和H7N3)的病毒株可以直接从禽传播给[19-24]人并导致人的疾病甚至死亡。这些禽流感病毒在人群中的爆发表现了禽流感病毒比季节性人流感病毒具有更高的致死率,同时也表现了禽流感病毒具有潜在的人类大流行疾病威胁。因此,构建计算模型来预测禽流感病毒禽到人的传播对于公共健康具有重要意义,可以提供禽流感病毒种间传播的早期预警从而对于突发禽流感病毒传染病做出快速的应急反应,为实验人员减少目标病毒从而节省时间和成本,同时可以促进更好的监控策略的发展。除了禽流感病毒跨种传播带来的潜在人类大规模流感疾病威胁,每年A型流感病2 华中科技大学博士学位论文毒都在人类群体中相对较小规模流行,在全球范围导致三百万到五百万人的疾病,其[25]中有二十五万到五十万人因此丧命。在这其中的罪魁祸首主要包括人类流感疾病的最大致病原,H3N2亚型流感病毒以及另一种重要的H1N1亚型流感病毒。H3N2流感病毒于1968年出现并流行于人类群体中并不断进化为新的抗原变种从而逃避免疫系统的免疫作用。当前预防流感及其并发症的主要方法为接种疫苗,当疫苗的抗原与当前流行的病毒抗原存在高度的相似性时,失活的疫苗将通过免疫系统为人们提供必要的保护。然而病毒可以通过进化自身来改变其抗原特性,从而抵制被宿主免疫系统排除并导致慢性的或者重复的感染,同时也可导致病毒及疫苗的不匹配,从而减弱疫苗[26,27]的有效性甚至造成当前疫苗丧失作用,为全球流感病毒监控工作及疫苗选择工作带来较大的困难。当前确定流感病毒抗原变异的方法,即依赖雪貂血清的血凝素抑制化验,然而实验的方法代价巨大,通常依赖这种化验要花几十天的时间来获得抗病毒血清。而计算的方法能够快速的预测抗原关系(即抗原变异和抗原相似),并可集成到全球疫情监控系统并能提升疫苗株的选择,同时通过相关计算分析可以识别对H3N2亚型流感病毒抗原变异有重要影响的关键氨基酸位置,为流感病毒进化分析和抗原漂移及转换的相关研究提供有帮助的信息和一定的思路,因此构建H3N2流感病毒抗原关系预测模型具有重要的理论价值和现实意义。本文研究对象为A型流感病毒,拟解决两个问题:禽流感病毒禽到人的跨种传播预测以及H3N2亚型流感病毒的抗原关系预测。当前禽流感病毒的研究如火如荼,然而基于计算的方法构建禽到人的传播预测却非常少,本研究拟用一分类支持向量机构建预测模型,同时基于理化特征选择的方法提升预测模型的性能,挖掘具有生物学意义的有效特征为禽流感病毒跨种传播底层机制的相关研究人员提供帮助。对于H3N2流感病毒的抗原关系预测问题,本研究拟用Phi相关系数及香农熵作为权重来识别抗原变异的关键氨基酸位置,然后基于这些关键位置,构建多元线性回归模型来预测H3N2流感病毒抗原变异,提供血凝素抑制化验之外的抗原变异测定方法。同时研制预测H3N2流感病毒抗原变异的Web工具为相关研究人员提供在线服务,为全球流感病毒监控工作提供帮助。3 华中科技大学博士学位论文1.3国内外研究现状1.3.1分子生物学及流行病学[2]A型流感病毒为单链负股RNA病毒,包含8个基因组片段,共编码10个蛋白。包括血凝素蛋白HA,神经氨酸酶蛋白NA,聚合酶复合体PA、PB1和PB2,非结构蛋白NS1和NS2,核蛋白NP以及基质蛋白M1和M2。血凝素蛋白和神经氨酸酶蛋白是A型流感病毒的表面蛋白。根据其抗原特性,A型流感病毒被进一步分为了16个HA亚型以及9个NA亚型。图1.1显示了A型流感病毒的电子显微镜照片。图1.1A型流感病毒的电子显微镜照片如图所示A型流感病毒一般为球形的囊膜病毒,直径为80-120纳米。除了球形[1,2]的形态,也有丝状形态。A型流感病毒囊膜外有两种蛋白即血凝素蛋白和神经氨酸酶蛋白。血凝素蛋白是10-12纳米棒状的三聚体,密集的覆盖于病毒囊膜表面,而神经氨酸酶蛋白是蘑菇型的四聚体,病毒的囊膜内有螺旋状的核衣壳。A型流感病毒对紫外线及自然光具有敏感性,在阳光照射达到48小时后便失去活性。对于禽宿主的A型禽流感病毒的致病性分子决定因素,人们知之甚少。但有证据[28-31]表明了非结构蛋白NS1具有重要作用。在禽类中,血凝素蛋白HA是致病性的主4 华中科技大学博士学位论文要介质。血凝素蛋白中的蛋白水解作用的裂解位点决定了感染是否是全身性的还是被[32]限制在了呼吸道及肠道中。全身性的感染往往是高致病性的,而呼吸道及肠道中的感染通常是低致病性的。A型流感病毒是典型的RNA病毒,可以通过基因突变产生高度的遗传多样性。除了高度的突变率,基因重配(GeneReassortment)是另一种产生流感基因组变化的的机制。基因重配往往发生在某个基因混合器例如猪宿主中,当受到不同毒株和谱系的同时感染,可能发生基因片段的混合从而导致基因重配。因此,A型流感病毒高度的遗传多样性带给它高度的适应性,同时通过突变和基因重配可以产生抗原漂移(AntigenicDrift)和抗原转换(AntigenicShift)带给它逃避免疫系统的能力。水禽类可以作为几乎所有亚型流感病毒的宿主,因此被称为流感病毒的自然基因[12,13][33-41]存储库,同时也被认为是各种哺乳动物中流行的流感病毒的来源,如图1.2所示。然而人类中流行和传播的流感病毒的仅仅限于几种亚型,包括H3N2亚型,H1N1[42][25]亚型以及H1N2亚型,其中H3N2病毒亚型所占的比例最大。图1.2水禽作为自然基因存储库示意图禽适应的禽流感病毒与人适应的人流感病毒对于受体结合具有特异性。禽流感病5 华中科技大学博士学位论文[43-45]毒偏向结合存在禽类粘膜上皮的唾液酸α-2,3半乳糖(SAα-2,3Ga1)受体,而人流感病毒受体特征是偏向结合存在于人呼吸道的唾液酸α-2,6半乳糖(SAα-2,6Ga1)受体,因此禽流感病毒不易识别人呼吸道的细胞并吸附。而猪的气管上皮细胞既含有唾液酸α-2,3半乳糖受体,又含有唾液酸α-2,6半乳糖受体,所以猪具备同[40,46]时被禽流感病毒及人流感病毒感染的可能,从而被普遍认为在流感生态系统中扮[37-41]演了基因重配中的基因混合器(Genomemixingvessel)的角色。实验证明,猪几[46]乎可以被所有亚型的禽流感病毒感染。目前猪群中流行的流感病毒亚型主要包括H1N1亚型,H3N2亚型以及H1N2亚型。2009年的墨西哥流感即为猪源的H1N1亚[8]型流感病毒,并由禽流感病毒,人流感病毒,猪流感病毒发生基因重配构成,如图1.3所示,其中血凝素,神经氨酸酶,核蛋白,基质蛋白及非结构蛋白来自于猪流感病毒,聚合酶亚单元PA和聚合酶亚单元PB2来自于禽流感病毒,聚合酶亚单元PB1来自于人流感病毒。图1.32009年H1N1猪流感病毒基因重配示意图1.3.2禽流感病毒禽到人的跨种传播禽适应的禽流感病毒偏好结合存在与禽类粘膜上皮的唾液酸α-2,3半乳糖受体,而不易结合存在人呼吸道的唾液酸α-2,6半乳糖受体,此外禽流感病毒对于呼吸气6 华中科技大学博士学位论文管细胞的亲嗜性还取决于禽流感病毒在呼吸气管细胞中的复制及散播能力。禽流感病毒在人呼吸气管细胞中的复制和散播能力明显不及人流感病毒在人呼吸气管细胞中的复制和散播能力。因此长期以来人们认为禽流感病毒禽到人之间的传播存在受体结[43-45]合特异性的种间屏障,禽流感病毒感染人必须依赖中间宿主例如上一节提到的猪从而发生基因重配来改变其受体结合的偏好性,并通过在猪体内与人流感基因片段的交换,提高其在人呼吸气管上皮细胞中的复制及散播能力。然而1997年H5N1亚型禽流感病毒的爆发,造成了受感染的6名香港人死亡。第一次证实了禽流感病毒可以跨越种间障碍直接感染人。并且过去的十几年间,H5N1[16-18,47-57]亚型禽流感病毒持续在东南亚地区流行,同时还在全球的其他地区时有爆发,导致了严重的经济损失和生命财产损失,引起了高度的社会关注。其中1997-1998和2003-2007两个时期出现的H5N1亚型病毒直接感染人疫情中的死亡率很高。此外除了H5N1亚型禽流感病毒,其它亚型的禽流感病毒也出现了直接感染人的事件,包括H9N2亚型、H7N7亚型和H7N3亚型:1)1999年和2003年,三名儿童流感病毒感染者被确认感染了低致病性的H9N2[58,59]亚型禽流感病毒;[60]2)2003年,一个荷兰农场出现多达89人感染H7N7亚型的禽流感病毒的事件;3)2004年,加拿大不列颠哥伦比亚省的家禽中爆发了高致病性H7N3亚型禽流[22]感病毒,两名人员被确认感染了此H7N3亚型禽流感病毒。这些禽流感病毒直接感染人的事件,表明受体结合的特异性并不能绝对阻隔禽流感病毒禽到人传播,同时也指出了禽流感病毒造成的潜在的人类大流行疾病威胁。自从1997年H5N1亚型禽流感病毒爆发以后,许多科研人员被吸引到禽流感病毒跨种传播的底层机制研究上来。同时取得了一些宝贵的进展,揭示了与禽流感病毒种间传播相关的因素。这些因素包括:病毒蛋白、宿主免疫系统、宿主受体、环境条[8,61]件等等。对于禽流感病毒,克服他们自身的因素是打破种间传播屏障的第一步。因此病毒蛋白的突变在禽流感病毒跨种传播过程中扮演了更加重要的作用。如上节提到的,通过点突变的积累及基因重配产生抗原漂移和抗原转换,禽流感病毒可以成为新的流感病毒抗原变种并可能获得种间传播的能力。然而,在禽流感病毒直接感染人7 华中科技大学博士学位论文的过程中,缺乏基因重配的中间混合器(例如猪宿主),因此,点突变的积累具有关键的作用。有研究表明HA蛋白的一些点突变(例如第226位由谷氨酰胺Gln突变为[62,63]亮氨酸Leu)会导致受体结合偏好从SA2,3Gal变为SA2,6Gal,PB2蛋白627位的谷氨酸Glu突变为赖氨酸Lys可以恢复禽流感病毒在哺乳动物细胞中的复制能力[64][65,66],同时与在人类细胞中的增强的复制能力及对人类的致死性相关联。第591位的谷氨酸Glu突变为赖氨酸Lys或者精氨酸Arg可以补偿627位赖氨酸Lys的缺失并[67]赋予大流行H1N1病毒在哺乳动物中有效的病毒复制能力。同时,其他内部蛋白,[68-71]例如PB1,PA和NS1也在种间传播中起到重要的作用。值得注意的是,尽管许多研究探索了禽流感病毒种间传播的生物学过程及底层机制,然而许多决定因素仍然不清楚。相比代价较大的生物实验,计算分析和建模可以为相关研究提供一些有效的思路和有用的信息并能为实验人员节省时间和成本。[72]Chen和他的同事探索了人流感病毒对禽流感病毒的基因组特征,他们收集了95株禽流感和306株人流感的病毒基因组,然后通过计算这些病毒蛋白质序列位置上的香农熵,并基于PB2蛋白的第627位的熵值-0.379设定阈值从而筛选了52个种属相关的氨基酸位置。图1.4为该研究用熵值筛选血凝素蛋白种属相关的氨基酸位置过程图。图1.4禽流感病毒与人流感病毒血凝素蛋白序列位置香农熵图8 华中科技大学博士学位论文[73]2008年,Kou研究分析了禽流感病毒跨种传播相关的分子模式。该研究首先收集了239株病毒基因组数据共1434条氨基酸序列。然后通过小波分解,层次聚类能量特征最终得到A、B、C、D、E、F、G及’1918’共八个类群。其中F、G为分别为猪类群及人类群,其他5个为禽流感类群,其中C、E类群可以跨种传播直接感染人,而A、B、D类群不能直接感染人。该研究最终得到的禽流感病毒的八种分子模式如图1.5所示。图1.5A型禽流感病毒的分子模式2010年,Qiang和Kou利用了上述研究中得到的5种与禽流感跨种传播的相关的[74]分子模式并基于机器学习方法中的反向神经网络预测了禽流感病毒的种间传播。其9 华中科技大学博士学位论文中每株病毒所对应的数字序列被看成伪信号,这些信号被输入进Matlab,采用Daubechies2小波函数,进行小波包分解,最终,每株病毒分别被第六层上的64个节点能量系数所代表,然后对这64个能量系数进一步进行主成份特征提取,获取了累计贡献值90.30%的前21维特征,输入反向神经网络进行预测,并在具有140个样本的训练集上取得了较好的预测效果。图1.6展示了将禽流感病毒原始氨基酸序列进行小波分解转化为64个能量系数的示意图。图1.6小波包分解及能量特征提取1.3.3H3N2流感病毒抗原变异[42]流感病毒在人类中流行的主要为三种:H3N2亚型,H1N1亚型及H1N2亚型,[25]H3N2病毒研究历史较长,在人类流感疾病的致病原中,H3N2所占的比例最大。流感病毒的抗原变异导致了其在人类中周而复始的流行及人们的重复感染,它会导致[26,27]病毒及疫苗的不匹配,造成当前疫苗作用的减弱及丧失,从而为全球流感病毒监控预防工作及疫苗选择工作带来较大的困难。[75]当前确定流感病毒抗原变异的方法主要依赖雪貂血清的血凝素抑制化验,然而实验的方法代价巨大,而计算的方法能够快速的预测抗原关系(即抗原变异和抗原相似)进而得到推荐的疫苗,因此,通过计算的方法研究H3N2流感病毒抗原变异具有[76]现实意义,表1.1显示了Lee等人研究中用到的数据集中的36对通过血凝素抑制化验计算得到的抗原距离以及通过序列比对得到的氨基酸变化数量。流感病毒HA蛋白是抗体结合的主要目标,因此HA蛋白是流感病毒进化的一个关键因素,它的突变改变了病毒对于免疫系统的抗原特性。HA蛋白的突变率大概为10 华中科技大学博士学位论文-5-3[77]1.6×10/氨基酸位置/天或5.8×10/残基/年。每一个流感HA蛋白由两个亚单元HA1及HA2构成,HA1亚单元是长度为329的氨基酸序列,而HA2亚单元是长度为221的氨基酸序列。HA1亚单元要比HA2亚单元突变得更频繁,在自然选择过程中[78,79]扮演了主要角色,因此关于流感病毒抗原变异的研究主要集中于HA蛋白的HA1亚单元。表1.136对H3N2流感病毒对的抗原距离(右上)和HA1亚单元氨基酸变化数量(左下)VirusPAN99FUJ02KOR02WYO03KUM02TEX03SHA03HK03TAI03PAN998.08.05.75.72.88.08.05.7FUJ02131.01.41.41.02.82.02.0KOR021411.01.01.02.01.01.4WYO0316451.01.02.82.01.4KUM02130141.02.81.41.4TEX031523622.01.01.0SHA0317567572.81.4HK03185675761.4TAI03185695766H3N2亚型的HA蛋白HA1亚单元一共有五个抗原表位,它们主要承受了由免疫[78]系统带来的选择压力,这五个抗原表位表标记为抗原表位A到E,一共包含131个[80-82]氨基酸位置,分别含有19,22,27,41,22个氨基酸。在HA蛋白的567个氨基酸位[82]置中,有14个位置组成了受体结合位点。最近,有研究发现H1N1及H3N2流感病毒的HA1亚单元中一到三个氨基酸的突变可能降低失活的疫苗在动物模型中的抗[83-87]原性及功效。Bush和他的同事通过比较1984至1996年的357株病毒,识别了[80]HA蛋白中的18个正选择氨基酸位置。值得注意的是,Smith等人通过使用一个复[88]杂的模型,识别出在44个位置上的66个氨基酸突变与H3N2病毒抗原漂移有关联,这44个位置在他们识别的11个抗原聚类(参见见图1.7)之间转换时发挥了重要作用。11 华中科技大学博士学位论文[75]2004年,Lee等人研究了五种计算模型用来预测H3N2病毒的抗原关系:1)利用H3N2病毒HA蛋白HA1亚单元中的所有329个氨基酸残基的突变构建模型;2)利用H3N2病毒A、B、C、D、E五个抗原表位中的不同构建模型;3)利用20个与老鼠单克隆抗体结合相关的20个位置构建模型;4)利用18个具有正选择压力的位置构建模型;5)利用32个具有连续差异的密码子构建模型。最终的模型比较显示利用五个抗原表位的不同构建的模型与抗原距离具有最高的相关系数并且具有最优的预测性能,正确率达到83%。图1.71968到2003年间H3N2流感病毒的11个抗原聚类图及系统发生树2007年,Lee等人又进一步通过逐步多元线性回归识别了24个抗原变异关键位[76]置,其中的17个被识别为潜在的免疫显性的抗原位置。基于24个关键位置的不同组合,他们又构建了多个预测模型,其中基于15个位置的预测模型性能最优。在含有181对抗原关系数据的训练数据集上达到了91.7%的准确率,同时在含有57对数据的测试数据集上获得了93%的准确率。12 华中科技大学博士学位论文[89]2008年,Liao等人使用6种分组打分策略并比较了不分组的情况,结合四种不同的机器学习建模方法构建了多种预测模型用来预测H3N2病毒的抗原关系,包括迭代滤波,多元线性回归,逻辑回归,支持向量机,最终确定了联合分组四的打分策略及多元线性回归的预测模型具有最优的性能,同时识别了16个H3N2病毒抗原变异关键氨基酸位置,图1.8显示了未排除只有一个残基突变的位置之前的20个关键氨基酸位置在HA三聚体上的分布,排除的4个位置为92,129,240和273。图1.8Liao的研究中识别的20个H3N2病毒抗原变异关键位置在HA三聚体上的分布2009年,Huang,King和Yang基于信息增益及香农熵识别了19个HA蛋白中的[90]关键位置,然后基于329个氨基酸位置的信息增益值,构建了一棵具有6个节点的决策树用于预测H3N2流感病毒抗原关系。该研究构建的决策树在具有181对抗原关系数据的训练集上达到了91.2%的预测准确率,同时在具有较大规模(31878对抗原关系数据)的测试数据集上达到了较高的预测准确率,即96.2%。1.3.4信息论在生物信息学中的应用信息论中的信息熵(香农熵)、相对信息熵、互信息作为特征选择,数据挖掘的一种手段已成功的应用于大量的生物信息学研究中。信息熵可以测定一组比对序列中13 华中科技大学博士学位论文的序列信息的容量,从而反映氨基酸的变化并等价于每个位置的遗传多样性。信息熵也可以用于蛋白质折叠动力学结构保守性的测定。相对信息熵通常用一个观测频率在一个背景频率下的比值,故称为相对熵,可以用来反映信息的增益。互信息用于测定两个事件集合之间的相关性,通常用互信息作为特征和类别之问的测度,如果特征与该类别的数据分布一致的话,它们的互信息量最大。进一步,信息论的上述方法同时在流感病毒的相关研究中发挥了相当的作用。例如,信息熵在2006年被Chen等人用于测定人流感及禽流感病毒氨基酸序列中的差异[72]从而发现对两类宿主具有区别力的基因组关键位点。Ye等人利用两个熵值(整体[91]熵及组内熵)分析识别G蛋白偶联受体横跨膜区域的功能性关键位置。相对熵被[25]Pan和Michael成功用于测定H3N2流感病毒的进化选择及进化多样性。Peter及[92]Vijay组合了结构分析及互信息用于捕获流感HA蛋白中功能性重要的残基。并指出对于非线性的关系互信息比基于协方差的方法更为有效。2009年Xia等人利用基于[93]互信息的位点转换网络来描绘H3N2流感病毒的遗传进化。1.4主要研究内容本研究的主要内容是基于机器学习,模式识别以及特征选择的方法解决禽流感病毒禽到人的跨种传播预测以及H3N2亚型流感病毒的抗原关系预测问题,同时就预测相关的问题展开讨论。具体的工作如下:(1)一分类SVM预测禽流感病毒禽到人的传播由于现在尚未有实验验证的不能实现禽到人传播的禽流感病毒,所以严格来说,构建预测禽流感病毒跨种传播的计算模型的负样本是不易确定的。因此,预测禽流感病毒跨种传播的这个问题可能不能很好的描述为一个传统的两分类问题。一分类SVM已成功用于负样本较难确定的各种生物信息学问题上。因此,探索了使用一分类SVM来预测禽流感病毒禽到人传播的可行性,同时与当前已存在的禽流感病毒跨种传播预测模型进行了比较。(2)基于理化特征选择预测禽流感病毒禽到人的传播当上一部分工作构建测试用的负样本时,发现构建的负样本比Qiang的模型中用14 华中科技大学博士学位论文到的负样本具有更高的可靠性,因此期望扩大两类样本的数据规模从而采取传统的两分类方法来解决禽流感病毒跨种传播预测的问题。同时,尽管Qiang构建的反向神经网络预测模型与上一部分工作构建的一分类SVM模型均取得了较好的预测性能,然而却未能发现一些有意义的生物学特征。因此,本文期望在提升预测模型性能的同时利用特征选择方法探索挖掘一些对禽流感病毒禽到人传播有影响的生物学特征从而对理解种间传播底层机制提供帮助。当使用多种特征选择方法包括Relief,mRMR,信息增益及遗传算法选取了最优特征子集时,预测模型的性能有了大幅提高,同时最终选择的理化特性与多个研究的结果像吻合,表明了这些特征的有效性。(3)联合位置打分及MLR识别H3N2流感病毒抗原变异关键位置由于H3N2流感病毒是另一种对人类社会造成深远影响的A型流感病毒,故将这一部分工作的研究对象确定为H3N2亚型流感病毒,尝试以计算的方法识别H3N2病毒的抗原变异关键位点。首先人工收集了来自于相关文献中记录的H3N2抗原变异数据,将Lee,Liao,Huang研究中用到的数据规模扩大了近一倍。然后比较了多种打分策略,包括优势比,互信息,Phi相关系数并联合多元线性回归(MLR)最终识别了18个H3N2流感病毒抗原变异关键位置,这18个关键位置均位于HA蛋白的5个抗原表位中,同时有3个关键位置同时位于受体结合位点中,此外有8个位置与Bush等人识别的正选择位置相吻合,说明了本研究识别的18个抗原变异关键位置对H3N2流感病毒抗原变异具有重要作用。(4)基于理化性质变化改进预测H3N2流感病毒抗原关系上一部分工作识别了18个H3N2流感病毒抗原变异关键位置,同时也构建了一个基于关键位置突变的预测模型。在测试数据集上的性能评估中发现在4780对抗原相似关系的样本中预测错了1205对,取得了73.28%的特异度,表明预测结果中存在较多的假阳性,与其约99%的灵敏度相比相对较低。因此期望改进H3N2流感病毒抗原关系的预测模型,降低其假阳性。基于Liao的研究给我们的提示,即氨基酸的某些突变可能并不造成抗原变异,而当理化性质改变时才造成了抗原变异。因此集成了多种理化性质变化来改进预测H3N2流感病毒的抗原关系,降低预测的假阳性。最终的实验结果表明构建的预测模型比上一部分工作构建的模型性能有了较大提高,同时优15 华中科技大学博士学位论文于当前其他模型,此外进一步构建了H3N2流感病毒抗原关系预测的Web工具,为相关研究人员提供在线服务。本论文在第一章的绪论介绍了课题来源、研究背景、目的和意义,概述了当前国内外研究现状以及主要研究工作,在第二、三、四、五章分别详细论述了以上四个主要研究内容,第六章对全文进行了总结,指出了有待进一步研究的问题,并对下一步工作进行了展望。16 华中科技大学博士学位论文2一分类SVM预测禽流感病毒禽到人的传播2.1引言A型流感病毒是一类非常重要的人类病原体,对人类的公共健康有重大的影响。在过去的一个世纪中,几次流行病大爆发均由A型流感病毒引起。其中,1918年的[7]西班牙流感最具毁灭性,在全球夺走了至少两千万人的性命。这种病毒由8个单股[2]负链RNA片段组成,总共编码10个蛋白,包括聚合酶复合体(PB1、PB2、PA)、血凝素蛋白(HA)、核蛋白(NP)、神经氨酸酶蛋白(NA)、基质蛋白(M1、M2)、非结构蛋白(NS1、NS2)。第四片段段编码的血凝素蛋白(HA)及第六片段编码神经氨酸酶蛋白(NA)是A型流感病毒的表面蛋白。根据表面蛋白的抗原特性,A型[6]流感病毒被分为16个HA亚型及9个NA亚型。禽流感病毒是禽类适应的A型流感病毒。由于宿主范围的制约,严重限制了禽流[8]感病毒的种间传播,故而长期以来,人们认为禽流感病毒对于人类是不致病的。1997年禽流感病毒爆发导致了6人死亡,科学家首次从人体内直接分离到H5N1禽流感病[16-18]毒,从而证实禽流感病毒可以跨越种间屏障直接感染人。自从1997年后,持续有报道表明几种禽流感病毒亚型(例如H5N1、H9N2、H7N7和H7N3)的病毒株可[19-24]以直接从禽传播给人并导致人的疾病甚至死亡。这些报道强调了禽流感病毒造成的潜在的人类大流行疾病威胁。因此,构建计算模型来预测禽流感病毒禽到人的传播对于公共健康具有重要意义,可以提供禽流感病毒种间传播的早期预警从而对于突发禽流感病毒传染病做出快速的应急反应。此外,可以为实验人员减少目标病毒从而节省时间和成本,同时可以促进更好的监控策略的发展。Kou等人于2008年利用小波包分解将禽流感病毒的蛋白质序列的氨基酸组成转化为能量系数并通过层次聚类找[73]到5种与种间传播相关的分子模式,Qiang基于这5种分子模式使用两类分类方法[74]构建了反向神经网络来预测禽流感病毒的种间传播。其用到的数据集包含70个正样本及70个负样本。17 华中科技大学博士学位论文由于现在尚未有实验验证的不能实现禽到人传播的禽流感病毒,所以严格来说,构建预测禽流感病毒跨种传播的计算模型的负样本是不易确定的。因此,预测禽流感病毒跨种传播的这个问题可能不能很好的描述为一个传统的两分类问题。尝试用一分类的方法来解决禽流感病毒跨种传播预测的问题。一分类SVM已成功用于负样本较难确定的各种生物信息学问题上。因此,本章探索了使用一分类SVM来预测禽流感病毒禽到人传播的可行性。近来,逐渐增加的证据表明禽流感病毒氨基酸位点突变在直接感染人的过程中扮演了重要的角色。例如,PB2蛋白627位的谷氨酸突变为赖氨[64]酸可以恢复禽流感病毒在哺乳动物细胞中的复制能力。因此,使用了蛋白质一级序列中的一些特征包括氨基酸组成,二肽组成,Moreau-Broto自相关系数及Moran自相关系数来训练一分类SVM模型。最终的实验结果表明本章构建的模型对于预测禽流感病毒禽到人的传播具有较好的性能。2.2数据集自从1997年科学家首次从人体内直接分离到H5N1禽流感病毒后,禽流感病毒感染人的病例不断涌现,引起了科学界和社会各界的广泛关注,从而禽流感病毒数据不[94]断增加。本章禽流感病毒序列数据来源于两个公共数据库:流感病毒资源IVR(InfluenzaVirusResource:http://www.ncbi.nlm.nih.gov/genomes/FLU/FLU.html,图2.1)[95]和流感研究数据库IRD(InfluenzaResearchDatabase:http://www.fludb.org,图2.2)。253株来自于上述两个公共数据库的禽流感病毒组成了本章的数据集。每株病毒序列都包含6个相对完整的内部蛋白序列(M1,NP,NS1,PA,PB1andPB2)。在本章中,我们将具有禽到人传播能力的禽流感病毒毒株看作正样本。相反地,那些不具有禽到人传播能力的禽流感病毒毒株被视为负样本。显然,从人宿主分离到[96]的禽流感病毒毒株可以确定为正样本,因此,在使用CD-Hit去除冗余序列之后,78株人源禽流感病毒毒株被保留为正样本。在这些正样本中,随机挑选了60株病毒构成了用于训练一分类SVM模型的训练数据集(Trainingdataset)。对于相对较小的数据集,模型在训练集上的交叉验证可能并不能反应模型的泛化能力。因此除了在训练集外,需要构建独立的测试集来验证模型的泛化能力。因此78个正样本中去除训18 华中科技大学博士学位论文练集后的18个剩余样本作为测试集的正样本。图2.1流感病毒资源IVR由于现在尚未有实验验证的不能实现禽到人传播的禽流感病毒,所以用于构建预测模型的负样本是不易确定的。然而对于性能测试,如果没有测试负样本,假阳性就不能评估,同时预测模型可能将所有未分类的样本都识别为正样本。所以为了全面的评估构建的模型性能,需要确认测试用的负样本。考虑到H5N1,H7N7,H9N2,H7N3是四种确定的可以直接感染人类的禽流感病毒亚型,同时没有证据被报道显示其它亚型可以直接传播给人,所以将非这四种亚型的禽流感病毒确定为测试负样本。因此,选择了175株非上述四种亚型的禽源禽流感病毒毒株作为本章的测试负样本。最终,60株禽流感病毒构成了用于训练一分类SVM模型的训练数据集。193株(18+175)禽流感病毒构成了模型的测试数据集(Testingdataset),应当注意的是,175个负样本中可能包含非常非常少量的正样本,这些正样本由于受限于病毒蛋白之外的因素迄今为止未实现禽到人的传播。表2.1展示了本研究中用到的253株禽流感病毒。19 华中科技大学博士学位论文图2.2流感研究数据库IRD2.3一分类SVM由于预测禽流感病毒禽到人传播问题是个典型的一分类问题,本章使用了一分类SVM来构建模型用于预测禽流感病毒的跨种传播。一分类SVM已经成功应用于多种生物信息学领域,例如microRNA基因识别,转录因子结合位点预测,酵母调控监测等等。一分类SVM由Scholkopf等人在传统的SVM基础上提出用于估计高维分布,它返回一个函数,取值在一个小的范围为1,这个小的区域可以捕获大部分的数据点,而其他区域则取值为-1,而原点为被看作是唯一的第二类数据(图2.3)。20 华中科技大学博士学位论文表2.1253株用于本研究的禽流感病毒a序号样本类别毒株名毒株亚型1PA/HongKong/481/97H5N12PA/HongKong/482/97H5N13PA/HongKong/483/1997H5N14PA/HongKong/485/1997H5N15PA/HongKong/486/97H5N16PA/HongKong/532/97H5N17PA/HongKong/538/97H5N18PA/HongKong/542/97H5N19PA/HongKong/97/98H5N110PA/HongKong/1073/99H9N211PA/HK/212/03H5N112PA/Thailand/676/2005H5N113PA/Thailand/NK165/2005H5N114PA/Thailand/SP83/2004H5N115PA/VietNam/1194/2004H5N116PA/VietNam/1203/2004H5N117PA/VietNam/3062/2004H5N118PA/Indonesia/CDC742/2006H5N119PA/Indonesia/CDC329/2006H5N120PA/Indonesia/CDC596/2006H5N121PA/Guangzhou/333/99H9N222PA/Netherlands/219/2003H7N723PA/Thailand/5(KK-494)/2004H5N124PA/HongKong/213/2003H5N125PA/Thailand/1(KAN-1)/2004H5N126PA/Thailand/NBL1/2006H5N127PA/Cambodia/408008/2005H5N128PA/Thailand/16/2004H5N129PA/Thailand/2(SP-33)/2004H5N130PA/Indonesia/CDC523/2006H5N131PA/Indonesia/CDC582/2006H5N132PA/Indonesia/CDC610/2006H5N133PA/Indonesia/CDC634/2006H5N134PA/Indonesia/CDC634P/2006H5N135PA/Indonesia/CDC634T/2006H5N136PA/Indonesia/CDC644/2006H5N137PA/Indonesia/CDC644T/2006H5N138PA/Indonesia/CDC739/2006H5N139PA/Indonesia/CDC759/2006H5N140PA/Indonesia/CDC835/2006H5N141PA/Indonesia/CDC836/2006H5N142PA/Indonesia/CDC836T/2006H5N143PA/Indonesia/CDC887/2006H5N144PA/Indonesia/CDC938/2006H5N145PA/Indonesia/CDC938E/2006H5N146PA/Indonesia/CDC940/2006H5N147PA/Indonesia/CDC669/2006H5N148PA/Indonesia/5/2005H5N149PA/Anhui/1/2005H5N150PA/Bangladesh/3233/2011H5N151PA/Vietnam/UT31244III/2007H5N152PA/Vietnam/HN31388M1/2007H5N121 华中科技大学博士学位论文53PA/Vietnam/HN31432M/2008H5N154PA/Vietnam/UT31203A/2007H5N155PA/Vietnam/UT31239/2007H5N156PA/Vietnam/UT31244II/2007H5N157PA/Beijing/01/2003H5N158PA/China/GD01/2006H5N159PA/China/GD02/2006H5N160PA/Guangxi/1/2005H5N161PA/HongKong/1074/99H9N262PA/Thailand/WRAIR1720H/2004H5N163PA/Thailand/WRAIR1721H/2004H5N164PA/Thailand/WRAIR1723H/2004H5N165PA/Thailand/WRAIR1724H/2004H5N166PA/Indonesia/CDC669P/2006H5N167PA/Indonesia/CDC699/2006H5N168PA/Indonesia/CDC623/2006H5N169PA/Indonesia/CDC623E/2006H5N170PA/Indonesia/CDC624/2006H5N171PA/Indonesia/CDC624E/2006H5N172PA/Indonesia/CDC597/2006H5N173PA/Indonesia/CDC599/2006H5N174PA/Anhui/2/2005H5N175PA/Vietnam/UT31412II/2008H5N176PA/Vietnam/UT31413II/2008H5N177PA/Shanghai/1/2006H5N178PA/Jiangsu/1/2007H5N179NA/Teal/HongKong/W312/97H6N180NA/pheasant/HongKong/FY294/00H6N181NA/chicken/California/0139/2001H6N282NA/duck/NC/91347/01H1N283NA/chicken/BritishColumbia/04H7N384NA/chicken/Hebei/1/2002H7N285NA/chicken/Texas/298313/2004H5N286NA/laughinggull/NewJersey/75/1985H2N987NA/mallardduck/Alberta/376/1985H2N388NA/herringgull/DE/703/1988H2N889NA/mallardduck/ALB/250/1978H6N290NA/pintailduck/ALB/628/1979H6N891NA/mallardduck/ALB/10/1985H6N292NA/mallardduck/ALB/155/1990H6N393NA/laughinggull/DE/5/2003H9N194NA/mallardduck/ALB/506/1983H9N195NA/laughinggull/Delaware/94/2000H12N496NA/semi-palmatedsandpiper/Brazil/43/1990H2N197NA/duck/Nanchang/2-0486/2000H2N998NA/grayteal/Australia/1/1979H6N199NA/red-neckedstint/Australia/4189/1980H4N8100NA/duck/NZL/41/1984H1N2101NA/shearwater/Australia/1/1973H6N5102NA/gull/Minnesota/945/1980H13N6103NA/blue-wingedteal/MN/993/1980H6N6104NA/pheasant/Minnesota/917/1980H7N3105NA/mallard/Denmark/64650/03H5N7106NA/herringgull/DE/475/1986H13N2107NA/shorebird/DE/68/2004H13N922 华中科技大学博士学位论文108NA/shorebird/DE/236/2003H11N9109NA/ruddyturnstone/Delaware/97/2000H12N5110NA/chicken/Chis/15224/1997H5N2111NA/duck/Taiwan/0526/72H6N1112NA/chicken/Taiwan/G2/87H6N1113NA/chicken/Taiwan/0824/97H6N1114NA/chicken/Taiwan/na3/98H6N1115NA/chicken/Taiwan/ns2/99H6N1116NA/chicken/Taiwan/0705/99H6N1117NA/partridge/Taiwan/LU1/99H6N1118NA/chicken/Taiwan/0329/01H6N1119NA/chicken/Taiwan/1205/01H6N1120NA/chicken/Taiwan/1212/01H6N1121NA/chicken/Taiwan/PF1/02H6N1122NA/chicken/Taiwan/PF3/02H6N1123NA/chicken/Taiwan/0320/02H6N1124NA/chicken/Taiwan/A37/02H6N1125NA/chicken/Taiwan/0408/02H6N1126NA/chicken/Taiwan/1203/03H6N1127NA/duck/Taiwan/A68/03H6N1128NA/chicken/Taiwan/0114/04H6N1129NA/chicken/Taiwan/0305/04H6N1130NA/chicken/Taiwan/ch1006/04H6N1131NA/duck/Kingmen/E322/04H6N2132NA/duck/Taiwan/WB459/04H6N5133NA/chicken/Taiwan/A342/05H6N1134NA/turkey/Ontario/31232/2005H3N2135NA/duck/England/1/1956H11N6136NA/chicken/NewYork/13828-3/1995H2N2137NA/guineafowl/NewYork/20221-11/1995H2N2138NA/chicken/NewYork/14677-13/1998H6N2139NA/duck/NewYork/16873/1999H6N2140NA/woodduck/NewYork/60/1982H6N8141NA/tern/SouthAfrica/1961H5N3142NA/chicken/Pennsylvania/1/1983H5N2143NA/turkey/Ireland/1378/1983H5N8144NA/ruddyturnstone/Delaware/105/1998H6N8145NA/mallard/Ohio/170/1999H6N5146NA/duck/Yangzhou/02/2005H8N4147NA/duck/Siberia/272/1998H13N6148NA/chicken/Ibaraki/1/2005H5N2149NA/turkey/Italy/4479/2004H7N3150NA/ostrich/Italy/1038/2000H7N1151NA/mallard/Maryland/750/2002H4N6152NA/mallard/Ohio/666/2002H6N2153NA/mallard/Maryland/470/2002H6N2154NA/mallard/Ohio/217/1998H6N8155NA/turkey/Italy/1351/2001H7N1156NA/quail/Italy/4610/2003H7N2157NA/garganey/SanJiang/160/2006H5N2158NA/chicken/Taiwan/2838N/00H6N1159NA/emu/NewSouthWales/775/1997H7N4160NA/chukar/NewYork/11653-1/2005H7N2161NA/shorebird/Delaware/168/06H16N3162NA/duck/Italy/775/2004H5N323 华中科技大学博士学位论文163NA/chicken/NY/30749-3/2000H7N2164NA/chicken/NY/119256-7/2001H7N2165NA/chicken/NJ/118878-5/2001H7N2166NA/Avian/NY/53726/2000H5N2167NA/chicken/Victoria/224/1992H7N3168NA/chicken/PA/143586/2001H7N2169NA/chicken/California/431/2000H6N2170NA/Japanesequail/CA/K0401010/2004H6N2171NA/chicken/CA/S0403106/2004H6N2172NA/duck/Victoria/5384/2002H4N8173NA/red-neckedstint/Australia/2/2004H4N8174NA/duck/Victoria/1992H3N8175NA/turkey/Italy/2685/2003H7N3176NA/duck/Malaysia/F118-08-04/2004H5N2177NA/Canadagoose/BC/3752/2007H7N3178NA/Americanblackduck/NB/2538/2007H7N3179NA/chicken/SK/HR-00011/2007H7N3180NA/chicken/NewYork/23165-6/2005H7N2181NA/chicken/NewYork/31621-9/2005H7N2182NA/turkey/Kansas/4880/1980H1N1183NA/duck/NY/13822/1995H3N8184NA/chicken/PA/298101-4/2004H2N2185NA/turkey/NC/19762/1988H1N1186NA/northernpintail/California/HKWF792/2007H3N8187NA/quail/PA/20304/1998H7N2188NA/chicken/PA/149092-1/2002H7N2189NA/emu/NY/12716/1994H5N9190NA/rhea/TX/39923/1993H5N2191NA/chicken/Florida/25717/1993H5N2192NA/chicken/CT/260413-2/2003H7N2`193NA/guineafowl/NJ/119063-8/2001H7N2194NA/chicken/FL/90348-4/2001H7N2195NA/ruddyturnstone/NJ/335/2005H3N6196NA/duck/LA/17G/1987H3N8197NA/ringneckedduck/California/HKWF402/2007H6N1198NA/mallard/ZhaLong/88/2004H4N6199NA/chicken/Puebla/14587-644/1994H5N2200NA/duck/NewYork/494165/2007H5N2201NA/spotbillduck/Xuyi/6/2005H11N2202NA/shorebird/Delaware/133/2006H6N8203NA/chicken/Taiwan/A703-1/2008H5N2204NA/whistlingswan/Shimane/468/1988H10N4205NA/duck/CzechRepublic/1/1956H4N6206NA/barheadedgoose/Mongolia/143/2005H12N3207NA/blackheadedgull/Mongolia/1756/2006H16N3208NA/blackheadedgull/Mongolia/1766/2006H13N6209NA/Mongoliangull/Mongolia/401/2007H13N6210NA/snowgoose/Montana/466771-4/2006H5N2211NA/greenwingedteal/Ohio/464069/2006H5N2212NA/avian/NewYork/448534/2006H5N2213NA/chicken/Mexico/31381-7/1994H5N2214NA/chicken/Guatemala/194573/2002H5N2215NA/duck/France/080032/2008H5N2216NA/pekinduck/California/P30/2006H4N2217NA/duck/Jiangsu/022/2009H6N624 华中科技大学博士学位论文218NA/Muscovyduck/Fujian/FZ01/2008H6N6219NA/thick-billedmurre/Alaska/44086-095/2006H11N9220NA/thick-billedmurre/Alaska/44145-199/2006H2N6221NA/duck/Shantou/1275/2004H6N1222NA/duck/Fujian/11339/2005H6N2223NA/duck/Fujian/4125/2005H6N2224NA/chicken/Hunan/989/2005H6N2225NA/duck/Shantou/22596/2005H6N2226NA/duck/Shantou/6698/2005H6N2227NA/wildduck/Shantou/5769/2004H6N2228NA/wildduck/Shantou/2853/2003H6N2229NA/wildduck/Shantou/853/2003H6N2230NA/duck/Hunan/573/2002H6N2231NA/goose/Shantou/756/2002H6N2232NA/duck/Shantou/1586/2001H6N2233NA/turkey/Ontario/FAV114-17/2009H1N1234NA/mallard/PT/35910-2/2006H4N6235NA/tuftedduck/PT/13771/2006H7N3236NA/rosy-billedpochard/Argentina/CIP051-557/07H6N2237NA/rosy-billedpochard/Argentina/CIP051-925/08H6N2238NA/glaucous-wingedgull/SCalaska/9JR0747R1/2009H13N6239NA/quail/HongKong/YU404/2002H6N1240NA/pheasant/HongKong/SSP44/2002H6N1241NA/guineafowl/HongKong/SSP99/2002H6N2242NA/chukkar/HongKong/SF126/2003H6N1243NA/chukkar/HongKong/SF164/2003H6N1244NA/chukkar/HongKong/CSW595/2003H6N1245NA/black-headedgull/Sweden/1/2005H13N8246NA/chicken/Rostock/45/1934H7N1247NA/mallard/NewZealand/1365-350/2005H6N9248NA/slaty-backedgull/Japan/6KS0185/2006H4N8249NA/avian/SouthcentralAlaska/7KW0388R1/2007H4N8250NA/duck/Zambia/12/2009H11N9251NA/shearwater/Australia/2/1972H10N8252NA/Muscovyduck/Vietnam/G33/2007H6N2253NA/herringgull/Mongolia/454/2008H13N8aP代表正样本,N代表负样本一分类SVM考虑训练数据:x1,…,xn∈X,这里n∈N是观测值的数量。Φ是低维特征空间X到高维特征空间F的映射X→F。可以利用合适的核函数将训练数据映射到另一个特征空间F中,通过核映射,需要找到一个超平面将映射后的向量与原点以最大间隔分开,也就转化为解决传统的SVM中的二次规划问题:121minw+∑ξ−ρw∈F,ξ∈Rl,ρ∈R2vlii满足(w⋅Φ(x))≥ρ−ξ,ξ≥0i∈[l].iii这里v∈(0,1)是一个代表数据中异点部分的上届的参数,而ξi是一个松弛变量。25 华中科技大学博士学位论文图2.3一分类SVM模型示意图2.4特征选择为了开发最优性能的模型来预测禽流感病毒跨种传播,下面四种特征的不同组合被用于训练一分类SVM分类器。1)氨基酸组成(AminoAcidComposition,AAC)由于禽流感病毒蛋白质序列的点突变在直接感染人的过程中起到很重要的作用,而点突变必将引起氨基酸组成的变化。同时氨基酸组成被广泛的用于各种不同的生物信息学领域,例如蛋白质结构类预测、膜蛋白类型识别以及蛋白质的亚细胞定位预测等等。因此,首先选择氨基酸组成作为第一种特征。氨基酸组成每一种氨基酸在一条氨基酸序列中所占的比例,其定义如下:AAC=NNii这里Ni是第i种氨基酸的数量(i=1,2,3,…20),N为氨基酸序列的长度。在本章中,禽流感病毒的六个内部蛋白序列首先以“M1-NP-NS1-PA-PB1-PB2”的顺序被连接为一条新的氨基酸序列,接着根据计算氨基酸组成的值,每条连接后的新序列被转化为一个20维的向量作为构建模型的一种特征集。2)二肽组成(DipeptideComposition,DPC)26 华中科技大学博士学位论文除了氨基酸组成,二肽组成是另一种简单的蛋白质序列特征描述器。其定义如下:DPCij=NijN−1每种二肽由两种氨基酸组成,这里Nij是第i,j种二肽的数量,(i,j=1,2,3,…20),这样每条氨基酸序列就有400(20×20)个二肽组成的值。氨基酸组成反映的是氨基酸的比例变化,不能反映序列中氨基酸的顺序的变化。而二肽组成它集成了氨基酸组成以及部分的氨基酸顺序信息。因此,我们采取二肽组成作为第二种训练特征,每条连接后的序列通过计算二肽组成被转化为一个400维的向量。3)自相关系数(Autocorrelation,AC)由于禽流感病毒中的关联突变(correlatedmutations)对RNA的合成以及宿主适[97][98]应有重要的作用,因此Moreau–Broto自相关系数(Moreau–Brotoautocorrelation)[99]以及Moran自相关系数(Moranautocorrelation)这两种自相关系数被选为第三种及第四种训练特征。这两种自相关系数在本章中分别被记为AC1及AC2,它们的定义如下:N−dAC1d=∑InIn+dn=1N−dN112AC2d=∑(In−I)(In+d−I)∑(In−I)N−dn=1Nn=1这里N是氨基酸序列的长度,d=1,2,3,…,30自相关性系数的间隔,八种常用的氨[100]基酸指数用在上述公式中,包括疏水性尺度(hydrophobicityscales),平均柔韧性指数(averageflexibilityindices),极化参数(polarizabilityparameter),水溶液自由能(freeenergyofsolutioninwater),残基可及表面积(residueaccessiblesurfaceareaintrepeptide),残基体积(residuevolume),空间参数(stericparameter)以及相对突变性(relativemutability)。In和In+d是第n及n+d位的氨基酸指数,I是整条序列氨基酸指数的平均值。27 华中科技大学博士学位论文2.5性能评估方法预测准确率(predictionaccuracy,ACC),敏感度(sensitivity,SN),特异度(specificity,SP),Matthews相关系数(Matthewscorrelationcoefficient,MCC)是四种广泛用于生物信息学领域模型评估的测度。由于训练集只有一类样本,因此采用交叉验证的平均预测准确率来评估构建的模型在训练数据集上的性能。采用所有上述四种测度来评估构建的预测模型在测试数据集上的性能。它们的定义分别如下:ACC=(TP+TN)(TP+FP+TN+FN)SN=TP(TP+FN)SP=TN(TN+FP)TP×TN−FP×FNMCC=(TP+FP)×(TP+FN)×(TN+FP)×(TN+FN)其中TP,TN,FP,FN分别代表真阳性,真阴性,假阳性,假阴性数据的数量,而MCC是一个在-1到+1间变化的值,当MCC值为1时,表示最佳的预测性能,预测结果与真实结果完全相同,而MCC值为-1时,表示预测性能最差,预测结果与真实结果刚好相反。2.6结果与讨论2.6.1交叉验证结果使用氨基酸组成、二肽组成、Moreau–Broto自相关系数以及Moran自相关系数这四种特征的不同组合我们共训练了15种模型,每种模型使用网格搜索寻找最优的参数,然后使用留一法交叉验证(Leave-One-OutCross-Validation,LOOCV)评估构建的15种预测模型的性能。对于含有60个正样本的训练数据集,每次取59个样本训练,得到一个预测模型,然后用剩下的一个样本来验证模型。这个步骤被重复60遍直到每个样本都用作验证样本从而计算出平均预测准确率。图2.4显示了留一法交叉验证的结果。从图中发现,28 华中科技大学博士学位论文由Moreau–Broto自相关系数(AC1)特征训练得到的一分类SVM模型取得了最低的93.33%的交叉验证准确率,所有15个一分类SVM模型均取得了较好的预测性能,交叉验证准确率均高于93.33%,同时由氨基酸组成(AAC),氨基酸组成及Moreau–Broto自相关系数组合(AAC+AC1),氨基酸组成及Moran自相关系数组合(AAC+AC2),氨基酸组成及两种自相关系数组合(AAC+AC1+AC2)训练得到的四种一分类SVM模型优于其他11个一分类SVM模型并均取得了最高的96.67%的交叉验证准确率。进一步我们在外部的测试数据集上比较了这四个一分类SVM模型。图2.4不同特征集训练的一分类SVM留一法交叉验证结果2.6.2模型泛化能力比较为了充分的评估上诉四个最好的模型的性能,进一步使用含有193个样本的测试数据集来评估这四个模型的泛化能力。Qiang和Kou基于禽流感病毒蛋白质序列小波包分解得到的能量系数的5个聚类构建了反向神经网络来预测禽流感病毒禽到人的传29 华中科技大学博士学位论文[74]播,然而他们并未对模型的泛化能力进行评测。本节进一步在独立的测试数据集上比较了上述四个模型与Qiang的反向神经网络模型(BPNN),结果见表2.2。表2.2四个一分类SVM模型及Qiang的BPNN模型泛化能力比较ModelFeatureNo.ACC(%)SN(%)SP(%)MCCOCSVMAAC2077.2010074.860.466OCSVMAAC+AC126077.2010074.860.466OCSVMAAC+AC226092.7594.4492.570.698OCSVMAAC+AC1+AC250077.2010074.860.466BPNN2165.8010062.290.365如表2.2所示,所有四个一分类SVM模型在独立的测试数据集上均取得了≥77.20%的准确率,≥94.44%的灵敏度,≥74.86%的特异度以及≥0.466的Matthews相关系数。由氨基酸组成及Moran自相关系数组合(AAC+AC2)训练得到的一分类SVM模型优于其他3个一分类SVM模型,达到了92.75%的准确率,94.44的灵敏度,92.57的特异度以及0.698的Matthews相关系数。同时,其他3个一分类SVM模型取得了相同的泛化性能并均达到了100%的灵敏度,然而他们的取得的特异度较低。比较Qiang和Kou构建的反向神经网络模型与本章构建的四个一分类SVM模型,一分类SVM模型要优于反向神经网络模型。值得注意的是,对于最合适的模型性能测度Matthews相关系数而言,由氨基酸组成及Moran自相关系数组合(AAC+AC2)训练得到的一分类SVM模型达到了较高的一个水平(0.698),并比Qiang的反向神经网络模型高出了约0.33。同时比其他3个一分类SVM模型高出约0.23,因此这个模型被确定为本章最终的预测模型。2.6.3讨论为了打破种间屏障,禽流感病毒不能随机的进化而必须遵循一些必要的规则。因30 华中科技大学博士学位论文此有很多研究人员被吸引到禽流感病毒的种间传播底层机制上去了。禽流感病毒两个[57]表面蛋白保持了与2,3-NeuAcGal唾液氨酸细胞受体结合的偏好。而六个内部蛋白(包括NS1,M1,NP,PA,PB1和PB2)不断被报道在禽流感病毒的种间传播中起[68-71]到重要的作用,特别是有报道表明1999年的H9N2病毒和1997年H5N1人源、[71]禽源分离株编码六个内部蛋白的基因存在相似的关系,这提示我们六个内部蛋白对于跨种传播可能具有一定的协同作用,因此,六个内部蛋白作为一个整体被用于本章的研究中来预测禽流感病毒禽到人的传播。为了构建合适的分类预测模型,传统的二分类分类器不仅需要确定的正样本,而且需要确定的负样本。然而,多种因素造成了不具有跨种传播能力的禽流感病毒(即负样本)较难确定。根据这个特点,我们探索了使用一分类SVM来预测禽流感病毒禽到人传播的可行性。在训练集上留一法交叉验证的结果及在独立的测试数据集上的评估结果证明了一分类SVM对于预测禽流感病毒跨种传播的有效性。同时,这些结果表明由氨基酸组成(AAC),氨基酸组成及Moreau–Broto自相关系数组合(AAC+AC1),氨基酸组成及Moran自相关系数组合(AAC+AC2),氨基酸组成及两种自相关系数组合(AAC+AC1+AC2)训练得到的四种一分类SVM模型均能用于预测禽流感病毒的禽到人的传播。值得注意的是,这四个模型都用到了氨基酸组成这个特征,这意味着氨基酸组成是一个有效的特征并且与禽流感病毒的禽到人的传播有关联。此外,氨基酸组成及Moreau–Broto自相关系数的特征组合(AAC+AC1),氨基酸组成及两种自相关系数的特征组合(AAC+AC1+AC2)在训练数据集和测试数据集上均未带来预测模型性能的提高,而氨基酸组成及Moran自相关系数的组合(AAC+AC2)相对其他三个训练特征组合在准确率、特异度及Matthews相关系数这三个测度上赢得了较大优势,这意味着氨基酸组成及Moreau–Broto自相关系数这两种特征存在一定的互补性,同时基于这两种特征组合构建的模型更适合预测禽流感病毒禽到人的跨种传播。2.7本章小结尽管2009年大流行病是一株猪源的H1N1病毒而不是禽源的H5N1病毒,并且很31 华中科技大学博士学位论文少有证据报道禽流感病毒已经适应了人到人的传播,然而禽流感病毒可以跨越种间传播屏障并感染人是确定了的事实。因此人们应该为禽流感病毒造成的可能的流行疾病威胁做好准备。本章基于一分类SVM方法构建了预测模型,评估结果表明,无论在训练数据集上,还是在测试数据集上,由氨基酸组成及Moran自相关系数组合构建的模型都具有最好的性能并均达到了高于92.75%的准确率,因此可以有效的预测哪些禽流感病毒可以跨越宿主屏障并导致禽到人传播的发生从而提供病毒预警,有益于公共健康并促进更好的禽流感病毒监控策略的发展。32 华中科技大学博士学位论文3基于理化特征选择预测禽流感病毒禽到人的传播3.1引言构建计算模型来预测禽流感病毒禽到人的传播对于公共健康具有重要意义,Qiang和Kou于2010年构建了预测禽流感病毒禽到人传播的反向神经网络预测模型[74][73],其使用的数据集采取了与Kou等人聚类的5种禽流感病毒分子模式相对应的140株病毒株。上一章构建了一个的一分类SVM模型,并取得了比Qiang的模型更好的性能。同时在构建测试用的负样本时,我们意识到可以构建两类样本从而采取传统的两分类方法来解决禽流感病毒跨种传播预测的问题。因此本章扩大了样本数据规模,确立两类训练样本,期望进一步提升禽流感病毒禽到人传播的预测。同时,尽管Qiang构建的反向神经网络预测模型与上一章构建的一分类SVM模型均达到了较好的性能,然而却未能发现一些有意义的生物学特征。因此,本章期望在提升预测模型性能的同时探索挖掘一些对禽流感病毒禽到人传播有影响的生物学特征从而对理解种间传播底层机制提供帮助。特征选择(又称变量选择)已经广泛用于模式识别及机器学习方法中,越来越被研究人员重视。特征选择不仅可以降低模型的计算开销,同时特征的数量与模型性能间并不存在线性关系,特征数量的增加不一定能提升模型的性能,甚至有时还会导致[101]模型性能的降低。一般来说,广义的特征选择包括特征提取(FeatureExtraction)与特征选择(FeatureSelection)两种类别。特征提取通常指的是一种变化,将高维空间的样本通过某种方法映射到低维空间,从而达到数据降维的目的。常用的特征提取方法包括主成分分析,局部线性嵌入,小波变换等。而特征选择从原始的特征集中去除冗余及不相关的特征从而找到独立及与预测目标相关的特征子集。这些经过特征选择后的特征是具有代表性的,一般对待构建的模型是有效的。常用的特征选择方法包[102][102]括顺序前向选择(SequentialForwardSelection,SFS),顺序反向排除(Sequential[103][104]backwardelimination,SBE),信息增益(InformationGain,IG),T检验法(t-test),33 华中科技大学博士学位论文[105][106][107]Wilcoxon秩和检验(Wilcoxonranksum),Relief,遗传算法(Geneticalgorithm,GA)等等。在过去的十年中,生物信息学中应用特征选择的动机已经从作[101]为一个说明描述的实例转变为了模型构建的必要条件。对比特征提取方法,特征选择方法没有改变特征或者变量的原有意义及表示,而仅仅选择了原始特征集的子集,因此,特征选择方法保留了原始特征的语义从而具有为相关领域专家提供可解释性及可理解性的优势。本章基于特征选择方法改进禽流感病毒禽到人传播的预测,并期望能够获取一些具有生物学意义的特征从而为研究禽流感病毒跨种传播底层机制的生物学专家提供帮助。自从1997年香港禽流感病毒爆发后,许多科研人员被吸引到禽流感病毒跨种传播的底层机制研究上来。同时取得了一些宝贵的进展,揭示了与禽流感病毒种间传播相[8,61]关的因素。这些因素包括:病毒蛋白、宿主免疫系统、宿主受体、环境条件等等。对于禽流感病毒,克服他们自身的因素是打破种间传播屏障的第一步。因此病毒蛋白的突变在禽流感病毒跨种传播过程中扮演了更加重要的作用。在这些禽流感病毒跨种传播的相关研究中,一些研究表明通过点突变的积累(即抗原漂移)或者基因重配,禽流感病毒可以成为新的流感病毒抗原变种并可能获得种间传播的能力。然而,在禽流感病毒直接感染人的过程中,缺乏基因重配的中间混合器(例如猪宿主),因此,点突变的积累具有关键的作用。有研究表明HA蛋白的一些点突变(例如第226位由谷[62,63]氨酰胺Gln突变为亮氨酸Leu)会导致受体结合偏好从SA2,3Gal变为SA2,6Gal,PB2蛋白627位的谷氨酸Glu突变为赖氨酸Lys可以恢复禽流感病毒在哺乳动物细胞[64]中的复制能力,同时与在人类细胞中的增强的复制能力及对人类的致死性相关联[65,66]。第591位的谷氨酸Glu突变为赖氨酸Lys或者精氨酸Arg可以补偿627位赖氨[67]酸Lys的缺失并赋予大流行H1N1病毒在哺乳动物中有效的病毒复制能力。同时,[68-71]其他内部蛋白,例如PB1,PA和NS1也在种间传播中起到重要的作用。此外,[72]Chen和他的同事探索了人流感病毒对禽流感病毒的基因组特征。这些研究启发我们挖掘在蛋白质序列中的特征将有益于预测及理解禽流感病毒的跨种传播。本章中,我们从上一章提到的两个公共数据库中共收集了1251个样本并设计了一套方法来挖掘禽流感病毒蛋白质序列中的特征。这套方法包括三个环节:34 华中科技大学博士学位论文1)使用香农熵来选择蛋白质序列中的特征位置;2)使用理化性质编码这些选中的特征位置;3)采取多种特征选择方法挖掘最优的特征。当执行完这套特征选择方法之后,获取了几个对识别具有禽到人跨种传播能力的禽流感病毒有识别力并能够提供一些洞察力的理化特征。联合这几个选择的特征与SVM构建了一个预测模型,并取名A2H,实验结果表明,A2H具有预测禽流感病毒禽到人传播的能力并取得很好的性能。其中选择的特征包括长linker偏好(linkerpropensityfromlongdataset),规范化的扩展结构频率(normalizedfrequencyofextendedstructure),规范化的zetaR结构频率(normalizedfrequencyofzetaR),规范化的左手alpha-helix结构频率(normalizedfrequencyofleft-handedalpha-helix)。这些最终选择的特征或许可以为禽流感病毒种间传播研究领域的研究人员提供帮助。3.2数据集同上一章一样,具有禽到人传播能力的禽流感病毒被看作正样本,而不具有这种能力的病毒视为负样本。显然,从人身上分离到的的禽流感病毒可以确定为正样本。现有报道能直接感染人的禽流感病毒亚型共有4种包括H5N1,H9N2,H7N7以及H7N3,其中H5N1是最有代表性的感染人的禽流感病毒,它与H7N7感染人的案例最多。这些亚型中哪些可以直接感染人是不确定的,然而没有报道显示其它亚型可以直接传播给人,所以我们将非这四种亚型的禽流感病毒毒株确定为负样本。本章收集了1685条不同亚型的禽源禽流感病毒序列以及92条人源禽流感病毒序[96]列。通过使用cd-hit去除了100%相似度的冗余序列以及存在X及B的序列,并去除H5N1,H7N7,H9N2,H7N3四种亚型的禽源病毒序列。最终一共得到了分离自1934年到2011年的1251条病毒序列,所有7506个蛋白质序列都下载自流感病毒资源IVR[94](InfluenzaVirusResource:http://www.ncbi.nlm.nih.gov/genomes/FLU/FLU.html,)[95]和流感研究数据库IRD(InfluenzaResearchDatabase:http://www.fludb.org)。其中78株禽流感病毒为正样本,包括3种不同的亚型H5N1,H7N7和H9N2,剩下的1173株为负样本。所有1251株禽流感病毒最终被分为两部分:训练数据集及测试数据集。35 华中科技大学博士学位论文对于训练数据集,随机选择了60个正样本及900个负样本。剩下的18个正样本及273个负样本构成了独立的测试数据集,表3.1显示了最终的数据集构成。表3.1数据集构成数据集正样本负样本训练集60900测试集182733.3算法步骤本章构建模型的详细的流程图如图3.1所示,下面是算法描述。图3.1A2H流程图36 华中科技大学博士学位论文步骤1.从IVR和IRD获得1251条禽流感病毒序列。步骤2.通过多序列比对将所有1251条病毒序列长度统一为3212个长度。步骤3.指定类别标签:具有禽到人传播能力的禽流感病毒序列为+1(正样本),没有跨种传播能力的病毒序列为-1(负样本)。步骤4.分别计算正负样本3212个位置的熵值,正负样本香农熵值之差大于0.5的位置选为氨基酸特征位置,并提取这些位置的氨基酸连接成新的氨基酸序列。步骤5.基于531种理化性质编码所有的特征氨基酸序列。步骤6.使用Relief,mRMR,IG以及GA算法执行特征选择,分别选出40个待选理化性质特征子集。步骤7.训练SVM分类器并决定最终模型A2H所使用的特征子集和模型参数。步骤8.在独立的测试数据集上运行A2H评估其泛化能力。3.4序列位置熵值[108][109]本章首先使用MUSCLE分别比对病毒六个内部蛋白序列,然后使用Jalview删除比对结果中两端多余的序列使他们的长度一致(图3.2)。在信息论中,熵值是随[72]机变量不确定性的一种测度。蛋白质序列集上某个位置j上的熵值E定义为:20Ej=−∑Pi,j∗log(Pi,j)i=1其中Pi,j是氨基酸i在j位置上出现的概率。熵值为零,反映了这个位置上只出现一种氨基酸,是完全保守的,而熵值越大,反映了这个位置的氨基酸变化越大,其保守性越差,在进化中发生突变的概率越大。而正负样本中的熵值差值差异则能反映特征的辨识能力。本章分别计算60个正样本及900个负样本3212个氨基酸位置的熵值。并发现在90个位置中熵值之差大于0.5,从而提取了90个氨基酸特征位置。选定90个氨基酸特征位置后,提取样本集中每个样本90个特征位置的氨基酸连接为一个新的氨基酸序列用来代表原有的病毒序列。37 华中科技大学博士学位论文图3.2使用Jalview编辑比对序列3.5理化性质编码氨基酸序列为了表征特征氨基酸序列,需要将氨基酸序列按照某些属性,某种方法转化为数[110]值向量。我们使用AAIndex,AAIndex是一个氨基酸指数数据库,广泛用于生物信息学的不同领域。每一种氨基酸指数表现了某种氨基酸理化性质,生化性质或者结构性质,并由20种氨基酸相对应的20个数值组成,如图3.3所示。除去544种理化性质中13种具有NA值的性质,选择剩下的531种理化性质编码特征氨基酸序列。将一条特征氨基酸序列中所有氨基酸对应的某种理化性质的数值相加除以特征氨基酸序列的长度90就得到这种理化性质的特征编码值。例如对于氨基酸片段“MQTRN“这个例子,极化参数指数(polarizabilityparameter)可以编码为[0.2210.1800.1080.2910.134],那么这个向量的平均值0.187即被用作极化参数的特征值。最终,每条病毒序列被转化为531维的向量。每一维的特征反映了所代表的理化性质在正负样本中的差异。例如对于正电荷这个理化性质,正样本中90个特征氨基酸有80个带正电荷,而负样本中只有10个,那么正样本这个理化性质的特征值就大于负样本,反映38 华中科技大学博士学位论文了正样本比负样本更偏向于带正电荷。图3.3氨基酸指数数据库3.6特征选择与模型构建近来,一些研究表明计算模型的性能受特征选择方法的影响。而特征选择在生物信息学应用中越来越重要甚至成为必不可少的步骤。在本研究中,特征选择的主要目地是为了从原始的531维理化特征向量中去除冗余的特征,寻求最小的特征子集使预测模型的性能达到最高,同时寻求对具有禽到人传播能力的禽流感病毒有辨识力的特[101]征。实际上,冗余的特征可能对预测性能的提高没有帮助甚至降低预测性能。因此本研究使用了多种特征选择算法来实现特征选择。四种广泛使用与生物信息学领域的特征选择方法被用于本研究中,包括[106][103][111]Relief,InformationGain(IG),minimalRedundancyMaximalRelevance[107](mRMR)以及geneticalgorithm(GA)。Relief计算每个特征的平均特征权重39 华中科技大学博士学位论文即相关性水平,并选择相关性水平大于给定阈值的特征。它的评估特征质量的一个关键思想是根据互相邻近的样本之间的值有多大的差异。mRMR使用样本和类别标号之间的互信息选择最满足最小冗余度最大相关性规则的M个特征。IG也称为相对熵(relativeentropy)及Kullback–Leibler距离(Kullback–Leiblerdivergence),是一个测量两种密度函数不同的标量。而GA是一种进化算法,它模拟自然界生物进化的发展进行随机全局搜索及优化,借鉴了达尔文的进化论及孟德尔的遗传学说。GA特征选择通过交叉,突变完成特征的组合优化。本章首先使用这四种特征选择算法,分别从531种理化性质特征中选出各40个候选特征子集用来区别正样本及负样本。前三种方法包括Relief,mRMR以及IG首先对531种理化性质特征进行排序。[112]然后使用增量特征选择方法(incrementalfeatureselection,IFS)构建各40个特征子集。每一个特征子集Si构造如下:Si={f1,f2,L,fi},(1≤i≤40)其中fi是531中理化性质特征中排序第i位的特征。[113]最后一种方法GA采取了Ludwig’s方法中用到的适应值函数来执行特征的组合优化。待选的特征数量分别被设为从1到40的整数,从而搜索到40个最优的特征组合。接着,这四种方法选出的各40个候选特征子集联合SVM分类器(使用径向基核函数)来构建不同的禽流感病毒禽到人传播的预测模型。SVM是一种特征学习及分类算法,其广泛应用于生物信息学各个领域包括蛋白质识别、亚细胞定位、结构预测[114][115]及功能预测等等。本研究中,使用LIBSVM程序包来实现SVM分类器。在三类常用的核函数中,径向基核函数表现出了最好的性能。同时我们使用网格搜索来确定惩罚因子C及核宽γ的最优参数值。这些模型的预测性能通过10倍交叉验证评估。最终具有最高准确率及最少的特征数量的SVM模型被选为预测禽流感病毒禽到人传播的最终模型,并取名A2H。40 华中科技大学博士学位论文3.7性能评估方法上一章使用的四个不同的测度包括预测准确率(predictionaccuracy,ACC),敏感度(sensitivity,SN),特异度(specificity,SP),Matthews相关系数(Matthewscorrelationcoefficient,MCC)已经被广泛用于生物信息学领域。本章仍然采用他们来评估构建的预测模型的性能。本研究试图研发一个在内部训练集集外部测试集上都有优秀的性能的预测模型,为了研发一个合格的预测模型,采取了训练集内部的交叉验证。同时内部的交叉验证可能对于模型泛化能力的评估是不够的。实际上,内部交叉验证例如留一法在数据量较大时容易导致模型的过拟合,所以当模型投入实际使用前有必要验证模型的外部预[116]测能力。10倍的交叉验证被用来评估模型内部的预测性能。960个训练样本被等分为10份,每次选择9份训练分类器,剩下的一份测试模型预测准确率,这个步骤重复10次最终计算出平均的预测准确率,进一步在291个样本的测试集上验证模型的外部泛化能力。3.8结果与讨论3.8.1高熵值差的序列位置60个正样本及900个负样本所有的3212个序列位置的熵值被分别计算出来。我们发现正负样本的90个位置的熵值差值大于0.5(见图3.4)。其中M1蛋白有4个位置,NP蛋白有4个位置,NS蛋白有49个位置,PA蛋白有18个位置,PB1蛋白有5个位置,PB2蛋白有10个位置。这些序列特征位置在两类样本中差异明显,例如PB2蛋白的64位置,具有跨种传播能力的60株病毒中有44株由甲硫氨酸突变为异亮氨酸。而不具有跨种传播能力的900株病毒中几乎都保持为甲硫氨酸。同时这些位置中的一些已经被证明在禽流感病毒的种间传播过程中具有重要的作用。例如,NS1蛋白[117]中第42位的丝氨酸对H5N1禽流感病毒抵制宿主细胞干扰素介导有重要作用,PB2[118]蛋白的627位谷氨酸突变为赖氨酸将恢复病毒在哺乳动物中的复制能力;M1蛋白中的137位及PB2蛋白的64位是持久的宿主标记能反映H5N1病毒大流行的宿主特41 华中科技大学博士学位论文[119]异的适应性。本研究中发现的这90个位置将对进一步分析和理解禽流感病毒传播的分子机制提供帮助。图3.4正负样本90个特征位置的熵值差3.8.2特征选择及模型性能根据3.2.5节中提出的方法,使用四种特征选择算法(Relief,mRMR,IG和GA)选出的候选特征子集构建了若干SVM模型。这些模型在训练数据集上的模型性能通过10倍交叉验证计算平均预测准确率得出,结果如图3.5所示。根据10倍交叉验证准确率的最大值,我们分别选出了四种特征选择方法每种方法所构建的最优模型,其对应的特征子集被确定为每种方法的最优特征子集。从图中我们发现Relief选择的最优特征子集为第4个特征子集,mRMR选择的最优特征子集为第18个特征子集,IG选择的最优特征子集为第13个特征子集,GA选择的最优特征子集为第11个特征子集。这四种方法选择的四个最优的特征子集见表3.2-表3.5。42 华中科技大学博士学位论文图3.5不同特征子集构建的模型在训练数据集上的准确率变化对比四种特征选择算法选择的最优特征子集所构建的模型,基于Relief方法构建的最优模型仅仅使用了4个特征,并取得了最高的准确率,即99.48%。同时由GA选择的几个特征子集所构建的模型也取得了99.48%的最高准确率,然而这些模型中用到的特征数量最少为11,比Relief最优模型所用到的特征要多出7个。此外,基于mRMR及IG这两种特征选择方法构建的最优模型也同样取得了高于98%的准确率,分别为99.27%及99.85%,比前两种方法的准确率略低。这些结果说明这四种特征选择方法都具有选择有效特征的能力,而Relief选择的最优特征子集对于构建预测禽流感病毒禽到人传播的模型更加有效。为了进一步测试构建的预测模型的外部预测能力,本章使用了一个单独的测试数据集来评估四个最优模型的泛化能力,评估结果见表3.6。从表中发现由前四个Relief选择的特征所构建的模型取得了最好的泛化能力,其MCC值达到了最高的0.939。同时,尽管由GA选择的11个特征构建的模型在训练数据集上达到了最高的MCC值,然而它却在测试数据集上取得了最低的MCC值,即0.832。43 华中科技大学博士学位论文表3.2Relief选择的最优特征子集FeatureNoAAIndexIDDescription1GEOR030107Linkerpropensityfromlongdataset2MAXF760102Normalizedfrequencyofextendedstructure3MAXF760103NormalizedfrequencyofzetaR4MAXF760104Normalizedfrequencyofleft-handedalpha-helix表3.3mRMR选择的最优特征子集FeatureNoAAIndexIDDescription1CHAM830107Aparameterofchargetransfercapability2BHAR880101Averageflexibilityindices3FUKS010107Interiorcompositionofaminoacidsinextracellularproteinsofmesophiles4NADH010103Hydropathyscalebasedonself-informationvaluesinthetwo-statemodel5BAEK050101Linkerindex6RACS820108AveragerelativefractionaloccurrenceinAR(i-1)7PONP800104Surroundinghydrophobicityinalpha-helix8ISOY800104NormalizedrelativefrequencyofbendR9PONP800105Surroundinghydrophobicityinbeta-sheet10BASU050103InteractivityscaleobtainedbymaximizingthemeanofcorrelationcoefficientoverpairsofsequencessharingtheTIMbarrelfold11KUMS000101Distributionofaminoacidresiduesinthe18non-redundantfamiliesofthermophilicproteins12BEGF750101Conformationalparameterofinnerhelix13MONM990101Turnpropensityscalefortransmembranehelices14WERD780104Freeenergychangeofepsilon(i)toalpha(Rh)15KARP850101Flexibilityparameterfornorigidneighbors16FASG760102Meltingpoint17RACS820102AveragerelativefractionaloccurrenceinAR(i)18TANS770107Normalizedfrequencyofleft-handedhelix44 华中科技大学博士学位论文表3.4IG选择的最优特征子集FeatureNoAAIndexIDDescription1PALJ810106NormalizedfrequencyofturnfromCF2RICJ880107RelativepreferencevalueatN43CHOP780101Normalizedfrequencyofbeta-turn4CHOP780203Normalizedfrequencyofbeta-turn5LEWP710101Frequencyofoccurrenceinbeta-bends6CHOP780210NormalizedfrequencyofN-terminalnonbetaregion7FUKS010107Interiorcompositionofaminoacidsinextracellularproteinsofmesophiles8BEGF750101Conformationalparameterofinnerhelix9KUMS000103Distributionofaminoacidresiduesinthealpha-helicesinthermophilic10PALJ810113Normalizedfrequencyofturninall-alphaclass11SUEM840102Zimm-Braggparametersigmax1.0E412KUMS000102Distributionofaminoacidresidues13RICJ880109RelativepreferencevalueatMid表3.5GA选择的最优特征子集FeatureNoAAIndexIDDescription1CHAM830107Aparameterofchargetransfercapability2QIAN880121Weightsforbeta-sheetatthewindowpositionof13PONP800106Surroundinghydrophobicityinturn4RACS820102AveragerelativefractionaloccurrenceinAR(i)5PONP800104Surroundinghydrophobicityinalpha-helix6CHAM830104Thenumberofatomsinthesidechainlabelled2+17SIMZ760101Transferfreeenergy(Simon,1976),CitedbyCharton-Charton8VINM940104Normalizedflexibilityparameters(B-values)foreachresiduesurroundedby9FAUJ880112Negativecharge10WERD780104Freeenergychangeofepsilon(i)toalpha(Rh)11CHAM830103Thenumberofatomsinthesidechainlabelled1+145 华中科技大学博士学位论文表3.6基于Relief,mRMR,IG及GA构建的最优模型在训练数据集及测试数据集上的评估结果TrainingdatasetTestingdatasetFeaturesubsetaSNSPCVACCSNSPACCMCCMCC(%)(%)(%)(%)(%)(%)Featurestop4(Relief)9599.890.96499.4888.891000.93999.31Featurestop18(mRMR)9099.890.93698.8588.8999.270.88298.63Featurestop13(IG)96.671000.98299.2788.8998.900.85698.28Featuressubset11(GA)10099.890.99199.4888.8998.530.83297.94a10-foldcross-validationaccuracy所有上面的结果表明由Relief选择的前四个理化性质特征构建的SVM模型是四种方法构建的所有模型中最优的。因此,这个SVM模型被命名为A2H,同时被选择为本研究的最终模型。3.8.3A2H与其他模型的比较Qiang和Kou基于由小波包分解得到的5种与禽流感病毒跨种传播相关的分子模[74]式构建了反向神经网络模型(BPNN)来预测禽流感病毒禽到人的跨种传播。上一章探索了一分类SVM方法对于预测禽流感病毒跨种传播的可行性并构建了一个有效的一分类SVM预测模型(OCSVM)。本章在独立的测试数据集上比较了A2H,Qiang的BPNN模型以及上一章的OCSVM模型。如表3.7所示,BPNN的灵敏度为100%,高于另外两个模型。然而,BPNN在273个负样本中预测错了104个,取得了相对较低的61.90%的特异度,而OCSVM取得了81.68%的特异度,本章构建的A2H模型取得了100%的特异度。对于能反映预测模型总体性能的测度预测准确率及Matthews相关系数来说,A2H比OCSVM及BPNN模型取得了更好的性能。特别是Matthews相关系数,A2H高出它们约0.5。3.8.4讨论训练数据集上的交叉验证结果以及测试数据集上的独立评估结果证明了A2H模46 华中科技大学博士学位论文型对于预测禽流感病毒禽到人传播的有效性。这里有两个可能的原因:1)使用香农熵的方法选择出了禽流感病毒禽到人传播的蛋白质序列特征位置;2)多种特征选择方法选择出了最优的理化性质特征用于编码病毒残基序列。表3.7测试数据集上A2H,OCSVM及BPNN模型的性能比较ModelSN(%)SP(%)MCCACC(%)A2H88.891000.93999.31OCSVM94.4481.680.43682.47BPNN10061.90.30264.26为了打破种间屏障,禽流感病毒通过点突变的积累或者基因重配来逃脱宿主免疫系统。然而,在禽流感病毒直接感染人的过程中,缺乏基因重配的中间混合器(例如猪宿主),因此,禽流感病毒蛋白质序列的点突变具有关键的作用。本章探索了是否蛋白质序列中重要的位置可以有效提升改进预测禽流感病毒禽到人的传播。Chen和[72]他的同事使用香农熵的方法识别了人流感病毒对禽流感病毒的基因组特征。我们进一步比较了正负样本中的熵值差。使用0.5的阈值,筛选出了禽流感病毒蛋白质序列中的90个特征位置。实验结果证明了这90个位置对于具有禽到人传播能力的禽流感病毒的辨识力。我们同时也增大了熵值差的阈值到0.6并筛选出了56个特征位置,同时使用3.2节中的方法构建预测模型。结果发现构建模型的性能下降了,这可能归因于一些病毒蛋白质序列的特征位置被忽视了。当更多的正负样本可用时,或许可以通过降低熵值差阈值获取更多的特征位置从而提升A2H预测模型的性能。为了探索有效的特征来预测禽流感病毒禽到人的传播,Relief,mRMR,IG和GA这四种特征选择方法被用于本章的研究中。基于这四种特征选择方法构建的模型的性能评估结果表明由Relief选择的前4个特征取得了最好的预测性能,这4个特征及其描述见表3.2。Linkerpropensity是Relief方法选择的排序第一的理化性质特征。它对A型流感病毒的活性及生物学过程具有重要作用。已经有研究证明改变连接域的Linker的长度47 华中科技大学博士学位论文[120][121]影响蛋白质的稳定性,折叠率以及域-域的方向。Biswas和Nayak的研究表明,病毒蛋白PB1对Linker的改变高度敏感,同时几乎所有的Linker插入突变将降低它的病毒聚合酶活性。Ng和他的同事发现了两个重要的Linker(残基397-401及残基[121]429-437)。这两个Linker连接病毒NP蛋白的尾部环状物及主体并具有很强的灵活性,这样的灵活性允许尾部的环状物改变它的构象从而满足NP蛋白齐聚反应的一个必要条件。此外,left-handedalpha-helix规范化频率是另一个由Relief方法选择的具有生物学重要性的特征。构象的变化可以导致禽流感病毒蛋白功能的缺失,例如Sugiyama和他的同事观察到PB1和PB2蛋白在交互位点的突变将导致丢失复合物的结构从而丧[123]失复制和转录活性。进一步,Qian和他的同事表明NS1蛋白N端的1-73位存在[124]大量的螺旋结构,并且NS1蛋白与RNA交互模式至少部分是由alpha螺旋调控的。在Jiao的研究中,NS1蛋白的RNA结合域中的第二个alpha螺旋结构被证明对于H5N1[117]流感病毒对抗宿主干扰素诱导具有重要的作用。进一步对Relief选择的前四个理化性质特征进行统计分析。首先,F检验被用于检查这四个理化性质特征正负样本之间的方差齐性。由于正负样本的方差不一致,非参数的Mann-WhitneyU检验被用于比较两类样本的不同。本章使用Matlab的秩和检验来计算比对的统计显著性水平(即P-value),结果如表3.8所示。同时比较了这四种特征正负样本的均值差异,如图3.6所示。从表中可以看到,所有Relief选择的前四个理化特征的P值均小于等于0.7,同时从图3.6中可以看到四个理化性质的均值均不相同,意味着它们具有有效识别禽流感病毒禽到人传播的潜在能力。通过比较由这四个特征的不同组合构建的模型的性能也表明了这个结果。当只使用特征4的时候,预测模型在测试数据集上的MCC值达到了0.742。当集成另外三个特征时,MCC值进一步被提升至0.939(见表3.9)。这四个Relief选择的特征可能有益于研究人员理解禽流感病毒的种间传播机制。需要注意的是本章用到的数据集中的正负样本有一些不平衡。使用一些不平衡学习方[125]法,例如APLSC可能对于选择优化的特征从而研究禽流感病毒禽到人的传播更加有效。在接下来的工作中,我们会扩展A2H模型集成更多的特征例如氨基酸对可预48 华中科技大学博士学位论文[126][127]测性及假氨基酸组成等,同时使用更多的测度例如ROC曲线及曲线下面积AUC系统的评估A2H的性能。表3.8Relief选择的前四个理化特征正负样本的P值FeatureNo.AAIndexIDDescriptionP-value1GEOR030107Linkerpropensityfromlongdataset0.072MAXF760102Normalizedfrequencyofextendedstructure<0.013MAXF760103NormalizedfrequencyofzetaR<0.014MAXF760104Normalizedfrequencyofleft-handedalpha-helix<0.01表3.9使用Relief选择的前四个特征的不同组合训练的SVM模型在测试数据集上的性能FeaturesubsetSN(%)SP(%)MCCACC(%)Features10100093.81Features20100093.81Features30100093.81Features466.6799.270.74297.25Features1+20100093.81Features1+361.1198.900.67696.56Features1+466.671000.80897.94Features2+327.781000.51595.53Features2+466.6799.630.77397.59Features3+466.6799.630.77397.59Features1+2+361.1198.530.65096.22Features1+2+466.671000.80897.94Features1+3+488.8999.270.88298.63Features2+3+472.2299.630.80997.94Features1+2+3+488.891000.93999.3149 华中科技大学博士学位论文图3.6Relief选择的前四种特征正负样本的均值差异3.9本章小结在本章中,我们专注于提升改进预测禽流感病毒禽到人的传播并期望发现一些具有生物学意义的特征。最终使用最优的理化性质特征构建了一个SVM模型,并取名为A2H。评估结果表明,A2H可以有效的预测哪株禽流感病毒能直接感染人。因此,A2H可以在禽流感病毒种间传播的早期预警中发挥作用从而有益于公共健康。此外,文中的结果表明禽流感病毒蛋白质序列的90个特征位置具有识别能跨越种间屏障的禽流感病毒的辨识力。同时,left-handedalpha-helix规范化频率及另外三个理化性质特征实现了A2H的高性能。总之,这些选择的理化特征和90个特征位置或许可以为未来的禽流感病毒种间传播研究带来帮助。50 华中科技大学博士学位论文4联合位置打分及MLR识别H3N2流感病毒抗原变异关键位置4.1引言每年A型流感病毒都在人类群体中流行,在全球范围每年导致三百万到五百万人[25]严重的疾病,其中有二十五万到五十万人因此丧命。当前预防流感及其并发症的主要方法为接种疫苗,当疫苗的抗原与当前流行的病毒抗原存在高度的相似性时,失活的疫苗将通过免疫系统为人们提供必要的保护。然而病毒可以逃脱免疫系统,其通用的策略是进化自身来改变其抗原特性,这就造成了两种不一样的局面:仅感染人类且具有较低的进化率的病毒例如水痘病毒可以通过给人类群体接种疫苗来进行有效的[128]控制。相反的,具有高进化率的病毒,例如HIV,B型肝炎病毒以及A型流感病毒通过产生较多的突变病毒粒子来抵制被宿主免疫系统排除并导致慢性的或者重复的感染。这种病毒蛋白中点突变的积累(即抗原漂移)导致了病毒及疫苗的不匹配,[26,27]从而减弱了疫苗的有效性甚至造成当前疫苗丧失作用,从而为全球流感病毒监控工作及疫苗选择工作带来不小的困难。因此识别病毒蛋白的抗原变异关键位置具有重要意义。本章的研究对象为H3N2亚型流感病毒,尝试以计算的方法识别H3N2流感病毒的抗原变异关键位点。在人类流感疾病的致病原中,H3N2病毒亚型所占的比例最大[43],同时H3N2流感病毒有鲜明的进化历史及相对详尽的文档及数据记录,它的进化受到了免疫压力的高度影响,免疫压力及逃脱突变突变驱动了病毒的进化。H3N2流感病毒于1968年出现并流行于人类群体中并不断进化为新的抗原变种从而逃避免疫系统的免疫作用。血凝素蛋白(HA)及神经氨酸酶蛋白(NA)是流感病毒的表面抗原并诱导保护性的抗体反应。在病毒粒子膜的表面,HA蛋白以柱状三聚体的形式存在,NA蛋白是蘑菇状的四聚体。HA蛋白是抗体结合的主要目标,因此HA蛋白是流感病毒进化的一个关键因素,它的突变改变了病毒对于免疫系统的抗原特性。HA蛋-5-3[77]白的突变率大概为1.6×10/氨基酸位置/天或5.8×10/残基/年。每一个流感HA蛋51 华中科技大学博士学位论文白由两个亚单元HA1及HA2构成,HA1亚单元是长度为329的氨基酸序列,而HA2亚单元是长度为221的氨基酸序列。HA1亚单元要比HA2亚单元突变得更频繁,在[78,79]自然选择过程中扮演了主要角色,因此关于流感病毒抗原变异的研究主要集中于HA蛋白的HA1亚单元,同时HA1亚单元的氨基酸序列数据也更丰富,而HA2亚单元的数据相对较少,因此本章的研究内容主要为识别H3N2流感病毒HA蛋白HA1亚单元的抗原变异关键位点。H3N2亚型的HA蛋白HA1亚单元一共有五个抗原表位,它们主要承受了由免疫[78]系统带来的选择压力,这五个抗原表位表标记为抗原表位A到E,一共包含131个[80-82]氨基酸位置,分别含有19,22,27,41,22个氨基酸。在HA蛋白的567个氨基酸位[82]置中,有14个位置组成了受体结合位点。最近,有研究发现H1N1及H3N2流感病毒的HA1亚单元中一到三个氨基酸的突变可能降低失活的疫苗在动物模型中的抗[83-87]原性及功效。Bush和他的同事通过比较1984至1996年的357株病毒,识别了[80]HA蛋白中的18个正选择氨基酸位置。值得注意的是,Smith等人通过使用一个复[88]杂的模型,识别出在44个位置上的66个氨基酸突变与H3N2病毒抗原漂移有关联,通过逐步线性回归及统计学分析,Lee和他的同事识别了24个H3N2病毒抗原变异关[76]键位置,其中有17个位置被进一步识别为潜在的免疫显性位置。Liao等人构建了多个计算模型,最终识别了16个关键氨基酸位置,并基于这16个关键位置预测了[89]H3N2流感病毒抗原关系。Huang等人基于信息增益方法构建了一个决策树用于预[90]测H3N2流感病毒抗原关系,其构建的决策树包含6个关键氨基酸位置。本章首先人工收集了来自于相关文献中记录的H3N2抗原变异数据,将Lee,Liao,Huang研究中用到的数据规模扩大了近一倍。然后比较了多种打分策略,包括优势比,互信息,Phi相关系数并联合多元线性回归(MLR)最终识别了18个H3N2流感病毒抗原变异关键位置,这18个关键位置均位于5个抗原表位中,同时以这18个关键位置突变为特征构建了H3N2流感病毒抗原变异线性回归模型,实验结果证明达到了较高的预测性能。52 华中科技大学博士学位论文4.2抗原关系两株病毒的抗原关系通常分为抗原相似(antigenicsimilarity)和抗原变异或变种(antigenicvariant)。当前确定流感病毒抗原变种的方法主要依赖雪貂血清的血凝素抑制(hemagglutinin-inhibition,HI)抗体交叉反应。血凝素抑制化验描述了是否一株病毒(通常是当前流行的病毒)可以被抵制疫苗毒株的抗体识别,若能识别,则这株病毒与疫苗毒株即为抗原相似关系,否则为抗原变异关系。基于Archetti-Horsfall方法,[129-131]两株病毒株之间的基于血凝素抑制数据的抗原距离通常定义为:dij=ln((HiiHjj)(HijHji))这里Hii指的是同源抗体滴定值,而Hij指的是异种抗体滴定值。例如两株病毒的同源滴定值为640和640,而互相之间的异种滴定值为320和320,则它们的抗原距离为0.6931(即ln(([640x640]/[320x320])½)=ln2)。当两株病毒的抗原距离大于等于1.3863即ln4时,判定为抗原变异。相反小于ln4时,为抗原相似。表4.1展示了10对H3N2流感病毒的抗原距离。表4.110对H3N2流感病毒的抗原距离及抗原关系同源同源异种异种抗原抗原病毒A病毒B滴定滴定滴定滴定距离关系AABBABBAaA/HONGKONG/107/71A/ENGLAND/42/72480128010803.32VA/SHANGHAI/11/87A/VICTORIA/7/8732032040801.73VA/PORTCHALMERS/1/73A/TOKYO/1/7532032010103.47VA/TOKYO/1/75A/MAYOCLINIC/1/7532032010103.47VA/MAYOCLINIC/1/75A/VICTORIA/3/75320640102402.22VA/VICTORIA/3/75A/ENGLAND/864/75640192020803.32VA/BEIJING/353/89A/HONGKONG/1/9412805120401603.47VA/MISSISSIPPI/1/85A/LENINGRAD/360/866403203201600.69SA/MISSISSIPPI/1/85A/SYDNEY/1/876403203203200.34SA/California/7/2004A/Brisbane/10/2007128064016012800.69SaV代表抗原变异,S代表抗原相似53 华中科技大学博士学位论文4.3数据集[75,76][89][90]Lee,Liao和Huang的研究中均用到了45株H3N2流感病毒的181对抗[76]原关系。Lee的研究表明H3N2病毒继续在新的位置产生突变,因此需要有更多的样本来评估新的突变位置的重要性。由于当前并没有H3N2流感病毒抗原关系公共数据库可供使用。本章首先从相关[132-134]已发表的文献,世界卫生组织WHO合作中心(WorldHealthOrganizationcollaboratingcenter)的每周流行病记录报告(WeeklyEpidemiologicalRecord,WER)[135]以及美国疾病控制预防中心(CentersforDiseaseControlandPrevention)的监视报[136]告这些文档材料中人工收集H3N2亚型流感病毒血凝素抑制化验数据,然后通过上一节中提及的Archetti-Horsfall方法计算所收集的H3N2病毒对的抗原关系。最终扩大了H3N2流感病毒抗原关系数据的规模,比Lee等人研究中用到的数据增加了约一倍。这些数据共包括了394对H3N2流感病毒血凝素抑制化验数据,包含94株毒株,部分数据如表4.2所示,完全数据请参见附录5。其中208对为抗原变异关系,确定为正样本。186对为抗原相似关系,确定为负样本。这些数据用来识别抗原变异关键位置,同时构成了用于构建预测模型的训练数据集。为了验证基于这些关键位置构建的预测模型,本章另外构建了一个单独的测试数据集,这个测试数据集基于Smith等[88]人识别的11个H3N2流感病毒抗原类别,共包含253株H3N2病毒株,详细数据请参见Smith等人的文章。本章将同一类别中的病毒株视为抗原相似关系,而不同类别间的病毒株视为抗原变异关系。通过组合所有253株病毒,最终构建了一个含有31878对病毒抗原关系的数据集用于验证构建的预测模型。其中抗原变异有27098对,[89][90]抗原相似有4780对。同样的数据集也曾用于Liao和Huang的研究中。表4.2本研究收集的394对H3N2流感病毒抗原距离及抗原关系部分数据abNo.VirusAVirusBADAR1A/Hong_Kong/1/68A/England/878/691.673976V2A/Hong_Kong/1/68A/Hong_Kong/107/711.84444V3A/Hong_Kong/1/68A/England/42/721.876709V4A/Hong_Kong/1/68A/Dunedin/4/732.282174V54 华中科技大学博士学位论文5A/Hong_Kong/1/68A/Port_Chalmers/1/731.386294V6A/England/878/69A/Hong_Kong/107/71-0.20273S7A/England/878/69A/England/42/721.876709V8A/Hong_Kong/107/71A/England/42/723.321895V9A/Hong_Kong/107/71A/Port_Chalmers/1/732.975321V10A/Hong_Kong/107/71A/Tokyo/1/753.668468V11A/Hong_Kong/107/71A/Mayo_Clinic/1/753.668468V12A/Hong_Kong/107/71A/Victoria/3/754.015042V13A/Hong_Kong/107/71A/England/864/753.871201V14A/Hong_Kong/107/71A/Allegheny_County/29/763.668468V15A/Hong_Kong/107/71A/Victoria/112/764.708189V16A/Hong_Kong/107/71A/Bangkok/1/794.217775V17A/Hong_Kong/107/71A/Bangkok/2/794.708189V18A/England/42/72A/Dunedin/4/731.183562S19A/England/42/72A/Port_Chalmers/1/731.386294V20A/England/42/72A/Tokyo/1/754.158883V21A/England/42/72A/Mayo_Clinic/1/753.263003V22A/England/42/72A/Victoria/3/752.772589V23A/England/42/72A/England/864/755.054763V24A/England/42/72A/Allegheny_County/29/761.386294V25A/England/42/72A/Victoria/112/764.158883V26A/England/42/72A/Bangkok/1/794.361616V27A/England/42/72A/Bangkok/2/795.198604V28A/Port_Chalmers/1/73A/Dunedin/4/73-0.34657S29A/Port_Chalmers/1/73A/Singapore/4/751.477455V30A/Port_Chalmers/1/73A/Tokyo/1/753.465736V31A/Port_Chalmers/1/73A/Mayo_Clinic/1/752.079442V32A/Port_Chalmers/1/73A/Victoria/3/752.772589V33A/Port_Chalmers/1/73A/England/864/753.321895V34A/Port_Chalmers/1/73A/Allegheny_County/29/763.119162V35A/Port_Chalmers/1/73A/Victoria/112/763.609577V36A/Port_Chalmers/1/73A/Bangkok/1/794.015042V37A/Port_Chalmers/1/73A/Bangkok/2/794.505457V38A/Tokyo/1/75A/Mayo_Clinic/1/753.465736VabAntigenicdistance.Antigenicrelationship4.4Phi相关系数Phi相关系数(Phicoefficient)是由KarlPearson提出的用于测定两个二值变量相[137]关性的一个测度。考虑有一个关于两个二值随机变量X与Y的2×2的四格表,如表4.3所示:55 华中科技大学博士学位论文表4.3两个二值变量X与Y的2×2的表格Y=1Y=0TotalX=1N11N10N1YX=0N01N00N0YTotalNX1NX0N其中N11,N10,N01,N00均为非负的整数值,分别为X=1,Y=1的样本数量,X=1,Y=0的样本数量,X=0,Y=1的样本数量以及X=0,Y=0的样本数量,它们的和为N,即为样本总数。而NX1,NX0,N1Y,N0Y分别为Y=1的样本数量,Y=0的样本数量,X=1的样本数量以及X=0的样本数量。Phi相关系数的定义如下:N11N00−N10N01Phi=NX1NX0N1YN0Y如果大部分的样本落在对角线的单元格里,那么意味着X与Y这两个随机变量是正相关的。相反,意味着X与Y是负相关的。Phi相关系数的值介于-1与+1之间,如果Phi的值为1,表明X与Y是完全一致的,而Phi的值为-1时,表明X与Y是完全相反的。4.5氨基酸位置重要性打分为了识别H3N2病毒抗原变异的关键位置,将所有394对HA蛋白HA1亚单元的氨基酸位置的突变视为四格表中随机变量X,它具有两个状态:发生突变和未发生突变,分别对应1和0。同时将病毒对的抗原关系视为另一个随机变量Y,它同样具有两个状态:抗原变异和抗原相似,对应1和0。从而计算了所有394对病毒HA蛋白329个位置的Phi相关系数。为了测定氨基酸位置的重要性,利用了这些位置突变与抗原变异的相关性。由于正相关及负相关都是相关性的体现,首先将Phi相关系数取绝对值,进一步增加了一个位置权重因子。考虑病毒对中的所有病毒株在某个氨基酸位置上的变化同时假设所有氨基酸位置的突变对抗原变异有同样的影响,如果所有病毒株在这个位置上变化很少,意味着病56 华中科技大学博士学位论文毒对在这个位置上的突变较少从而给抗原变异造成的影响将较小;而这个位置的变化较多,意味着病毒对在这个位置上的突变较多从而给抗原变异造成的影响较大。因此采用了第三章用到的信息论中的香农熵为氨基酸位置权重因子。熵值是随机变量不确定性的一种测度,即是随机变量变化的一个测度,反映了随机变量的信息量。蛋白质序列集上某个位置j上的熵值E定义为:20Ej=−∑Pi,j∗log(Pi,j)i=1其中Pi,j是氨基酸i在j位置上出现的概率。熵值为零,反映了这个位置上只出现一种氨基酸,是完全保守的,而熵值越大,反映了这个位置的氨基酸变化越大,其保守性越差,在进化中发生突变的概率越大。最终测定氨基酸位置重要性的打分(Score,S)定义如下:Sj=Phij∗Ej通过计算所有394对病毒HA蛋白329个位置的Phi相关系数以及所有94株病毒株的HA蛋白329个位置的熵值,本章最终计算得到HA1亚单元的所有氨基酸位置的重要性。进一步划定不同的重要性阈值(0.40,0.35,0.30,0.25,0.20,0.15,0.10,0.05,0),筛选出不同数量的对抗原变异有重要性的位置。4.6多元线性回归模型[138]本章使用SPSS软件来实现多元线性回归模型。联合上节选择的不同数量的氨基酸位置为特征。我们构建了多个预测模型,通过对模型性能的评估,确定最优模型,并将此模型用到的氨基酸位置识别为最终的抗原变异关键位置。一元线性回归是通过一个影响因素作为自变量来描述因变量的变化,然而在现实的问题研究中,因变量的影响因素是多方面的,此时就需要用多个自变量来拟合因变量的变化,这就称之为多元回归。进一步当多个自变量与因变量之间是线性关系时,所构建的模型就是多元线性回归模型。设Y为因变量,X1,X2,…,Xn为自变量,[139]则多元线性回归模型为:57 华中科技大学博士学位论文Y=b0+b1X1+b2X2+L+bnXn+e其中b0为常数项,b1,b2,…,bn为回归系数,e为误差。[140]多元线性回归已成功应用于各种生物信息学应用中,例如SNP选择,蛋白质[141][142]二级结构预测,重建基因调控网络等等。同时,Liao于2008年构建了多种计算模型来预测H3N2流感病毒的抗原变异,包括迭代滤波,多元线性回归,逻辑回归,[89]支持向量机,最终发现多元线性回归模型具有更好的性能。因此本章同样基于抗原变异关键位置突变构建多元线性回归模型来预测H3N2流感病毒的抗原变异。通过拟合4.2.2小节中的训练数据集的抗原距离,本章构建了回归模型。当预测的抗原距离大于等于1.3863即ln4时(参见4.2.1小节),病毒对被预测抗原变异关系,反之被预测为抗原相似关系。4.7氨基酸关键位置统计推论本章在识别H3N2抗原变异氨基酸关键位置后,进一步对关键位置做了统计分析来验证这些关键位置正负样本间的差异。包括了使用Wilcoxon秩和检验(Wilcoxonranksumtest)及F分数(F-score)。Wilcoxon秩和检验用来检验两个独立样本是否来自于相同的分布,当t检验的条件不满足时,常用Wilcoxon秩和检验替换它,本章用Wilcoxon秩和检验来检验在识别的抗原变异关键位置突变在抗原变异与抗原相似的病毒对之间的差异是否具有统计学意义。同时评估了关键位置的F分数(F-score),F[143,144]分数在生物信息学领域应用广泛,多用于评估特征的辨识力,其定义如下:F=x+−x−σ++σ−其中x+和x−是抗原变异病毒对及抗原相似病毒对关键位置突变的样本均值,而σ+和σ是相应的标准差。F值越大,关键位置对于抗原变异的辨识力越强。结合这两−种统计学方法我们验证了识别的抗原变异关键位置。58 华中科技大学博士学位论文4.8结果与讨论4.8.1氨基酸位置重要性分布通过对所有394对病毒HA蛋白HA1亚单元的329个位置打分,获得了氨基酸位置的重要性,对它们排序后的重要性分布参见图4.1。从图中可以看到206个氨基酸位置打分为零,因此可以将它们从抗原变异关键位置排除。其余123个位置的重要性打分大于零,其中打分最高值约为0.7,大部分位置的重要性打分在0.15以下,主要集中于0到0.05之间。打分大于0.4的位置仅有9个。考虑Du等人在研究H3N2亚型流感病毒的抗原进化中发现绝大部分突变超过9个位置的病毒对是抗原变异关系[145]。因此本章在0到0.4之间设定阈值从123个打分非零的氨基酸位置寻找抗原变异关键位置。图4.1H3N2流感病毒HA1亚单元329个氨基酸位置重要性的分布4.8.2抗原变异关键位置通过对123个打分非零的氨基酸位置设定阈值(0.40,0.35,0.30,0.25,0.20,59 华中科技大学博士学位论文0.15,0.10,0.05,0),分别获取了9,13,15,18,23,31,40,56,123个候选关键位置。联合这些位置与多元线性回归,拟合训练数据集上的抗原距离,从而构建了9个不同的H3N2流感病毒抗原变异预测模型。进一步在原训练数据集上及含有31878对病毒抗原关系的测试数据集上验证了这9个模型的预测准确率,结果如图4.2所示。图4.2基于不同氨基酸位置构建的预测模型在训练数据集及测试数据集上的预测准确率从图中发现,对123个打分非零的氨基酸位置不做进一步筛选时所构建的预测模型在训练数据集上的预测准确率最高,然而此模型的泛化能力却最低,说明应用123个氨基酸位置的预测模型存在一定的过拟合现象,进一步可以解释为训练数据集上的某些位置的突变对抗原变异的影响并不具有一般性,推广到更大的测试数据集上的时候,这些位置的突变并不造成抗原变异,从而造成预测准确率在测试数据集上的下降,其它较低阈值(包括0.05及0.1)也具有同样的情况。而阈值较高的时候获取的关键氨基酸位置较少,从而在训练数据集上的预测准确率较低(当阈值=0.4时,低于80%),一个可能的原因是较少的关键氨基酸位置没有提供足够的信息。因此排除图4.2两端60 华中科技大学博士学位论文相对不够健壮的模型,保留阈值在0.15到0.30的四个模型。这四个模型在训练数据集及测试数据集上的评估结果如表4.4及表4.5。表4.4四个线性回归模型在训练数据集上的性能评估cutoffAccSNSPMCC0.1583.5081.2586.020.6720.2082.2382.2182.260.6440.2583.5082.2184.950.6710.3083.2581.2585.480.666表4.5四个线性回归模型在测试数据集上的性能评估cutoffAccSNSPMCC0.1594.6098.4972.510.7760.2094.8798.8072.620.7870.2595.0198.8473.280.7930.3095.0098.8273.350.793结果显示设定阈值为0.25时所构建的模型不仅在训练数据集,而且在测试数据集上都达到了最高的预测准确率和Matthews相关系数。因此这个模型中用到的18个氨基酸位置最终被识别为H3N2抗原变异关键位置。所有123个打分非零的氨基酸位置及这18个抗原变异关键位置重要性打分及回归系数见表4.6及图4.3。从表4.6中可以直观的看到关键位置对抗原变异的影响。例如重要性打分第二的145位置,394对病毒中一共有123对在这个位置发生了突变,这123对中有99对均产生了抗原变异。对于位置278,共有48对发生了突变,其中的46对均成为了抗原变异关系。进一步从表中可以发现15个位置的回归系数为正值,表明这15个位置的突变会增大抗原距离,同时也说明H3N2流感病毒的抗原距离与氨基酸关键位置的突变确实具有线性关系。61 华中科技大学博士学位论文表4.618个抗原变异关键位置的氨基酸重要性打分及回归系数详表PositionN11N10N01N00|Phi|ESCoeff5057111511750.281.660.470.456625151571810.311.490.470.394835291561770.281.260.35-0.1221335281561780.291.380.40.06513547111611750.241.440.340.79413782181261680.341.530.520.73614599241091620.371.570.590.71115553101551760.271.560.430.74515697281111580.341.980.670.3691586371451790.351.60.550.5611604961591800.290.890.260.16217247101611760.241.550.38-0.13718644691641170.181.660.29-0.07318989351191510.262.170.560.46919386431221430.191.890.370.2251974021681840.290.940.270.1002763051781810.211.460.30.5032784621621840.321.40.450.592[76]值得注意的是Lee的研究中同样识别了氨基酸145关键位置,同时它的回归系数为1.4,这表明当仅有位置145的突变时将造成抗原距离大于1.386(Ln4)从而产生抗原变异,这可能造成预测模型产生较多的假阳性。进一步Huang等人构建的决策[90]树中用到了6个氨基酸位置,其中145,189,62,155位于本章识别的抗原变异关键位置中,而另外两个位置中的213位置重要性打分接近0.15,214位置接近0.05(参见图4.3),说明在增大了抗原关系数据规模后(Huang用到181对抗原关系数据),这两个位置的重要性有所降低。62 华中科技大学博士学位论文图4.3123个对于抗原变异的重要性打分非零的HA1亚单元氨基酸位置.其中红线代表的是阈值为0.25的分割线,共筛选出红色标记标示出的18个抗原变异关键位置。63 华中科技大学博士学位论文4.8.3讨论本章通过对氨基酸位置的重要性进行打分,然后联合线性回归模型最终识别了18个抗原变异关键位置。在对氨基酸位置的重要性进行打分时,本研究开始没有添加权重因子,在添加权重因子后,识别的关键氨基酸位置所构建的模型的预测准确率由75%左右提升到80%以上。此外比较了另外两种打分策略,包括联合优势比和权重因子的打分策略及联合互信息及权重因子的打分策略。基于这两种打分策略,同样获取了不同的抗原变异关键位置。然而基于这些位置构建的多元预测模型的性能低于前面所构建的模型的性能,同时基于Phi相关系数的方法更加简单与直观,因此本章最终采取了的Phi相关系数联合权重因子的方法。对于最终识别的18个抗原变异关键位置,我们做了进一步的统计分析,验证这些位置对于抗原变异的辨识力及正负样本间的统计学差异,统计结果如表4.7所示。从表中发现所有18个位置的Wilcoxon秩和检验的P值均非常小,拒绝零假设,从而说明正负样本在这18个位置上的氨基酸突变具有统计学差异。同时可以发现F分数的变化几乎随着P值的变小而变大,且F分数均大于0.17,最大的F分数出现在位置145上,达到0.415,因此可以验证识别的18个关键位置确实对于抗原变异具有较强的辨识力。[80,146]Bush等人识别了H3型流感病毒HA蛋白的18个正选择位置,包含了本章识别的18个关键位置中的8个。此外,Smith等人发现了H3N2亚型流感病毒的11个抗原聚类,并识别了44个与11个抗原聚类转换有关联的氨基酸位置,包含了本研究识别的18个位置中的16个(参见表4.7)。进一步发现这18个抗原变异关键位置全部位于HA蛋白的5个抗原表位中,如图4.4所示,同时有3个关键位置同时位于受体结合位点(Receptor-bindingsite,RBS)中(表4.7)。从图中发现有大部分关键位置(12个)位于抗原表位A与B中,表明抗原表位A与B比另外三个抗原表位更[147][148]重要,在抗原变异中扮演了重要角色,这跟Fleury与Huang的研究相吻合。以上这些结果均说明了本研究识别的18个抗原变异关键位置对H3N2流感病毒抗原变异具有重要作用。64 华中科技大学博士学位论文图4.4识别的18个抗原变异关键位置在HA蛋白抗原表位中的位置。黄色代表抗原表位A,绿色代表抗原表位B,紫色代表抗原表位C,蓝色代表抗原表位D,红色代表抗原表位E。表4.718个抗原变异关键位置统统计分析结果及相关信息PositiveaPositionEpitopeClusterTransitionF-scoreP-valueselection50CV175-TX77,SY97-FU020.3141.83e-0862EWU95-SY970.3686.15e-1083ESY97-FU020.3113.48e-08133A+TX77-BA79,BE89-BE920.3251.19e-08135A,R+0.2543.18e-06137A,REN72-VI75,V175-TX770.3781.34e-11EN72-VI75,SI87-BE89,BE89-BE92,145A+0.4151.27e-13BE92-WU95155B,RHK68-EN72,BA79-SI87,SY97-FU020.3035.70e-0865 华中科技大学博士学位论文TX77-BA79,BE89-BE92,U95-SY97,156B+0.3681.88e-11SY97-FU02158B+V175-TX77,WU95-SY970.4076.55e-12160BTX77-BA790.3376.42e-09172DTX77-BA790.2671.27e-06186B+0.1784.86e-04189BEN72-VI75,BA79-SI870.2703.26e-07193B+EN72-VI75,V175-TX770.1991.21e-04197B+TX77-BA790.3645.83e-09276CWU95-SY970.2284.48e-05278CEN72-VI750.4051.95e-10a[124].cluster-transitionsubstitutiondefinedbySmithetal在识别抗原变异关键位置的同时,多个多元线性回归模型成功构建,特别是基于18个关键位置所构建的回归模型达到了最优的性能。在训练数据集及含有31878对抗原关系数据的测试数据集上,Matthews相关系数分别达到了0.67及0.79,说明该模[76][89]型有能力预测H3N2流感病毒的抗原关系。Lee和Liao的研究中分别识别了24个和16个H3N2流感病毒抗原变异关键位置,本章基于他们识别的关键位置分别构建了线性回归模型,然后在本文收集的含有394对抗原关系的数据集上比较了这三个模型,这些关键位置及相应的模型性能比较如图4.5及表4.8所示。表4.8基于Liao,Lee及本章识别的关键位置构建的多元回归模型预测性能的比较PositionAccSNSPMCCLiao’s82.4983.1781.720.649Lee’s83.5084.1382.800.669Thisstudy83.5082.2184.950.671从表中可以发现基于本章识别的18个关键位置构建的预测模型比基于Liao识别的关键位置构建的模型性能要高,而与Lee识别的24个位置所构建的模型性能相当,66 华中科技大学博士学位论文表明本章识别的18个关键位置更具代表性,同时位置135,145,155,156,158,160,276同时出现在三个研究的结果中,表明这7个位置在H3N2病毒抗原变异过程中起到更加重要的作用。总而言之,本章识别的抗原变异关键位置可以为H3N2流感病毒的进化研究,疫苗推荐以及抗原变异监控提供帮助。图4.5抗原变异关键位置比较。图中左边为本研究识别的18个关键位置在HA蛋白上的分布,中间为Liao研究中识别的16个关键位置的分布,右边为Lee研究中识别的24个关键位置的分布。4.9本章小结在人类流感疾病的致病原中,H3N2病毒亚型所占的比例最大,它的进化受到了免疫压力的高度影响,H3N2流感病毒具有高度的进化率从而易发生抗原变异导致病毒及疫苗的不匹配,使当前疫苗丧失作用。本章的研究内容主要为识别H3N2流感病毒抗原变异关键位置。当前由于没有H3N2流感病毒抗原变异的数据库,首先从相关文献中收集了394对抗原变异数据,然后基于Phi相关系数并联合多元线性回归模型识别了18个抗原变异关键位置,这些位置的统计分析及已发表文献的证据支持说明了它们对H3N2流感病毒抗原变异确实具有重要作用。此外对基于这些位置突变构建的抗原关系预测模型的性能评估说明了该模型的有效性。67 华中科技大学博士学位论文5基于理化性质变化改进预测H3N2流感病毒抗原关系5.1引言人类中盛行的流感病毒主要有两种:H3N2病毒及H1N1病毒,H3N2病毒研究历史较长,在人类流感疾病的致病原中,H3N2所占的比例最大。流感病毒的抗原关系分为抗原相似和抗原变异。抗原变异导致了其在人类中周而复始的流行及人们的重复[26,27]感染,并会导致病毒及疫苗的不匹配,造成当前疫苗作用的减弱及丧失,从而为全球流感病毒监控预防工作及疫苗选择工作带来较大的困难。当前全球的流感监控系统包括了临床,病毒学及免疫学监控。在病毒学监控的技术中包含当前确定流感病毒抗原变异的方法,即依赖雪貂血清的血凝素抑制化验(hemagglutinin-inhibitionassay,HItest),然而这种化验是耗时并且劳动密集的,通常依赖这种化验要花几十天的时间[149]来获得抗病毒血清。实验的方法是代价巨大的,而计算的方法能够快速的预测抗原变异进而得到推荐的疫苗,因此构建流感病毒抗原关系预测模型具有现实意义。[75]2004年,Lee等人研究了五种模型用来预测H3N2病毒的抗原关系:利用H3N2病毒HA蛋白HA1亚单元中的所有329个氨基酸残基的突变构建模型;利用H3N2病毒A、B、C、D、E五个抗原表位中的不同构建模型;利用20个与老鼠单克隆抗体结合相关的20个位置构建模型;利用18个具有正选择压力的位置构建模型;利用32个具有连续差异的密码子构建模型。最终的模型比较显示利用五个抗原表位的不同构建的模型与抗原距离具最高的相关系数并且具有最优的预测性能,正确率达到83%。2007年,Lee等人又进一步通过逐步多元线性回归识别了24个抗原变异关键位[76]置,其中的17个被识别为潜在的免疫显性的抗原位置。基于24个关键位置的不同组合,他们又构建了多个预测模型,其中基于15个位置的预测模型性能最优。在含有181对抗原关系数据的训练数据集上达到了91.7%的准确率,同时在含有57对数据[89]的测试数据集上获得了93%的准确率。2008年,Liao等人使用6种分组打分策略并比较了不分组的情况,结合四种不同的建模方法构建了多种预测模型用来预测68 华中科技大学博士学位论文H3N2病毒的抗原关系,包括迭代滤波,多元线性回归,逻辑回归,支持向量机,最终确定了联合分组四的打分策略及多元线性回归的预测模型。2009年,Huang,King[90]和Yang基于信息增益及香农熵识别了19个HA蛋白中的关键位置,然后基于329个氨基酸位置的信息增益值,构建了一棵具有6个节点的决策树用于预测H3N2流感病毒抗原关系。在与上一章相同的测试数据集上,达到了99.73%的灵敏度及76.34%的特异度,优于上一章所构建的预测模型。上一章联合氨基酸位置打分及多元线性回归模型识别了18个H3N2流感病毒抗原变异关键位置,同时也构建了一个基于关键位置突变的预测模型。在测试数据集上的性能评估中发现在4780对抗原相似关系的样本中预测错了1205对,达到了73.28%的特异度,表明预测结果中存在较多的假阳性,与其约99%的灵敏度相比相对较低。本章期望改进H3N2流感病毒抗原关系的预测模型,降低其假阳性。Liao的研究的分组策略中有些是基于氨基酸的不同理化性质,例如分组一根据非极性的氨基酸,极性的氨基酸以及带电荷的氨基酸将20种氨基酸分成了三组。最终的结果说明分组策略要优于不分组的情况,这个结果提示我们:氨基酸的某些突变可能并不造成抗原变异,而当理化性质改变时才造成了抗原变异。Liao的研究中分组用到的理化性质仅有少数的几种,主要包括极性,非极性,正负电荷,脂肪族,芳香族这些性质。因此本章期望基于上一章识别的18个关键位置的多种理化性质变化来改进预测H3N2流感病毒的抗原关系,降低预测的假阳性。最终的实验结果表明本章构建的预测模型优于Lee,Liao和Huang的方法,同时本章进一步构建了H3N2流感病毒抗原关系预测的Web工具,该Web工具可以通过http://jarwserver.appspot.com/访问。5.2数据集本章用到的数据集与上一章相同。构建模型的训练数据集从相关已发表的文献[132-134][135],世界卫生组织合作中心的每周流行病记录报告以及美国疾病控制预防中心[136]的监视报告中人工收集并计算了394对H3N2流感病毒的抗原关系。测试数据集[88]基于Smith等人识别的11个H3N2流感病毒抗原类别。表5.1显示了最终的数据集构成,训练数据集的详细数据请参见附录4,测试数据集的详细数据请参见Smith文69 华中科技大学博士学位论文章的补充材料。表5.1本章用到的数据集构成数据集抗原变异抗原相似训练集208186测试集2709847805.3编码抗原变异关键位置本章基于上一章识别的18个抗原变异关键位置来预测H3N2流感病毒抗原关系。上一章编码这些关键位置依赖这个位置的氨基酸是否发生突变将病毒对的这些位置编码为1和0的二值变量。本章为了降低预测结果的假阳性,选择用18个关键位置的氨基酸理化性质的变化来构建预测模型。[110]AAIndex是一个广泛使用的理化性质数据库,其中包括了20种氨基酸的544种理化性质,生化性质或者结构性质。除去其中13种具有NA值的性质,剩下的531种理化性质被用来编码18个抗原变异关键位置。本章使用了两种编码策略:1)根据某个位置的氨基酸理化性质是否改变将18个抗原变异关键位置编码为0和1的二值变量。例如关键位置156的赖氨酸Lys突变为组氨酸His,相对应的正电荷(Positivecharge)没有改变,编码为0,而氢键供体的数量(Numberofhydrogenbonddonors)则由2改变为1,因此编码为1。2)根据某个位置的氨基酸理化性质变化量将18个抗原变异关键位置编码为实数变量。例如关键位置145的天冬酰胺Asn突变为赖氨酸Lys,相对应的残基体积(Residuevolume)从75.7变化为109.1,编码为33.4。基于上述两种编码策略,18个抗原变异关键位置分别被编码为531维的理化性质特征。在后续的方法中,分别针对这两种策略构建了不同的预测模型。并比较了这两种方法构建的最优模型的性能。70 华中科技大学博士学位论文5.4互信息互信息用作两个事件集合之间的相关性测度。在机器学习领域,互信息常用于测定特征和类别之间的相关性,相关性高的特征与类别,它们的互信息值则较大,反之,互信息值较小。互信息已广泛用于生物信息学的各个领域。2009年Xia等人利用基于[93]互信息的位点转换网络来描绘H3N2流感病毒的遗传进化。Cai等人基于最近邻算[150]法联合互信息选择的特征预测了赖氨酸泛素化。Peter及Vijay组合了结构分析及互信息用于捕获流感HA蛋白中功能性重要的残基,并指出对于非线性的关系互信息[92]比基于协方差的方法更为有效。本章基于互信息计算了关键位置的理化性质与抗原关系的相关性,某种理化性质在某个氨基酸位置的变化与抗原关系的变化完全一致的时候,其互信息值达到最大。这里定义一个氨基酸位置的理化性质变化与抗原关系的互信息为:MIi)(=E(X)−E(X|i)其中E(X)为抗原关系X(抗原相似S与抗原变异V)的信息熵,它的定义如下,E(X)=−∑P(X=R)logP(X=R)R∈{S,V}E(X|i)为当给定氨基酸位置i时抗原关系的条件熵。对于理化性质编码的第一种方法,氨基酸位置i的状态T有两个:理化性质发生改变和未发生改变。而对于理化性质编码的第二种方法,氨基酸位置i的状态T根据理化性质的改变量可以有多个。E(X|i)可以通过下面的公式求得,E(X|i)=∑P(Ai=T)E(X|Ai=T)TP(Ai=T)为氨基酸位置i在T状态下的概率值。E(X|Ai=T)为氨基酸位置i在T状态下的抗原关系X的熵值,可以由如下公式求得:E(X|Ai=T)=−∑P(X=R|Ai=T)log(P(X=R|Ai=T))R∈{S,V}最终根据上述公式,可以求得531种理化性质在18个关键位置上的变化与抗原关系的互信息。每一种理化性质对应的18个互信息,反映了这种理化性质与抗原关系71 华中科技大学博士学位论文的相关性,同时也可以反映样本数据中这种理化性质变化与抗原关系变化的一致性。进一步根据理化性质变化与抗原关系的18维互信息向量对531种理化性质进行层次聚类,从而去掉冗余的理化性质特征。5.5层次聚类层次聚类是一种层次化的聚类方法,最终聚类的结构为一棵树。层次聚类方法具体可分为:凝聚的层次聚类及分裂的层次聚类。凝聚的层次聚类采用一种自底向上(agglomerative)的策略,它开始将每个数据点作为一个单独的簇,接着根据一定的距离测量方式合并这些数据点到各个较大的簇,最终满足一定的条件时,聚类结束,所有的数据点被划分在各个较大簇中。分裂的层次聚类采用自顶向下(divisive)的策略,它开始将所有的数据点放置于一个簇中,然后逐渐分裂为很多小簇,最终满足一定的条件,聚类结束。层次聚类方法已成功用于生物信息学的不同领域。例如层次聚[151]类基因表达连续分析数据用来探测不同类型的癌症在亚细胞水平的不同与相似,[152]基于层次聚类及图的方法选择标签单核苷酸多态(tagSNP)。当两种理化性质变化在某个氨基酸位置与抗原关系的互信息值相等时,发现其变化规律相同,从而造成了特征的冗余。因此本章首先基于层次聚类将理化性质变化编码的特征进行聚类,去掉理化性质变化规律相同或相似的特征,从而筛选相对独立的理化性质变化特征为候选特征。利用matlab软件中的linkage等函数实现自顶向下基于平均距离的层次聚类,进一步使用刀切法选择了12个聚类(对于理化性质变化量编码抗原变异关键位置)和10个聚类(对于理化性质是否改变编码抗原变异关键位置)。5.6逐步多元线性回归上一章构建了多元线性回归模型拟合H3N2流感病毒的抗原距离,同时也证明了氨基酸关键位置的突变与抗原距离具有线性关系,因此本章仍然采用多元线性回归来构建预测模型。将上一节得到的聚类中的代表理化性质特征作为依赖变量输入多元线性回归方程,根据各自变量对因变量的贡献大小进行变量筛选,剔除那些贡献小的自72 华中科技大学博士学位论文变量,即进行逐步多元线性回归拟合H3N2流感病毒的抗原距离从而构建了最终的抗原关系预测模型。5.7性能评估方法采用与前两章相同的预测准确率ACC,敏感度SN,特异度SP,Matthews相关系数MCC四种测度来评估构建的预测模型的性能。此外应用了受试者工作特征曲线(ROC曲线)作为一种更加直观的测度来比较本章构建的预测模型与上一章构建的模型。ROC曲线是反映敏感性和特异性两个连续变量在设定不同的阈值时所取得的值的相互关系的综合指标,它通过设定不同的阈值,可以计算出多个敏感性和特异性的值对,再以真阳性率(敏感性)为纵坐标,假阳性率(1-特异性)为横坐标绘制为曲线,ROC曲线越靠近左上角,曲线下面积越大,所代表的模型性能就越好。5.8结果与讨论5.8.1理化性质聚类图5.1531种理化性质变化与抗原关系互信息的层次聚类图。使用刀切法得到12个理化性质变化的聚类。73 华中科技大学博士学位论文本章通过理化性质编码抗原变异关键位置后计算了理化性质与抗原关系的互信息,图5.1显示了对于理化性质变化量编码抗原变异关键位置后聚类531种理化性质的18维的互信息向量的结果。另一种编码方式得到的聚类结果与图5.1相似,同时由于后续的比较发现变化量的编码方式得到的模型更优,因此这里未给出第一种编码方式的聚类结果图。对于第二种编码方式使用刀切法得到了12个理化性质聚类,如图5.1所示。从图中发现大部分的理化性质之间的平均距离很小,参见聚类1中的左半部分。进一步选择这12个聚类中的12个代表理化性质进行逐步多元线性回归构建最终的预测模型。这12个理化性质包括:双亲性指数(Amphiphilicityindex);苦味(Bitterness);螺旋构像侧链亲水性的损失(LossofSidechainhydropathybyhelixformation);负电荷(Negativecharge);正电荷(Positivecharge);氢键供体的数量(Numberofhydrogenbonddonors);Beta结构的构象参数(Conformationalparameterofbeta-structure);电荷移动能力参数(Aparameterofchargetransfercapability);标记为2+1的侧链中的原子数量(Thenumberofatomsinthesidechainlabelled2+1);标记为1+1的侧链中的原子数量(Thenumberofatomsinthesidechainlabelled1+1);空间参数(Stericparameter)及Alpha甲基的化学位移(alpha-CHchemicalshifts)。5.8.2两种编码方式和上一章构建的模型比较得到理化性质聚类后将这些聚类中的理化性质代表(第一种编码方式为10个,第二种编码方式为12个)编码的关键位置特征输入多元线性回归方程,最终构建了两个预测模型,在训练数据集上的ROC曲线如图5.2,其中非理化性质编码代表上一章构建的模型。从图中可以看到基于理化性质变化编码构建的预测模型要优于上一章仅依靠关键氨基酸位置是否突变构建的模型,在测试数据集上的ROC曲线显示了同样的结果。因此可以表明本章基于理化性质变化的方法可以改进H3N2流感病毒抗原关系的预测。进一步利用预测准确率,敏感度,特异度,Matthews相关系数MCC四种测度精确比较了三种编码方式构建的不同预测模型,在训练数据集及测试数据集上的结果如表5.2及表5.3所示。74 华中科技大学博士学位论文图5.2两种编码方式构建的预测模型与上一章构建的预测模型在训练数据集上的ROC曲线表5.2两种编码方式构建的预测模型与上一章构建的预测模型在训练数据集上的性能比较ModelACCSNSPMCCnd2encoding87.0685.5888.710.742st1encoding86.2985.1087.630.726ModelinSection483.5082.2184.950.671表5.3两种编码方式构建的预测模型与上一章构建的预测模型在测试数据集上的性能比较ModelACCSNSPMCCnd2encoding96.8499.5581.510.872st1encoding96.4699.5878.810.856ModelinSection495.0198.8473.280.793从表中发现基于理化性质变化量编码所构建的预测模型无论在训练数据集上还是在测试数据集上都取得了最优的性能。其MCC值比基于理化性质是否改变的编码方式构建的模型高出约1.6个百分点,比上一章构建的预测模型在训练数据集上高出约75 华中科技大学博士学位论文7.1个百分点,在测试数据集上高出约7.9个百分点。特别对于特异度来说,取得了约8.3个百分点的优势,说明基于理化性质变化的方法降低了预测结果的假阳性。因此将基于理化性质变化量编码所构建的模型确定为最终的H3N2流感病毒抗原关系预测模型,构建模型用到的最终特征及相应的回归系数如表5.4所示。表5.4最终的多元线性回归预测模型所用到的特征及相应的回归系数FeatureNo.PositionPhysicochemicalpropertyCoeff1158LossofSidechainhydropathybyhelixformation0.4162145Aparameterofchargetransfercapability0.6553189Amphiphilicityindex1.2784156Amphiphilicityindex0.1835137Thenumberofatomsinthesidechainlabelled2+10.6536135Positivecharge0.6997145Numberofhydrogenbonddonors0.368189Positivecharge-1.9169193alpha-CHchemicalshifts0.83710276Amphiphilicityindex0.35811155alpha-CHchemicalshifts4.92912278Stericparameter1.00413145Amphiphilicityindex0.1081462Stericparameter2.0315160LossofSidechainhydropathybyhelixformation-7.33816193Bitterness0.49117135alpha-CHchemicalshifts1.00918189Conformationalparameterofbeta-structure-2.7625.8.3与其他模型的比较本章基于上一章Phi系数及香农熵的打分策略所识别的18个关键位置,利用关键位置的氨基酸理化性质改变量构建预测模型取得了较好的性能。在构建多元线性回归76 华中科技大学博士学位论文模型的同时,还尝试了使用支持向量机及人工神经网络,实验结果发现多元线性回归[76][89][90]在模型比较中取得了最好的性能。Lee,Liao,Huang等人分别于2004年,2008年及2009年构建了不同的模型用于预测H3N2流感病毒的抗原关系。Lee的研究基于流感病毒对在5个抗原表位间的汉明距离(Hammingdistance)。Liao的研究基于分组打分及逐步多元线性回归识别了16个抗原变异关键位置构建了多元线性回归。Huang基于信息增益识别了19个抗原变异关键位置并构建了具有6个节点的决策树用于预测H3N2病毒的抗原关系。本章将构建的模型与这三个模型做了比较,在训练数据集及测试数据集上的预测准确率,敏感度,特异度,Matthews相关系数MCC评估比较结果如表5.5及表5.6所示。表5.5本章构建的预测模型与Lee,Liao,Huang的模型在训练数据集上的性能比较ModelACCSNSPMCCThisstudy87.0685.5888.710.742Liao’smodel83.2581.7384.950.666Huang’smodel78.6889.4266.670.560Lee’smodel77.6685.1069.350.554表5.6本章构建的预测模型与Lee,Liao,Huang的模型在测试数据集上的性能比较ModelACCSNSPMCCThisstudy96.8499.5581.510.872Liao’smodel96.5498.8783.330.860Huang’smodel96.2399.7376.340.846Lee’smodel92.4496.3470.330.693从表中的结果可以发现本章构建的预测模型在训练数据集及测试数据集上的性能均优于Lee,Liao,Huang的方法构建的模型,说明本章构建的模型对于预测H3N2流感病毒抗原关系更加有效,可以为当前全球的流感监控系统提供一定的帮助。5.8.4Web工具为了更大地发挥本章构建的H3N2流感病毒抗原关系预测模型在流感病毒全球监77 华中科技大学博士学位论文控,疫苗推荐及遗传进化研究等相关工作中的作用。本研究还基于JSP(JavaServerPage),Servlet以及Javabean等技术研制了H3N2流感病毒抗原关系预测Web工具H3N2-AR。H3N2-AR主要包括两个部分:预测H3N2流感病毒抗原关系以及浏览本研究收集的H3N2流感病毒抗原关系数据,同时该Web工具集成了本章构建的预测模型和Liao,Huang以及Lee研究中构建的预测模型,并可以通过http://jarwserver.appspot.com/自由访问。图5.3展示了H3N2-AR的任务提交页面,研究人员可以提交待预测的H3N2流感病毒对,并选择用于预测抗原关系的模型(可以选择多个模型),即可提交任务等待预测输出。图5.4展示了H3N2-AR的结果输出页面,如图所示,可以看到4个模型对于A/Shanghai/11/87和A/Sydney/1/87病毒对的预测结果均为抗原相似关系。同时本章构建的模型和Liao的模型均拟合了H3N2流感病毒对的抗原距离,因此H3N2-AR的在线服务其中的模型1及模型3的输出附加了预测的抗原距离,而模型2及模型4没有抗原距离的输出。图5.3H3N2-AR的任务提交页面78 华中科技大学博士学位论文图5.4H3N2-AR的预测结果页面图5.5H3N2-AR的抗原关系数据浏览页面79 华中科技大学博士学位论文图5.5展示了H3N2-AR的抗原关系数据浏览页面,通过该页面,相关研究人员可以方便的查阅本研究收集并计算得到的394对H3N2流感病毒抗原关系数据。H3N2-AR将持续收集新的雪貂血凝素抑制化验数据,同时也会更新模型,当数据规模达到一定程度时将构建相应的数据库为相关人员构建更全面更方便的Web服务。5.9本章小结当前确定流感病毒抗原变异的方法主要依赖雪貂血清的血凝素抑制化验,这种化验是耗时并且劳动密集的,代价巨大,通过计算的方法能够快速的预测抗原变异进而得到推荐的疫苗,因此本章基于上一章识别的18个关键位置的多种理化性质变化来改进预测H3N2流感病毒的抗原关系,降低预测的假阳性。通过层次聚类理化性质变化与H3N2流感病毒抗原关系的互信息,选出了候选理化性质并输入逐步多元线性回归方程拟合抗原距离,最终的实验结果表明本章构建的预测模型优于Lee,Liao和Huang的模型,同时集成了上述四种模型为一个Web工具提供在线H3N2流感病毒抗原关系预测服务,构建的模型及Web工具可以为当前全球的流感监控系统提供帮助。80 华中科技大学博士学位论文6总结与展望6.1禽流感病毒跨种传播本文构建了一分类SVM预测禽流感病毒是否具有直接感染人的能力,进一步通过特征选择提升了预测模型的性能,挖掘了两个有生物学意义的特征,同时筛选了90个蛋白质序列特征位置,这些位置在两类样本中差异明显,一些位置与禽流感病毒跨种传播的相关研究结果相吻合。这些位置和理化特征或许可以为未来的禽流感病毒跨种传播底层机制的研究提供帮助,而构建的模型及方法将提供禽流感病毒种间传播的早期预警从而对突发禽流感病毒传染病做出快速的应急反应,为公共健康做出贡献。值得注意的是,禽流感病毒感染人的案例数据现在仍然较少,本文研究中用到的正样本数据为92株从人体内分离到的禽流感毒株,经过去冗余最终只有78株用于模型训练与评估,而用到的负样本为960株,数据集存在不平衡的问题。下一步期望实现一些不平衡数据的机器学习算法例如Qu等人的APLSC算法从而选择一些对于禽流感病毒种间传播更有意义的特征。此外期望未来有较多的人感染案例数据可以开放访问以便更充分的模型评估与研究,特别可以对选择的90个特征序列位置做进一步的比较,并能联合实验手段验证筛选的理化性质特征及这些序列位置,同时进一步的工作内容包括集成多种方法研制一个Web工具提供在线的预测服务。H5N1亚型是最具代表性的能直接感染人的禽流感病毒,对于它的研究仍然吸引了很多科研人员的关注。它的很多机理仍然不清楚,例如禽流感病毒的毒力强弱到底与哪些因素有关,与它毒性相关的研究可以作为未来的一个方向。2012年Nature发表了人工合成的可在哺乳动物之间传播的H5型流感病毒造成了人们的恐慌与科学届的很大争议。但它的致病力已大大降低,同时这种病毒是由HA蛋白的四个突变与H1N1其他七个基因重组得到的新病毒。HA蛋白关于这四个位置的研究将受到更多的关注。Wu等人通过组合序列特征与潜在的糖基化位点构建了决策树从而识别了H5N1亚型禽流感病毒HA蛋白的一些关键位置,这些位置可能决定81 华中科技大学博士学位论文人的红血细胞是否可以吸附H5N1亚型的禽流感病毒。Chen等人通过香农熵识别了52个与种属关联的特征氨基酸位置,Nature的这篇文章将重新把此类研究带进科研人员的视线。下一步可以对通过对禽源及人源H5N1型的流感病毒HA蛋白氨基酸序列对比同时挖掘其他一些特征例如二级结构等来进一步寻找相关的关键氨基酸位置,同时也可以扩展研究H5N1其他七个蛋白的关键位置。6.2H3N2流感病毒抗原关系本文通过Phi相关系数、权重因子联合多元线性回归识别了18个H3N2流感病毒抗原变异关键位置,这18个关键位置均位于5个抗原表位中,其中的3个位置同时位于受体结合位点中。此外这些位置中的8个位置与Bush等人识别的正选择位置吻合,表明了这些位置在H3N2抗原变异中起到了重要作用。进一步基于这些位置的理化性质变化改进了H3N2流感病毒抗原关系预测模型,在与当前其他模型包括Lee,Liao及Huang的模型比较中达到了较高的的性能。在收集H3N2病毒血凝素化验数据时发现同一对流感病毒它们的血凝素化验数据可能并不一致,而它们的均值应该具有更高的可靠性。当前模型的一些预测结果明显与雪貂血清HI化验数据不符,而有文章表明这些不符的数据确实与血凝素化验对于突变较少毒株的不稳定测定有关,同时有文章表明中和实验数据对抗原变异的测定更为敏感。因此,下一步期望收集到中和实验数据,从而取得更加可靠的评估标准。此外由于当前没有公共的流感病毒抗原关系数据库开放访问,在收集数据时,花费了较多的人力,我们意识到可以不断更新收集到的数据并计算它们的抗原距离从而研制一个关于流感病毒抗原关系的数据库并提供在线服务。此外对于构建的抗原关系预测模型,预测假阳性仍然较多,因此下一步期望发掘新的模型构造方法,例如基于PDB的三维结构结合包装或嵌入式的特征选择算法来进一步提升模型性能。当前研制H3N2病毒抗原关系的计算模型已经被多个科研小组研究过,然而对于另一种H1N1亚型流感病毒的抗原关系模型研制的研究较少,2010年Wu等人研究了抗原变异与过量的流感病毒死亡率之间的关联,其中构建了相应的H1N1抗原变异预测模型,因此未来关注的另一个研究内容为H1N1亚型流感病毒抗原关系的预测。82 华中科技大学博士学位论文致谢时光荏然,白驹过隙,攻读博士学位的四年时间转瞬即逝。回首这段珍贵时光,不免思绪万千,一路走过,有太多的人需要去感谢。我从导师那里收获到了太多的启发;从同学那里收获了太多的帮助;从亲人那里收获了太多的关爱,是你们让我在学习探索的道路上不至于孤舟独桨。你们所给予我的一切,是我人生最宝贵的财富,我无以回报,只能深深的道一声“谢谢”,同时会将这份感激之情永远铭记于心。首先,要感谢我的导师周艳红教授,他渊博的学识、坦荡的胸襟、严谨的治学态度让我终生受益。他不仅在学业上引导我前进,而且还教授我为人处事的准则。周老师的言传身教必将激励我在以后的人生道路上奋勇前行。其次,要感谢刘怀兰教授在知识实践过程中给予我的指导,感谢陆枫教授在理论学习过程中给予我的启发。另外,还要感谢张礼斌老师,张帨暄老师,与他们的交流和他们给予的帮助使我受益匪浅。同时要感谢已毕业的江振然博士、段谟杰博士、姜文超博士和周到博士,特别要感谢马闯博士、寇铮博士以及刘融博士在科研工作中给予的建设性的意见,以及他们在论文写作中给予的支持和帮助。此外要感谢祝攀、李论、胡星驰、蔡瑞琨、杨兆万、江燕华、吴罡、许光、郑露露、刘颖、刘宇飞、王然、夏恒、卜铭远、方明等在读博士生和硕士生。在科研工作过程中与你们的讨论拓宽了我的思路,是你们让我感受到自己生活在一个和谐而又有朝气的大家庭中。感谢我的室友方雄兵博士,每当我遇到挫折和困难时你一次又一次的鼓励,让我重树信心继续前行。感谢我的父母和妻子,是你们的爱让我走到了今天。感谢各位审稿老师和答辩委员给予我的意见和建议,你们智慧而又醇厚的学术思想让我获益匪浅。由衷的感谢每一位帮助过我的人,谢谢你们。83 华中科技大学博士学位论文参考文献[1]甘孟侯.禽流感.第二版.北京:中国农业出版社,2002,74-78.[2]Webster,R,Bean,WJ,Gorlnan,T,etal.EvolutionandecologyofinfluenzaAviruses.MicrobiolRev,1992,56:152-179.[3]Ferguson,NM,Fraser,C,Donnelly,CA,etal.PublichealthriskfromtheAvianH5N1influenzaepidemic.Science,2004,304:968-969.[4]Zhou,N,Senne,D,Landgraf,J,etal.Geneticreassortmentofavian,swine,andhumaninfluenzavirusesinAmericanpigs.JVirol,1999,73:8851–8856.[5]Bean,W,Schell,M,Katz,J,etal.EvolutionoftheH3influenzavirushemagglutininfromhumanandnonhumanhosts.JVirol,1992,66:1129-1138.[6]Neumann,G,Noda,T,Kawaoka,Y.Emergenceandpandemicpotentialofswine-originH1N1influenzavirus.Nature,2009,459:931-939[7]Gamblin,S,Haire,L,Russell,R,etal.Thestructureandreceptorbindingpropertiesofthe1918influenzahemagglutinin.Science,2004,303:1838-1842.[8]Klenk,HD,Garten,WandMatrosovich,M.Molecularmechanismsofinterspeciestransmissionandpathogenicityofinfluenzaviruses:Lessonsfromthe2009pandemic.Bioessays,2011,33:180-188.[9]Kawaoka,Y,Krauss,SandWebster,RG.Avian-to-humantransmissionofthePB1geneofinfluenzaAvirusesinthe1957and1968pandemics.JVirol,1989,63:4603-4608.[10]Scholtissek,C,Rohde,W,VonHoyningen,V,etal.OntheoriginofthehumaninfluenzavirussubtypesH2N2andH3N2.Virology,1978,87:13–20.[11]Erica,S.AvianInfluenzaVirus.2008,HumanaPress.[12]Olsen,B,Munster,VJ,Wallensten,A,etal.GlobalpatternsofinfluenzaAvirusinwildbirds.Science,2006,312:384-388.[13]Webster,RG,Bean,WJ,Gorman,OT,etal.EvolutionanecologyofinfluenzaAviruses.MicrobiolRev,1992,56:152-179.[14]WorldOrganizationforAnimalHealth,Chapter2.7.12,AvianInfluenzainManual84 华中科技大学博士学位论文ofDiagnosticTestsandVaccinesforTerrestrialAnimals.2004.[15]Swayne,DEandSuarez,DL.Highlypathogenicavianinfluenza.Rev.Sci.Tech.2000,19,463-482.[16]Yuen,KY,Chan,PK,Peiris,M,etal.ClinicalfeaturesandrapidviraldiagnosisofhumandiseaseassociatedwithavianinfluenzaAH5N1virus.Lancet,1998,351:467-471.[17]Mounts,AW,Kwong,H,Izurieta,HS,etal.Case-controlstudyofriskfactorsforavianinfluenzaA(H5N1)disease,HongKong,1997.JInfectDis,1999,180:505-508.[18]Bridges,C,Katz,JM,Seto,WH,etal.RiskofinfluenzaA(H5N1)infectionamonghealthcareworkersexposedtopatientswithinfluenzaA(H5N1),HongKong.JInfectDis,2000,181:344-348.[19]Subbarao,K,Klimov,A,Katz,J,etal.CharacterizationofanavianinfluenzaA(H5N1)virusisolatedfromachildwithafatalrespiratoryillness.Science,1998,279(5394):393-396.[20]Peiris,M,Yuen,KY,Leung,CW,etal.HumaninfectionwithinfluenzaH9N2.Lancet,1999,354(9182):916-917.[21]Fouchier,RAM,Schneeberger,PM,Rozendaal,FW,etal.AvianinfluenzaAvirus(H7N7)associatedwithhumanconjunctivitisandafatalcaseofacuterespiratorydistresssyndrome.Proc.Naltl.Acad.Sci.USA,2004,101(5):1356-1361.[22]Tweed,SA,Skowronski,DM,David,ST,etal.HumanillnessfromAvianinfluenzaH7N3,BritishColumbia.Emerg.Infect.Dis,2004,10(12):2196-2199.[23]Le,QM,Ito,M,Muramoto,Y,etal.PathogenicityofhighlypathogenicavianH5N1influenzaAvirusesisolatedfromhumansbetween2003and2008innorthernVietnam.J.Gen.Virol,2010,91(10):2485-2490.[24]Cheng,VC,Chan,JF,Wen,XWu,etal.InfectionofimmunocompromisedpatientsbyavianH9N2influenzaAvirus.J.Infect,2011,62(5):394-9.[25]Keyao,PandMichael,WD.Quantifyingselectionanddiversityinvirusesbyentropymethods,withapplicationtothehaemagglutininofH3N2influenza.J.R.Soc.Interface,2011,8:1644-1653.[26]Gupta,V,Earl,DJandDeem,MW.Quantifyinginfluenzavaccineefficacyand85 华中科技大学博士学位论文antigenicdistance.Vaccine,2006,24:3881-3888.[27]Deem,MWandLee,HY.Sequencespacelocalizationintheimmunesystemresponsetovaccinationanddisease.Phys.Rev.Lett.2003,91:68-101.[28]Basler,CF,Reid,AH,Dybing,JK,etal.Sequenceofthe1918pandemicinfluenzavirusnonstructuralgene(NS)segmentandcharacterizationofrecombinantvirusesbearingthe1918NSgenes.Proc.Natl.Acad.Sci.USA,2001,98:2746-2751.[29]Li,Z,Jiang,Y,Jiao,P,etal.TheNS1genecontributestothevirulenceofH5N1avianinfluenzaviruses.J.Virol,2006,90:11115-11123.[30]Quinlivan,M,Zamarin,D,Garcia-Sastre,A,etal.AttenuationofequineinfluenzavirusesthroughtruncationsoftheNS1protein.J.Virol,2005,79:8431-8439.[31]Solorzano,A,Webby,R,Lager,K,etal.MutationsintheNS1proteinofswineinfluenzavirusimpairanti-interferonactivityandconferattenuationinpigs.J.Virol,2005,79:7535-7543.[32]Rott,R.Thepathogenicdeterminantofinfluenzavirus.Vet.Microbiol,1992,33:303-310.[33]Vong,S,Coghlan,B,Mardy,S,etal.Lowfrequencyofpoultry-to-humanH5N1virustransmission,SouthernCambodia,2005.EmergInfectDis,2006,12:1542-1547.[34]Scholdssek,C,Burger,H,Kismer,O,eta1.ThenucleoproteinasapossiblemajorfactorindetermininghostspecificityofinfluenzaH3N2viruses.Virology,1985,147(2):287-294.[35]Ito,T,Couceim,JN,Keln1,S,eta1.MolecularbasisforthegenerationinpigsofinfluenzaAviruseswithpandemicpotential.J.Virol,1988,72(9):7367-7373.[36]Suaz,DL,Perdue,ML,Cox,N,eta1.ComparisonsofhighlyvirulentH5N1influenzaAvirusesisolatedfromhumansandchickensfromHongKong.J.Virol,1998,72(8):6678-6688.[37]Kida,H,Shortridge,KF,Webster,RG.OriginofthehemagglutiningeneofH3N2influenzavirusesfrompigsinChina.Virology,1988,162(1):160-166.[38]Peifis,JS,Guan,Y,Markweu,D,eta1.Co-circulationofavianH9N2andcontemporary"human"H3N2influenzavirusesinpigsinsoutheasternChina:86 华中科技大学博士学位论文potentialforgeneticreassortment.J.Virol,2001,75(20):9679-9686.[39]Karasin,AI,Brown,IH,Carman,S,eta1.IsolationandCharacterizationofH4N6AvianInfluenzaVirusesfromPigswithPneumoniainCanada.J.Virol,2000,74(19):9322-9327.[40]Ludwig,S,Stitz,L,Planz,0,eta1.Europeanswinevirusasapossiblesourceforthenextinfluenzapandemic.Virology,1995,212(2):555-561.[41]WebbyRJ,SwensonSL,Krau,S,eta1.EvolutionofswineH3N2influenzavirusesintheUnitedStates.J.Virol,2000,74(18):8243-8251.[42]CentersforDiseaseControlandPrevention.Keyfactsaboutavianinfluenza(birdflu)andavianinfluenzaA(H5N1)Virus.[43]Gabriele,NandYoshihiro,K.Hostrangerestrictionandpathogenicityinthecontextofinfluenzapandemic.EmergInfectDis,2006,12(6):881-886.[44]Kilpatrick,AM,Chmura,AA,Gibbons,DW,etal.PredictingtheglobalspreadofH5N1avianinfluenza.ProcNatlAcadSciUSA,2006,103:19368-19373.[45]Ha,Y,Stevens,DJ,Skehel,JJ,etal.X-raystructuresofH5avianandH9swineinfluenzavirushemagglutininsboundtoavianandhumanreceptoranalogs.ProcNatlAcadSciUSA,2001,98:11181-11186.[46]段炼,李康生.流感病毒的生态研究.国外医学:微生物学分册,2004,27(3):3-5.[47]Horimoto,T,Fukuda,N,Iwatsuki-Horimoto,K,etal.AntigenicdifferencesbetweenH5N1humaninfluenzavirusesisolatedin1997and2003.JVetMedSci,2004,66:303-305.[48]Gubareva,LV,McCullers,JA,Bethell,RC,etal.CharacterizationofinfluenzaA/HongKong/156/97(H5N1)virusinamousemodelandprotectiveeffectofzanamivironH5N1infectioninmice.JInfectDis,1998,178:1592-1596.[49]Chotpitayasunondh,T,Ungchusak,K,Hanshaoworakul,W,etal.HumandiseasefrominfluenzaA(H5N1),Thailand,2004.EmergInfectDis,2005,11:201-209.[50]Hien,TT,Liem,NT,Dung,NT,etal.AvianinfluenzaA(H5N1)in10patientsinVietnam.NEnglJMed,2004,350:1179-1188.[51]Keawcharoen,J,Oraveerakul,K,Kuiken,T,etal.AvianinfluenzaH5N1intigers87 华中科技大学博士学位论文andleopards.EmergInfectDis,2004,10:2189-2191.[52]deJong,MD,Cam,BV,Qui,PT,etal.FatalAvianinfluenzaA(H5N1)inachildpresentingwithdiarrheafollowedbycoma.NEnglJMed,2005,352:686-691.[53]Yen,HL,Monto,AS,Webster,RG,etal.VirulencemaydeterminethenecessarydurationanddosageofoseltamivirtreatmentforhighlypathogenicA/Vietnam/1203/04influenzavirusinmice.JInfectDis,2005,192:665-672.[54]Liu,J,Xiao,H,Lei,F,etal.HighlypathogenicH5N1influenzavirusinfectioninmigratorybirds.Science,2005,309:1206.[55]Chen,H,Smith,JD,Zhang,SY,etal.Avianflu:H5N1virusoutbreakinmigratorywaterfowl.Nature,2005,436:191-192.[56]TheWritingCommitteeoftheWorldHealthOrganizationConsultationonHumanInfluenzaA/H5AvianinfluenzaA(H5N1)infectioninhumans.NEnglJMed,2005,353:1374-1385.[57]Chen,H,Smith,GJD,Li,KS,etal.EstablishmentofmultiplesublineagesofH5N1influenzavirusinAsia:implicationsforpandemiccontrol.ProcNatlAcadSciUSA,2006,103:2845-2850.[58]Lin,YP,Shaw,M,Gregory,V,etal.Avian-to-humantransmissionofH9N2subtypeinfluenzaaviruses:RelationshipbetweenH9N2andH5N1humanisolates.ProcNatlAcadSciUSA,2000,97:9654-9658.[59]Butt,KM,Smith,GJ,Chen,H,etal.HumanInfectionwithanAvianH9N2InfluenzaAVirusinHongKongin2003.JournalofClinicalMicrobiology,2005,43:5760-5767.[60]Fouchier,RA,Schneeberger,PM,Rozendaal,FW,etal.AvianinfluenzaAvirus(H7N7)associatedwithhumanconjunctivitisandafatalcaseofacuterespiratorydistresssyndrome.ProcNatlAcadSciUSA,2004,101:1356-1361.[61]Yassine,H,Lee,CandGourapura,R.InterspeciesandintraspeciestransmissionofinfluenzaAviruses:viral,hostandenvironmentalfactors.AnimalHealthResearchReviews,2010,11:53-72.[62]Naeve,CW,Hinshaw,VSandWebster,RG.Mutationsinthehaemagglutininreceptor-bindingsitecanchangethebiologicalpropertiesofaninfluenzavirus.J.Virol,1984,51(2):567-569.88 华中科技大学博士学位论文[63]Yamada,S,Suzuki,Y,Suzuki,T,etal.HaemagglutininmutationsresponsibleforthebindingofH5N1influenzaAvirusestohuman-typereceptors.Nature,2006,444:378-382.[64]Subbarao,EK,London,WandMurphy,BR.AsingleaminoacidinthePB2geneofinfluenzaAvirusisadeterminantofhostrange,J.Virol,1993,67(4):1761-1764.[65]Mehle,AandDoudna,JA.Aninhibitoryactivityinhumancellsrestrictsthefunctionofanavian-likeinfluenzaviruspolymerase,CellHostMicrobe,2008,4(2):111-122.[66]Munster,VJ,deWit,E,vanRiel,D,etal.ThemolecularbasisofthepathogenicityofthedutchhighlypathogenichumaninfluenzaAH7N7viruses,J.Infect.Dis,2007,196:258-265.[67]Yamada,S,Hatta,M,Staker,BL,etal.Biologicalandstructuralcharacterizationofahost-adaptingaminoacidininfluenzavirus,PLoSPathog,2010,6(8):e1001034.[68]Tarendeau,F,Thibaut,C,Guilligay,D,etal.Hostdeterminantresiduelysine627liesonthesurfaceofadiscrete,foldeddomainofinfluenzaviruspolymerasePB2subunit.PLoSPathog,2008,4(8):e1000136.[69]Gao,Y,Zhang,Y,Shinya,K,etal.IdentificationofaminoacidsinHAandPB2criticalforthetransmissionofH5N1avianinfluenzavirusesinamammalianhost.PLoSPathog,2009,5(12):e1000709.[70]Li,OTW,Chan,MCW,Leung,CSW,etal.Fullfactorialanalysisofmammalianandavianinfluenzapolymerasesubunitssuggestsaroleofanefficientpolymeraseforvirusadaptation.PLoSOne,2009,4(5):e5658.[71]Klenk,HD,Garten,WandMatrosovich,M.Molecularmechanismsofinterspeciestransmissionandpathogenicityofinfluenzaviruses:Lessonsfromthe2009pandemic.BioEssays,2011,33:180-188.[72]Chen,GW,Chang,SC,Mok,CK,etal.GenomicsignaturesofhumanversusavianInfluenzaAviruses.EmergInfectDis,2006,12(9):1353-1360.[73]Kou,Z,Lei,F,Wang,S,etal.MolecularpatternsofavianinfluenzaAviruses.Chin.Sci.Bull,2008,53(13):2002-2007.[74]Qiang,XandKou,Z.PredictionofinterspeciestransmissionforavianinfluenzaAvirusbasedonaback-propagationneuralnetwork.MathComputModel,2010,52:89 华中科技大学博士学位论文[75]Lee,MSandChen,JS.PredictingAntigenicVariantsofInfluenzaA/H3N2Viruses.EmergInfectDis,2004,10(8):1385-1390.[76]Lee,MS,Chen,MC,Liao,YC,etal.IdentifyingpotentialimmunodominantpositionsandpredictingantigenicvariantsofinfluenzaA/H3N2viruses.Vaccine,2007,25:8133–8139.[77]Nobusawa,EandSato,K.ComparisonofthemutationratesofhumaninfluenzaAandBviruses.J.Virol.2006,80:3675-3678.[78]Wiley,DC,Wilson,IAandSkehel,JJ.Structuralidentificationoftheantibody-bindingsitesofHongKonginfluenzahaemagglutininandtheirinvolvementinantigenicvariation.Nature1981,289:373-8.[79]Wilson,IAandCox,N.StructuralBasisofImmunerecognitionofinfluenzavirushemagglutinin.AnnuRevImmunol,1990,8:737-71.[80]Bush,RM,Bender,CA,Subbarao,K,etal.PredictingtheevolutionofhumaninfluenzaA.Science,1999,286:1921-5.[81]Macken,C,Lu,H,Goodman,J,etal.Thevalueofadatabaseinsurveillanceandvaccineselection.In:OsterhausADME,CoxN,HampsonAW,editors.OptionsforthecontrolofinfluenzaIV.Amster-dam:ElsevierScience;2001,103-6.[82]Wilfred,N,Ned,SWandSimon,AL.Differentialneutralizationefficiencyofhemagglutininepitopes,antibodyinterference,andthedesignofinfluenzavaccines.ProcNatlAcadSciUSA,2009,106(21):8701-8706.[83]Wood,JM,Oxford,JS,Una,D,etal.InfluenzaA(H1N1)Vaccineefficacyinanimalmodelsisinfluencedbytwoaminoacidsubstitutionsinthehemagglutininmolecule.Virology1989,171:214-21.[84]Newman,RW,Jennings,R,Major,DL,etal.Immuneresponseofhumanvolunteersandanimalstovaccinationwithegg-growninfluenzaA(H1N1)virusisinfluencedbythreeaminoacidsubstitutionsinthehaemagglutininmolecule.Vaccine1993,11:400-406.[85]Katz,JMandWebster,RG.EfficacyofinactivatedinfluenzaAVirus(H3N2)vaccinesgrowninmammaliancellsorembryonatedeggs.JInfectDis1989,160:191-198.90 华中科技大学博士学位论文[86]Kodihalli,S,Justewicz,DM,Gubareva,LV,etal.SelectionofasingleaminoacidsubstitutioninthehemagglutininmoleculebychickeneggscanrenderinfluenzaAvirus(H3)candidatevaccineineffective.JVirol1995,69:4888-97.[87]Jin,H,Zhou,H,Liu,H,etal.TworesiduesinthehemagglutininofA/Fujian/411/02-likeinfluenzavirusesareresponsibleforantigenicdriftfromA/Panama/2007/99.Virology,2005,336:113-9.[88]Smith,DJ,Lapedes,AS,deJong,JC,etal.Mappingtheantigenicandgeneticevolutionofinfluenzavirus.Science,2004,305:371-6.[89]Liao,YC,Lee,MC,Ko,CY,etal.BioinformaticsmodelsforpredictingantigenicvariantsofinfluenzaA/H3N2virus.Bioinformatics,2008,24(4):505-512.[90]Huang,JW,King,CCandYang,JM.Co-evolutionpositionsandrulesforantigenicvariantsofhumaninfluenzaA/H3N2viruses.BMCBioinformatics,2009,10(Suppl1):S41.[91]Ye,K,Lameijer,EM,Beukers,MW,etal.Atwo-entropiesanalysistoidentifyfunctionalpositionsinthetransmembraneregionofclassAGprotein-coupledreceptors.Proteins,2006,63(4):1018-1030.[92]Peter,MKandVijay,SP.Combiningmutualinformationwithstructuralanalysistoscreenforfunctionallyimportantresiduesininflunenzahemagglutinin.PMC,2009,492-503.[93]Xia,Z,Jin,G,Zhu,J,etal.Usingamutualinformation-basedsitetransitionnetworktomapthegeneticevolutionofinfluenzaA/H3N2virus.Bioinformatics,2009,25(18):2309–2317.[94]Bao,Y,Bolotov,P,Dernovoy,D,etal,Theinfluenzavirusresourceatthenationalcenterforbiotechnologyinformation.JournalofVirology,2008,82:596-601.[95]Squires,B,Macken,C,Garcia-Sastre,AS,etal.BioHealthBase:informaticssupportintheelucidationofinfluenzavirushostpathogeninteractionsandvirulence.NucleicAcidsResearch,2008,36(suppl1):D497-D503.[96]Li,WandGodzik,A.Cd-hit:afastprogramforclusteringandcomparinglargesetsofproteinornucleotidesequences.Bioinformatics,2006,22:1658-1659.[97]Hu,W.CorrelatedmutationsinthefourinfluenzaproteinsessentialforviralRNAsynthesis,hostadaptation,andvirulence:NP,PA,PB1,andPB2.NaturalScience,91 华中科技大学博士学位论文2010,2:1138-1147.[98]Lin,ZandPan,X.Accuratepredictionofproteinsecondarystructuralcontent.JProteinChem,2001,20:217-220.[99]Horne,D.Predictionofproteinhelixcontentfromanautocorrelationanalysisofsequencehydrophobicities.Biopolymers,1988,27:451-477.[100]Li,ZR,Lin,HH,Han,LY,etal.PROFEAT:awebserverforcomputingstructuralandphysicochemicalfeaturesofproteinsandpeptidesfromaminoacidsequence.NucleicAcidsRes,2006,34:W32–W37.[101]Yvan,S,Lnaki,LandPedroL.Areviewoffeatureselectiontechniquesinbioinformatics.Bioinformatics,2007,23(19):2507–2517.[102]Kittler,J.PatternrecognitionandsignalProcessing,chapterfeaturesetsearchalgorithms.SijthoffandNoordhoff,AlphenaandenRijn,Netherlands,1978:41-60.[103]Ben-Bassat,M.Patternrecognitionandreductionofdimensionality.InKrishnaiah,P.andKanal,L,(eds.)HandbookofStatisticsII,Vol.1.North-Holland,Amsterdam.1982:773-791.[104]Jafari,PandAzuaje,F.Anassessmentofrecentlypublishedgeneexpressiondataanalyses:reportingexperimentaldesignandstatisticalfactors.BMCMed.Inform.Decis.Mak,1982,6:27.[105]Thomas,JG,Olson,JM,Tapscott,SJ,etal.Anefficientandrobuststatisticalmodelingapproachtodiscoverdifferentiallyexpressedgenesusinggenomicexpressionprofiles.GenomeRes,2001,11:1227-1236.[106]Kria,KandRendell,LA.Apracticalapproachtofeatureselection.In:MachineLearning:ProceedingsofInternationalConference(ICML’92).Sleeman,D,Edwards,P,Eds,Morgan,Kaufmann,1992,249-256.[107]Holland,J.AdaptationinNaturalandArtificialSystems.UniversityofMichiganPress,AnnArbor,1975.[108]Edgar,RC.MUSCLE:multiplesequencealignmentwithhighaccuracyandhighthroughput.NucleicAcidsRes,2004,32(5):1792-1797.[109]Waterhouse,AM,Procter,JB,Martin,DMA,etal.JalviewVersion2-amultiplesequencealignmenteditorandanalysisworkbench.Bioinformatics,2009,25(9):1189-1191.92 华中科技大学博士学位论文[110]Kawashima,S,Pokarowski,P,Pokarowska,M,etal.AAindex:aminoacidindexdatabase,progressreport2008.NucleicAcidsRes,2008,36:202-205.[111]Peng,HC,Long,FHandDing,C.Featureselectionbasedonmutualinformation:criteriaofmax-dependency,max-relevance,andmin-redundancy.IEEETPatternAnal.2005,27(8):1226-1238.[112]He,Z,Shi,XH,Kong,XY,etal.Anovelsequence-basedmethodforphosphorylationsitepredictionwithfeatureselectionandanalysis.ProteinPept.Lett,2012,19(1):70-8.[113]Ludwig,OandNunes,U.Novelmaximum-margintrainingalgorithmsforsupervisedneuralnetworks,IEEETNeuralNetwork,2010,21(6):972-984.[114]Hu,HJ,Harrison,RW,Tai,PC,etal.Understandablelearningmachinesystemdesignfortransmembraneorembeddedmembranesegmentsprediction,IntJDataMinBioin,2011,5(1):38-51.[115]Chang,CCandLin,CJ.LIBSVM:alibraryforsupportvectormachines.ACMTIST,2011,2:1-27.[116]Bleeker,SE,Moll,HA,Steyerberg,EW,etal.Externalvalidationisnecessaryinpredictionresearch:aclinicalexample.JClinEpidemiol.2003,56(9):826–832.[117]Jiao,P,Tian,G,Li,Y,etal.Asingle-amino-acidsubstitutionintheNS1proteinchangesthepathogenicityofH5N1avianinfluenzavirusesinmice.J.Virol,2008,82(3):1146-1154.[118]Subbarao,EK,London,WandMurphy,BR.AsingleaminoacidinthePB2geneofinfluenzaAvirusisadeterminantofhostrange,J.Virol,1993,67(4):1761-1764.[119]Finkelstein,DB,Mukatira,S,Mehta,PK,etal.PersistenthostmarkersinpandemicandH5N1influenzaviruses,J.Virol,2007,81(19):10292-10299.[120]George,RAandHeringa,J.Ananalysisofproteindomainlinkers:theirclassificationandroleinproteinfolding.ProteinEng,2003,15(11):871-879.[121]Biswas,SKandNayak,DP.Influenzaviruspolymerasebasicprotein1interactswithinfluenzaviruspolymerasebasicprotein2atmultiplesites.J.Virol,1996,70(10):6716-6722.[122]Ng,AK,Zhang,H,Tan,K,etal.StructureoftheinfluenzavirusAH5N1nucleoprotein:implicationsforRNAbinding,oligomerization,andvaccinedesign.93 华中科技大学博士学位论文FASEBJ.Vol,2008,22:3638-3647.[123]Sugiyama,K,Obayashi,E,Kawaguchi,A,etal.StructuralinsightintotheessentialPB1-PB2subunitcontactoftheinfluenzavirusRNApolymerase.EMBOJ,2009,28:1803-1811.[124]Qian,XY,Chien,CY,Lu,Y,etal.Anamino-terminalpolypeptidefragmentoftheinfluenzavirusNS1proteinpossessesspecificRNA-bindingactivityandlargelyhelicalbackbonestructure,RNA,1995,1(9):948-956.[125]Qu,HN,Li,GZandXu,WS.AnAsymmetricClassifierbasedonPartialLeastSquares,PatternRecognition,Elsevier,2010,43:3448-3457.[126]Wu,GandYan,SM.MutationtrendofhemagglutininofinfluenzaAvirus:areviewfromacomputationalmutationviewpoint.ActaPharmacol.Sin,2006,27(5):513-526.[127]Chen,C,Chen,L,Zou,X,etal.Predictionofproteinsecondarystructurecontentbyusingtheconceptofchou’spseudoaminoacidcompositionandsupportvectormachine.ProteinPept.Lett,2009,16:27-31.[128]Li,Y,Carroll,DS,Gardner,SN,etal.Ontheoriginofsmall-pox:correlatingvariolaphylogenicswithhistoricalsmallpoxrecords.Proc.NatlAcad.Sci.USA2007,104:15787-15792.[129]Ndifon,W,Dushoff,JandLevin,SA.Ontheuseofhemagglutination-inhibitionforinfluenzasurveillance:surveillancedataarepredictiveofinfluenzavaccineeffectiveness.Vaccine,2009,27:2447-2452.[130]Archetti,IandHorsfall,FL.PersistentantigenicvariationofinfluenzaAvirusesafterincompleteneutralizationinovowithheterologousimmuneserum.JExpMed,1950,92:441-462.[131]Kilbourne,ED,Johansson,BEandGrajower,B.IndependentanddisparateevolutioninnatureofinfluenzaAvirushemagglutininandneuraminidaseglycoproteins.ProcNatlAcadSciUSA,1990,87:786-90.[132]Ellis,JS,Chakraverty,PandClewley,JP.GeneticandantigenicvariationinthehaemagglutininofrecentlycirculatinghumaninfluenzaA(H3N2)virusesintheUnitedKingdom.Archivesofvirology,1995,140(11):1889-1904.[133]Both,GW,Sleigh,MJ,Cox,NJ,etal.AntigenicDriftinInfluenzaVirus-H394 华中科技大学博士学位论文[134]Coiras,MT,Aguilar,JC,Galiano,M,etal.RapidmolecularanalysisofthehaemagglutiningeneofhumaninfluenzaAH3N2virusesisolatedinSpainfrom1996to2000.Archivesofvirology,2001,146(11):2133-2147.[135]WHO:WeeklyEpidemiologicalRecord.http://www.who.int/wer/en/[136]CentersforDiseaseControlandPrevention:InformationfortheVaccinesandRelatedBiologicalProductsAdvisoryCommittee,CBER,FDA.[137]Cramer,H.Mathematicalmethodsofstatistics.Princeton:PrincetonUniversityPress,1946,282.[138]AndyField,DiscoveringstatisticsusingSPSS.OrientalPress,2009.[139]Mardia,KV,Kent,JTandBibby,JM.MultivariateAnalysis.AcademicPress,1979.[140]He,JWandZelikovsky,A.MLR-tagging:informativeSNPselectionforunphasedgenotypesbasedonmultiplelinearregression.Bioinformatics,2006,22(20):2558-2561.[141]Guermeur,Y,Geourjon,C,Gallinari,P,etal.Improvedperformanceinproteinsecondarystructurepredictionbyinhomogeneousscorecombination.Bioinformatics,1999,15(5):413-421.[142]Zhou,Y.Reconstructionofgeneregulatorynetworksbystepwisemultiplelinearregressionfromtime-seriesmicroarraydata.IEEEInternationalConferenceonBioinformaticsandBiomedicineWorkshops(BIBMW),2011,1017-1019.[143]Liu,RandHu,JJ.Computationalpredictionofheme-bindingresiduesbyexploitingresidueinteractionnetwork.PLoSOne,2011,6(10):e25560.[144]Porollo,AandMeller,J.Prediction-basedfingerprintsofprotein-proteininteractions.Proteins,2007,66:630-645.[145]Du,XJ,Dong,LB,Lan,Y,etal.MappingofH3n2infuenzaantigenicevolutioninChinarevealsastrategyforvaccinestrainrecommendation.NatureComm,2012,3:709.[146]Bush,RM,Fitch,WM,Bender,CA,etal.PositiveselectionontheH395 华中科技大学博士学位论文hemagglutiningeneofhumaninfluenzavirusA.Mol.Biol.Evol,1999,16(11):1457-1465.[147]Fleury,D,Barrere,B,Bizebard,T,etal.Acomplexofinfluenzahemagglutininwithaneutralizingantibodythatbindsoutsidethevirusreceptorbindingsite.NatureStructuralBiology,1999,6(6):530-534.[148]Huang,JWandYang,JM.ChangedepitopesdrivetheantigenicdriftforinfluenzaA(H3N2)viruses.BMCBioinformatics2011,12(Suppl1):S31.[149]Wu,AP,Peng,YS,Du,XJ,etal.Correlationofinfluenzavirusexcessmortalitywithantigenicvariation:applicationtorapidestimationofinfluenzamortalityburden.PLoSComputBiol,2010,6(8):e1000882.[150]Cai,Y,Huang,T,Hu,L,etal.PredictionoflysineubiquitinationwithmRMRfeatureselectionandanalysis.AminoAcids,2012,42:1387-1395.[151]Ng,RT,Sander,JandSleumer,MC.HierarchicalClusterAnalysisofSAGEDataforCancerProfiling.BIOKDD,2001,65-72.[152]Ao,SI,Yip,K,Ng,M,etal.CLUSTAG:hierarchicalclusteringandgraphmethodsforselectingtagSNPs.Bioinformatics,2004,21(8):1735-1736.96 华中科技大学博士学位论文附录1攻读学位期间发表的主要论文[1]Wang,J,Ma,C,Kou,Z,Zhou,YH,Liu,HL.PredictingtransmissionofavianinfluenzaAvirusesfromaviantohumanbyusinginformativephysicochemicalproperties.InternationalJournalofDataMiningandBioinformatics.(SCIAccepted)(署名单位:华中科技大学)[2]Wang,J,Kou,Z,Duan,MJ,Ma,C,Zhou,YH.Usingfactorscoresofaminoacidstopredictavian-to-humantransmissionofavianinfluenzaviruses:AmachinelearningStudy.Protein&PeptideLetters.(SCISubmitted)(署名单位:华中科技大学)[3]Wang,J,Zhou,YH,Kou,Z.Oneclasssupportvectormachineforpredictingavian-to-humantransmissionofavianinfluenzaAvirus.IEEEInternationalConferenceonComputerScienceandAutomationEngineering(CSAE2012).(EI)(署名单位:华中科技大学)[4]Wang,J,Ma,C,Zhou,D,ZhangLB,Zhou,YH.Accuratelypredictingtranscriptionstartsitesusinglogitlinearmodelandlocaloligonucleotidefrequencies.LectureNotesinComputerScience,2011,Vol6840:107-114.(EI)(署名单位:华中科技大学)[5]Ma,C,Wang,J,Li,L,DuanMJ,Zhou,YH.IdentificationoftrueESTalignmentsforrecognizingtranscribedregions.InternationalJournalofDataMiningandBioinformatics,2011,Vol5,No5:465-484.(SCI)(署名单位:华中科技大学)[6]刘怀兰,侯昕,王佳.改进的基于USBKey的动态身份认证方案.华中科技大学学报(自然科学版),2010年第38卷第11期.(EI)(署名单位:华中科技大学)[7]刘怀兰,牛辉,王佳.基于改进遗传算法的智能组卷模型优化.华中科技大学学报(自然科学版).(已投)(署名单位:华中科技大学)[8]袁芳,周艳红,王佳.通过文本挖掘获取疾病相关功能信息.微计算机信息,2009年第25卷第12-3期.(署名单位:华中科技大学)97 华中科技大学博士学位论文附录2攻读学位期间申请及取得的软件著作版权[1]周艳红,段谟杰,马闯,王佳.蛋白质二级结构预测软件E-SSpred.计算机软件著作版权,登记号2007SR20052[2]周艳红,段漠杰,刘紫兆,王佳。蛋白质三级结构比对软件sEcs.计算机软件著作版权,登记号2007SR189798 华中科技大学博士学位论文附录3攻读学位期间参与的课题及项目[1]国家自然科学基金(30971642)高免疫原性T细胞抗原表位预测方法及其应用研究[2]科技部国家科技基础条件平台建设专项生物信息学网络计算应用系统(子课题:基因组结构自动注释系统及其应用)[3]教育部科技基础资源数据平台建设专项(505010)人类遗传基因信息数据整合及共享信息平台[4]中国科学院重大传染病和生物安全网络研究中心信息与数据平台[5]武汉检察技术检验鉴定所武汉市检察院职务犯罪线索情报信息网络管理系统[6]武汉东湖示范区现代服务业试点项目基于云计算的网络教学资源开发与管理平台[7]本科院校及高职院校精品课程中心软件系统(CourseCenterSoftware)99 华中科技大学博士学位论文附录4流感病毒H3N2亚型抗原距离及抗原关系序号病毒A病毒B抗原距离抗原关系a1A/Hong_Kong/1/68A/England/878/691.673976V2A/Hong_Kong/1/68A/Hong_Kong/107/711.84444V3A/Hong_Kong/1/68A/England/42/721.876709V4A/Hong_Kong/1/68A/Dunedin/4/732.282174V5A/Hong_Kong/1/68A/Port_Chalmers/1/731.386294V6A/England/878/69A/Hong_Kong/107/71-0.20273S7A/England/878/69A/England/42/721.876709V8A/Hong_Kong/107/71A/England/42/723.321895V9A/Hong_Kong/107/71A/Port_Chalmers/1/732.975321V10A/Hong_Kong/107/71A/Tokyo/1/753.668468V11A/Hong_Kong/107/71A/Mayo_Clinic/1/753.668468V12A/Hong_Kong/107/71A/Victoria/3/754.015042V13A/Hong_Kong/107/71A/England/864/753.871201V14A/Hong_Kong/107/71A/Allegheny_County/29/763.668468V15A/Hong_Kong/107/71A/Victoria/112/764.708189V16A/Hong_Kong/107/71A/Bangkok/1/794.217775V17A/Hong_Kong/107/71A/Bangkok/2/794.708189V18A/England/42/72A/Dunedin/4/731.183562S19A/England/42/72A/Port_Chalmers/1/731.386294V20A/England/42/72A/Tokyo/1/754.158883V21A/England/42/72A/Mayo_Clinic/1/753.263003V22A/England/42/72A/Victoria/3/752.772589V23A/England/42/72A/England/864/755.054763V24A/England/42/72A/Allegheny_County/29/761.386294V25A/England/42/72A/Victoria/112/764.158883V26A/England/42/72A/Bangkok/1/794.361616V27A/England/42/72A/Bangkok/2/795.198604V28A/Port_Chalmers/1/73A/Dunedin/4/73-0.34657S29A/Port_Chalmers/1/73A/Singapore/4/751.477455V30A/Port_Chalmers/1/73A/Tokyo/1/753.465736V31A/Port_Chalmers/1/73A/Mayo_Clinic/1/752.079442V100 华中科技大学博士学位论文32A/Port_Chalmers/1/73A/Victoria/3/752.772589V33A/Port_Chalmers/1/73A/England/864/753.321895V34A/Port_Chalmers/1/73A/Allegheny_County/29/763.119162V35A/Port_Chalmers/1/73A/Victoria/112/763.609577V36A/Port_Chalmers/1/73A/Bangkok/1/794.015042V37A/Port_Chalmers/1/73A/Bangkok/2/794.505457V38A/Tokyo/1/75A/Mayo_Clinic/1/753.465736V39A/Tokyo/1/75A/Victoria/3/752.426015V40A/Tokyo/1/75A/England/864/754.361616V41A/Tokyo/1/75A/Allegheny_County/29/763.812309V42A/Tokyo/1/75A/Victoria/112/763.263003V43A/Tokyo/1/75A/Bangkok/1/793.668468V44A/Tokyo/1/75A/Bangkok/2/794.505457V45A/Tokyo/1/75A/Shanghai/31/803.812309V46A/Mayo_Clinic/1/75A/Victoria/3/752.223283V47A/Mayo_Clinic/1/75A/England/864/753.812309V48A/Mayo_Clinic/1/75A/Allegheny_County/29/763.465736V49A/Mayo_Clinic/1/75A/Victoria/112/764.505457V50A/Mayo_Clinic/1/75A/Bangkok/1/794.015042V51A/Mayo_Clinic/1/75A/Bangkok/2/794.505457V52A/Mayo_Clinic/1/75A/Shanghai/31/804.158883V53A/Victoria/3/75A/England/864/753.321895V54A/Victoria/3/75A/Allegheny_County/29/760.634256S55A/Victoria/3/75A/Victoria/112/761.732868V56A/Victoria/3/75A/Bangkok/1/794.361616V57A/Victoria/3/75A/Texas/1/773.354164V58A/Victoria/3/75A/Bangkok/2/794.85203V59A/Victoria/3/75A/Shanghai/31/804.505457V60A/England/864/75A/Allegheny_County/29/763.465736V61A/England/864/75A/Victoria/112/761.530135V62A/England/864/75A/Bangkok/1/791.935601V63A/England/864/75A/Bangkok/2/792.975321V64A/England/864/75A/Shanghai/31/802.628748V65A/Singapore/4/75A/Allegheny_County/29/762.772589V66A/Singapore/4/75A/Victoria/112/762.079442V67A/Singapore/4/75A/Bangkok/1/794.564348V68A/Singapore/4/75A/Bangkok/2/794.708189V101 华中科技大学博士学位论文69A/Singapore/4/75A/Shanghai/31/804.158883V70A/Allegheny_County/29/76A/Victoria/112/762.223283V71A/Allegheny_County/29/76A/Bangkok/1/794.361616V72A/Allegheny_County/29/76A/Bangkok/2/794.302724V73A/Allegheny_County/29/76A/Shanghai/31/804.505457V74A/Victoria/112/76A/Bangkok/1/793.321895V75A/Victoria/112/76A/Bangkok/2/793.465736V76A/Victoria/112/76A/Shanghai/31/803.465736V77A/Texas/1/77A/Bangkok/1/791.242453S78A/Texas/1/77A/Bangkok/2/791.732868V79A/Texas/1/77A/Shanghai/31/802.079442V80A/Texas/1/77A/Belgium/2/810.693147S81A/Texas/1/77A/Philippines/2/821.732868V82A/Bangkok/1/79A/Bangkok/2/792.223283V83A/Bangkok/1/79A/Shanghai/31/800.346574S84A/Bangkok/1/79A/Belgium/2/810.693147S85A/Bangkok/1/79A/Philippines/2/822.426015V86A/Bangkok/1/79A/Caen/1/842.426015V87A/Bangkok/1/79A/Mississippi/1/851.732868V88A/Bangkok/1/79A/Leningrad/360/862.426015V89A/Bangkok/1/79A/Shanghai/11/874.158883V90A/Bangkok/1/79A/Sichuan/2/873.812309V91A/Bangkok/1/79A/Sydney/1/873.465736V92A/Bangkok/1/79A/Victoria/7/872.772589V93A/Bangkok/2/79A/Shanghai/31/803.119162V94A/Belgium/2/81A/Philippines/2/820.346574S95A/Belgium/2/81A/Caen/1/842.426015V96A/Philippines/2/82A/Caen/1/841.732868V97A/Philippines/2/82A/Christchurch/4/851.732868V98A/Philippines/2/82A/Wellington/4/851.039721S99A/Philippines/2/82A/Mississippi/1/850.693147S100A/Philippines/2/82A/Leningrad/360/861.039721S101A/Philippines/2/82A/Shanghai/11/873.465736V102A/Philippines/2/82A/Sichuan/2/873.812309V103A/Philippines/2/82A/Sydney/1/872.426015V104A/Philippines/2/82A/Victoria/7/872.772589V105A/Caen/1/84A/Christchurch/4/851.386294V102 华中科技大学博士学位论文106A/Caen/1/84A/Mississippi/1/851.039721S107A/Caen/1/84A/Wellington/4/851.386294V108A/Christchurch/4/85A/Wellington/4/850.693147S109A/Mississippi/1/85A/Christchurch/4/851.039721S110A/Mississippi/1/85A/Stockholm/8/851.039721S111A/Mississippi/1/85A/Wellington/4/850.693147S112A/Mississippi/1/85A/Leningrad/360/860.693147S113A/Mississippi/1/85A/Shanghai/11/871.386294V114A/Mississippi/1/85A/Sichuan/2/871.732868V115A/Mississippi/1/85A/Sydney/1/870.346574S116A/Mississippi/1/85A/Victoria/7/871.732868V117A/Stockholm/8/85A/Leningrad/360/860S118A/Leningrad/360/86A/Shanghai/11/870.693147S119A/Leningrad/360/86A/Sichuan/2/871.732868V120A/Leningrad/360/86A/Sydney/1/870.693147S121A/Leningrad/360/86A/Victoria/7/871.732868V122A/Shanghai/11/87A/Sichuan/2/871.039721S123A/Shanghai/11/87A/Sydney/1/870.693147S124A/Shanghai/11/87A/Victoria/7/871.732868V125A/Shanghai/11/87A/England/427/880.634256S126A/Shanghai/11/87A/Beijing/353/892.02055V127A/Shanghai/11/87A/Guangdong/39/891.242453S128A/Shanghai/11/87A/Guizhou/54/890.980829S129A/Sichuan/2/87A/Sydney/1/870.346574S130A/Sichuan/2/87A/Victoria/7/871.732868V131A/Sydney/1/87A/Victoria/7/871.386294V132A/England/427/88A/Beijing/353/891.732868V133A/England/427/88A/Guangdong/39/890.693147S134A/England/427/88A/Guizhou/54/890.490415S135A/England/427/88A/Shanghai/16/891.023846S136A/England/427/88A/Shanghai/24/902.410141V137A/England/427/88A/England/261/911.039721S138A/England/427/88A/Washington/15/912.772589V139A/Guangdong/39/89A/Beijing/353/892.569856V140A/Guizhou/54/89A/Beijing/353/893.119162V141A/Guizhou/54/89A/Guangdong/39/890.346574S142A/Beijing/353/89A/Shanghai/16/891.732868V103 华中科技大学博士学位论文143A/Beijing/353/89A/Shanghai/24/901.039721S144A/Beijing/353/89A/Hong_Kong/34/902.772589V145A/Beijing/353/89A/England/261/910.346574S146A/Beijing/353/89A/Washington/15/911.386294V147A/Beijing/353/89A/Beijing/32/923.119162V148A/Beijing/353/89A/Hong_Kong/23/923.119162V149A/Beijing/353/89A/Madrid/252/932.426015V150A/Beijing/353/89A/Guangdong/25/934.158883V151A/Beijing/353/89A/Scotland/160/933.119162V152A/Beijing/353/89A/Scotland/142/933.465736V153A/Beijing/353/89A/Shangdong/9/933.465736V154A/Beijing/353/89A/Hong_Kong/1/943.465736V155A/Shanghai/16/89A/Shanghai/24/901.386294V156A/Hong_Kong/34/90A/Washington/15/912.426015V157A/Hong_Kong/34/90A/Beijing/32/920.346574S158A/Hong_Kong/34/90A/Hong_Kong/23/921.732868V159A/Hong_Kong/34/90A/Madrid/252/934.158883V160A/Hong_Kong/34/90A/Guangdong/25/934.158883V161A/Hong_Kong/34/90A/Scotland/160/932.426015V162A/Hong_Kong/34/90A/Scotland/142/931.732868V163A/Hong_Kong/34/90A/Shangdong/9/931.732868V164A/Hong_Kong/34/90A/Hong_Kong/1/943.812309V165A/England/261/91A/Washington/15/910.693147S166A/Washington/15/91A/Beijing/32/922.079442V167A/Beijing/32/92A/Hong_Kong/23/920.693147S168A/Beijing/32/92A/Madrid/252/933.465736V169A/Beijing/32/92A/Guangdong/25/933.119162V170A/Beijing/32/92A/Scotland/160/931.732868V171A/Beijing/32/92A/Scotland/142/931.732868V172A/Beijing/32/92A/Shangdong/9/930.693147S173A/Beijing/32/92A/Hong_Kong/1/942.079442V174A/Hong_Kong/23/92A/Madrid/252/933.119162V175A/Hong_Kong/23/92A/Guangdong/25/931.732868V176A/Hong_Kong/23/92A/Scotland/160/931.039721S177A/Hong_Kong/23/92A/Scotland/142/930.693147S178A/Hong_Kong/23/92A/Shangdong/9/930.693147S179A/Hong_Kong/23/92A/Hong_Kong/1/941.039721S104 华中科技大学博士学位论文180A/Madrid/252/93A/Guangdong/25/932.426015V181A/Madrid/252/93A/Scotland/160/932.079442V182A/Madrid/252/93A/Scotland/142/933.119162V183A/Madrid/252/93A/Shangdong/9/932.772589V184A/Madrid/252/93A/Hong_Kong/1/941.732868V185A/Shangdong/9/93A/Guangdong/25/931.039721S186A/Shangdong/9/93A/Madrid/252/932.772589V187A/Shangdong/9/93A/Scotland/142/930.693147S188A/Shangdong/9/93A/Scotland/160/931.386294V189A/Shangdong/9/93A/Johannesburg/33/941.732868V190A/Shangdong/9/93A/Hong_Kong/1/941.386294V191A/Guangdong/25/93A/Scotland/160/930.693147S192A/Guangdong/25/93A/Scotland/142/932.426015V193A/Guangdong/25/93A/Shangdong/9/932.426015V194A/Guangdong/25/93A/Johannesburg/33/940S195A/Guangdong/25/93A/Hong_Kong/1/940.693147S196A/Scotland/142/93A/Shangdong/9/930.693147S197A/Scotland/142/93A/Hong_Kong/1/941.732868V198A/Scotland/160/93A/Scotland/142/931.386294V199A/Scotland/160/93A/Shangdong/9/931.386294V200A/Scotland/160/93A/Hong_Kong/1/940.693147S201A/Johannesburg/33/94A/Alaska/10/951.386294V202A/Johannesburg/33/94A/Nanchang/933/953.465736V203A/Johannesburg/33/94A/Wuhan/359/953.119162V204A/Johannesburg/33/94A/South_Africa/1147/962.772589V205A/Johannesburg/33/94A/Auckland/5/963.465736V206A/Johannesburg/33/94A/Fujian/47/963.119162V207A/Johannesburg/33/94A/New_York/37/962.426015V208A/Johannesburg/33/94A/Sydney/5/974.505457V209A/Johannesburg/33/94A/Moscow/10/994.158883V210A/Johannesburg/33/94A/Panama/2007/994.158883V211A/Alaska/10/95A/Nanchang/933/951.039721S212A/Alaska/10/95A/Wuhan/359/950.693147S213A/Alaska/10/95A/South_Africa/1147/960.693147S214A/Alaska/10/95A/Auckland/5/960.693147S215A/Alaska/10/95A/Fujian/47/960.693147S216A/Alaska/10/95A/New_York/37/960.693147S105 华中科技大学博士学位论文217A/Nanchang/933/95A/Wuhan/359/950S218A/Nanchang/933/95A/South_Africa/1147/960S219A/Nanchang/933/95A/Auckland/5/960S220A/Nanchang/933/95A/Fujian/47/960.346574S221A/Nanchang/933/95A/New_York/37/960.346574S222A/Nanchang/933/95A/Sydney/5/973.465736V223A/Nanchang/933/95A/Ireland/10586/994.158883V224A/Nanchang/933/95A/Moscow/10/993.119162V225A/Nanchang/933/95A/Panama/2007/993.119162V226A/Wuhan/359/95A/South_Africa/1147/960.693147S227A/Wuhan/359/95A/Auckland/5/96-0.69315S228A/Wuhan/359/95A/Fujian/47/960.346574S229A/Wuhan/359/95A/New_York/37/960S230A/Wuhan/359/95A/Sydney/5/972.772589V231A/Wuhan/359/95A/Moscow/10/993.465736V232A/Wuhan/359/95A/Panama/2007/993.119162V233A/South_Africa/1147/96A/Auckland/5/960S234A/South_Africa/1147/96A/Fujian/47/961.039721S235A/South_Africa/1147/96A/New_York/37/960.693147S236A/Auckland/5/96A/Fujian/47/960S237A/Auckland/5/96A/New_York/37/960S238A/Fujian/47/96A/New_York/37/960.693147S239A/Sydney/5/97A/Ireland/10586/990.346574S240A/Sydney/5/97A/Moscow/10/990.346574S241A/Sydney/5/97A/Panama/2007/990.346574S242A/Sydney/5/97A/Fujian/140/20002.079442V243A/Sydney/5/97A/Chile/6416/20011.039721S244A/Sydney/5/97A/New_York/55/20010.693147S245A/Sydney/5/97A/Fujian/411/20022.772589V246A/Ireland/10586/99A/Moscow/10/990S247A/Ireland/10586/99A/Panama/2007/990S248A/Moscow/10/99A/Panama/2007/990S249A/Moscow/10/99A/Fujian/140/20002.772589V250A/Moscow/10/99A/Chile/6416/20010.693147S251A/Moscow/10/99A/New_York/55/20010.693147S252A/Moscow/10/99A/Fujian/411/20022.426015V253A/Panama/2007/99A/Fujian/140/20000.693147S106 华中科技大学博士学位论文254A/Panama/2007/99A/Chile/6416/20010.693147S255A/Panama/2007/99A/New_York/55/20010.346574S256A/Panama/2007/99A/Hong_Kong/1550/20020.346574S257A/Panama/2007/99A/Fujian/411/20022.079442V258A/Panama/2007/99A/Korea/770/20022.079442V259A/Panama/2007/99A/Kumamoto/102/021.732868V260A/Panama/2007/99A/Wyoming/3/20031.732868V261A/Panama/2007/99A/Louisiana/4/20031.732868V262A/Panama/2007/99A/Shanghai/369/20032.079442V263A/Panama/2007/99A/Taiwan/1529/20031.732868V264A/Panama/2007/99A/Hong_Kong/1186/20032.079442V265A/Panama/2007/99A/Oklahoma/8/20030.693147S266A/Panama/2007/99A/Texas/40/20031.039721S267A/Panama/2007/99A/Christchurch/28/20031.732868V268A/Panama/2007/99A/Philippines/825/20032.426015V269A/Panama/2007/99A/Wellington/01/20041.732868V270A/Panama/2007/99A/Malasia/01/20042.079442V271A/Panama/2007/99A/Victoria/110/20042.426015V272A/Panama/2007/99A/California/7/20043.812309V273A/Panama/2007/99A/New_York/55/20044.85203V274A/Panama/2007/99A/Wisconsin/67/20054.505457V275A/Fujian/140/2000A/Chile/6416/20011.386294V276A/Fujian/140/2000A/New_York/55/20011.732868V277A/Fujian/140/2000A/Hong_Kong/1550/20020.693147S278A/Fujian/140/2000A/Fujian/411/20022.426015V279A/Chile/6416/2001A/New_York/55/20010.346574S280A/Chile/6416/2001A/Hong_Kong/1550/20020.693147S281A/Chile/6416/2001A/Fujian/411/20022.079442V282A/New_York/55/2001A/Hong_Kong/1550/20020.346574S283A/New_York/55/2001A/Fujian/411/20022.772589V284A/Hong_Kong/1550/2002A/Fujian/411/20021.386294V285A/Fujian/411/2002A/Kumamoto/102/020.346574S286A/Fujian/411/2002A/Korea/770/20020S287A/Fujian/411/2002A/Wyoming/3/20030.346574S288A/Fujian/411/2002A/Hong_Kong/1186/20030.693147S289A/Fujian/411/2002A/Oklahoma/8/2003-0.34657S290A/Fujian/411/2002A/Taiwan/1529/20030.693147S107 华中科技大学博士学位论文291A/Fujian/411/2002A/Shanghai/369/20031.039721S292A/Fujian/411/2002A/Texas/40/20030S293A/Fujian/411/2002A/Louisiana/4/20030.346574S294A/Fujian/411/2002A/Christchurch/28/2003-0.34657S295A/Fujian/411/2002A/Philippines/825/20030.346574S296A/Fujian/411/2002A/Wellington/01/20040.346574S297A/Fujian/411/2002A/Malasia/01/20040.693147S298A/Fujian/411/2002A/Victoria/110/20041.039721S299A/Fujian/411/2002A/California/7/20040.346574S300A/Kumamoto/102/02A/Korea/770/20020S301A/Kumamoto/102/02A/Wyoming/3/20030S302A/Kumamoto/102/02A/Hong_Kong/1186/20030.346574S303A/Kumamoto/102/02A/Taiwan/1529/20030.346574S304A/Kumamoto/102/02A/Shanghai/369/20031.039721S305A/Kumamoto/102/02A/Texas/40/20030S306A/Kumamoto/102/02A/Louisiana/4/20030.693147S307A/Korea/770/2002A/Wyoming/3/20030S308A/Korea/770/2002A/Hong_Kong/1186/20030S309A/Korea/770/2002A/Oklahoma/8/2003-0.34657S310A/Korea/770/2002A/Taiwan/1529/20030.346574S311A/Korea/770/2002A/Shanghai/369/20030.693147S312A/Korea/770/2002A/Texas/40/20030S313A/Korea/770/2002A/Louisiana/4/20030.346574S314A/Korea/770/2002A/Wellington/01/20040.693147S315A/Korea/770/2002A/Malasia/01/20040.346574S316A/Korea/770/2002A/Singapore/37/20042.079442V317A/Korea/770/2002A/California/7/20040.693147S318A/Korea/770/2002A/Washington/1/20042.079442V319A/Wyoming/3/2003A/Hong_Kong/1186/20030.693147S320A/Wyoming/3/2003A/Oklahoma/8/20030S321A/Wyoming/3/2003A/Taiwan/1529/20030.346574S322A/Wyoming/3/2003A/Shanghai/369/20031.039721S323A/Wyoming/3/2003A/Texas/40/20030S324A/Wyoming/3/2003A/Louisiana/4/20030S325A/Wyoming/3/2003A/Christchurch/28/2003-0.34657S326A/Wyoming/3/2003A/Philippines/825/20030.346574S327A/Wyoming/3/2003A/Wellington/01/20040.693147S108 华中科技大学博士学位论文328A/Wyoming/3/2003A/Malasia/01/20041.039721S329A/Wyoming/3/2003A/Singapore/37/20042.079442V330A/Wyoming/3/2003A/California/7/20041.039721S331A/Wyoming/3/2003A/Victoria/110/20041.039721S332A/Wyoming/3/2003A/Washington/1/20042.772589V333A/Wyoming/3/2003A/New_York/55/20041.039721S334A/Wyoming/3/2003A/Wisconsin/67/20052.079442V335A/Hong_Kong/1186/2003A/Oklahoma/8/20030.346574S336A/Hong_Kong/1186/2003A/Taiwan/1529/20030.346574S337A/Hong_Kong/1186/2003A/Shanghai/369/20031.039721S338A/Hong_Kong/1186/2003A/Texas/40/20030S339A/Hong_Kong/1186/2003A/Louisiana/4/20030.693147S340A/Hong_Kong/1186/2003A/Wellington/01/20040.693147S341A/Hong_Kong/1186/2003A/Malasia/01/20040.693147S342A/Oklahoma/8/2003A/Texas/40/20030S343A/Oklahoma/8/2003A/Wellington/01/20040.346574S344A/Oklahoma/8/2003A/Malasia/01/20040.346574S345A/Taiwan/1529/2003A/Shanghai/369/20030.346574S346A/Taiwan/1529/2003A/Texas/40/20030S347A/Taiwan/1529/2003A/Louisiana/4/20031.039721S348A/Shanghai/369/2003A/Texas/40/20030.693147S349A/Shanghai/369/2003A/Louisiana/4/20031.386294V350A/Texas/40/2003A/Louisiana/4/2003-0.34657S351A/Texas/40/2003A/Wellington/01/20040.346574S352A/Texas/40/2003A/Malasia/01/20040.346574S353A/Christchurch/28/2003A/Philippines/825/20030.346574S354A/Christchurch/28/2003A/Wellington/01/20040.693147S355A/Christchurch/28/2003A/Malasia/01/20040.693147S356A/Christchurch/28/2003A/Victoria/110/20041.039721S357A/Philippines/825/2003A/Wellington/01/20040.346574S358A/Philippines/825/2003A/Malasia/01/20040.693147S359A/Philippines/825/2003A/Victoria/110/20040.693147S360A/Wellington/01/2004A/Malasia/01/20040.346574S361A/Wellington/01/2004A/Singapore/37/20040.693147S362A/Wellington/01/2004A/California/7/20040.693147S363A/Wellington/01/2004A/Victoria/110/20040.346574S364A/Wellington/01/2004A/Washington/1/20041.386294V109 华中科技大学博士学位论文365A/Wellington/01/2004A/Wisconsin/67/20051.039721S366A/Malasia/01/2004A/Victoria/110/20040S367A/Singapore/37/2004A/California/7/20040.346574S368A/Singapore/37/2004A/Washington/1/20040.346574S369A/California/7/2004A/Washington/1/20040.346574S370A/California/7/2004A/Hiroshima/52/20051.732868V371A/California/7/2004A/Hong_Kong/2831/20051.039721S372A/California/7/2004A/Wisconsin/67/20051.039721S373A/California/7/2004A/Lyon/636/20060.346574S374A/California/7/2004A/Kentucky/03/20061.386294V375A/California/7/2004A/Nepal/921/20061.386294V376A/California/7/2004A/Brisbane/10/20070.693147S377A/New_York/55/2004A/Wisconsin/67/20051.039721S378A/Hiroshima/52/2005A/Lyon/636/20060.693147S379A/Wisconsin/67/2005A/Anhui/1239/20050.346574S380A/Wisconsin/67/2005A/Lyon/636/20061.386294V381A/Wisconsin/67/2005A/Nepal/921/20060.693147S382A/Wisconsin/67/2005A/Wisconsin/03/20070.693147S383A/Wisconsin/67/2005A/Brisbane/10/20070S384A/Wisconsin/67/2005A/Uruguay/716/20070S385A/Wisconsin/67/2005A/Perth/16/20093.812309V386A/Hong_Kong/2831/2005A/Brazil/1742/20051.386294V387A/Hong_Kong/2831/2005A/Hiroshima/52/20051.039721S388A/Kentucky/03/2006A/Florida/02/20060S389A/Nepal/921/2006A/Florida/02/20060S390A/Wisconsin/03/2007A/Brisbane/10/20070S391A/Wisconsin/03/2007A/Uruguay/716/20070.346574S392A/Brisbane/10/2007A/Uruguay/716/20070S393A/Brisbane/10/2007A/Perth/16/20092.772589V394A/Uruguay/716/2007A/Perth/16/20093.812309VaV代表抗原变异,S代表抗原相似110

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭