禽流感病毒传播过程研究

禽流感病毒传播过程研究

ID:76333170

大小:4.07 MB

页数:74页

时间:2024-02-04

上传者:笑似︶ㄣ無奈
禽流感病毒传播过程研究_第1页
禽流感病毒传播过程研究_第2页
禽流感病毒传播过程研究_第3页
禽流感病毒传播过程研究_第4页
禽流感病毒传播过程研究_第5页
禽流感病毒传播过程研究_第6页
禽流感病毒传播过程研究_第7页
禽流感病毒传播过程研究_第8页
禽流感病毒传播过程研究_第9页
禽流感病毒传播过程研究_第10页
资源描述:

《禽流感病毒传播过程研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

密级:公开论文类型:应用研究工程硕士学位论文禽流感病毒传播过程研究StudyonthePropagationofAvianInfluenzaVirus环境效应分析及应用培养单位:信息科学与技术学院专业领域:计算机技术学生姓名:李素丽校内导师:綦朝晖教授校外导师:路源高工二○一六年六月 独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得石家庄铁道大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名:日期: 摘要摘要近年来,禽流感的传播对我国养禽业的发展造成毁灭性的打击,每年都会导致数以百万计的家禽死亡或批量宰杀,经济损失巨大。2013年春季我国出现的新型H7N9禽流感病毒可以感染人类,严重威胁人类健康。对禽流感进行详细的研究分析,制定科学有效的禽流感预防和控制策略,已经成为当务之急。本文第一部分提出了一种基于蛋白质物理化学属性的序列特征提取方法,并将该方法应用于流感病毒的传播规律分析中。本文第二部分运用地理信息系统和生物信息学的技术,以1988-2015年间禽源H7N9流感病毒和2013-2015年人源H7N9流感病毒HA基因序列为研究对象,分析了禽源和人源H7N9流感病毒的进化与传播规律。研究结果有助于人们制定有效的防控措施来控制疫情的传播,减少生命和财产损失。主要工作如下:(1)提出了基于特征融合的序列特征提取方法。本文通过研究流感病毒蛋白质的物理化学属性和生物信息学技术,提出了基于特征融合的序列特征提取方法。并且验证了该方法对禽流感病毒分类的有效性,将该方法应用在流感病毒的传播规律分析中。(2)提出了基于ArcGIS平台的禽流感传播可视化分析方法。可视化分析方法包括两个部分内容。一是在地图上动态演示流感病毒的传播过程。通过使用病毒发生地经纬度的数据,将病毒精确映射到地图背景上。同时将病毒的详细信息按日期制作图层,制作组间动画动态演示病毒的传播过程。二是对流感病毒的空间分布进行相关性分析和热点分析,确定疫情高发区。(3)分析研究了禽源和人源H7N9流感病毒的传播和进化规律。本文在ArcGIS平台上实现了禽源和人源H7N9流感的传播过程的演示及环境因素的分析,分析H7N9禽流感的传播规律。同时对人源禽流感的空间分布进行热点分析,确定疫情高发城市。通过构建遗传系统发育树分析禽源和人源的传播源头,描绘了禽源和人源H7N9禽流感的进化传播模式。分析了禽源H7N9和人源H7N9在中国进化与传播的相互关系,探索了禽到人的感染模式。关键词:人源禽流感病毒;禽源禽流感病毒;H7N9;可视化分析;进化与传播规律分析 AbstractAbstractInrecentyears,thepropagationofavianinfluenzavirushasmadeadevastatingblowtothepoultryofourcountry.Millionsofsickpoultryhavediedorbeenslaughteredinbatch,resultinginhugeeconomiclossesperyear.AnovelH7N9virus,whichcouldinfecthuman,emergedinthespringof2013anddramaticallyaffectedhumanhealth.Ithasbecomeurgenttoresearchandanalysistheavianvirusandmakeascientificandeffectivecontrolstrategies.Thisstudyprovidesasequencefeatureextractionmethodbasedonthephysicalandchemicalpropertiesofprotein.ThesequencingdataofthehumaninfluenzaA(H7N9)virusfrom2013to2015andtheavianinfluenzaA(H7N9)virusfrom1988to2015arechoseninthisstudyasexperimentalsubjects.TheevolutionandpropagationrulesoftheavianandthehumaninfluenzavirusareinvestigatedbytheGeographicInformationSystemandbioinformatics.Theresultcanbeusedindevelopingeffectivemeasurestocontrolthepropagationoftheepidemicandreducethelossoflifeandproperty.Themainworkofthisstudyissummarizedasfollows:(1)Asequencefeatureextractionmethodisproposedbasedonfeaturefusion.Asequencefeatureextractionmethodisdevelopedbasedonfeaturefusionbystudyingthephysicalandchemicalpropertiesofinfluenzavirusproteinsandthismethodcanbeverifiedbythebioinformatics.Weverifytheeffectivenessofthemethodforclassificationofavianinfluenzavirus,confirmingthepotentialofthemethodintheanalysisofthelawofthetransmissionofinfluenzavirus.(2)AvisualanalysismethodofavianinfluenzatransmissionisproposedbasedontheArcGIS.Thevisualanalysismethodincludestwoparts.Inthefirstpart,thepropagationprocessoftheinfluenzavirusisshowedonthemap.Thevirusispreciselymappedwiththelatitudeandlongitudeofthevirusdata.Wemakethelayerbydatewhichcontaineddetailedinformationofthevirus,andmakethegroupanimationtodemonstratethepropagationofvirus.Inthesecondpart,thecorrelationanalysisand Abstractthehotspotanalysisareusedtodeterminethehighincidenceoftheepidemicareabasedonthespatialdistributiondataofavianinfluenza.(3)TheevolutionandpropagationrulesoftheavianandthehumaninfluenzaA(H7N9)virusarestudiedinthelastpartofthepaper.TheavianandhumanH7N9influenzatransmissionprocessandtheanalysisofenvironmentalfactorsareimplementedbasedontheArcGIS.Ontheseresults,thetransmissionrulesofH7N9avianinfluenzaarediscussed.Thehotspotanalysisismadetodeterminethehighincidencecityofhumanavianinfluenzabasedonthespatialdistributiondataofhumanavianinfluenza.Accordingtophylogenetictreeresults,thetransmissionsourceofavianandhumanisanalyzedandtheevolutionmodelofH7N9avianinfluenzaisconstructed.TheinfectionmodelofaviantohumanisalsoestablishedbyanalyzingtherelationshipbetweentheavianandhumanH7N9inChina.Keywords:humanavianinfluenzavirus,avianinfluenzavirus,H7N9,visualanalysis,analysisofevolutionandpropagation 目录目录第一章绪论...........................................................................................................11.1课题研究背景..................................................................................................11.2课题研究的目的及意义..................................................................................11.3人源H7N9禽流感研究现状...........................................................................21.3.1临床表现...................................................................................................21.3.2流行病学研究...........................................................................................31.3.3病原学研究...............................................................................................31.4论文的研究内容和研究方法..........................................................................41.5论文结构安排..................................................................................................4第二章地理信息系统和生物信息学在流行病学研究中的应用...........................62.1蛋白质结构简介..............................................................................................62.2地理信息系统与流行病学研究......................................................................72.2.1概述...........................................................................................................72.2.2在流行病学中的应用...............................................................................72.2.3ArcGIS简介..............................................................................................82.3生物信息学与流行病学研究..........................................................................82.3.1概况...........................................................................................................82.3.2在禽流感病毒研究中的应用...................................................................92.4本章小结........................................................................................................10第三章基于特征融合的序列特征提取方法.........................................................113.1概述................................................................................................................113.2蛋白质序特征提取方法简介........................................................................113.2.1常用的蛋白质序特征提取方法.............................................................113.2.2氨基酸的物化特性简介.........................................................................123.2.3特征融合的概念.....................................................................................123.3基于多种理化属性融合的蛋白质序特征提取方法....................................123.3.1基于氨基酸物化属性的氨基酸序列的图形表示.................................123.3.2基于多种物化属性的特征向量的构建和分析.....................................153.3.3蛋白质序列的相似性分析.....................................................................173.4禽流感病毒分类的有效性分析....................................................................18-I- 目录3.5本章小结........................................................................................................20第四章基于ARCGIS平台的禽流感传播可视化分析方法...................................224.1概述................................................................................................................224.2禽流感传播过程可视化的演示方法............................................................224.2.1病毒信息提取和预处理.........................................................................224.2.2H7N9禽流感疫情传播的可视化...........................................................264.2.3禽流感菌株变异情况在地图上的动态演示方案.................................294.3禽流感病毒传播过程的可视化演示............................................................314.3.1ArcGIS平台上的禽流感的传播过程描述............................................314.3.2禽源禽流感传播传播过程模拟.............................................................324.3.3人源禽流感传播传播过程模拟.............................................................354.4空间聚类分析和环境因素分析....................................................................354.4.1基于ArcGIS的空间聚类分析...............................................................354.4.2环境因素与H7N9禽流感空间传播规律分析......................................374.5本章小结........................................................................................................37第五章禽源和人源H7N9流感病毒的进化与传播过程分析...............................385.1概述................................................................................................................385.2禽源H7N9流感病毒的传播进化模式.........................................................385.2.1基于ArcGIS平台禽源H7N9的进化与传播规律分析.......................395.2.2禽源H7N9流感病毒的进化特征分析..................................................445.3人源H7N9流感病毒的传播进化模式.........................................................465.3.1基于ArcGIS平台人源H7N9的进化与传播规律分析.......................465.3.2人源H7N9流感病毒的进化特征分析(2013-2015)........................545.4禽源H7N9和人源H7N9在中国进化与传播的相互关系.........................565.5本章小结........................................................................................................59第六章结论与展望.................................................................................................606.1结论................................................................................................................606.2展望................................................................................................................60参考文献.....................................................................................................................62致谢.............................................................................................................................66个人简历、在学期间的研究成果及发表的学术论文.............................................67-II- 第一章绪论1.1课题研究背景病毒按照遗传物质的不同可分为三类:DNA病毒、RNA病毒、蛋白质病毒。很多RNA的聚合酶没有校正功能,因而就更容易变异。RNA病毒变异速度快,不容易被机体内免疫系统识别,所以RNA病毒的疫苗较难开发,由此引发的流感疫情控制难度大[1]。禽流感病毒属于RNA病毒[2]。禽流感是由禽流感病毒引发的烈性传染病,感染物种的针对性比较强。一般只感染鸟禽类,在特殊情况下才会感染猪。还有一种极其特殊的情况,当病毒产生对人亲和的基因突变时,可能会跨越物种屏障感染人类[3],这种变异发生的概率极低,但人一旦感染病毒后病死率非常高。人感染禽流感病毒的病死率甚至超过了非典,禽流感对人类健康造成巨大威胁。同时,禽流感的传播对畜牧业的发展造成毁灭性的打击,导致活禽市场长时间关闭。每年都会导致数以百万计的家禽因流感而死亡或是批量宰杀,经济损失巨大。所以,当务之急是对禽流感进行详细的研究分析,找到病毒的传染源,采取隔离等措施减少人类感染禽流感病毒的风险。制定科学有效的禽流感预防和控制策略,控制禽流感的进一步扩散传播。随着科技的不断进步,更多的先进技术被应用于生物学、医学等领域的研究。因此,通过跨部门和多学科的合作,综合运用多种新的技术手段来研究禽流感病毒,是目前国内外学者关注的课题和研究方向。1.2课题研究的目的及意义新型H7N9病毒在禽类中呈现无症状流行势态,使得病毒进行监测的难度加大。如果该病毒在禽类间持续传播,并保持高效的进化变异速率,则并不排除未来再次爆发大规模人际间疫情的可能性。为了应对未来可能卷土重来的疫情,已有很多的人致力于禽流感病毒的研究,也取得了很多有价值的研究成果。本文选择H7N9禽流感病毒的血凝素(HA)基因为研究对象。同时运用生-1- 物信息学和地理信息系统的技术和方法,研究禽流感病毒在世界范围内的传播,并分析研究其传播规律,帮助人们研究病毒的流行取向、有效地预测疫情的传播变化,从而制定更加积极有效的防治措施。本文通过对1988-2015年间来自于全球的禽源进行分析和在世界地图背景上演示其传播过程,研究和分析流感病毒的进化和传播规律。同时对2013-2015年间来自中国的人源H7N9流感病毒样本,通过地理信息系统的技术模拟流感疫情在世界范围内随时间推移传播过程,分析流感病毒的传播状态和流行趋势,从而有助于研究人员分析研究禽流感病毒的流行取向并预测疫情的传播变化。1.3人源H7N9禽流感研究现状目前人畜共患的禽流感病毒亚型主要有:H5N1、H9N2、H7N7、H7N2和H7N3。2013年3月底在我国初次出现H7N9禽流感病毒感染人,并造成严重的人间感染。H7N9禽流感疫情已经引起全球公共卫生关注,积极协助我国研究科学有效的禽流感防控策略。国内外越来越多的研究人员致力于对H7N9流感病毒的研究,主要从临床表现、病毒变异重组模式、病毒序列分析与进化、病毒致病机理以及耐药性、传播力及疫苗的研发等方面入手研究流感病毒。1.3.1临床表现至2015年11月28日,全国累计确诊616例人感染H7N9禽流感的病例。H7N9病毒轻微感染者与感染流行性感冒的症状类似,严重的患者出现持续的肺炎和急性呼吸窘迫综合症(ARDS)[4-5],其中部分患者会伴有一些严重的并发症,比如顽固性低氧血症和多器官功能衰竭[6]。通常人感染禽流感死亡率约为32%[7]。H7N9禽流感的潜伏期不超过7天,发现人感染H7N9病毒后进行现场调查和患者接触者监测的时间周期为7天。研究发现,如果病人之前患过其他疾病,则更容易感染H7N9病毒。感染禽流感患者的治愈情况也依据个人体质情况有所不同,如果患者的身体素质比较好,本身抵抗力强,则更容易治愈。如果患者本身存在基因缺陷,在感染病毒后病情更容易进一步恶化,引发并发症,造成治愈困难。-2- 1.3.2流行病学研究家禽市场中的活禽是H7N9病毒传播的最重要源头。研究发现,导致患者感染病毒的主要原因是与感染病毒的活禽接触[8]。通过实验比较从H7N9感染者身上分离的病毒和同时存在于活禽市场上的H7N9禽流感病毒,发现二者的基因序列高度相似,基本可以断定感染人的H7N9病毒来自家禽。大多数病例感染H7N9的方式为直接或间接接触感染的活禽、被其排泄物污染的环境或物品。然而,值得注意的是,在确诊的H7N9患者中,一定数量的患者并没有直接与禽类的接触史。但目前尚无明确证据表明H7N9病毒已经具备人传人的能力[9]。利用动物模型,已经证实H7N9禽流感病毒可通过直接接触在同笼小鼠间进行传播,并可通过气溶胶在雪貂间传播,表明H7N9病毒可能已具备在哺乳动物间通过多途径传播的能力[10-11]。H7N9禽流感的重点传播人群是兽医及家禽屠宰工作人员。兽医由于工作性质及其工作环境(家禽饲养场、宠物鸟、活禽市场等)需要的频繁接触病禽,家禽屠宰者需长期激烈接触家禽,造成二者都是暴露于禽流感病毒的高危人群。1.3.3病原学研究中国科学院不断研究H7N9流感的致病和传播机制,已经有了一些研究成果。研究发现,暂时没有在猪群中发现H7N9禽流感病毒的进化痕迹,在这次H7N9病毒基因重组中,猪群并没有发挥中间宿主的作用[12]。通过结构生物学技术,Shi等首次解析了H7N9病毒HA蛋白的晶体结构,并解释了H7N9病毒为何会感染人[13]。H7N9病毒8个基因的来源已基本查清:HA来自H7型AIV,NA自N9型AIV,其他6个基因均自H9N2病毒[14]。其中,H7片段源于浙江鸭群中分离的禽流感病毒,N9片段与韩国野鸟中分离的禽流感病毒同源。其他6个基因来源于中国浙江、上海、江苏等地的鸡群。韩国野鸟在自然迁徙过程中,在长三角地区停留接触到了当地的鸭群、鸡群,携带的禽流感病毒在自然条件下进行了基因重配[15]。我国是候鸟重要的迁徙地,禽鸟可以在不同国家和地区甚至是不同大陆之间进行迁徙,在迁徙过程中,非常容易造成病毒基因的重新组合生成高致病性-3- 禽流感[16]。所以我国需要建立长效机制来控制禽流感病毒的传播,积极应对未来可能出现的复杂情形。1.4论文的研究内容和研究方法论文主要的研究内容包括:(1)研究如何基于生物信息学的方法和流感病毒基因的特点,提出可行的特征提取方法,并验证方法的有效性。(2)研究人源和禽源H7N9流感病毒全球传播过程的高效的演示方法,同时对流感病毒的空间分布进行热点分析。(3)分析了1988-2012年间禽源H7N9流感病毒和2013-2015年间人源H7N9流感病毒的进化和传播规律。论文主要的研究方法包括:(1)文献调研法:通过查阅相关的图书、资料和文献,全面掌握所需材料,为研究工作的开展打下良好的理论基础。(2)比较研究法:将新方法与现有方法进行对比,突出新方法的优势所在。(3)总结归纳法:通过观察地图上流感病毒随时间变化传播的过程,分析总结人源和禽源H7N9流感病毒的传播流行趋势。(4)理论和实践结合法:将提出的传播演示方法具体操作实现,将传播结果进行直接的展示,更好地对禽流感病毒的传播模式进行研究分析。1.5论文结构安排论文共分为六个章节,各章节的内容包括:第一章为绪论。介绍了课题的研究背景、目的、意义及研究现状,简单介绍了论文的主要研究内容和研究方法以及论文的组织结构。第二章为地理信息系统和生物信息学知识的介绍。第三章详细阐述了基于多种理化属性融合的特征提取方法。通过抽取了11条禽流感病毒,验证方法有效的应用于流感病毒的HA基因序列的进化分析。第四章提出了流感病毒传播情况在地图上动态演示方法,在ArcGIS平台上实现流感病毒基于时间和空间的传播过程模拟。本章还运用基于ArcGIS平台的空间分析方法,并进一步将环境因素作为分析对象,分析菌株(疫情)分布与-4- 环境特征的对应关系。第五章运用前两章提出的序列特征提取和禽流感传播可视化分析方法,分别研究了禽源H7N9流感病毒和人源H7N9流感病毒,分析H7N9禽流感病毒传播模式及禽源和人源之间的传播关系。第六章对全文主要研究工作进行总结,分析工作的不足之处,指出以后研究中需要改进的内容。论文整体结构框架如图1-1所示。图1-1论文组织结构-5- 第二章地理信息系统和生物信息学在流行病学研究中的应用2.1蛋白质结构简介蛋白质决定了细胞的形状和结构,同时蛋白质也是分子识别及催化作用的主要主体。蛋白质是由氨基酸分子通过脱水缩合构成的线性聚合物。每个氨基酸是由一个位于中心的碳原子以及用共价键跟它相连的四个基团组成的,如图2-1所示。根据R基团不同,氨基酸可以分为很多种。侧链R基团的不同,导致了不同的氨基酸之间在结构、功能、形态、性质等方面的不同。图2-1氨基酸的结构简图表2-120种天然氨基酸氨基酸名称英文缩写简写氨基酸名称英文缩写简写甘氨酸(Glycine)GlyG丝氨酸(Serine)SerS丙氨酸(Alanine)AlaA苏氨酸(Threonine)ThrT脯氨酸(Proline)ProP半胱氨酸(Cystine)CysC颉氨酸(Valine)ValV天冬酰胺(Asparagine)AspN亮氨酸(Leucine)LeuL谷氨酰胺(Glutarnine)GlnQ异亮氨酸(Isoleucine)HeI赖氨酸(Lysine)LysK甲硫氨(Methionine)MetM组氨酸(Histidine)HisH苯丙酸(Phenylalanine)PheF精氨酸(Arginine)ArgR酪氨酸(Tyrosine)TyrY天冬氨酸(Asparticacid)AspD色氨酸(Tryptophan)TrpW谷氨酸(Glutamicacid)GluE组成蛋白质的天然氨基酸共有20种如表2-1所示。按蛋白质空间结构的复杂程度,可以将蛋白质结构划分为四个层次。氨基酸序列称为蛋白质的一级结构。在一维序列的基础上,由相邻位置上的连续的几个氨基酸折叠而形成的具-6- 有一定规则并具有较稳定空间结构的片段子结构称为二级结构,典型的有如下几个:α螺旋结构、β折叠结构、无规则卷曲和回折结构等[17]。将二级结构压缩打包成一个或多个三维的域,就是蛋白质的三级结构。多个蛋白域构成蛋白质的四级结构。2.2地理信息系统与流行病学研究2.2.1概述地理信息系统(GeographicInformationSystem,GIS)是一门处理空间数据的学科,已被广泛引用于国土、环境保护、农业、林业和交通运输等各个部门,并深入到社会经济的各个方面。地理信息学是由多种学科如地理学、测量学、统计学、空间科学、计算机科学、环境学等组成的综合学科。GIS系统综合了计算机软、硬件的技术,具有强大的空间数据处理功能,可为地理研究和地理决策提供多样化的服务。2.2.2在流行病学中的应用利用GIS系统独有的空间分析功能,对流行疾病的时空分布现状、演变过程以及疾病未来的可能的发展趋势进行分析。GIS在流行病学中的应用主要包括以下几个方面:(1)疫情数据的可视化。GIS可以将疾病的发病时间、发病地点用地图的方式显示出来,分析者通过计算可以快速定位疾病的高发区,为制订适宜的防治策略和措施奠定基础。(2)疫情的动态演示。在地图上动态的反应出疾病的时空演变过程。(3)外界因素分析。流行病与地貌、水文特征和气候变化等环境要素和人口密度等人文环境均存在紧密联系,在ArcGIS软件中,通过叠加海拔分布、降水量及候鸟迁移路线等矢量地图,分析禽流感发生地区的环境因素指标。(4)空间分析。运用GIS系统集成的空间分析工具,可以判断病例分布是随机的还是具有地区聚集性,并据此指定更加合理的疫情控制策略。-7- 2.2.3ArcGIS简介ArcGIS是美国环境系统研究所(EnvironmentalSystemsResearchInstitute,ESRI)在全面整合额GIS与数据库、软件工程、人工智能及其他多方关键技术之后,推出的一个统一的地理信息平台。它是一个可压缩平台,为用户提供了桌面、服务器及Web应用等多种形式的GIS服务。产品的基本框架如下:(1)桌面GIS。提供专业信息制作和使用平台,桌面GIS可以用来管理复杂的GIS流程和应用工程,创建数据、地图、模型和应用。提供三个独立的软件产品:ArcView提供全面的制图、数据使用、分析及简单的数据编辑和空间处理能力:ArcEditor包含了shapefile和Geodatabase的高级编辑功能;Arcinfo在ArcToolbox中提供了一个综合的工具集合,支持高级的空间处理和多边形处理。(2)服务器GIS。与桌面GIS相比,服务器GIS可以更好地以集中的方式利用GIS专业人员来创建和管理信息及资源。可作为一个平台发布和共享二维、三维地图、空间处理模型和应用。提供的服务器产品包括:ArcIMS、ArcGISSever和ArcGISImageSever。ArcIMS是一个可伸缩的、高性能的地图网络发布软件。ArcGISSever用于构建集中管理的、支持多用户的、具备高级GIS功能的企业级GIS应用与服务。ArcGISImageSever是基于网络提供动态影像处理服务的服务器端软件。(3)移动GIS。移动GIS技术可以部署在一系列的移动设备上,从轻量级的设备到PDA、笔记本电脑及平板电脑。提供了野外作业使用GIS的三种解决方案。ArcGISdesktop定制桌面应用部署在野外的笔记本电脑或平板电脑上。ArcPad提供给使用WindowsCE兼容设备的野外工作人员。ArcGISMobile被用于智能手机及PocketPC上。(4)开发GIS。开发GIS包括ArcGISEngine和EDN(开发者网络)产品,为开发人员提供了可编程的GIS工具包,既可以在现有的应用系统嵌入GIS功能,又可以定制基于桌面和基于Web的应用。2.3生物信息学与流行病学研究2.3.1生物信息学概况-8- 生物信息学是伴随着人类基因组计划发展的新兴的交叉学科,体现了生物计算机科学、数学、物理学等学科间的渗透和融合。生物信息学很大一部分工作体现在生物数据的收集、存储、管理和提供上,包括:建立国际基本生物信息库和生物信息传输的国际联网系统;建立生物信息数据质量的评估与检测系统;生物信息的在线开发和在线服务;生物信息可视化和专家系统。目前大部分的核酸和蛋白质数据库有美国、欧洲和日本三家数据库系统产生,比较著名的生物资源库为NCBI、EMBL、KEGG等。我国对生物信息学的研究也越来越重视。1996年北京大学建立了国内第一个生物信息学网络服务器,开始建立国内自己的生物信息学机构、创建特色的专业数据库及分析技术,我国的生物信息学技术得到蓬勃发展。生物信息学以生物数据为研究对象,其研究方向主要包括:序列比对、分子进化和基因重组、蛋白质结构预测、分析研究基因的非编码区和建立进化模型等[18-21]。研究内容涉及各个生命科学领域。2.3.2生物信息学在禽流感病毒研究中的应用生物信息学已深入到禽流感研究的各个层次,从微观的禽流感病毒基因组遗传变异到宏观的禽流感病毒的扩散等都有生物信息学的应用。目前,生物信息学理论和方法在禽流感病毒研究中的具体应用主要表现在以下几个方面[20,22]。(1)构建系统发育树。系统发育树是表明被认为具有共同祖先的各物种相互间演化关系的树,通过类似树状分支的图描述物种之间的进化关系。进而推断基因重组、进化来源或研究病毒基因之间的同源关系[22]。(2)病毒基因正选择压力在流感病毒研究中的应用。物种通过进化选择更加适应环境的生存下来,从而使得物种获得遗传优势。通过筛选和密切关注病毒基因正向选择基因位点来分析预测流感病毒的进化趋势。(3)病毒的RNA和蛋白质结构预测。流感病毒的遗传物质单链RNA结构不稳定,极易产生变异。通过生物信息学技术手段可以对禽流感病毒基因组各个基因片段进行RNA和蛋白结构预测,为人们研究流感病毒的进化机制提供了一种方法。(4)辅助流感疫苗开发。RNA病毒变异速度快,不容易被机体内免疫系统的识别,所以RNA病毒较疫苗较难开发。生物信息学可以帮助筛选病毒基因组内主要的抗原位点,辅助设计蛋白的核酸疫苗和多肽疫苗。-9- (5)流感病毒传播模式研究。运用数学模型综合系统发育树分析、候鸟迁徙数据和地理信息系统的数据,将有助于研究禽流感病毒快速传播的途径及方式。2.4本章小结本章首先介绍了禽流感病毒的基础知识。简单说明了有关地理信息系统的概念、研究内容、在流感病毒研究的应用及本文使用的软件平台ArcGIS。详细介绍了生物信息学在流感病毒研究的应用。本文的研究综合了生物信息学和地理信息系统的手段和方法,对禽流感的进化和传播规律展开研究。-10- 第三章基于特征融合的序列特征提取方法3.1概述蛋白质的结构是由氨基酸序列及其之间的物理化学作用决定的[23,24]。需要有效的表示方法将序列中包含的功能信息提取出来。把数据量很大的生物序列转化为数值向量,通过比较数值向量的距离来分析序列的进化距离,解决了蛋白质相似性难以定量度量的问题[20]。其中图形表示方法应用广泛,它实现了生物序列复杂的关系可视化[25]。3.2蛋白质序特征提取方法简介3.2.1常用的蛋白质序特征提取方法常用的基于氨基酸序列的特征提取方法有两类。一类是基于氨基酸组成和位置的特征提取算法如(AminoAcidComposi-tion,AAC)、熵密度(EntropyDensityProfile,EDP)、n阶耦联组成(n-OrderCoupledComposition,n-OCC)和完全信息集(CompleteInformationSet,CIS)等。这类算法的特点是计算比较简单,易于实现,缺点是丢失了许多信息。另一类是基于氨基酸物理化学性质的特征提取方法如自相关函数、伪氨基酸组成(PseudoAminoAcidComposition,PseAA)及疏水模式等方法[26,27]。氨基酸理化性质组成模型(PCC)是根据多种种理化性质进行蛋白质特征提取方法。氨基酸分子的重要的物理化学性质比如疏水性、极性、极化度、和可溶性[28-33]。方法大致可以归结为两类。一类是选取氨基酸的部分属性进行特征提取。这类方法的缺陷是没有全面利用氨基酸的物化属性,只是基于部分属性的结果。另一类方法是利用多种物理属性将20中氨基酸分为若干组,将一组的氨基酸作为一类进行编码表示来提取特征。这类方法的缺陷是对同类中氨基酸对等看待,忽略了个体差异。基于氨基酸全部的理化特性,目前需要解决的问题是特征向量的维数高,计算量非常大。由此本文提出一种基于多特征融合的蛋白质序特征提取方法,通过特征融-11- 合来增加特征向量的信息量以提高蛋白质分类的准确度[34]。3.2.2氨基酸的物化特性简介本文选取了氨基酸比较典型的10种属性,分别是亲疏水性、分子质量、等电位(PI)、极性、(-COOH)的解离常数(PK1)、NH的解离常数(PK2)3[35]、酯化度PCI(aliphaticity)、氢化度PCII(hydrogenation)、芳香度PCIII(aromaticity)、硫醇化度PCIV(hydroxythiolation)。表3-1列出了这10种属性值,下一节的基于属性的特征提取方法中将用到表中数据。3.2.3特征融合的概念串行特征融合是一种比较常用的特征融合方法。假设有两个用不同特征提取算法提取的特征向量v和v,特征的维数分别为n,n。设特征向量v和v的121212权重系数分别为w和w(ww1),则融合后的特征向量如公式3-1所示。1212Vwvwv11,22(3-1)融合后的特征向量既合理反应了各种特征的特殊性质,又体现了各单一特征对预测的影响程度[34]。基于串行融合的原理可以将多种物理属性进行多特征融合,组成新的蛋白质特征向量,实现氨基酸的物化属性的全面利用。3.3基于多种理化属性融合的蛋白质序特征提取方法3.3.1基于氨基酸物化属性的氨基酸序列的图形表示观察氨基酸的物化属性值发现,氨基酸的属性值有正值和负值,为了提取氨基酸序列的特征信息,需要对属性值进行归一化处理。依据表中的属性值,建立映射关系,将每个属性值映射为0-1之间的数值。即最大属性值映射为1,最小值映射为0,其余的属性值一一对应0-1之间的数值。映射规则如公式3-2所示。HMvaluein:y(3-2)1MaxvalueMvaluein-12- 表3-120种氨基酸的亲疏水性、分子质量、等电位、极性、(-COOH)和(NH3)解离常数、酯化度、氢化度、芳香度及硫醇化度+氨基酸亲疏分子等电位-COOH的解-NH3的解离酯化度氢化度芳香度硫醇化度极性名称水性质量(PI)离常数PK1PCIPCIIPCIIIPCIV常数PK2A(Ala)1.889.098.18.12.349.690.2390.33-0.11-0.062C(Cys)-4.5121.165.55.51.7110.280.220.074-0.1840.38D(Asp)-3.5133.1013.013.02.099.60.171-0.371-0.285-0.079E(Glu)-3.5147.1312.312.32.199.670.187-0.254-0.067-0.184F(Phe)2.5165.195.25.21.839.130.2340.0110.4380.074G(Gly)-3.575.079.09.02.349.600.160.37-0.073-0.017H(His)-3.5155.1610.410.41.829.170.205-0.0780.320.074I(lle)-0.4131.176.025.22.369.680.2730.1490.001-0.309K(Lys)-3.2146.199.7411.32.188.950.228-0.0750.049-0.371L(Leu)4.5131.175.984.92.369.600.2810.129-0.008-0.264M(Met)3.8149.215.745.72.289.210.253-0.092-0.0410.077N(Asn)-3.9132.125.4111.62.029.60.249-0.233-0.1360.166P(Pro)1.9115.136.308.01.999.600.1650.37-0.016-0.036Q(Gln)2.8146.155.6510.52.179.130.26-0.409-0.246-0.025R(Arg)-1.6174.2010.7610.52.1710.760.211-0.1760.079-0.167S(Ser)-0.8105.095.689.22.219.150.2360.022-0.1530.47T(Thr)-0.7119.126.168.62.639.150.2130.136-0.2080.348V(Val)-0.9117.155.965.92.329.620.2550.245-0.1550.212W(Trp)-1.3204.235.895.49.390.1830.0110.4930.052.38Y(Tyr)4.2181.195.666.22.209.110.193-0.1380.3810.22-13- 以氨基酸的亲疏水性为例,依据映射规则得到对应的映射值见表3-2。表3-220种氨基酸的亲疏水性映射值映射值氨基酸名称亲疏水性H氨基酸名称亲疏水性H映射值yyA(Ala)1.80.7M(Met)3.80.92C(Cys)-4.50N(Asn)-3.90.07D(Asp)-3.50.11P(Pro)1.90.72E(Glu)-3.50.11Q(Gln)2.80.81F(Phe)2.50.78R(Arg)-1.60.32G(Gly)-3.50.11S(Ser)-0.80.41H(His)-3.50.11T(Thr)-0.70.42I(lle)-0.40.46V(Val)-0.90.4K(Lys)-3.20.14W(Trp)-1.30.36L(Leu)4.51Y(Tyr)4.20.97对每一个理化性质指标值都进行数据归一化处理,然后根据公式(3-3)构造蛋白质序列的2D图形表示,具体的过程如下。对任意一条长度为n的蛋白质序列Ssss123...sn,利用映射2将氨基酸序列映射为2D图形中的点Pxy(,)。这里x表示氨基酸序列中第i个位置氨基酸,yiiii是第i个位置对应的氨基酸s的属性映射值。ixii(3-3)2yyisi从定点P(0,0)开始,顺次连接点(xyi,)i...(xyn,n),就得到蛋白质序列S的2D图形表示,通过映射所产生的图形与蛋白质序列形成一一对应的关系。从2而可以更直观的把序列信息反应在曲线中。根据上述的规则,可以把任意的蛋白质序列转化基于氨基酸属性的2D曲线,更加直观的进行特征分析。[25]以酵母菌的两条蛋白质序列为例,根据上述的作图方法,从而在图3-2中,给出按照20个氨基酸的亲疏水性值得到的2D图形表示。蛋白质序列I:WTFESRNDPAKDPVILWLNGGPGCSSLTGL蛋白质序列II:WFFESRNDPANDPIILWLNGGPGCSSFTGL-14- ProteinI和ProteinII中序列的长度相同,加粗的地方代表的是氨基酸不同的地方。观察这两条序列发现,不同的氨基酸有4个。从图3-1中可以直接观察到在这4个对应点是不同的。并且这两条曲线整体上是相似的,有几处序列片段是相同的。利用相同的方法和步骤,一条蛋白质序列根据另外9种理化性质指标可以产生不同的两条曲线。ProteinI1(11,0.14)0.5(27,1)(14,0.4)(2,0.42)0051015202530ProteinII10.5(11,0.07)(2,0.78)(27,0.78)(14,0.16)0051015202530图3-1基于亲疏水性得到蛋白质序列ProteinI和ProteinII的2D表示3.3.2基于多种物化属性的特征向量的构建和分析根据2D图形曲线可以直观分析氨基酸序列。为了量化研究氨基酸序列,本文将多种物理属性进行特征融合,组成新的蛋白质特征向量,以实现氨基酸的物化属性的全面利用。下面介绍特征向量的构造方法:一条氨基酸序列中,针对一种氨基酸属性,计算在序列中出现的每一类氨基酸属性值和。共有二十种氨基酸,就可以得到一组二十维的向量。对任意一条长度为n的蛋白质序列S=sss...s123n。其中si(i1,2,...,)n表示20种氨基酸中的一种,i表示在序列中的位置。针对单一一种属性而言,以20种氨基酸在蛋白质序列中出现的属性值的和来构成特征向量,就是一个20维的向量。即把蛋白质序列映射到20维欧氏空间的一个点,向量表示为:P(20)=(P(A),P(C),P(D),…,P(Y))(3-4)P(A)表示氨基酸A所对应物化属性值,P(A)表示氨基酸A在蛋白序列S中出现的氨基酸A对应属性值的累加,这样就得到了丙氨酸(A)的特征值。依次-15- 计算其余19种氨基酸的特征值,得到一个20维的特征向量P(20)。拓展为10种氨基酸属性,进行串行融合,可以得到200维的向量。即将蛋白质序列映射到200维欧氏空间的一个点,用向量表示为:P(200)=(P1,P2,P3,…,P200)(3-5)其中P~P120为依据氨基酸水性得到的蛋白质序列的20维向量,P~P2140为依据氨基酸的分子质量得到的蛋白质序列的20维向量,P~P4160为依据氨基酸的等电位(PI)得到的蛋白质序列的20维向量,P~P6180为依据氨基酸的极性到的蛋白质序列的20维向量,P~P81100为依据氨基酸的-COOH的解离常数(K1)得到的蛋白质序列的20维向量,P101~P120为依据氨基酸的-NH3的解离常数(PK2)得到的蛋白质序列的20维向量,P121~P140为依据氨基酸的酯化度(PCI)得到的蛋白质序列的20维向量,P141~P160为依据氨基酸的氢化度(PCII)得到的蛋白质序列的20维向量,P161~P180为依据氨基酸的芳香度(PCIII)得到的蛋白质序列的20维向量,P181~P200为依据氨基酸的硫醇化度(PCIV)得到的蛋白质序列的20维向量。每个蛋白质序列可以用一个多维向量来表示,进而蛋白质序列之间的相似性比较也就转换为计算多维向量之间的相似度比较。一般地,可以通过欧式距离和夹角[31,32]比较向量的相似度。两个向量的欧式距离为:N2d(m,n)=(m-n)ii(3-6)i=1欧式距离值越小的两个向量相似程度越高,欧式距离越大向量越不相似。两个向量的夹角为:Nmniii1arccos(3-7)NN22minii1i1相关系数可以度量变量间的相关程度。样本m与n的相关系数为:-16- N(mimni)(ini)i1(3-8)rNN22(mimi)(nini)i1i13.3.3蛋白质序列的相似性分析从NCBI数据库中下载9个物种的线粒体NADH脱氢酶(ND5)蛋白质序列(见表3-3),用本文中的特征提取方法,分别依据公式3-6和公式3-8,计算向量的夹角,验证分析9个物种的相似性。表3-39个物种ND5蛋白质序列信息物种名称英文名ID长度人类HumanAP_000649603大猩猩GorillaNP_008222603黑猩猩CommonchimpanzeeNP_008196603倭黑猩猩PigmychimpanzeeNP_008209603长须鲸FinwhaleNP_006899606蓝鲸BluewhaleNP_007066606大鼠RatAP_004902610小鼠MouseNP_904338607负鼠OpossumNP_007105602根据进化距离,进而对9个物种两两进行比较,实验结果见表3-4。通过分析距离数据,得到以下结论。(1)大猩猩、倭黑猩猩、黑猩猩和人类这四个物种的线粒体NADH脱氢酶很相似,因为它们之间的距离相对较小,符合进化关系,从图3-2的2D曲线中可以更直观的观察到,人类和猩猩更接近。(2)长须鲸和蓝鲸非常相似,说明二者之间存在进化关系,这与实际情况是一致的。(3)负鼠应该与其他8个不同物种相差最远,但负鼠和小鼠、大鼠相对接近,这可能是因为负鼠也是一种鼠,在某些区域与大鼠和小鼠应该是相似的。但是负鼠和人类、大猩猩、倭黑猩猩、黑猩猩的相似性不高,尤其是负鼠和人类的-17- 相似距离最远,说明人与负鼠这两个物种进化关系较远,这与实际是相符合的。表3-49个物种ND5蛋白质序列基于氨基酸属性特征提取的进化距离(夹角)4(10)大猩猩倭黑猩猩黑猩猩长须鲸蓝鲸大鼠小鼠负鼠人类7.543.445.7714.115.568.692.1152大猩猩_9.469.9212.716.863.389.8129倭黑猩猩__2.57416.917.964.792.3148黑猩猩___12.213.251.880.5126长须鲸____1.6056.973.3115蓝鲸_____57.971.9123大鼠______13.038.4小鼠_______49.165HumanGorilla4321002468101214161820图3-2人类和大猩猩的2D曲线3.4禽流感病毒分类的有效性分析数据来自于NCBI中GenBank数据库(http://www.ncbi.nlm.nih.gov)已经注册的三种高致病性禽流感(HPAI)病毒HA基因的氨基酸序列,包括H5N1、H3N2、H7N9,选取11条中国有代表性的菌株序列(见表3-5)。按照上一节中提出的基于氨基酸属性的方法进行特征提取,建立特征向量,应用两序列之间的欧式距离得到了序列之间的相似性距离(见表3-6)。-18- 表3-5所选用病毒植株的序列表植株编号AccessionNoVirusstrainsH3N21AFN66843A/duck/Guangdong/W12/20112011/12/22HAH3N22AFO83467A/duck/Shanghai/C84/20092009/03/01HAH3N23AIJ10978A/duck/Shanghai/SH3/20132013/04/26HAH3N24AHL24597A/duck/Zhejiang/D13/20132013/10/16HAH5N15AIK26444A/pigeon/Sichuan/NCXN29/20142014/04/27HAH5N16ALE66393A/pigeon/Hubei/RP25/20122012/12/21HAH5N17AGO87171A/duck/Hunan/S4030/20112011/11/09HAH7N98AGQ80952A/duck/Jiangxi/3096/20092009//HAH7N99AGN69420A/pigeon/Zhejiang/P2/20132013/04/HAH7N910AJJ91861A/chicken/Jiangxi/12554/20132013/04/07HAH7N911AJJ98346A/chicken/Jiangxi/18513/2014/HA表3-611个典型HPAI病毒蛋白质序列基于氨基酸属性特征提取的进化距离(夹角)4(10)23456789101115.897.237.7984.486.492.735.833.532.935.12_10.111.610111211833.232.331.132.23__3.9398.210910934.938.737.735.84___94.799.710340.841.540.240.15____16.223213812.91221306_____14815113.21261387______15513.61311388_______3.954.274.349________0.311.3610_________1.41对11个病毒的HA基因两两进行比较,通过分析距离数据得到以下结论。(1)根据距离关系,11个基因的可以分为三组:编号1-4为一组,编号5-7为一组,编号8-10为一组。根据数据来源,编号1-4为H3N2基因,编号5-7为H5N1基因,编号8-10为H7N9基因。这与实际情况相符合。(2)编号8-10与编号1-4距离值相对小,两组的相似性更高。表明相对而-19- 言,H7N9与H3N2的同源性比H5N1高。同时,为了进一步验证结论的正确性,选用NCBI建树软件构建进化树。软件中建树的方法有很多,本文选择Neighbor-Joining建树法,对表3-5中的11个基因构建进化树(见图3-3)。图中小数表示距离,距离越小表示亲缘关系越近。右面的数字表示样品号。从图中可以清楚的看到H7N9组与H3N2组进化关系较近,同源性最高。H7N9组与H5N1组进化关系较远。这个结果进一步验证了结论(2)的正确性。AFN66843A/duck/Guangdong/W12/2011HA(H3N2)AFO83467A/duck/Shanghai/C84/2009HA(H3N2)AIJ10978A/duck/Shanghai/SH3/2013HA(H3N2)AHL24597A/duck/Zhejiang/D13/2013HA(H3N2)AGQ80952A/duck/Jiangxi/3096/2009HA(H7N9)AGN69420A/pigeon/Zhejiang/P2/2013HA(H7N9)AJJ91861A/chicken/Jiangxi/12554/2013HA(H7N9)AJJ98346A/chicken/Jiangxi/18513/2014HA(H7N9)ALE66393A/pigeon/Hubei/RP25/2012HA(H5N1)AIK26444A/pigeon/Sichuan/NCXN29/2014HA(H5N1)AGO87171A/duck/Hunan/S4030/2011HA(H5N1)图3-311个禽流感病毒的系统发育树3.5本章小结本章基于常用蛋白质特征提取方法的不足之处,比较全面的考虑了蛋白质序列长度信息和理化属性信息,提出了基于多种理化属性融合的特征提取方法,把蛋白质序列转化为200维特征向量。依据特征向量建立2D图形,直观地分析基因的相似性。抽取了11条禽流感病毒HA基因序列作为样本,然后利用上述特征提取方法进行特征向量表示。根据特征向量,计算两序列之间的特征向量-20- 夹角,得到了序列之间的相似性矩特征提取方法有效的应用于流感病毒的HA基因序列的进化分析。通过构建系统发育树,验证本章方法的准确性和有效性。-21- 第四章基于ArcGIS平台的禽流感传播可视化分析方法4.1概述H7N9禽流感自出现以来引发的流感疫情严重威胁着家禽的健康,给家禽饲养业造成重大经济损失。目前并没有出现人感人的H7N9病例,对患者跟踪研究表明,患病原因都是直接或间接接触被感染的活禽或病死禽类。直接从事家禽屠宰行业的人员是高危人群,特别是年龄超过60岁的老年人则更加容易感染,并且容易发展为重症。学者们运用生物信息学手段取得了很多有价值的研究成果。但是,人们更多的从病毒基因变异上追踪禽源流感病毒的进化规律,很少从关注地域上H7N9禽流感的传播规律。然而,研究禽流感病毒在不同地区的传播,对于禽流感防控工作有重要指导作用。本文期望通过一定的方法实现对人源和禽源H7N9流感病毒的空间分布数据的进行分析研究,以期发现H7N9流感病毒的传播规律。基于基因序列能够研究分析流感病毒的变异情况,但无法确定流感病毒在时间和空间上的传播过程。因此,本章提出一种基于ArcGIS平台的方法来研究分析H7N9流感病毒的时空传播模式。4.2禽流感传播过程可视化的演示方法4.2.1病毒信息提取和预处理进行可视化表示,需要的信息主要有病毒的菌株号、菌株提取日期和发生城市以及是宿主(比如在人类身上提取的宿主就为人,称为人源)等相关信息。编写程序将需要的信息从下载的基因中提取出来,按照需要的格式进行保存即可。通过编程可以将城市名称映射为经纬度。依据经纬度信息,便可以把流感菌株直观的标注在地图上的相应位置。再按日期制作图层,就可以清楚地知道什么时间什么地点有新的病毒菌株出现。4.2.1.1病毒基因的获取和数据预处理-22- H7N9流感病毒HA基因源数据可以从“NCBIInfluenzaVirusResourceInformation,SearchandAnalysis”网站上下载。打开浏览器,在地址栏里输入“http://www.ncbi.nlm.nih.gov/genomes/FLU/FLU.html”,然后选择数据库的标签“Database”,如图4-1所示,在自定义选项“Definesearchset”下分别选择类型Type:A;人源H7N9流感病毒选择宿主Host:Human,禽源源H7N9流感病毒选择宿主Host:Avian;国家和地区Country/Region:any;蛋白质Protein:HA;子类型Subtype:H7N9;搜集日期Collectiondate根据自己的需要进行选择。接着点击“Addquery”按钮即可在序列“Querybuilder”中得到数据检索结果。点击“Showresults”可以查看基因的菌株编号、基因长度、宿主、病毒类型、提取国家、提取日期,病毒名称等详细信息,如图4-2所示。点击“date”将数据按时间进行排序,为下一小节病毒数据处理提供方便。在信息栏中选择“Nucleotide(FASTA)”,点击“Download”按钮下载,选择保存位置即可得到H7N9流感病毒的源数据了。图4-1查找2013-2015年人源H7N9的HA蛋白全序列图4-2HA序列部分信息显示结果源数据文件是FASTA.fa格式,可以用Notepad++文本编辑器来打开。其中-23- 的部分数据内容如下。>AGI60301A/Hangzhou/1/20132013/03/24HAMNTQILVFALIAIIPTNADKICLGHHAVSNGTKVNTLTERGVEVVNATETVERTNIPRICSKGKRTVDLG….IRNNTYDHSKYREEAMQNRIQIDPVKLSSGYKDVILWFSFGASCFILLAIVMGLVFICVKNGNMRCTICI>AGI60292A/Shanghai/4664T/20132013/03/05HAMNTQILVFALIAIIPANADKICLGHHAVSNGTKVNTLTERGVEVVNATETVERTNIPRICSKGKRTVDLG…IRNNTYDHSKYREEAMQNRIQIDPVKLSSGYKDVILWFSFGASCFILLAIVMGLVFICVKNGNMRCTICI方便下一节中数据的处理,需要对源数据进行按日期排序。同时完全重和的病毒植株需要合并,其中同一日期的完全一样的菌株用一个表示。HA序列的菌株收集日期格式有三种:只有年份、只有年份月份、年月日都有。为了对日期的进行排序,需要将日期统一格式为年月日的形式。缺少的月份和日期的用“00”来填充。同时需要将日期中的分隔符“/”去掉。比如源数据格式为2013,最终日期格式为20130000。本文选择Perl语言编程来实现这些数据处理。Perl语言具有处理正则表达式的功能,它可以很容易操作数字,文本,文件和目录数据,有很强的字符处理能力。统一日期格式的部分Perl源代码如图4-3所示。图4-3统一日期格式的部分Perl源代码-24- 最终的提取的数据保存为data.txt,数据内容如下:>AHZ60096,Anhui,20130000>AGI60292,Shanghai,20130305>AGL44438,Shanghai,20130305>AGS42061,Changsha,201303224.2.1.2发生地经纬度数据的获取对于世界各大城市的经纬度数据,到网址“http://www.gpsspg.com/maps.htm”查询。同时该网址可以依据城市名称计算两地之间的实际距离,可以用于进一步研究病例的传播过程。病毒源数据中的发生地信息有四种类型。第一种给出国家的名称,则用该国家首都的经纬度代表国家的经纬度信息;第二种给出省份的名称,则用该省省会城市的经纬度代表该省的经纬度信息;第三种给出美国州名时,则用该州州府(类似于省的省会)城市的经纬度代表该省的经纬度信息;还有一种是直接给出发生地的城市名成,直接查询该城市的维度信息即可。将病毒出现的城市的经纬度信息单独整理成文档信息,统一保留两位小数,用逗号分隔,部分城市经纬度数据如下:安徽,117.27,31.86香港,114.10,22.20台湾,121.30,25.03北京,116.24,39.55特拉华州,-75.25,39.12明尼苏达州,-93.09,45.954.2.1.3病毒数据的进一步处理以其中的一条数据块为例对得到的病毒源数据进行处理。>AGI60301A/Hangzhou/1/20132013/03/24HAMNTQILVFALIAIIPTNADKICLGHHAVSNGTKVNTLTERGVEVVNATETVERTNIPRICSKGKRTVDLG….IRNNTYDHSKYREEAMQNRIQIDPVKLSSGYKDVILWFSFGASCFILLAIVMGLVFICVKNGNMRCTICI需要从中提取菌株编号,发生地城市、提取日期信息,也就是“>AGI60301-25- Hangzhou2013/03/24”,可以通过Perl编程进行字符信息的提取处理。同时需要将城市中文名称和纬度信息,与对应城市建立映射,形成可以直接导入ArcMap平台的数据。这也可以通过Perl编程来实现。最终生成的TXT文档数据如下。Junzhu,city,date,cityname,X,Y>AHZ39734,Anhui,20130403,安徽,117.27,31.86>ABI84694,Minnesota,19880713,明尼苏达州,-93.09,45.95>AFX85260,DelawareBay,19950521,特拉华州,-75.25,39.12因ArcGIS导入数据格式需要,汉字标示不发识别,文本的行标为字符形式。其中,Junzhu表示菌株的编号,city代表菌株的收集地点的中文拼音,date表示收集日期,cityname是菌株的收集地点的汉字。X表示收集地点的经度,Y表示收集地点的维度。Junzhu,city,date数据可以直接从基因源数据中提取,cityname依据city字段映射而来。经纬度数据依据cityname,搜索上一章节建立的城市的经纬度信息,确定精确地经纬度坐标。4.2.2H7N9禽流感疫情传播的可视化4.2.2.1H7N9禽流感疫情的静态可视化分析与处理进行疫情可视化是建立在疫情数据基础上的,获取疫情的数据的途径有三个[36]:第一种来源于疫情的新闻报道,需要长期关注疫情的最新动态。第二种是针对中国国内的疫情情况,中国国家卫生和计划生育委员会会及时发布感染甲型H7N9禽流感病毒实验室确诊病例,并生成病例报告。第三种疫情数据来源于世界卫生组织(WHO)的疫情报告。疫情信息收集和疫情分析的处理流程如图4-4所示。图4-4疫情信息收集和疫情分析的处理流程-26- 截止到2015年1月,H7N9禽流感病毒已导致571人感染,其中212人死亡。中国568例病例中自中国内地552例,其中包括212例死亡。中国台北4例,香港特区1例。马来西亚旅行报告了一例中国籍游客感染,加拿大报告的两例感染者为从中国旅行结束回国后确诊感染的。根据世界卫生组织(WHO)2015年11月份的最新报告,2015年2月到2015年11月新增感染病例109人,其中23人死亡。自从H7N9流感病毒感染人以来,共导致680人感染,235人死亡,死亡率高达34.56%。本文按照日期和确诊病例人数进行统计分析,并建立图表,如图4-5所示。从图中可以看出,病例爆发主要集中在冬春季节,从12月到4月,其中每年的1月和2月是H7N9流感病毒的发病高峰期,这两个月需要做好严格的预防措施来应对流感疫情。图4-52013-2015年人H7N9禽流感病例关于流感病例的地图分布相关研究有很多,借助地图可以清晰的展示疫情的分布情况。比如可使用百度地图JSAPI(JavaScriptAPI)生成的H7N9感染分布图。缺点是需要编程调用实现,需要良好的编程功底。还有一种方式是利用地图汇在线制作禽流感病例分布示意图。优点是一键式制作专业地图应用,无需专家知识与编程经验,导入数据简单方便,效果直观。经过综合分析比较,本文选择了地图汇来绘制病例分布图。-27- 图4-62013-2015年人H7N9禽流感病例城市分布本文按照已获取的(并非全部,部分病例信息无法收集到)病例爆发城市和确诊病例数建立数据表格,只需将数据导入地图汇,便可自动生成病例地区分布图。只需对地图的一些参数按实际需求进行设置即可。在制图模块会根据选定的地图模板给出示例数据。本文要制作H7N9病例爆发城市分布图,选择统计图,地图背景为中国,制作分段设色地图用不同深浅度的色彩来表示该地区病例数量的高低。如图4-6所示,616例确诊病例分布在中国20个省份(直辖市),病例分布较多的三个省份是广东省(177例)、浙江省(166例)和江苏省(72例)3省共报告病例415例,占总病例数的67.4%。由此可见,我国人感染禽流感发病存在聚集性的特点,病例爆发主要集中在中国的东南沿海城市。在第五章中将进行详细的空间聚类分析,因此这里不再展开叙述。4.2.2.2H7N9禽流感疫情的动态可视化上一章节中绘制了H7N9禽流感确诊病例分布地图,是静态的地图。可以展示当前疫情分布情况,并不能回顾以前疫情的传播变化情况。所以应该制作随着时间变化的H7N9疫情动态地图,生成动画来演示变化过程。此前,Google、微软等科技公司以及高校和科研单位都做多相关项目,用地-28- 图的形式展现流感疫情。目前,有两种比较好的方案,其中一种是北京大学可视化与可视分析实验室制作的“禽流感疫情可视化”,结合地图和时间线对禽流感疫情的发展态势进行了展示。有两部分构成,一部分是通过编程调用的百度地图,在地图下部设计了播放的时间轴。将禽流感疫情爆发地点标记为地图上的一个点,当拖动时间轴时,按照疫情发生的时间,动态播放疫情的分布图。“http://v.youku.com/v_show/id_XNTQxNjgzOTY0.html#paction”可以查看演示的视频。这种分布图能够直观地演示疫情的发展变化,缺点是制作地图的的实验环境搭建比较复杂,需要有编程基础。另一种是通过Flash作为实验平台来制作动画。制作方法如下:在一张带有经纬度的地图上,通过提取病毒菌株提取地点的经纬度信息,在地图上用点来标注地点。每个日期制作一个图层,设计为逐图层的播放方式,通过关键帧来控制每个图层的播放时间,制作出随时间病毒菌株在地球分布情况的flash动画。这种方法的存在一定的缺点:一是不能通过随意扩大缩小地图来查看疫情爆发地点的详细信息;二是通过手动确定经纬度位置来标注疫情发生地,并不能精确定位,工作量较大而且未显示菌株的详细信息。鉴于以上两种方法的优缺点,本文提出了ArcGIS平台来实现的感病毒传播的可视化。ArcGIS提供了一个可伸缩的,全面的GIS平台。同时支持动画的制作。可以用动画呈现疫情数据随时间变化的情况。具有数据定位精确,无需编程开发经验,同时可以批量导入经纬度数据,大大降低了工作量。具体做法是以世界地图或是中国地图作为背景地图,将发生地点的信息制作成多个图层,按日期制作图层,制作组间动画。4.2.3禽流感菌株变异情况在地图上的动态演示方案通过4.2.1节的介绍的病毒信息提取和预处理方法,能够得到所有病毒菌株的发生地及其对应的精确经纬度数值。从下载菌株的HA基因序列中可以得到菌株的菌株编号、提取地城市英文、提取日期、城市经度、城市纬度以及城市中文名。同时因为每个菌株都有唯一的菌株的编号,唯一的提取地。那么依据每个新的菌株提取地点对应的经纬度数值,可以将某菌株样本序列的标注在地图上,同时可以在地图上标注出菌株编号,提取日期等详细信息。-29- 图4-7中国矢量地图由于人源H7N9的爆发主要发生在中国境内,而禽源禽流感发生在全球范围内。为了更有针对性的研究人源和禽源H7N9禽流感,本文选用中国地图作为人源禽流感传播过程演示的背景地图,选用世界地图作为禽源的背景地图。矢量地图可以从地信网论坛(http://bbs.3s001.com)下载,世界矢量地图(shp格式)包括国家国界、河流、城市等数据,中国矢量地图(shp格式如图4-7所示)包括河流、山脉、边界、政区等数据。选用矢量地图的是因为矢量图可以实现随意放大和缩小功能。可以需要详细查看病毒菌株提取地点的信息,还可从整体上观察病毒菌株的病毒过程。ArcGIS平台支持批量的数据导入功能,实现将菌株提取地城市的经纬度数据自动导入,形成地图的图层。本文按日期将菌株的数据信息进行整理,每个日期保存为一个TXT文档。每一个数据文档导入到ArcMap平台后,将数据矢量化,便可形成可用的新图层。所有的病毒菌株信息将转化存储在图层的属性表中,只需对图层的属性进行设置便可实现对病毒数据的标注。基于数据重要程度和视图的美观性两个方面因素考虑,本文选取菌株编号、提取城市以及提取日期三种数据信息标注在地图上。将菌株提取城市地点用不同颜色和不同形状的记号进行地图要素标注,以此来区别表示新变异的病毒菌株。通过这种符号标注的方法,每一条病毒菌株都能够唯一的定位在地图上,并且基因的详细信息都可以在地图上表示出来。-30- ArcGIS平台同时支持动画制作功能,为了动态的演示病毒的整体传播过程,将做好的图层制作图层组动画。设置为每次可见一个图层,播放完一个图层,该图层消失,接着播放下一个图层,实现了逐个图层播放的动画。就可以得到病毒菌株按日期在在地图上传播的动画。将动画保存为视频格式,用于演示流感病毒传播过程。4.3禽流感病毒传播过程的可视化演示通过上一节介绍的映射方案,本文将2013年月到2015年11月之间的人源H7N9和1988年-2015年间禽源H7N9流感病毒样本,以点的形式标注在地图上。要进一步展示禽流感菌株随时间变化的传播情况,需要将菌株信息按照提取日期顺序展现在地图上,并制作成动画来模拟流感菌株的传播过程,即什么日期在世界的什么地方提取了什么样的流感菌株。4.3.1ArcGIS平台上的禽流感传播过程模拟的实现图4-8ArcMap操作界面示意图-31- 本文选用ArcMAP软件来完成地图的构建。ArcMap的操作界面如图4-8所示,本文需要在ArcMap中进行各种操作,包括创建底图地图和以日期命名的图层组以及制作组间动画等。要将菌株标注在地图上,首先需要建立底图的图层,将世界矢量地图(中国矢量地图)作为底图地图。新建一张空白地图,从文件下拉菜单选择添加底图,将下载的矢量地图(shp格式)导入即可。由上文可知,流感病毒HA基因序列中的日期格式统一为年月日的形式,按照时间顺序将每天的病毒菌株数据保存成如4.2.1.3节中介绍的TXT文档。文档包含Junzhu,city,date,X,Y,cityname信息,并且每个文档用对应的日期来命名。比如文档19980713表示1998年7月13日出现的所有病毒植株。这样数据的准备工作完成,下面开始批量导入经纬度坐标信息,并制作成制作图层组。步骤如下。Step1:ArcMAP菜单中选择添加XY数据,点击要添加的TXT文档。将城市经纬度信息批量导入ArcMAP图层。其中X表示经度,Y表示维度,分别对应TXT文档中的X列和Y列。地理坐标系统选择默认的WGS84坐标系(WorldGeodeticSystem-1984CoordinateSystem)。Step2:点确定即可形成一个新的图层,将该日期里所有的由经纬度确定的点都添加进来了。Step3:在刚才生成的图层上点右键,选导出数据,导出成shp文件,这时再把导出的文件添加进来即可生成shp矢量图层。将图层名称重命名为对应日期,就完成一个图层的添加。Step4:重复Step1~Step3的步骤,将全部数据导入图层,形成新的图层组。完成了所有图层的创建。为了方便人们更加直观到的地查看流感样本随时间推移的动态传播过程,基于制作好的图层组,创建ArcMap图层组间动画,并将动画导出为avi文件。4.3.2禽源禽流感传播传播过程模拟对从基因库获得的495条H7N9禽流感的HA基因做简单分析。病毒菌株时间分布在1988年-2015年,其中1988年-2012年新变异植株首出现时间和地域分布见表4-1。H7N9禽流感病毒首例出现在北美洲的美国,沉寂多年后,2000年传播到欧洲大陆的德国。在2008年新的流感菌株出现在欧洲和北美洲。2009年病毒传播到亚洲地区,且在2009年-2011年间在亚洲大陆扩散传播开来,到-32- 2013年H7N9禽流感在中国集中爆发。2013-2015年间的新病毒植株遍布中国的9个省份(直辖市)见表4-2,主要集中在广东(164株)、江西(142株)和江苏(46株)三省,这三省占中国境内爆发禽源H7N9菌株的85%。表4-11988-2012年之间H7N9新变异毒株首次出现时间与地域的关系首次出现时间国家和地区相对应的地域1988年美国北美洲2000年德国欧洲2002年瑞典欧洲2008年西班牙欧洲2008年危地马拉北美洲2008年蒙古亚洲2009年中国亚洲2009年捷克欧洲2010年韩国亚洲2011年日本亚洲表4-22013-2015年之间H7N9新变异毒株在中国范围的分布情况省份(直辖市)城市出现次数广东东莞,广州,汕头164江西南昌142杭州,绍兴,温州浙江46台州,衢州,湖州上海上海18河南郑州18江苏苏州,无锡,淮安16山东日照8福建漳州2安徽合肥1下面详细叙述在ArcGIS平台实现流感动态传播模拟的操作流程。Step1:提取病毒菌株的发生地点。Step2:整理菌株提取地点的经纬度信息为固定格式。Step3:综合发生地信息和经纬度信息,按日期制作图层文档。Step4:下载矢量世界地图并将其导入ArcMap作为底图。选择经纬度信息文档,批量导入XY数据,将病毒菌株映射到世界地图上。生成shp格式图层文件,形成图层组。-33- Step5:完善图层设计,设置图层的属性,将菌株编号、提取城市以及提取日期三种信息标注在地图上。用不同颜色和不同形状的记号标注菌株提取城市。Step6:创建图层动画,设置播放持续时间。通过动画控制器的控制按钮控制播放进度,实现禽流感病毒菌株的动态传播模拟。本章选取在1988年-2000年出现的4条禽源H7N9流感样本数据,以此样本序列为例,模拟结果如图4-9所示。从图中能够直观地看到,菌株在世界地图背景上的地理位置,1988年7月11日美国明尼苏达州首次出现H7N9禽流感菌株。在1995年5月21日在美国的另一个州特拉华州,发现H7N9禽流感新菌株。同年,在欧洲大陆的德国也发现的H7N9禽流感新菌株。在1988-2000年病毒从北美洲传播到了欧洲大陆。德国柏林2000美国明尼苏达州1988/07/13美国特拉华州2000/05/20(b)(a)图4-91988-2000年菌株传播模拟效果图通过以上分析,说明了本章提出的基于ArcMap平台动态模拟H7N9流感传播的可行性,为第五章分析研究禽源和人源H7N9流感病毒的传播规律和进化情况提供了可能。4.3.3人源禽流感传播传播过程模拟对于人源H7N9运用和禽源H7N9禽流感同样的演示方法,本文选取了2013年4月1日、2日、3日和5日这四天的人源H7N9流感流感的样本,在ArcGIS平台实现流感样本的动态传播模拟。实现步骤在上一章节中已经给出了详细的说明,这里不再重复说明,最后的模拟效果图(见图4-10)。从图中可以清楚地看到,菌株提取地在中国的哪个城市,在2013年4月1-34- 日、2日和5日这四天,中国的4个城市出现病毒流感菌株。主要集中在东南沿海城市,其中上海不止一次的出现新的菌株。在这几个城市可能存在利于菌株变异的条件。上海1株杭州1株(a)2013年4月1号(b)2013年4月2日上海1株南京1株浙江2株(c)2013年4月3日(d)2013年4月5日图4-10菌株在2013年4月1日-5日的传播过程效果图4.4空间聚类分析和环境因素分析4.4.1基于ArcGIS的空间聚类分析ArcGIS软件中有一些实现空间聚类分析的工具。比如“聚类分布制图”模块中的“热点分析”工具。空间聚类分析又称空间热点分析,是可以用于探索病例高发区域的一种方法。所谓热点,简单来说就是在一个数据集中的热点事件(本文-35- 指禽流感病例)集中的区域。利用ArcGIS软件的空间聚类分析工具,可以直观地揭示禽流感的空间热点分布,最近邻系统聚类分析是其主要方法[37]。热点分析工具进行分析的工作方式为,查看邻近要素环境中的每一个要素。对数据集中的每一个要素计算G*统计,G*统计也就z得分计算方法如公式4-1所示。iiNNwxij,jXwij,*j1j1G(4-1)iNN22Nwij,(wij,)j1j1SN1Nxjj1X(4-2)NN2xjj12S(X)(4-3)N其中x是要素j的属性值w是要素i和j之间的空间权重,N为要素总数。ji,j热点分析可能的应用领域包括:犯罪分析、流行病学、投票模式分析、经济地理学、零售分析、交通事故分析以及人口统计学。比如可以用来分析疾病集中爆发在什么位置,爆发地点是随机分布还是存在集聚性。表4-3Moran'sI和Get-OrdG*i类型异同点Moran'sIGet-OrdGi*利用所有属性的平均值对整体数据进行评估分析,共同点算法用于识别局部的空间自相关现象原理对权重的敏感度高于不同点对权重的关注度度略低Moran'sI的敏感度结果共同点计算P值和Z得分应用研究区域中意想不到的疾病高不同点疾病集中爆发在什么位置场景发地在哪-36- ArcGIS软件中还有一类空间自相关分析的工具,比如分析模式中的空间自相关(Moran'sI)工具,可用于判断表达模式的类型:聚类模式、离散模式和随机模式。空间自相关工具与热点分析工具有相似和不同之处(见表4-3)。基于流感菌株分布矢量图层,本文采用ArcGIS软件的空间自相关和热点分析工具进行基于点的空间聚类分析。4.4.2环境因素与H7N9禽流感空间传播规律分析环境对病毒的致病力、人体的免疫力等生物特性有重要的作用。影响禽流感空间分布的因素较复杂,与所在地的海陆分布、生态环境、宿主动物和候鸟迁徙路线等密切相关[38,39]。基于ArcGIS地理信息平台,本文选择了有较充足数据支持的气候(比如降水量)、迁徙候鸟路线、湖泊河流密集度、海拔高度及人口密度等自然环境因素和社会环境因素作为分析对象,分析病例(菌株)分布数据与环境特征的对应关系。研究环境因素与H7N9禽流感流行的相关关系[40]。制作降水量、海拔高度、湖泊河流、人口密度及候鸟迁徙路线等分布图,将4.2.3章节制作的疫情(菌株)在地图背景上的分布图,与降水量分布、海拔高度分布等环境因素的图层进行叠加,分析病例(菌株)分布数据与环境特征的对应关系。4.5本章小结本章提出了基于ArcGIS平台的流感病毒传播情况在地图上动态演示方法,分别对一组禽源H7N9数据和一组人源H7N9数据进行了传播过程的模拟,说明该方法在研究禽流感病毒传播过程上有良好的效果。提出了基于ArcGIS平台的空间聚类分析方法,进一步将气候(降水量)、候鸟迁徙、湖泊河流、海拔高度及人口密度等环境因素作为分析对象,分析菌株(疫情)分布与环境特征的对应关系。-37- 第五章禽源和人源H7N9流感病毒的进化与传播过程分析5.1概述H7N9禽流感作为一种新型传染病自1988年7月13日出现以来,就在全球范围内广泛传播。禽流感已造成全球大量家禽死亡或被捕杀,尤其是中国的家禽业“受到重大冲击”,疫情发生以来,中国直接经济损失超过130亿美元。2013年3月底在中国上海和安徽两地率先发现人际感染病例,并迅速传播到全国东南部各大城市,导致多例感染者死亡。至今仍不断有人感染H7N9的病例确诊。H7N9禽流感危及全球经济和人类健康,引起世界卫生组织(WHO)高度关注。本文通过生物信息学方法和地理信息科学的方法,并运用一定的计算机技术来分析研究禽源和人源H7N9流感病毒的HA基因序列,对H7N9禽流感进行全面的分析研究,希望能够发现禽流感病毒变异和传播规律。在第三章,论文提出基于蛋白质多种物理化学属性的特征提取方法,并用得到的特征向量研究病毒基于的进化情况。在第四章,论文提出了基于ArcGIS平台流感病毒传播情况动态演示方法,并举例验证了该方法的可行性。同时对菌株(病例)在ArcGIS这个地理信息平台上进行空间聚类分析,并进一步将气候、候鸟迁徙、湖泊河流、海拔高度及人口密度等环境因素作为分析对象。依据HA基因特征向量的系统发育树可以分析研究H7N9流感病毒的进化情况,而通过传播过程的演示和环境因素的分析,可以分析研究流感病毒菌株时间和空间上的全球性传播规律。本章将在第三章和第四章研究内容的基础上,分别研究分析1988年-2015年间禽源H7N9流感病毒和2013年-2015年间人源H7N9流感病毒的变异和传播规律。5.2禽源H7N9流感病毒的传播进化模式从1988年在美国出现新菌株开始,在世界各地不断出现新的H7N9流感菌-38- 株,但是一直没有出现H7N9感染人的案例。2013年在我国的出现的新型H7N9流感病毒,已经造成二百多人死亡,增加了人们对流感病毒不安的情绪。这次疫情也引起了世界卫生组织的高度关注,研究H7N9禽流感传播规律和变异情况,对于疫情的控制和疫苗的研发具有重要意义。5.2.1基于ArcGIS平台禽源H7N9的进化与传播规律分析5.2.1.1基于ArcGIS平台禽源H7N9传播过程演示分析通过观察ArcGIS平台上1988-2015年间禽源H7N9流感样本的传播过程动态演示,可得到禽源H7N9的传播情况。1576384121大西洋2地中海3东非西亚4中亚5东亚和澳大利亚6美洲太平洋7美洲密西西比8美洲大西洋图5-1全球候鸟迁徙路线(1)1988-2006年禽源H7N9流感病毒于1988年在美国的明尼苏达州首次出现,到1995年时,一株流感菌株传播到了美国的特拉华州。依据全球候鸟迁徙路线(如图5-1)分析,流感病毒应该是随禽鸟的美洲大西洋迁徙线或美洲至密西西比迁徙线在美洲大陆的美国各州之间传播。到2000年病毒除了在美国境内特拉华州继续变异外,随禽鸟的大西洋迁徙线传播蔓延到欧洲大陆,在德国出现一株新的流感菌株。而且之后几年内H7N9流感一直处于不活跃期。同时2002年在欧洲的瑞典出现-39- 两株新菌株。2006年在北美大陆东部的俄亥俄州出现新的菌株。(2)2008-2011年2008年流感病毒开始变得较为活跃。出现美洲大陆美国境内的老病毒在明日苏达州产生新的菌株。同时在2008年2月27日流感病毒传入美洲大陆最南端的危地马拉,病毒在危地马拉迅速产生新的变异,在2008年3月5日出现新的菌株。欧洲大陆的流感病毒在2008年1月6日传播到西班牙,病毒在西班牙境内多次变异,生成3条新的菌株。随后在2008年8月29日病毒传播到了亚洲大陆的蒙古,产生2条新的流感菌株。2008年的传播过程演示如图5-2所示。西班牙2株危地马拉1株(a)2008年1月26日(b)2008年2月27日蒙古1株美国明尼苏达州1株(c)2008年8月12日(d)2008年8月26图5-22008年禽源H7N9传播过程演示-40- 2009年在H1N1甲型流感在世界范围内流行的影响下。H7N9也发生了新的疫情。美国境内的H7N9流感病毒在2009年集中变异,在明日苏达州生成6株新菌株,这次变异菌株更适宜美洲的环境,在美洲大陆迅速传播开来。与此同时,欧洲大陆的流感病毒传播到了捷克斯洛伐克境内,并产生新的菌株。最重要的是这一年流感病毒首次传播到中国,出现在中国东部的江西省。为了明确中国境内的病毒的来源,运用本文第三章的特征提取方法对2008年-2009的菌株进行特征分析并计算进化距离,如表5-1所示。进化距离数据表明我国的流感病毒来源于蒙古,同时与西班牙的基因形似性非常高。说明病毒是由西班牙先传入蒙古,再经由蒙古传入我国境内的。表5-12008年全球流行的H7N9流感病毒与2009年江西菌株的进化距离4(10)Guatemala1Guatemala2MongoliajiangxiSpain30.642931.61275.25282.1637Guatemala100.74929.61742.7765Guatemala20028.27592.7936Mongolia0002.1507jiangxi00002010年蒙古又产生一株新的菌株。2010-2011年传到中国的菌株产生新的变异,传播扩撒到其他亚洲国家。韩国2010年12月出现3株新菌株,并且2011年3月出现4株新菌株。同时在与中国隔海相邻的日本出现了流感病毒。美国境内的H7N9流感病毒在2011年继续在各大州传播扩散。传播地域扩展到了密西西比州、内布拉斯加州。在密西西比州、内布拉斯加州和明日苏达州一共出现了7株新菌株。(3)2013-2015年2013-2015年H7N9流感病毒始终在中国地区传播,引发禽流感大规模的爆发,共出现446株病毒菌株,遍及中国的7个省份(直辖市)见图5-2,从图中可以发现流感病毒多发于我国的东南部城市尤其是沿海城市,并且在这些地区菌株更容易产生变异,比如广东,浙江,上海、深圳。江西虽不沿海却产生较多变异,因其处在长江流经区域(见图5-3)。-41- 图5-3禽源H7N9流感2013年-2015年在中国的传播情况5.2.1.2基于环境因素的禽源H7N9病毒进化与传播规律分析对流感病毒变异时间信息按季节进行统计分析。如表5-2所示,发现菌株的传播流行多发生在冬春季,每年的12月和1-3月份是变异高发时节,容易爆发疫情。需要加强流感防治工作,采取积极措施应对。表5-22013-2015年之间禽源H7N9新流感毒株在中国范围的季节分布年份季节菌株数目2013年春(3-5月)882013年夏(6-8月)12013年秋(9-11月)252013-2014年冬(12-2月)2132014年春(3-5月)902014年夏(6-8月)152014-2015年冬(12-2月)9候鸟随季节变化进行有方向、有规律的长距离迁居活动,候鸟的迁徙通常为春秋两次,夏季在北方繁殖,秋季从繁殖地北方飞往南方,冬季在南方越冬-42- 后春季接迁徙回北方。全球候鸟迁徙一共有8条固定不变的迁徙路线。其中,“东非西亚迁徙线”“中亚迁徙线“东亚/澳大利亚迁徙线”3条路线经过我国。21图5-4中国候鸟迁徙的路线与途径城市在自然迁徙过程中,候鸟可能和飞行经过地区的鸭群、鸡群自身带有的禽流感病毒进行基因重配,产生新的变异病毒。把我国境内禽鸟的迁徙路线(见图5-4)和禽源流感变异菌株在中国的分布情况综合分析。发现出现变异菌株的7个省份(直辖市)中,河南、安徽、江西和在图中1号迁徙线路上,山东浙江、江苏上海和福建在图中2号迁徙路线上。广东同时处于两条迁徙上,造成广东省的病毒基因变异重组情况复杂,极易产生新的菌株造成流感疫情爆发。把中国的河流分布图和2013年-2015年中国禽源禽流感流感菌株的分布情况综合分析发现(见图5-5),出现流感菌株的7个省份(直辖市),除了沿海城市外,内陆城市都位于在长江、黄河及珠江流经地区。既沿海又有珠江流经的广东省成为病毒菌株变异率最高地区。由禽源流感病毒在全球传播过程分析,加上地域、季节、河流湖泊以及禽鸟迁徙情况的综合分析,本文发现从2013年以来H7N9流感能够在中国境内大爆发,是综合因素影响的结果。中国位于在北温带和亚热带地区,秦岭淮河以南东南沿海地区为亚热带季风气候区,流感高发城市大都分布在沿海地区或者-43- 河流、湖泊周边,同时由于候鸟迁徙也造成的流感病毒变异重组,产生流感季节性爆发。黄河长江珠江图5-5中国主要河流分布和流感菌株分布对照图5.2.2禽源H7N9流感病毒的进化特征分析为了研究禽源H7N9流感病毒的进化情况,本节选择禽源H7N9病毒的血凝素基因(HA)序列进行系统发育树分析。首先在NBCI网站上检索所有的禽源H7N9病毒的HA全序列,从1988年到2015年一共有496株序列。然后运用网站的多序列比对工具进行序列比对。最后利用建树工具,构建系统发育树,选择最常用的邻位相连法(Neighbor-Joining)算法来构建发育树,下载保存树文件(见图5-6)。根据系统发育树分析,全球禽源H7N9禽流感病毒HA基因可以分成3个基本分支,分别为北美大陆分支、欧亚分支和中国分支。1988年美国出现的第一株H7N9病毒菌株,是所有流感菌株最早的共同原始祖先。北美分支菌株在1995年-2011年在北美洲传播,传播范围包括危地马拉和美国的明尼苏达州、特拉华州、俄亥俄州及内布拉斯加州。-44- 欧亚分支中国分支北美分支图5-61988-2015年禽源H7N9HA基因的系统发育树2000年H7N9病毒传播到了欧洲,在欧洲的德国出现一株新菌株,这株菌株与北美分支的菌株有很强的同源性,北美洲的菌株为其进化的源头。但德国的流感菌株并没有很适合欧洲的环境,没有造成进一步的传播扩散。2002年在瑞典出现两株新菌株,这两株菌株与北美的菌株进化距离较远。虽然瑞典的菌株产生了较大的变异,但是同样没有造成大范围的扩散。在2008年1月26日在西班牙有一株流感菌株,西班牙的菌株很好的适应了欧洲的环境,并且病毒菌株迅速在欧亚大陆的扩散传播,形成欧亚分支。2008年-2011年病毒在欧洲大陆传播开来,病毒扩散到的地区有西班牙和捷克。2008年病毒在西班牙变异和传播的同时,变异的新菌株也传播到亚洲的蒙古。在亚洲范围内,蒙古的病毒2008年传播到了中国的江西,2010年传播到了韩国,2011年传播到了日本。并且亚洲的菌株都产生的新的流感菌株,这些新的菌株更加适应亚洲的环境。2013年-2015年H7N9病毒一共产生446株变异菌株。在中国集中爆发严重的疫情。在2013年产生的流感菌株,在中国有合适的生长环境,尤其是在冬季迅速产生新的流感菌株,并扩散到全国7个省(直辖市)。综合上一章节ArcGIS的禽源H7N9传播过程分析和本章节的病毒进化分析,给出了禽源H7N9禽流感全球传播模式(图5-7)。从图中可以清晰的看出,病毒的传播源头。带箭头的曲线表示出病毒传播的分支和方向。-45- 本节以1988-2015年间495株禽源H7N9病毒的HA基因序列为研究对象,通过地理信息系统(GIS)数据和系统发育进化树综合分析,追踪病毒的起源和揭示病毒的全球传播模式[41-45]。总结如下:H7N9病毒1988年起源于美洲,随后的二十年间传播至欧美大陆。在2008年传播到我国江西。在2013年-2015年在我国爆发大规模的疫情。东南部沿海城市、河流流经地区、候鸟迁徙途径城市都是变异集中的地区,容易爆发疫情。每年的12月和1-3月份是病毒变异高发时节,容易造成的疫情传播流行,需要重点做好禽流感病毒的防治工作。图5-71988-2015年禽源H7N9禽流感全球传播模式5.3人源H7N9流感病毒的传播进化模式5.3.1基于ArcGIS平台人源H7N9的进化与传播规律分析5.3.1.1基于ArcGIS平台人源H7N9传播过程分析通过观察ArcGIS平台上1988-2015年间人源H7N9流感菌株的传播过程动态演示,结合表5-3人源H7N9流感菌株首次出现时间与对应城市的关系,可得到禽源H7N9的传播情况。(1)2013年3月5日-2013年12月17日人源H7N9流感最早在2013年3月出现在中国的安徽,并在中国范围内广-46- 泛传播。2013年3月5日,病毒从安徽传播到了上海,变异产生两株新的病毒植株。相对稳定一段时间后,在3月22日安徽境内的病毒传播到了湖南长沙。上海境内的病毒传播向周边区域扩散,3月24日扩散到了杭州,几天后到达南京,31日在无锡出现了新的病毒菌株。表5-32013-2015年之间人源H7N9流感毒株首次出现时间与城市的关系首次出现时间相对应的城市名称首次出现时间相对应的城市名称2013年3月安徽2013年4月24日福建2013年3月5日上海2013年4月24日台湾2013年3月22日长沙2013年4月25日徐州2013年3月24日杭州2013年4月29日长沙2013年3月28日南京2013年8月8日惠州2013年3月31日无锡2013年11月30日香港2013年4月1日杭州2013年12月15日广东2013年4月3日浙江2014年1月11日深圳2013年4月9日苏州2014年1月26日广州2013年4月16日北京2014年2月14日淮安2013年4月24日南昌2015年4月23日衢州表5-42013年4月北京和台湾出现的H7N9流感病毒与其他地区菌株的进化距离5(10)ShanghaiNanjingWuxiSuzhouBeijingTaiwanZhejiang34.05.065.622.492.22E-115.43Shanghai041.742.336.934.037.9Nanjing003.372.535.0615.6Wuxi0003.145.6216.0Suzhou00002.4912.9Beijing000005.43Taiwan0000002013年4月H7N9流感病毒集中变异,几乎每天都有新菌株的产生。一个月内共出现30株新的菌株。江苏和浙江成为病毒变异高发地区,江苏的无锡、南京、徐州和苏州四个城市均出现禽流感病毒菌株。与此同时,流感病毒传播到了江西南昌、福建两地。从沿海城市扩散到内陆地区。4月16日在北京出现3株菌株。4月24日在台湾出现一株病毒菌株。运用第三章的特征提取方法比对,结果见表5-4。由北京出现的菌株与其他菌株的进化距离可知,北京的H7N9-47- 病毒与浙江出现的菌株十分相似,几乎为同一菌株,可以判定北京出现的病毒菌株是由于人口流动造成,并非病毒传播扩散到了北京。由台湾出现的菌株与其他菌株的进化距离可知,台湾出现的H7N9病毒与浙江和北京的菌株进化距离值较小,与上海、南京等地的菌株进化距离较大。可以推测台湾出现的病毒菌株是可能是由于人口流动,将菌株带到了台湾,台湾的环境较适宜菌株的生长,菌株发生了轻微的变异形成新的病毒菌株。2013年5月以后病毒进入了蛰伏期。5月份仅在上海出现一例病毒菌株。进入夏季流感活动减弱,6-7月没有新菌株的出现,8月份在东部沿海城市广东省的惠州市出现一株新菌株。经过几个月的环境适应,加上中国进入了冬季气温开始下降,菌株遇到了合适的外部环境。新一轮的病毒变异开始。11月-12月分别在广东和香港出现新的菌株,预示着流感爆发高峰的到来。(2)2014年2014年流感病毒继续进化,变异集中出现在1-3月份。1月份的菌株变异集中出现在上海、深圳和广州三个地方。上海出现4例新的病毒菌株,广州仅出现2例新菌株,深圳的菌株变异情况最复杂出现12株流感菌株。2-3月份深圳有菌株生长较为适宜的环境,菌株持续发生变异,共产生6株新菌株,达到变异高峰期。2-3月份在上海的菌株向周围地区扩散传播在淮安出现4株新的流感菌株,浙江出现1例新菌株。4-5月份菌株流感活动相对减弱,只有2株新菌株,分布出现在深圳和淮安。6-12月份病毒菌株进入休眠期,没有爆发新的流感菌株。淮安衢州2015年1月23日和2月3日2015年4月23日和日4月25日图5-82015年人源7N9流感菌株的分布图5-82015年人源H7N9流感菌株的分布-48- (3)2015年2015年流感活动很弱,全年只有下4株病毒,分别在淮安和衢州传播(如图5-8),4株病毒均出现在1-4月份。5-12月份均未出现新的变异菌株。由此,人源H7N9流感病毒进入到一个相对稳定的时期,不会再出现大规模的变异。但不排除在某些适宜的环境下出现细微的基因突变,爆发新一轮的疫情。5.3.1.2人源H7N9变异菌株分布的空间聚类分析使用2013-2015年间人源H7N9流感样本矢量地图数据,先运用ArcGIS中空间自相关工具计算全局MoranI指数,分析变异菌株分布的空间关联程度。再运用ArcGIS中热点分析工具分析菌株变异高发城市。空间自相关分析得到的全局MoranI汇总数据和空间自相关报表(见图5-9)。z得分为9.32,则随机产生此聚类模式的可能性小于1%,表明病毒变异菌株的具有很强的空间聚集性。图5-9空间自相关报表-49- 热点关分析得到的菌株变异高发城市如图5-10所示,有上海、杭州、苏州、无锡,需要密切关注这些城市,未来新菌株发生在这些城市的可能性很高,需要重点防控。无锡上海苏州杭州图5-10热点分析得到的菌株变异高发城市5.3.1.3基于环境因素的人源H7N9流感病毒进化与传播规律分析对人源H7N9流感病毒变异时间信息按季节进行统计分析。如表5-5所示,发现病毒的传播流行多发生在冬季和春季,每年的12月和1-4月份是变异高发时节,需要采取积极措施应对大规模疫情的爆发。表5-52013-2015年间人源H7N9新变异毒株在中国范围的季节分布年份季节菌株数目2013年春(3-5月)252013年夏(6-8月)12013年秋(9-11月)12013-2014年冬(12-2月)182014年春(3-5月)72014-2015年冬(12-2月)22015年春(3-5月)2把中国河流和湖泊(图5-11和5-12)和人源H7N9流感在中国流感菌株的分布情况综合分析发现,禽流感爆发地域多为河流流经或是有湖泊分布。2013年-2015年,中国出现人源H7N9流感菌株的22个城市,除了北京和台湾地区外,其他城市多都位于在长江黄河及珠江流经地区。北京是因为人员流动造成的流感病-50- 毒传播,有人员到禽流感疫情爆发地区直接或间接接触染病的禽类而感染。台湾是与浙江、福建隔海相望的岛屿,受到地理位置在海洋之中的影响,容易造成流感病毒的变异传播。黄河长江珠江图5-11中国主要河流分布和流感菌株分布对照图5-12中国主要湖泊分布和流感菌株分布对照图-51- 把中国年平均降水量分布(图5-13)和人源H7N9流感在中国流感菌株的分布情况综合分析发现,禽流感爆发地域多位于降水充沛的地带。比如广东地区地区降水量很大,这也是造成该地区流感高发的一个重要因素。年降水量值图5-13中国年平均降水量分布和流感菌株分布对照图海拔高度值图5-14中国海拔高度分布和流感菌株分布对照图-52- 把中国海拔高度分布(图5-14)和人源H7N9流感菌株在中国的分布情况综合分析发现,流感变异高发地域均位于海拔适中(约1700-1800km)的平坦地带。尤其是沿海的平原地区,病毒变异率要高于其他地区。由中国各省份人口密度分布(图5-15)可见,江西、湖南、河北、山东辽宁和山西,是我国人口分布比较集中的省份。而人源H7N9流感变异高发的城市广东和江苏省的人口密度并不大,不属于人口最密集的地带,同时有一定数量的人口。因H7N9流感并未出现人感染人的情况,流感爆发暂时与人口密度无关,只有部分病例是受到人员的流动因素的影响。图5-15中国人口密度分布通过整体观察发现H7N9流感的传播地理范围相对集中,多分布在东部沿海城市,同时爆发有很强的季节性,多发于冬春季。形成这种流感流行现象的可能原因有两点:一是冬季或雨季人体的免疫力相对下降,同时流感病毒有适宜生存的繁殖的气候和环境;二是沿海或是湖泊周边城市禽类的分布数量比较大,人更容易直接与禽类接触。容易引发生流感的广泛传播。-53- 5.3.2人源H7N9流感病毒的进化特征分析(2013-2015)2015年分支2014年分支2013年分支图5-162013-2015年人源H7N9的HA基因系统发育树-54- 为了研究人源H7N9流感病毒在中国进化情况,选择人源H7N9病毒的血凝素基因(HA)序列进行系统发育树分析。与上一章节禽源的操作步骤相同。得到人源H7N9病毒的HA全序列从2103年到2015年一共有89株序列。构建系统发育树(见图5-16)。北京徐州淮安南京安徽上海杭州长沙南昌衢州台湾福建广东香港图5-172013-2015年人源H7N9禽流感中国传播模式根据系统发育树,2013年2月在中国上海出现的一株H7N9病毒菌株,是所有流感菌株最早的共同原始祖先。中国境内出现的所有流感菌株都在这条菌株的基础上进行变异的。并且后续变异的菌株进化距离都比较接近,都只是发-55- 生轻微类型的变异。按照进化的时间里程可以将菌株分为三个分支。2013年到2014年初为一个分支,发生病毒的地区围有上海、江苏、浙江、湖南、江西北京和台湾。2014年初到2015年为第二个分支,该分支产生变异的地区有江苏、广东、香港。2015年至今为第三个分支,该分支产生变异的地区有淮安和衢州。综合上一章节ArcGIS的禽源H7N9传播过程分析和本章节的病毒进化分析,给出了人源H7N9禽流感中国传播模式[46-50](图5-17)。图中实线表示病毒传播第一分支,虚线表示第二、三传播分支。从图中可以清晰的看到人源H7N9在中国的传播扩散路径。本章节以1988-2015年间495株禽源H7N9病毒的HA基因序列为研究对象,通过地理信息系统(GIS)数据和系统发育进化综合分析,得到了人源H7N9病毒的起源以及病毒在中国传播过程中的进化演变情况。总结如下:传播过程分析显示2013年人源H7N9禽流感病毒在我国集中爆发,经过2014和2015年的演变,病毒变异趋于平缓。病毒已经进入蛰伏期,预计近两年只会出现小规模疫情,不会出现大规模的爆发。空间聚类分析表明病毒变异具有很强的空间聚集性。变异高发城市有上海、杭州、苏州、无锡。环境因素分析表明降水丰富,海拔适宜的地区未来出现新菌株的可能性很高。同时疫情发生有很强的季节性,多发生在冬季和春季。需要在这些地区和季节采取积极措施应对疫情的发生。进化特征分析显示所有流感菌株都是由中国上海的病毒进化而来。2013年-2015年演化出三条进化分支,基因进化距离很近,没有发生重大的变异。可以推测出近期不会爆发大规模疫情。这些研究结果对于预防H7N9感染人以及控制病毒在人间的传播流行具有一定的参考价值。5.4禽源H7N9和人源H7N9在中国进化与传播的相互关系为了研究人源和禽源H7N9流感病毒在中国进化与传播的相互关系情况,选择研究的时间范围为2013年到2015年。将人源H7N9流感在2013年3月5日在上海出现的首例病毒菌株(Accession编号为AGL44438,InfluenzaAvirus(A/Shanghai/02/2013(H7N9))),在NBCI蛋白质数据库中使用BLAST工具(BasicLocalAlignmentSearchTool),依据-56- 图5-182013-2015年人源和禽源H7N9的HA基因系统发育树-57- BLAST结果中的得分,找到与其相近的病毒序列。BLAST结果显示,Accession编号为AGR49435的禽源H7N9流感病毒,一致性(Identities)得分为99%。序列的详细信息为(A/chicken/Shanghai/S1076/2013(H7N9)),这株禽源流感病毒的采集的日期为2013年4月3日,发现的地点同样在上海。首例人源菌株很有可能是在这株禽源菌株的基础出现轻微变异而产生的。对2013年到2015年人源和禽源H7N9流感病毒序列构建系统发育树(见图5-18),图中标记出的是人源序列。从图中可以发现,人源与禽源的进化是相互交叉的,并且不断的产生新的序列。一般出现了新的禽类进化分支,随后就会产生新的人源进化分支。由此推断,人源的流感病毒很有可能是来源于在禽源的基因变异,而并非是患者之间相互变异。说明现阶段H7N9流感的传播模式还是从禽到人,而非从人到人。◇:禽源禽流感出现的地区●:人源禽流感图中△:三角形表示禽源流感出现的地区,●:实心圆点表示人源禽流感出现的地区。出现的地区图5-192013-2015年人源和禽源H7N9的地理分布-58- 5.5本章小结将2013年到2015年人源和禽源H7N9在地图上的分布进行分析(见图5-19),北京和台湾地区的人源菌株是由于人员接触染毒地区的活禽而产生,除了这两个地区,人源菌株的分布范围完全包括在禽源的菌株分布范围内。这进一步肯定了禽到人的感染模式。现有的研究资料显示,H7N9流感并未出现人传染人的状况[51-52],患者感染的主要方式为直接接触染毒的活禽、被其排泄物污染的环境或物品[53-54]。这一事实与禽到人的感染模式相符合。本章运用前两章提出的序列特征提取和禽流感传播可视化分析方法,分别研究了1988年-2015年间禽源H7N9流感病毒和2013-2015年间人源H7N9流感病毒,分析H7N9禽流感病毒的的进化与传播规律。本章分三部分内容。第一部分研究分析H7N9禽流感病毒的的进化与传播规律。在ArcGIS平台上实现两部分内容,第一,制作1988-2015年间禽源H7N9流感的传播过程的地图演示,分析了禽源H7N9的传播规律。第二,分析通过环境因素与禽流感传播的关系,分析2013年禽流感疫情在我国爆发的环境原因。通过系统发育树分析,确定了禽源H7N9流感的进化分支。最后,综合传播过程和病毒进化分析,给出了禽源H7N9禽流感全球传播模式。第二部分研究分析H7N9人流感病毒的的进化与传播规律。在ArcGIS平台上实现2013-2015年间人源H7N9流感的传播过程的演示,及环境因素的分析。对于人源的空间分布进行热点分析,确定变异高发城市。通过系统发育树分析,确定人源H7N9流感的进化模式,给出人源H7N9禽流感在中国的传播模式。第三部分讨论分析了禽源H7N9和人源H7N9在中国进化与传播的相互关系,确立了禽到人的感染模式。-59- 第六章结论与展望6.1结论本文提出了一种基于蛋白质物理化学属性的特征提取方法,运用地理信息系统和生物信息学的技术,研究了1988-2015年间禽源H7N9流感病毒和2013年-2015年间人源H7N9流感病毒HA基因序列,分析了禽源和人源H7N9流感病毒的进化与传播规律。主要研究结果包括以下几个方面:(1)疫情的时间和空间分布规律。从时间上分析,禽流感疫情高发的时间为冬季。此时的气温偏低适宜病毒的变异,同时候鸟年迁徙容易产生基因的重组,从而造成病毒的传播。沿海、河流的地区或是降水比丰富的地区为流感高发城市。尤其是沿海且在候鸟迁徙路线上的城市是重点城市,比如广州,上海,需要在这些城市加大禽流感的防御措施。(2)禽源和人源H7N9病毒的传播模式。通过对禽源H7N9病毒HA基因的进行系统发育树分析,追踪了禽源H7N9的进化历程,描绘出了禽源H7N9全球传播模式,提出了病毒的三个进化分支。通过对人源H7N9病毒HA基因的进行系统发育树分析,综合空间分布信息,给出了人源H7N9在中国的传播模式。(3)禽到人的感染模式。对人源首株病毒序列在NCBI中进行BLAST搜索,结果显示首例人源菌株很有可能是在本地的禽源菌株变异而产生的。确立了人源的传播源头。依据人源和禽源的系统发育树进行推断,禽源H7N9和人源H7N9之间的关系应为禽到人的感染模式,并非人直接到人的感染模式。6.2展望人源H7N9的感染病例大部分出自我国,给我国的经济和人民健康造成很大危害。虽然疫情已经得到初步控制,但我国复杂多样的自然环境为禽流感的发生和流行提供了有利环境,H7N9很有可能卷土重来。现在并未出现人感染人的情况,但有实验表明H7N9禽流感病毒可能已具备在哺乳动物间通过多途径传播-60- 的能力[11],未来并不排除具有在人际间持续传播的能力的可能。所以,加强对H7N9禽流感的研究工作,促进有效病毒疫苗和药物的研发,才是根本的应对之策。本文创新之处在于综合了生物信息学以及地理信息系统的相关空间分析,对禽源和人源H7N9禽流感病毒的进化与传播规律进行分析研究。研究结果在一定意义上有助于人们了解H7N9禽流感病毒的流行趋势,进行疫情的预测。本研究存在很多不足之处。(1)GIS系统的功能利用不够充分。本文仅运用了疫情数据可视化分析与处理和空间分析功能,并不能为疫情控制决策提供精确地信息。GIS具有很强大的数据分析处理能力,应用到流行病学研究中,可以建立疫情数据、动物养殖数据和环境危险因素评估数据等因素的统计和分析,进行情预警和辅助制定时效性和科学性的决策,在今后的研究中进一步完善这些方面的内容,为制定有效的防治措施提供理论支撑。(2)对进化和传播规律的研究只是宏观定性的研究,缺乏分子层面定量的分析结果。缺乏H7N9病毒的内部构造和基因测序方面的知识,对毒株的分子生物学特性及其与致病性的关系并不了解,不能确定是哪个基因段的突变造成了病毒从禽感染到了人。系统发育树分析没有确定出可以进行疫苗研发的对应菌株。-61- 参考文献[1]殷其琴.两类禽流感模型的动力学分析[D].武汉:华中师范大学,2014.[2]马福健,兰德松,孟潇,等.生物信息学方法在探究新出现流感病毒来源上的应用[J].现代畜牧兽医,2012(7):71-73.[3]聂轶飞,王海峰,康锴,等.人禽流感病原学与流行病学相关研究[J].河南预防医学杂志,2011(6):401-404.[4]RONGBAOG,BINC,YUNWENH,etal.Humaninfectionwithanovelavian-origininfluenzaA(H7N9)virus[J].NewEnglandJournalofMedicine,2013,368(18):1888-1897.[5]CHENF,LIJ,SUNB,etal.IsolationandcharacteristicanalysisofanovelstrainH7N9ofavianinfluenzavirusAfromapatientwithinfluenza-likesymptomsinChina[J].InternationalJournalofInfectiousDiseases,2015,33:130-131.[6]谭伟,徐倩,谢芝勋.禽流感病毒研究概述[J].基因组学与应用生物学,2014(1):194-199.[7]SPACKMANE,PANTIN-JACKWOODM,SWAYNEDE,etal.ImpactofrouteofexposureandchallengedoseonthepathogenesisofH7N9lowpathogenicityavianinfluenzavirusinchickens[J].Virology,2015,477:72-81.[8]HALDERN,KELSOJK,MILNEGJ.Amodel-basedeconomicanalysisofpre-pandemicinfluenzavaccinationcost-effectiveness[J].BmcInfectiousDiseases,2014,14(1):266-284.[9]ZHANGW,WANGL,HUW,etal.EpidemiologiccharacteristicsofcasesforinfluenzaA(H7N9)virusinfectionsinChina[J].ClinicalInfectiousDiseases,2013,370:520-532.[10]秦川.H7N9禽流感的研究现状及对未来的思考[J].中国实验动物学报,2014,22(1):2-7.[11]LILIX,LINLINB,WEID,etal.Novelavian-originhumaninfluenzaA(H7N9)canbetransmittedbetweenferretsviarespiratorydroplets[J].JournalofInfectiousDiseases,2014,209(4):551-556.[12]何凤丽.H7N9禽流感病毒的生物信息学分析[D].石家庄:河北科技大学,2014.[13]YIS,WEIZ,FEIW,etal.Structuresandreceptorbindingofhemagglutininsfromhuman-infectingH7N9influenzaviruses[J].Science,2013,342(6155):243-247.[14]MARCVR,PHILIPPEL.Genesisofavian-originH7N9influenzaAviruses[J].Lancet,-62- 2013,381(9881):1883-1885.[15]HINSHAWVS,WEBSTERRG,TURNERB.TheperpetuationoforthomyxovirusesandparamyxovirusesinCanadianwaterfowl[J].CanadianJournalofMicrobiology,1980,26(5):622-9.[16]张毅,王幼明,王芳,等.我国禽流感研究进展及成就[J].微生物学通报,2014,41(3):497-503.[17]高华龙.蛋白质空间结构相似性比较方法研究[D].大连:大连交通大学,2012.[18]王舒宁.基于生物信息学的甲型H1N1流感病毒HA蛋白抗原表位进化规律研究[D].上海:华东理工大学,2012.[19]曲婷.基于生物信息学方法的H1N1流感病毒致病及传播特性研究[D].长春:吉林大学,2010.[20]李晓红.甲型H1N1、H3N2流感病毒进化与传播规律研究[D].石家庄:石家庄铁道大学,2014.[21]王慧玲.基于3D图形表示的禽流感病毒的相似性分析[D].济南:山东大学,2009.[22]史卫峰,顿爱社,刘帅,等.生物信息学在禽流感病毒研究中的应用[J].中国病原生物学杂志,2009(3):219-223.[23]王勇献,王正华.生物信息学导论面向高性能计算的算法与应用[M].北京:清华大学出版社,2011:7-9.[24]刘智新,杨洪强,包丽华.蛋白质氨基酸序列的粒度概念及其在蛋白质预测中的应用[J].生物物理学报,2013,29(3):222-224.[25]张艳萍.氨基酸序列特征提取方法研究生物序列相似性向量及其识别DNA结合蛋白的效果研究[D].天津:南开大学生物信息学,2014.[26]罗林波.氨基酸序列特征提取方法研究[J].计算机技术与发展,2010,20(2):206-208.[27]耿长春.蛋白质序列空间曲线构造及相似性分析[D].浙江:浙江理工大学,2013.[28]李娟娟.基于多特征融合和集成的蛋白质相互作用预测[D].济南:济南大学计算机科学与技术,2014.[29]RANDICM.2-Dgraphicalrepresentationofproteinsbasedonphysicochemicalpropertiesofaminoacids[J].ChemPhysLett,2007,440(4):291-295.[30]LIC,XINGL,WANGX.2Dgraphicalrepresentationofproteinsequencesanditsapplicationtocoronavirusphylogeny[J].BMBRep,2008,41(3):217-222.[31]HEPA,ZHANGYP,YAOYH,etal.Thegraphicalrepresentationofproteinsequencesbasedonthephysicochemicalpropertiesanditsapplications[J].JComputChem,2010,-63- 31(11):2136-2142.[32]YAOYH,DAIQ,LIL,etal.Similarity/Dissimilaritystudiesofproteinsequencesbasedonanew2Dgraphicalrepresentation[J].JComputChem,2010,31(5):1045-1052.[33]YAOYH,DAIQ,LIC,etal.Analysisofsimilarity/dissimilarityofproteinsequences[J].Proteins,2008,73(4):864-871.[34]LISL,JINMZ,QIZH.EvolutionanalysisforHAgeneofhumaninfluenzaAH3N2virus(1990-2013)[C].SystemsBiology(ISB),20148thInternationalConferenceon,IEEE,2014:81-84.[35]菅桂倩.基于新型特征提取算法的蛋白质分类研究[J].计算机技术与发展,2010,20(2):206-208.[36]陈国胜,王靖飞,李静.地理信息系统(GIS)进行高致病性禽流感控制中的应用[J].中国预防兽医学报,2004,26(6):471-474.[37]王忠东.基于空间点模式分析的青岛市结核病时空流行病学研究[D].济南:山东大学,2010.[38]孙根年,杨欢欢.基于Internet与GIS的全球禽流感时空动态分析[J].地理与地理信息科学,2006,22(6):24-29.[39]FANGQ,LIPINGMA,YANGBR.AnEfficientAlgorithmfortheConvexHullofPlanarPointSet[J].GeographyandGeo-InformationScience,2006,22(6):38-41.[40]田怀玉.中国H5N1高致病性禽流感暴发的时空分布与环境危险因素研究[D].长沙:湖南师范大学,2012.[41]武斌.甲型H1N1流感病毒北美毒株的分子特征和人源HPAIH5N1全球传播模式[D].石家庄:河北师范大学,2010.[42]GENGPINGZ,ATOWNSENDP.Potentialgeographicdistributionofthenovelavian-origininfluenzaA(H7N9)virus[J].PlosOne,2014,9(4):1-6.[43]FANGLQ,LIXL,LIUK,etal.MappingspreadandriskofavianinfluenzaA(H7N9)inChina[J].ScientificReports,2013,3(74):272-280.[44]XIAOY,SUNX,TANGS,etal.TransmissionpotentialofthenovelavianinfluenzaA(H7N9)infectioninmainlandChina[J].JournalofTheoreticalBiology,2014,352(1786):1-5.[45]CHOWELLG,SIMONSENL,TOWERSS,etal.TransmissionpotentialofinfluenzaA/H7N9,FebruarytoMay2013,China[J].BmcMedicine,2013,11(1):1-13.[46]SHEN,YINZHONG,HONGZHOU.HumaninfectionwithavianinfluenzaA(H7N9)v-64- irusinShanghai:currentstatusandfuturetrends[J].ChineseMedicalJournal,2014,127(10):1973-1976.[47]QUNL,LEIZ,MINGHAOZ,etal.EpidemiologyofhumaninfectionswithavianinfluenzaA(H7N9)virusinChina[J].NewEnglandJournalofMedicine,2014,370(6):520-532.[48]PANYN,LOUJJ,HANXP.Outbreakpatternsofthenovelavianinfluenza(H7N9)[J].PhysicaAStatisticalMechanics&ItsApplications,2013,401(5):265-270.[49]SunY,ShenY,LuH.Discoveryprocess,clinicalcharacteristics,andtreatmentofpatientsinfectedwithavianinfluenzavirus(H7N9)inShanghai[J].ChineseMedicalJournal,2014,127(1):185-186.[50]RONGBAOG,BINC,YUNWENH,etal.Humaninfectionwithanovelavian-origininfluenzaA(H7N9)virus[J].NewEnglandJournalofMedicine,2013,368(20):1888-1897.[51]RICHARDM,SCHRAUWENEJ,DEGRAAFM,etal.LimitedairbornetransmissionofH7N9influenzaAvirusbetweenferrets[J].Nature,2013,501(7468):560-563.[52]HAI-NVG,HONG-ZHOUL,BINC,etal.Clinicalfindingsin111casesofinfluenzaA(H7N9)virusinfection[J].NewEnglandJournalofMedicine,2013,368(24):2277-2285.[53]HAIZHOU,FANG,JAMES,etal.ThelimitednumberofavailablenucleotideandproteinsequencedatafromtherecentH7N9casesinChinaimpededinvestigationandcharacterizationoftheoutbreak[J].JournalofMolecularBiology,1983,23(4):622-625.[54]TOKIKOW,MAKIK,SATOSHIF,etal.CharacterizationofH7N9influenzaAvirusesisolatedfromhumans[J].Nature,2013,501(7468):551-555.-65- 致谢三年的研究生学习即将结束,借此机会感谢陪我度过这段美好时光的所有人。首先,我要感谢我的指导老师綦朝晖教授。綦老师学识渊博、治学严谨。老师脚踏实地认真做学术态度深深的影响着我,使我受益匪浅。我要衷心感谢綦老师在硕士期间对我的指导和帮助,他将我入一个全新的生物信息学领域。此次论文的研究和写作过程中,老师给予了我很多指导和帮助,鼓励我积极思考,培养分析和解决问题等方面的能力。同时綦老师在生活上也给了我很多无私的关怀,教会了我很多为人处世的道理,低调谦逊的生活态度。对我以后的工作和生活有很大的启迪。感谢研究生期间所有教我课程的老师,感谢信息学院办公室的所有老师给予我的帮助和指导,尤其感谢郑丽娟老师和钟谦老师。感谢与我共同探讨问题的金梦哲同学,在论文遇到问题时提出了许多宝贵的建议,给了我很大的帮助,保证了论文的顺利完成。还要感谢我的师姐李晓红,师妹包维娜、柳凌云,师弟郝晓涛,在读研期间给我的许多帮助。感谢陪我度过研究生的三年生活的所有同学,感谢我的室友,感谢陪我散心的好朋友,与他们度过的美好时光,是我人生中最美好的记忆。我还要感谢我的家人,对于我选择读研这条路给予无条件的支持。家人的期望一直是我前进的动力。最后,我要感谢论文评审和答辩的各位老师,衷心地感谢各位老师能够百忙之中来参加我们的论文评审和答辩工作!-66- 个人简历、在学期间的研究成果及发表的学术论文个人简历李素丽,女,1988年1月出生,2012年6月毕业于石家庄铁道大学信息科学与技术学院计算机科学与技术专业,获工学学士学位。2013年考入石家庄铁道大学计算机技术专业攻读硕士学位。参研课题[1]人源甲型流感病毒基因组演化的全球性时空统计与模拟研究,国家自然科学基金面上项目61272254,在研,参加。[2]甲型流感病毒基因组进化分析与计算机模拟研究,河北省自然科学基金面上项目F2012210017,2015年河北省科技厅已鉴定,参加。[3]时空视野下人类流感疫情的全球性起源、传播与迁移(1918-2010),教育部人文社科交叉学科研究青年基金11YJCZH132,2015年教育部已鉴定,参加。已发表的学术论文[1]LiSL,JinMZ,QiZH.EvolutionAnalysisforHAGeneofHumanInfluenzaAH3N2Virus(1990-2013).The8thInternationalConferenceonSystemsBiology(ISB),2014,QingdaoChina,84-87.(EI检索).[2].QiZH,JinMZ,LiSL.Aproteinmappingmethodbasedonphysicochemicalpropertiesanddimensionreduction.ComputersInBiologyandMedicine,2015.1,57,1-7.(SCI检索)[3].金梦哲,綦朝晖,李素丽.人源甲型H1N1流感HA基因进化特征分析[J].河北省科学院学报,2014,02:83-89.-67-

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭