基于微生物社交网络和随机游走策略的微生物—疾病关联预测

基于微生物社交网络和随机游走策略的微生物—疾病关联预测

ID:76145899

大小:8.34 MB

页数:62页

时间:2024-02-04

上传者:笑似︶ㄣ無奈
基于微生物社交网络和随机游走策略的微生物—疾病关联预测_第1页
基于微生物社交网络和随机游走策略的微生物—疾病关联预测_第2页
基于微生物社交网络和随机游走策略的微生物—疾病关联预测_第3页
基于微生物社交网络和随机游走策略的微生物—疾病关联预测_第4页
基于微生物社交网络和随机游走策略的微生物—疾病关联预测_第5页
基于微生物社交网络和随机游走策略的微生物—疾病关联预测_第6页
基于微生物社交网络和随机游走策略的微生物—疾病关联预测_第7页
基于微生物社交网络和随机游走策略的微生物—疾病关联预测_第8页
基于微生物社交网络和随机游走策略的微生物—疾病关联预测_第9页
基于微生物社交网络和随机游走策略的微生物—疾病关联预测_第10页
资源描述:

《基于微生物社交网络和随机游走策略的微生物—疾病关联预测》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

分类号密级UDC编号1M九考岸fii硕士学位论文1子欲生物社文网络和随机游走策略的欲生物-法病兵联领測学位申请人姓名:腺免申请学位学生类别:工程碩士申请学位学科专业:计算机技术指导教师姓名:此星常教救 C頌士学位论之i^m\MA'STKRSTHESIS硕士学位论文基于微生物社交网络和随机游走策略的微生物-疾病关联预测论文作者:陈尧指导教师:沈显君教授学科专业:计算机技术研究方向:生物信息学华中师范大学计算机学院2017年5月 硕士学位论文'#MASTERSTHESISPredMicrobe-ictingDiseaseAssociationbyRandomWalkingbasedonMicrobialSocialNetworkAThesisSubmittedinPartialFulfillmentoftheRequirementFortheM.SDegreeinComputerApplicationTechnologyByYaoChenPostgraduateProramgSchoolofComputerCentralChinaNormalUniversitySuervisor:XianunShenpjAcademicTitle:ProfessorSignatureApprovedMay,20r 硕士学位论文MA'?STERSTHESIS华中师范大学学位论文原创性声明和使用授权说明原刳性声明本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作所取得的研究成果,。除文中己经标明引用的内容外本论文不包含任何其他个人或集体己经发表或撰写过的研究成果。对本文的研宄做出贡献的个人和集体,均己在文中以明确方式标明。本声明的法律结果由本人承担。曰灿/作者签名:期:年J月4曰7学拉也文版权使用梭权书,S:学位论文作者完全了解华中师范大学有关保留、使用学位论文的规定P研究生在校攻读学位期间论文工作的知识产权单位属华中师范大学。学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许学位论文被查阅和?借阅可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其,学校它复制手段保存、汇编学位论文。(保密的学位论文在解密后遵守此规定)保密论文注释:本学位论文属于保密,在。年解密后适用本授权书非保密论文注释:本学位论文不属于保密范围,适用本授权书。:作者签名:Til导师签名■曰期?曰:>r年j月q曰曰期:年r月[^“”本人己经认真阅读CALIS高校学位论文全文数据库发布章程,同意将本人的“”“”CALIS学位论文提交高校学位论文全文数据库中全文发布,并可按章程中的一二年规定享受相关权益。同意论文提交后滞后:□半年;□年;□发?一:作者签名:^^导师签名曰期曰曰期年r月E:年r月jq 碩士学位论文'?MASTERSTHESIS摘要随着人类微生物组计划的迅速发展与应用,如何从这些海量的微生物数据中挖一掘出有价值的信息,己经成为生物信息学领域中个重要的研究热点。通过己知的疾病相互作用关系网络和微生物相似性网络,找出与疾病相关的微生物将有助于帮助人类在健康监测、新药研制、个性化对患者进行用药、以及疾病诊疗等方面取得“”有效性的进展微生物社团,再结合疾病数据构。本文通过马尔科夫聚类算法形成建异构微生物社交网络,利用异构网络随机游走方法以及相关性排名对与疾病相关:的微生物进行预测,主要的研究工作和创新如下一-第,基于微生物社交网络的微生物疾病关联预测。本文通过分析微生物网络“”拓扑特性,发现微生物之间的相互作用也存在类似于社交网络中的社交特性。因此采用SparCC计算相关性构建微生物社交网络,通过马尔科夫聚类算法挖掘微生物社区或微生物网络模块-,对潜在的微生物疾病关联进行预测。再对聚类形成的“”进行了分析,、肠道:微生物社区列举了呼吸道、皮肤处的三种常见的疾病哮喘、-结肠癌、过敏性皮肤炎,根据相关性排名预测潜在的微生物疾病关联,相关医学文献验证了本文所预测的疾病相关微生物的有效性。一二-第,基于异构网络随机游走的微生物疾病关联预测。单的微生物社交网络一定的局限性对疾病微生物关联预测存在,而且不同微生物医学数据之间存在着复杂的关联性,充分利用微生物与疾病数据间的联系可以更准确地对疾病微生物进行--预测。本文通过将已知微生物疾病关联数据进行整合,构建微生物社交网络疾病-异构网络,对己有的微生物,采用随机游走方法(RWRH)预测疾病微生物疾病关一联数据进行留交叉验证、参数分析和ROC曲线分析,与在单层的微生物社交网络上的随机游走(RWR)进行对比分析。对二型糖尿病、哮喘、牛皮癣三种疾病的致病微生物预测结果表明:基于异构微生物社交网络的疾病微生物预测更为准确有效。关键词:微生物社交网络;疾病网络;马尔科夫聚类;随机游走I 硕士学位论文MA'?STERSTHESISAbstractWiththerapiddevelopmentandapplicationoftheHumanMicrobiomeProject,themicrobialcommunitdataisrowinexonentiallioutly.Howtodvauableinformationggpygfromthesemassivebiologicaldatahasbecomeasignificantresearchsubectinthefieldjofbioinformatics.Findingoutthemicrobesrelatedtothediseasesbasingontheknowndittitworkandmiimilttworkwillhltomakeiseaseneraconnecrobesariyneeppeoplebreakthrouhroressinthehealthassessmentandmonitorinersonalizedmedicinegpgg,p,drugdevelomentanddiseasedianosisandtreatmentetc.Basedonthemicrobepg-interactionnetworkweredictedthediseasemicroberelationshisbtheMarkov,ppy“”clusterintoformsocialnetworkandrandomwalkinontheheteroeneousnetworkggg,themainresearchworkisasfollows:F-irstofallredictindiseasemicrobeassociationbasedonmicrobialsocial,pg’weanainetwork.Inthisaerlzedthemicrobalnetworkstooloicalcharteristicspp,ypgac9andfoundthattheinteractionbetweenmicroorganismsissimilartothesocialnetworkscharacteristicsSowetookuseofSarCCtocalculatethecorrelationandconstructthe.p-mialsocialnetworkthenweredictedtheotentialdiseaseicrobeassociationsbicrobm,ppyMCLalorithmtoformmiltiiltlWgicrobacommuniyormcrobaneworkmodue.eanalzedthreekindofdiseasesAsthmaColorectalcarcinomaandAtoicdermatitisy,pichlocatedinairwasastrointestinaltractandskinresectivelFillewhy.na,gpyyw-rediliidinhlpictedthediseasemcrobereatonshpsaccorgtotereevancerankingandverifdheftiththrhthelitetieteecvenessofourmeodougrauresearch.-Secondiiidomwalkinlrioritizindseasecausnmcrobesbranonthey,pggygheteroeneousnetwork.Asinlemicrobialsocialnetworkhascertainlimitationstoggd-reictdiseasemicrobeassociationsmoreovertherearecomlexrelationshisbetweenp,ppdifferentmicrobialandmedicinedata.Makinfulluseoftherelationshisbetweengp-imicroorganismsanddiseasedatacanhelptopredictdiseasemcrobeassociationsmore-accuratelhiidhknowndiiiidy.Tspaperntegrateteseasemcrobeassocatonatatoconstructmicrobialsocialnetworkanddiseasenetworktoformtheheterogeneousnetwork,thendom-tedranwalkwithresdidisibeliidaweadoptarttorecteasemcroreatonshs.WeuseppII 硕士学位论文'?MASTERSTHESISfmehodh---serlldadiesotssucaseaveoneoutcrossvaitionarameteranalsisanROC,py9-curveanalysistoevaluatethediseasemicrobeassociationsdataandfinallycomaredpwiththerandomwalkwithrestart(RWR)onasinglemicrobialnetworkonly.ThepredictionresultsrelatedtoAsthma,Type2diabetes,Psoriasisandthepotential-bmicrooranismsshowedthattheriortiidiigpizngiseasecausngmcrobesasedonheteroeneousmicrobffgialsocialnetworkwasmoreaccurateandeective.Keywords:MicrobialSocialnetwork;Diseasenetwork;MarkovClustering;RandomwalkIII 位论文MASTERSTHESIS目录m^iAbstractIIg录IV^11.1弓1丨言111..1人体微生物组研宄1123..微生物组与疾病关联预测41.2本文主要研究工作和创新135.本文的组织结构-第二章微生物网络与微生物疾病预测的研宄72.1微生物网络推理7229.微生物相互作用关系的网络特性2.3微生物相关网络推理方法1124-12.微生物疾病关联研究现状2.514-第三章基于微生物社交网络的微生物疾病关联预测15153.1引言-3217.基于微生物社交网络及聚类分析预测微生物疾病关联.1SCC1832.基于par构建微生物相关作用网络32220..马尔科夫聚类算法3.2.3微生物社交网络构建与分析213321.实验结果和分析213.3.1实验数据33.2SCC计22.基于par算不同人体部位的微生物相关性3.3.3基于马尔科夫聚类的微生物社区263.27.34测试实例分析3429.本章小结-第四章基于异构网络随机游走的微生物疾病关联预测30 顼士学位论文'?MASTERSTHESIS4.1引言3042-3.基于异构微生物社交网络和随机游走方法预测微生物疾病关联142131..经典随机游走算法4.2232.异构网络矩阵构建42333..带重启的异构网络随机游走4337.实验结果和分析4.3.1实验数据37432一38..留交叉验证4.3.3参数分析39434ROC40..曲线分析435-41..微生物疾病关联预测4443.本章小结第五章总结与展望445.1^44一5244.下步研究工作46攻读硕士期间发表的论文和参加的科研项目52麵53 碩士学位论文MA'STERSTHESIS第一章绪论11.引言1.1.1人体微生物组研究一生物信息学是一门融合了计算机科学、数学和生命科学的种新型交叉学科。,对生物医学知识进行收集它是指通过运用数学或者计算机等相关知识、加工、分,、蛋白质组学析等的科学。其研究范围广泛涉及药物基因组学、转录组学等。随一些相关生物数据的急剧增长着,迫使人们去寻求更多的有力工具去研宄和利用这些数据。人类微生物组(HumanMicrobiomeProject,简称HMP)计划是美国国立卫生一研究院在2008年成立的个为期五年的项目,其目标是为了识别和描述与人类健一康和疾病相关的微生物组。它是人类基因组计划的个逻辑概念和实验扩展的延伸,随着人类微生物组计划的提出,人类正式进入了微生物时代。人体内存在两个基因一组,个是从父亲母亲那里遗传过来的、大概编码了25第.万个基因的基因组;另一个则是在人出生以后才进入人体内,其中包含多达1000多种共生微生物,共编“”“码,这种遗传信息称为,同时也可称为元基因100万个以上的基因微生物组”一组,。只有这两个基因组之间相互协调致才能够保证人体免受疾病之苦。为了一更好的研宄这些微生物与人体的健康关系,共生微生物组基因成为了个重要的课题。一微生物包括病毒、细菌、古生菌和原生生物,它们不是孤立存在,而是形成一个复杂的生态系统相互作用网络。和宏观生态学的定义样,所观察的微生物之间--,也包括winin(互)i)的相互作用关系跨度广泛w利共生、wnzero(偏利共生、---winlose()l)ll()寄生,捕食、zeroose(偏害共栖和oseose竞争的情况。这些生态环境网络的相互作用中既有对其他微生物产生积极的影响作用,也有消极的影响,同时也会对其他物种不产生任何影响.1,。各种相互类型的分类关系如图1所示“”“”其中用+、和0三种符号分别表示正相关、负相关以及既没有产生有利作用也1[]没有产生有害作用的中立关系。例如,不同分类群的细菌能够相互协作构建生物2[]膜,这种生物膜能够为其他微生物抵挡抗生素的侵袭,两种不同的微生物种群可以彼此交换新陈代谢的产物而同时有利于彼此的生存本文称这种有利于双方的1 硕士学位论文MA'?STERSTHESIS一一关系为互利共生;种微生物的代谢副产物能够改变环境的PH值而损害了另种一4[]微生物的生存,这种关系本文称为偏害共栖;微生物之间也存在种竞争关系,在共同培养的情况下,水母能够抑制草履虫的生存,即在相同的环境中,两者彼此排斥对方;同时,微生物之间也还存在寄生、偏利共生、抗菌等相互作用关系。5一[]研究微生物生态系统中各种不同类型的相互关系远不是那么简单和直接。些关于生态系统的微生物相互作用关系网络重建方法的提出将会打开一个新的思路去研究生态系统动力学的全球模型。最终,这些模型能够用于预测群落变化的结果以及扰动的影响,,这些。同时从长远来看模型也能够帮助设计和管理复杂的微生物群落。一众所周知,些显而易见的细菌群落存在于人类身体里的各个不同组织和器官中,例如口腔,这些细、皮肤、阴道、肠道和肺部等菌群落结构的改变会对人类的健康产生影响。理解微生物群落之间复杂的相互关系以及在疾病发生发展过程中这一个巨大的挑战一些微生物群落的变化仍然是。近几年的些研宄试图通过传统的生态测量技术和编目细菌群落成员的差别来分析人类微生物组。通过对特定微生物群落网络的研宄将有助于提高对疾病机制的认识,从而对于疾病诊断与治疗提供介入方案,最终达到精准治疗目的。ecoiiilogcalrelatonshpsras-redatoriteinp/pawloss()^ommenlmcsaisw-inneutral()^0°zBK^I/\I,ZIi芯SSHIIH,]G.JJX户—号\/IE8V^yamensalism—l一-lilossneutral()-restipy/holosswn()6[】图1.1微生物之间存在的六种生态系统关系2 碩士学位论文MA'STERSTHESIS1.1.2微生物组与疾病关联预测“望从古至今,疾病总是给人类留下了许多的痛苦和不幸。从过去简单的、闻、”问四种中医诊疗方法,、切到现如今的各种高科技、高含量、高准确度医疗设备的使用以及更深入到疾病基因等更小粒子的研究,人们对于疾病的致病原理以及治疗机制的研究从未间断过。从早期的人类基因组计划的完成,科学家们己经完成了相关人类基因组图谱的绘制,破解了人类的遗传信息,到如今人类微生物组计划的一提出和实行,人类对于疾病的探究更进了步。将人类基因与人体内的微生物组相,研宄与疾病相关的微生物不仅能够更全面联系起来、更深刻的认识到疾病发病机理和发病机制,而且对于解决临床医学上的精准治疗问题以及开发新型药物都发挥着举足轻重的作用。微生物组与人类疾病息息相关,例如皮肤性炎症、糖尿病、肥胖症、炎症性肠病、各种癌症等免疫系统和代谢疾病。从基因分子水平的研宄靶向慢慢向微生物方面进行转换一,人体内的微生物菌群现在已慢慢成为研究疾病的最新靶标,为系列7[]复杂疾病的诊疗和分析提供了可靠的依据。对微生物组的研究不仅仅在临床医学和个性化医疗中表现出了巨大的价值[8]M,同时也开始遍布到了海洋科学、环境科一%11学][】、农业农药科学和地球地理科学等多个科学领域。另外,系列国际上的重大项目如欧盟肠道微生物组计划,也证、人类微生物组计划和地球微生物组计划等明了对微生物的研究具有不可忽视的重要科学价值以及更为广阔的应用前景。随着人类微生物组计划的提出,科学家们己经通过16S和鸟枪法等测序方法建一立了系列相关的信息资源库(如图.2,1所示)。然而面对这些海量的微生物数据仅仅依靠生物实验进行定位分析,然后通过逐步筛选与人类疾病相关的微生物,不一,而且实验耗时的周期也会更长,些仅进行实验花费的成本代价高昂。因此利用己知的微生物数据预测高度可疑的潜在的微生物-疾病关联,从而达到缩小生物实验的样本量,提高相关微生物实验精度,最终通过降低生物实验的成本并且缩短实验周期的目的。这些数据和方法都将有利于探索人类微生物组的改变与疾病之间的关系以及开发新的技术和工具进行微生物的计算分析等,同时也将有利于探宄疾病的发病机制、设计相关药物、定向为疾病治疗。3 硕士学位论文'?MASTERSTHESISReferenceGenomesMetaenomic16SSeuencegqHfvIRGDHMPReferenceGenomesequencedataHMR16SRaw16SreadsandlibrarymetadataHMREFGReferenceenomedatabaseforreamainHM1TRProcesseannotated1gdppg6Sd,6SMosftWantedTaxaHMMCPMothurcommunitproilinygH腦DA16SinlecellM1fanerseuencinSgDA5SRNASgqgHMQCPQliMEcommunitroflnypiigHMPreferenceenomedataatNCBIHMPmetaenomic16SdataatNC8IggMttcmntseaenomicShounSeuenceMokComuiyAnalisggqyHMlWGS/HMASylluminawsreadsandassembliesHMMCMocRcommunity16Sandwsreadsgg-HMBSAitfiBodseseciicassemblesypHMGInxIGenedeOttherDaaHMGCidClusteredgenenexHMFUNCiFunctonaldatabasesusedformetabolicreconstructionHMGSGOslimanaysislRSEQRfM.AseqexpressionanalysisofdentalmicrobiomeHMSCPShotuncommunrtrofilmgypgHMPPoecCaaoerenemrttlRefcGenome&MetacenoicmetadataHMjgSMCPShtMtlAitPloauneaPHnCommunrofiinygMRowSchema^Mappingof1SSandMetaenomicsam_RgCMe_iC_nStr_nan_st_HM60IGenesofInterestHM4WGSfHMHASyHbridreadsandassembliesyHIfvlHGlilumina/454hybridseneindexHfvlPmetaenomicshotgundataatNCBIg图1.2在300个健康人中通过6S1和宏基因组鸟枪法采样收集构建的相关数据集目前,微生物数据仍在以成倍的数量进行增长,关于通过构建疾病网络和微生物网络能够用于预测疾病、微生物、基因和药物之间新颖的连接和潜在的机制。虽一然微生物数据中存在些噪声和缺失值,但是不同类型的微生物数据之间能够相互1213[][】弥补这些缺陷和不足。另外,操作微生物群落数据也与废水处理、食品生产14151617以及预防和治疗例如癌症[][][][]、炎症性肠病和肥胖等疾病息息相关。因此,-依据复杂的微生物网络或者16S测序得到的基因数据设计有效、合理的微生物疾病关联预测算法不仅能够给生物学家,、医学家、遗传学研宄者提供有效的指导和帮助而且也有助于生物制药以及精准医疗的发展。1.2本文主要研究工作和创新目前有关于疾病与微生物之间的关联研宄较少-,因此探宄微生物疾病之间的关联成为了目前微生物研宄的热点,。本文首先利用微生物丰度数据并结合丰度数据采样点信息,构建微生物社交网络,。其次采用马尔科夫聚类算法形成微生物社团再结合疾病数据,构建包含有疾病网络和微生物社交网络数据的异构网络,并在该网络上随机游走-。最后根据相关性排名预测微生物疾病关联。研宂工作和主要创新4 硕士学位论文MA'STERSTHESIS点如下:一第,人类微生物组计划中包含的微生物数据冗杂,如何通过这些复杂的微生物数据构建微生物网络是本文的研究重点,。在这里本文通过HMP在不同的采样,SarCC点获取的微生物丰度数据采用p方法计算微生物之间的相关性,然后结合,构建不同身体部位即呼吸道疾病相互作用关系网络、肠道和皮肤处的微生物社交网络,再采用马尔科夫聚类算法将微生物社交网络聚类,最后分析聚类所形成网络一“”“”的拓扑结构,并将其归为个社交网络,根据致病微生物所处的社交网络以及相关性排名来预测潜在的微生物-疾病关联。二一第,不同的生物医学数据之间存在复杂的联系,仅从单的微生物社交网络一角度来分析微生物和疾病之间的关联不够准确,并存在定的局限性,。因此本文-,己知的微生物依据数据融合的思想根据疾病关联数据,结合疾病网络数据和微生物社交网络数据构建异构网络,。采用异构网络随机游走方法(RWRH)并进行参一二型数,对三、ROC曲线以及留交叉验证分析算法有效性种疾病即糖尿病、哮喘和牛皮癖常见疾病的预测结果表明异构网络的随机游走方法(RWRH)较单层微生-物社交网络更好,从而验证了基于异构网络的随机游走方法预测潜在的微生物疾病关联的有效性。1.3本文的组织结构-本文主要研究构建微生物网络和微生物疾病关联预测的相关问题,全文共为五str.早:一第章,首先对人体微生物组的研究,以及微生物与疾病之间的关联研究进行了详细介绍,然后就本文所研宄的主要工作和组织框架进行简单概述。二一第章,首先介绍了微生物网络推理的过程,以及微生物相关网络存在的些一些微生物相关网络推理的方法网络特性。然后总结了目前的。最后总结关于微生物-疾病关联预测的研宄意义。“”第三章,通过聚类算法形成微生物社交网络,与己知的致病微生物相关,并“”一的微生物更倾向于是潜在的与疾病相关的微生物处在同个微生物社交网络。基一于该思想,本文提出种根据SparCC相关性计算方法以及马尔科夫聚类算法对潜-在的微生物,并分析了哮喘疾病关联进行预测、结肠癌、过敏性皮肤炎三种可能的、,通过相关性排名以及文献查找证实了方法的有效性与其相关的微生物。-第四章,通过异构网络的随机游走算法RWRH预测潜在的微生物疾病关联。5 硕士学位论文MA'?STERSTHESIS一交叉验证本文通过选用合适的种子节点进行留。实验结果表明,本文的算法优于单层微生物网络的随机游走RWR算法。最后,本文对28种疾病的关联微生物进行预测,将哮喘、二型糖尿病、牛皮癣三种疾病作为案例进行分析,并找出了潜在的与这些疾病分别相关的微生物。,本章节主要对全文的研究内容进行分析和总结,第五章。同时根据目前在研一,提出了自己的看法,宄中遇到的不同问题、认识和理解并对如何进行下步的研宄工作作出了相应的规划和展望。6 硕士学位论文MA'STERSTHESIS第二章微生物网络与微生物-疾病预测的研究随着微生物相关数据的不断增长,以及有关微生物网络构建方法的不断提出,探究疾病与微生物之间关系的相关研究也越来越受到相关研究人员的关注,因此基于微生物网络的微生物-疾病关联预测方法成为了当前人体微生物组研宄的热点。本章将首先对微生物网络推理过程及其方法进行分析,然后对微生物网络的网络特性进行阐述,,探讨最新的微生物网络推理方法以及其他的相关性计算方法最后对微-生物疾病关联的研宄现状进行研讨。2.1微生物网络推理一微生物群落现在可以被系列的技术所监控,从通过微阵列的流动血细胞计数到核糖体RNA和宏基因组测序一。从这些原始数据中提取微生物丰度是个复杂、一多级的过程,它需要依赖于序列聚类和些相关的参考数据库。但同时,随着丰度数据的获得,预测微生物相关关系成为了可能。在计算科学中,从丰度数据或者存--在缺失(presenceabsence)数据中预测微生物相互关联的网络问题本文称其为网络推理,同时也开始在生。网络推理的技术不仅仅在基因组学中得到了广泛应用2Q[]态学中慢慢被采用。网络推理的目的是识别微生物的组合,以显示出微生物样本一之间显著的共现或者互斥模式,然后将其组合成个网络。本文区分两种网络推理一,方法:种是预测两个物种之间的相互关系本文称之为基于相似性的网络推理,一另种是预测三个或三个以上的微生物物种之间的相互关系,即基于回归或规则的网络推理。基于相似性的网络推理虽然存在很多缺陷,但是它能够使用量化两个物种分布的相似性测量方式,在多个样本中评估两个物种的同现或互斥模式(即pairwise相互作用关系)。然后,再相似性分数的重要性进行评估。当评估完给定的丰度数据一,集中所有可能的物种组合,有意义的对相互作用关系就会被结合从而构建网络,构建的网络过程如图2.1所示。一由于个物种依靠多个物种生存或者被多个其他的物种所影响,因此成对的相互关系并不能捕获更为复杂的生态关联模式,于是在此基础上就提出了基于回归或一一规则的复杂相互关系的网络推理。第种基于回归的网络:个物种的丰度可以从与它相结合的其他的物种丰度数据中进行预测,这种方法很简单同时也被多次使用,一但是对于回归结果的意义和解释有时却非常困难,特别是如果个因素是通过自动7 颂士学位论之>'!MASTERSTHESISj特征选择方法进行选择时。尽管这种方法经常自动选择物种集,从而在数学角度上一二,但是它并不意味着预测出来的结果会存在生物意义预测另个物种的丰度。第种方法就是基于相关规则挖掘的复杂关系的网络推理。这种方法是由枚举所有的逻-辑规则所组成的,通过resenceabsence数据找出有意义的规则p。首先通过枚举所一一组规则有可能的分类单元集到定规模并生成所有可能的每。然后再通过过滤器一些重要的规则的组合以改正多种测试,最后仅保留,如下图2.2所示。inputscoringassessmentofvisualizationSIGNIFICANCE,,presences/absencesincidencesm()repeatscoringsteany^pg.1256timeswithrandomizeddatasp—.iiiiurnif.^—11广fIforeachpossible/DtaxonpaircomputeSlHl,n^M;:1|i2||^similarityscoreLr?i_locatonortimeABCD:”:||-==L一BMI|^j一—-£L?Jrlhsymmeticcaculatevaluesfromtevisualizep ̄? ̄similarityrandomscoredistributiontaxonpairs^^|matrixanddiscardrelationshipswith—locationortimew-ithvaueninplsaboveasigficatspecifiedthresholdscoresasanetwork6[]21图.基于相似性的网络推理原理8 硕士学位论文MA'/MSTERSISyTHESppSCORINGASSESSMENTOFVINPUTISUALIZATIONSIGN.F.CANCEpresences/absencesforailsourcetaxaverstartincidencessuge()repeatscoringstemanpy"'axoncombna-ti123456hrandomdartimeswitizedta(〇)c)、tions:dosparse^丫—丫multipleJreressonwhaUgiit-vaHH__■_crosslidation▼84^locationriotme^1HvabundancesHIjB?'么,〇_ositive^qp,,, ̄-—nei-gatveIj]rk‘.ApjBBnn_□,-,。-〇???〇a^vsuaeilizb—taxonsets—ca-mDHlcuatevaluefrthe^lpsom_randomscoredistribution士sourcearts4?tgedignificantan敝加「£丨ati〇nshjps1〇cationortimetaxataxonesascorash-wluesaboveaitpvanetworkspeifiedthresholdcher?{ypgraph)62[]图.2基于回归的网络推理原理2.2微生物相互作用关系的网络特性随着时间的推移,人们对于网络的认识也在慢慢加深。网络不论是在自然界中、一科技发展或者还是在社会系统中都不是个随机的网络,网络的结构组织和其进化过程都有别于随机连接的网络一,并且这些网络都遵循系列的基本的组织规则。同一,网络范畴样的微生物网络也属于这。微生物网络不仅可以捕获微生物之间或者不同领域的微生物之间的联系,同时也可捕捉微生物与季节性变量的环境特征之间的联系一,例如定浓度的硝酸盐和磷酸盐微生物相关网络除了能够预测微生物之间的个体联系,同时相关网络的结构也有利于深刻理解微生物群落组织。微生物之间相互作用的网络属性及其相应21。,,的描述如表格.所示例如微生物网络和蛋白质相互作用网络、人类社交网络一一样,也是无标度的网络些高度连。这意味着许多类群的存在只有少量连接和接(中心)的类群。但是目前还不清楚这些中心类群是否比那些有较少连接的分类一群更具有生态相关性,,。另外微生物网络能够被划分成个个的簇并且这些簇能一够被解释为群有重叠生态位的分类单元。同样的,共现的分类单元比随机发生的9 碩士学位论文'?MASTERSTHESIS一共现更具紧密的相关性。网络属性也会随着个重要的环境参数的更改而发生改变。表2.1微生物相关网络属性及其介绍网络属性微生物网络的应用节点度分布在随机网络中,大部分的节点都接近于相同数量的连接边,而与23Nd[(odedereeistri]gibuton)其他紧密连接的节点很少。节点度的分布情况遵循泊松分布。但是,对于大多数生物网络而言,幂律分布能更好的描述度分布24[](如无标度网络)?虽然微生物网络的节点度分布并不总是遵2526][[]循幂律分布情况,但它们显然也远不是随机的。中心节点无标度网络中大多数节点只有很少量的连接,而称之为中心节点(Hubnodes)却与其他节点高度连接。移除这些随机节点,网络健壮性不会改27[1变,但却对移除中心节点非常敏感。中心节点的概念可与关键28[物种的生态理念相联系]。模块性大部分网络都存在高度的聚集特性,网络中局部区域中紧密相互(Modu。larity)连接以体现出拓扑模块通过不同的网络聚类算法将网络分成不同的簇一。形成的个簇内,边数目比连接簇之间的边数目更多,模块性更强簇在生态学概念中被解释为生态位(niches)平均最短路径长度平均最短路径长度一(AL)是通过计算网络中每个节点与其他(Averageshortestath节点之间的最短路径长度,再取平均值得到。存在最小平均最短p31】[lenth)路径长度的网络也被称为小世界网络生物网络存在小世界g。微网络特性,同时也能够提高网络对于扰动的反映速度。包括随机一网络在内的大部分复杂网络,都具有小世界特性。每对节点之间都存在一条相对较短的路径一。某个节点状态的改变可能会影响自身和其他大多数邻居节点的活动。鲁棒性指网络在出现异常情况时的容错机制,也就是网络对于恶意攻击(Robustness)或者随机错误的容忍程度。一组节点之间相互连接结构基元子图是指,从而形成网络中小的子图。网(Structuralprimitives)络中某些子图的出现频率比特定网络中度的期望分布要高,则称这些子图叫做结构基元一,同时,这些结构基元可能会与些生物功能相关。01 硕士学位论文MA'?STERSTHESIS2.3微生物相关网络推理方法(1)MENA一MENA的英文全称是MolecularEcoloicalNetworkAnalsis它是gy,种分子生态./ma网络分析方法。可使用的网站链接如下htp://ieg2ou.edu/MENAin.cgi。这种方法一旦网络构建使用随机矩阵理论,对完全相似性矩阵设定阈值,,就会提供大量的一二,,:第步数据上传网络构建;第三选项进行网络分析。具体步骤如下;第步,,网络可视化步进行相关的网络分析;第四步。(2)LSALSA(localsimilaritanalsis)表不逻辑相似性分析SA的核心思想是对时yy。L,两个OTUs之间的相关性可能就会发生改变间序列进行局部比对。虽然本文使用的微生物数据没有包括时间序列一,但是我们可以将个OTUs在不同的样本中采集:的数值看作是在不同的时间序列中,分析方法同样也是适用的。具体步骤如下第一LSA一二,ftLSA,,显示可步,运行as是个程序它需要使用命令行运行;第步视化结果。(3)SarCCpSCC是一ar,它对数据组合有很强的健壮性p个网络推理工具。这个方法具体可在文章PLoSComp8C9):el002687杳看相关介绍。SparCC构建微生物相关网络方一法具体如下一,计算相关性,SaCC是on,,:第步pr个Pyth程序使用命令行运行一-l其中需要给定个i值表示迭代次数;第二步,计算辅助程序;第三步,计算Pvaue一值;最后步,网络可视化。(4)CoNetC一一oNet也是个网络推理工具,提供种基于集合的网络构建方法,例如多种相似性的测量方法能够组合应用。使用基本的组合方法和ReBoot技术可以减轻组合性偏差,具体解释可参见PLoSComputationalBioloev8(T)el002606。具体步骤.一如下:第步,基本配置,可以通过设定相关选型和特征,,通过;第二步排列排--列计算Pvalueil;第三步,Bootstrappng,通过最终的Pvaue值计算bootstrap分布;,,,第四步从随机文件中恢复网络;第五步网络可视化可同时显示多种相关性构建的网络图。(5)PearsonPea一皮尔逊rson),反映任意两个变量之间是否线(是种线性相关的相关系数一一,是。但是使用Pearson性相关的程度个统计量相关存在两个局限:第是数据11 k\奸学位论文(j^MA'STERSTHESIS,且是成对地从该分布中获得的满足正态分布特点;第二是数据必须在逻辑范围内至少是等距的。(6)SpearmanS一pearman相关性用语描述两个变量之间的关联程度和方向。它是种无参数的,。用于度量两个变量之间联系得强弱检验方法与分布状态无关。是构建微生物相关性网络的常见方法。(7)Euclidean一Euclidean是个距离定义。用两项之间的差值计算两项间的整体距离。但同时它也存在明显缺点,即样本不同属性(或者各种变量、各种指标)之间的差别都被等同看待,因此,此种情况不能够满足实际要求。-(8)BrayCurtisB-Cidiiili在生态学中,rayurtsssmarty是衡量不同物种组成差异的测度。其计算是基于不同物种所组成的数量特征。一除了以上给出的八种计算微生物之间相互作用网络的方法以外,还存在些基-本和经典的相关性计算的方法,如KullbackLeibler(即KL距离)和余弦相似性等方法。2-.4微生物疾病关联研究现状自2003年人类基因组计划完成以后,越来越多的科学家们己经逐渐认识到仅仅依靠人类基因组数据并不能够真正的解决人类的健康与疾病的关键性问题。居住一,无所知在人体内数量巨大的微生物菌群人们却对此几乎。初步的相关研究表明,这些存在人体内的微生物细胞所包含的基因总数目大概是人体基因组所包括的基因数目的100多倍。研究与人类相关的微生物组最终将有助于新药研发、个性化用药以及疾病预防与治疗等方面取得更大的进展。2006一年在《自然》杂志上刊登的帝国理工大学尼科尔森教授研究小组的项报道。该研究小组通过对大鼠排出的尿液代谢物进行相关测量后发现,对给予了含量一很高的同种药物后的大老鼠表现出了肝脏中毒的症状,而对照组中的大老鼠则安一然无恙。这项研究发现,肠道菌群产生了种尿液代谢物,这种尿液代谢物能够把具有高度相似遗传特性的大鼠之间区分开来,通过检查没有产生中毒现象的大鼠肠一道菌群发现,其肠道里存在种能够解除药物毒性的细菌,是这些细菌在肠道内的相互作用保护了对照组中的大鼠,。同时该研究组也发现了高血压与肠道内某种菌12 硕士学位论之MA'?STERSTHESIS群的组成也存在紧密联系。一2007年,里丁大学的吉布森研宄小组在《糖尿病》杂志上报道过这样项研宄,,当保护人体肠道的双歧杆菌数量显著减少时,分泌内毒素的细菌数量会显著增高从而会使血液里的内毒素含量增高,进而引起慢性疾病发生,最终导致胰岛素等代一谢紊乱的疾病发生。这项研究进步说明了,人体内的微生物组会与代谢性疾病等多种慢性疾病的产生和发展密切相关,从而为最终能够有效治疗这些慢性疾病提供了新的解决思路和方案。同时,中国的科学家也在积极参与国际微生物组的各种计划。如中国与法国农科院合作启动的肠道元基因组项目,对500对健康人与肥胖症患者的样本采样和体一检,并进行相关的代谢组学和元基因组学的分析,有望发现些与人类疾病代谢紊乱相关的生物标志,对有效干预、、治疗和预防肥胖糖尿症等疾病提供有意义的证据。一一值得提的是,中国的中医中药历史悠久,些传统医学有很多有效的治疗方法以及中草药是可以通过改变肠道菌群结构从而产生有利作用,因此,中国的中医中药也会在人类微生物组计划的研究中有着不可或缺的地位。复杂、异构、相互作用的微生物群落寄住在人类身体里的各个部分。在健康人的身体里,细菌等群落对于食物消化、重要维生素的合成以及诱导免疫系统来创建一抗体等功能扮演着重要的角色。人类微生物组计划的研究表明,疾病或者些功能紊乱与微生物群落的改变密切相关,同时也证明了人类身体不同部位的微生物群落是有显著差别的,超越了性别、年龄和种族。人类身体里有数量巨大的微生物,居住在各种各样的人类器官中,如胃肠道、呼吸道、胃、皮肤和泌尿生殖道等。由于微生物组群的组成以及他们相互结合的微生物组(如超过500万个基因和基因产物),大量的微生物及其基因产物提供多种不同的生物化学和代谢活动,。。因此共生的微生物群在生理上扮演着广泛的作用例如,肠道内的微生物能够为食物发酵提供营养和能量。胃肠道里的细菌可以生产必要的维生素,这种维生素对人类的健康是有利的,并且分泌神经递质而有利于心理健康。这些微生物对于体内平衡的维持、保护免受病原体、免疫系统的发展、以及药物新陈代谢等都做出了突出贡献一。人体微生物群因此也被称为个重要的人体器官。微生物与寄主之间的联系是双向的。尽管它们对寄主有重要的作用,但是这些微生物群落也同样受基因和环境(如饮食、季节、吸烟或抗生素等)影响。如母系遗传和环境因素可以共同作用,改变后代的微生物组。这些因素之间相互作用从而31 碩士学位论之'?MASTERSTHESIS一形成个复杂的关系,对塑造寄主表型起决定性的作用。因此,体内微生物群的失一衡或失调就能导致疾病的发生。下代测序技术的快速发展加快了发现体内微生物群与各种疾病之间的关系。本文通过以下例子进行说明。肠道内的微生物对于结肠32[]直肠癌的形成和发展扮演着重要的角色。在患有肥胖症的患者中,本文发现,肠Bacteroidetesi道内的拟杆菌微生物数量减少而厚壁菌(Firmcutes微生物数量增加())33[]。Larseni等人表明人类肠道的厚壁菌门(Firmcutes)微生物在2型糖尿病患者数34[]量显著减少,。这些研宄不仅对于理解疾病形成和发展提供巨大的帮助而且也有利于发现疾病诊断和治疗的新颖的方法,有助于鉴别细菌基因的致病性、重建群落水平的代谢网络、预测微生物蛋白质对于人类生物事件的影响、鉴别功能分子子网络以及注释和定量分析人类肠道微生物组的特定基因。微生物菌群是影响人类健康与疾病的一个非常重要的因素。它们不仅对于解释疾病机制发挥着重要的作用,同时也可作为疾病诊断与预防的关键生物标记。人体内微生物组的改变既可以通过采用注射或食用等药物治疗方法,也可以通过其他的条件例如饮食和锻炼来改善疾病状态。此外,从健康的人体内移植微生物组也是疾一一病治疗的个新颖的方法尽管当前可利用的微生物-疾病关联数据存在些完整性和质量缺陷,但是利用己有的相关数据构建网络,基于网络特性处理医学上的问题始终是很有必要的。2.5本章小结随着人类微生物组计划的发展,研宄者们通过HMP提供的各种类型数据,以-。,多种方式,和多个研究角度出发探索微生物疾病之间的关系与此同时伴随着高-通量生物数据的发展,也涌现出大量有关微生物网络及其微生物疾病关联预测的有效方法,。本章首先对微生物网络推理进行了简单描述随后介绍了微生物网络的相-关网络特性及其相关的常用网络推理方法。最后对现有的微生物疾病关联的研究现状及其研宄两者之间的意义进行了详细的介绍和说明。最终通过对微生物社交网络的深入研究,将更有助于探索疾病机制,为人类健康提供新的治疗靶向。14 硕士学位论文M'?ASTERSTHESIS第三章基于微生物社交网络的微生物-疾病关联预测-目前,微生物网络和微生物疾病关联预测的研宄方法主要是依据微生物丰度数-据,采用各种相关性测量方法,利用网络特性进行微生物疾病关联预测,或者进行文本挖掘来进行微生物相互作用关系的网络推理。本文通过分析微生物网络拓扑特“”性,发现微生物之间的相互作用也存在类似于社交网络中的社交特性。通过对己有的微生物与疾病之间的关联研究发现:在微生物相互作用网络中与致病微生物一“”或聚类模块中的微生物更倾向于导致该疾病处于同个微生物社区的发生。因此本文采用SparCC计算相关性构建微生物社交网络,通过马尔科夫聚类算法挖掘-微生物社区或微生物网络模块,对潜在的微生物疾病关联进行预测,最后再通过己有医学文献进行挖掘以验证本文所提出的研究方法的有效性。3.1引言一当前微生物组的研宄已经涉及到通过下代测序技术,从样本中提取微生物的DNA,并将这些测定的序列进行分类有助于生成谱(不论是分类的,还是功能性的)。分析这些谱文件有助于阐明微生物群落之间的共性和差别。同时,宏基因组学的研一些非常有趣的特征究也更深入的揭开了微生物群落。这些有意义的调查必须要重一点理解微生物群落的结构和它们在个环境生态位内的相互作用关系。在深刻理解一人类健康中,个最大的挑战就是揭示微生物群落内部发生的复杂相互作用关系,以及群落和寄主之间的关系。因此,解释这些结果对于研究科学家和临床医生都是“”非常有利的一。研宄微生物群落结构可以进步阐明微生物的微生物社交网络的特性以及它们的影响。通过对微生物得到的测序数据能够通过相似性有代表性的聚合成可操作单元一一(OTUs),每个分类实体被分配到个OTU。通过这种方式非常有助于描述微生,但同时对于描述群落成员之间的相互作用却没有多大用处物组的系统特性。在本一章中,将宏基因组视为个OTUs的社交网络,通过分析网络节点的相互关系及其一聚类特性,深入研究什么样的微生物网络才是个正常的微生物群落,以及这个社交网络是如何被外部变化,或者非内部成员入侵而被破坏,从而导致疾病的产生和发展演变。“”本章主要研宄目的是通过构建具有生物重要性的、有意义的微生物社交网络结构,并将微生物网络与疾病网络相关联,通过微生物群落特性,预测与疾病相15 硕士学位论文'MASTERSITHESS一些潜在致病微生物的存在关的。一对一一微生物与疾病之间不是的对应关系,种疾病可能会与多种微生物相关,一一同样的,种微生物也可能会同时与多种疾病有着密切的联系。当个微生物参与某种疾病或者生化过程时,与这种微生物有着直接联系的微生物可能也会在相同的疾病或生化过程中产生相同的影响,即不。从预测致病基因的相关研究中得到启发同的基因如果和表型相似的多种疾病都相关,那么这些基因之间直接发生相互作用3637[][]的可能性就会变大。同理,微生物之间可能也会存在这种特性。因此,当某种一疾病和种微生物有密切联系时,与该疾病相关的其他微生物很有可能在网络中己知的与疾病相关的微生物的周边被发现。一根据不同的方法,研究人员己经构建了系列的相关性疾病网络和微生物相关一性网络,这些网络之中也会同蛋白质相互作用网络等样存在模块性。网络中的模块主要包括拓扑模块、功能模块以及疾病模块。如下图3.1所示。其中图a表示为拓扑模块(Topologicalmodule),它表7K网络中局部紧密联系的节点的集合。这些,而与模块外的节点连接不紧密b节点与模块内的节点有着较强的连接。图中表示为功能模块unctionalmodule)它表示为网络中具有相关功能的节点的集合。图(F,ciseasemodule)表示疾病模块(D,它代表网络中可能会破坏正常疾病机制或者促进相关功能的一系列微生物。由于网络拓扑模块的形成是和功能紧密相关的,因此,在这里本文可以将网络的拓扑模块对应于网络的功能模块,。通过对网络的拓扑模块进行分析挖掘并将网络的拓扑模块作为预测微生物-疾病关联的疾病模块。aTopologicalmodulebFunctionalmodulecDiseasemodule擊誠fD-iserelaedmicrobesBTooloicallcloseFuncionallsimilarseatidirectionalDirecedpgytt〇0y^microbesorroductsmorroucsorrocsneractonsneraconsicrobesdtdutitiitti(p){p)(p)38--3[)图.1拓扑功能疾病模块拓扑结构示意图16 碩士学位论之MASTERSTHESIS3-.2基于微生物社交网络及聚类分析预测微生物疾病关联一整套流程中一一些偏差从样本数据到丰度数据这,都会在每步中产生394〇一i[][p]M。当前抽样和样本特征中个非常重要的影响就是每个样本获得的丰度一一数据不平等,些测量方法经常通过归。因此化和缩减样本量而转化成相对丰度。计算物种相对丰度的相关性会导致数据组合性偏差。一当选择种相关性测量方法时,很多标准都需要被考虑,例如方法对于噪声和一离群值的健壮性。同时,些其他的标准、对数据稀疏性和组合性问题的敏感度等一些组合数据时往往是无效的化分析技术当被应用到,并且这些技术的解释也同样434445[][][]不可靠以及具有误导性的影响。尽管如此,这些方法也是研宄微生物生态学的主要工具。图3.2显示了不同相关性测量方法对于结果网络的影响。在这里,本文采用一种新的、具有高准确度的相关性计算方法构建微生物群落相互作用网络。-疾病关联通过构建的网络进行聚类分析,找出可能的微生物。SCC,首先,本文使用par构建微生物相互作用网络。然后根据己构建的微生,、具有显著或者高度聚集的微生物菌属物网络聚类分析找出在对应人体部位的。-然后再根据己知的微生物疾病关联数据,将仅次于己知的致病微生物预测为潜在的与疾病相关的微生物。^/£ievote\la___^VcilonellOri?actetiumlaf’Streptococcusy/?\p。一一iv\—“'擎;?…V4Ne―奴Vg零.C—Methodco.ourconversion愚撼—s:_iLeEucldean屬?^。咋w。—K—z叫—Bray-Curtis^°“C^ella上—>J^W图3.2相似性测量方法对于网络推理结果的影响17 碩士学位论之MA'?STERSTHESIS3.2.1基于SparCC构建微生物相关作用网络“”-基于微生物群落的微生物社交网络特性,预测潜在的微生物疾病关联,首先一第步就是要通过丰度数据构建微生物的相互作用网络,从网络角度出发分析微生物的网络特性。(modularit)己经在过去的几年里,模块化y在模块识别里成为了最为有效的方法,尤其是在蛋白质复合物的识别中,其准确率也在不断提i^i。在模块识别中,最为理想的模块特性是:模块内部的节点之间高度聚集,而在模块之间的节点连接比较稀疏,。从蛋白质复合物模块识别中得到启发本文将模块化应用到微生物群落结构的识别中,由于采用其他方法计算相关性时存在很多缺失值,而SparCC方法可CCSCCSl以克服这些问题,所以本文采用Sar方法ararseCorreationsp。首先介绍p(pforCompositionaldata)方法构建相关性网络。BasicSparCC方法的数量关系表不为以下数量关系:=l—公式3tVaro.1igjxj.其中,A代表OTUi对应的部分。当OTUs完全相关时,他们之间的比例是恒=定的,因此b0。当OTUs之间是不相关的,其对应的t就会越大。…包含了元l7素i和之间的依赖信息。这种关系是通过以下公式获得:y———t=Var—=wwlogVarlogVarlogloigijj[]—=Varlow+Varlow2Covlowlogw,[gi][gi]gi[j]2=2+—--WW2WW^5^3.2(jpij{j其中,wf和w/是变量Z和变的对数变化差异。是该两变量之间的相关性。一由于没有非常准确的解决方法,SparCC利用了种近似方法,当在很多元素中,仅有少部分是相关的情况下是非常有效的。公式3.2可通过变换之后,形成以下形式:22-W+Wi^八j— ̄一 ̄?=33叫^公式.。其中,所给定的依据性差异值能够用来解决基础相关性问题本文采用以下的18 硕士学位论文'?MASTERSTHESIS近似过程来评估基础差异,::首先定义如下D^2一三t—dW+W2WWi[iiyPjj〉j〉:>::=;iMM丰i本ijj2」三du/1+<〉厂2<〉.34_t公式fp"()-<,d三D10i的成对关系的平均。D为样本变量数。其中,\代表所有涉及元素2,34,1+<>2<>然后假设公式.中的相关性很小即£^0 ̄3^所以最后得到如下结果: ̄2tdw+u/=1i2…D.公3.5,,,式tt尸^*ijIterativeSparCC的具体过程如下:一第:使用以上描述的算法过程估计相关性步;一二,对OTUs第步:确定具有最强相关性且在之前没有被排除的。如果最强的相关性大小超过了给定的阈值,就将这对关系添加到己排除的集合中,终止。否则近似过程;,。,第三步:识别仅构成排除对的组件并将其排除分析如果所有的组件都被排除就终止估计过程。一对组件都被排除在外,第四步:如果任何再重新估计剩余部分。同时,新的分数部分对于新的子集是相对的。一第五步:计算变量并排除所有强相关的对关系。其中表示识别出的与元素,。i强相关的其他元素的集合然后通过以下公式迭代n+lt.()=t..3^公式.6iCWji第六步:使用新计算的元素变量来计算基础相关性,如第四、五步的推理过程。第七步:通过给定的迭代次数重复第二步到第六步,或者直到没有新的强相关关系被鉴别。91 颂士学位论之MASTERSTHESIS3*2.2马尔科夫聚类算法马尔科夫聚类算法(MCL)目前在生物信息学领域,尤其是微生物网络分析中46得到了广泛的应用[]。在这里,本文将马尔科夫聚类方法用于在微生物共现网络中一一一计算微生物群落,即旦随机游走因子进入到。网络中的随机游走存在种属性“”个稠密的集群中,该随机游走因子就会陷入其中,直到集群中的实体被多次访一一一问,,些策略增加或。这种目前的算法模拟种流而不是个随机游走然后通过者减少所选定的边,它实现了在集群中减少流,但同时保持集群中的所有流量的循“”环inflation,可以对获得不同粒度的聚类进。这种加强或减弱的流的过程被称为行参数化,不论是采用严格的、或者是宽松的聚类。一MCL聚类算法是种图聚类算法,其基于马尔科夫链模型,。给定随机矩阵M马尔科夫聚类算法就是在M上通过迭代交替执行Expansion操作和Inflation操作,然后再分别映射到自身。在每次执行完Inflate操作之后再执行Prune操作,直到随机矩阵M收敛随机矩阵M的定义公式如下:公式3_7其中,矩阵M是添加有自循环边的邻接矩阵。Expansion过程是指对马尔科夫链求幂的运算in,然后将求出的结果作为除;Inflaton操作是求矩阵中每个元素的次幂,,得出结果33。数所在列的所有元素之和作为被除数。MCL算法描述如图.所示算法:MCL输入:MExansion的eInflation幂i的参数ri,p(),()输出:聚类1.对每个节点添加自循环2一.矩阵归化?3.分别通过参数e、I使矩阵扩张和膨胀Forfc?-1〇〇to=anDoTExsion^2kpe^)^—fr2k+lrk(2k)4一.重复第三步,直至得到个稳定的状态iTisnearidemotentf2k+i()pThenbreak5.得到最后的矩阵,求得聚类结果TasClusters2k+1图3.3MCL聚类算法描述20 硕士学位论之MA'STERSITHESS3.2*3微生物社交网络构建与分析一微生物相互作用网络中,节点表示种微生物(是门类、纲类、目类、科类、一属类、种类中的任意种),微生物两节点连接的边表示的意义是存在共现的相关关系:。微生物社交网络构建及其分析的具体过程1.通过HMP提供的微生物在不同采样点所获得的丰度数据,采用上文提到的CC一Sar方法进行计算微生物之间的相关性,最后经计算会得到个相关性p一的网络矩阵。该网络矩阵是个对角矩阵,其中正对角线上的元素全为1,即本文认为相同的微生物之间是完全相关的。一2一对微生物相互作用关系.通过设定定阈值获得具有较强相关性的。阈值“”一对关系处理过程用于丢弃所有OTUs中没有足够高丰度的。这有助于集中更多相关的OTUs过程。3.微生物相互作用关系网络图绘制。目前在文献中存在很多种网络绘制的策一略,本文使用Cytoscape软件绘制网络图。节点代表种为微生物,连接微生物的一一对微生物之间存在关系条边表示。4.使用马尔科夫聚类算法对微生物相互作用网络进行聚类,并对聚类得到的“”微生物社交网络(即模块)进行分析,可以找出在微生物菌群所形成的“”一微生物社交网络中起中心作用的微生物(即高度聚集的点),从而找出些具有统计学意义的信息。5,.分别列举呼吸道、肠道、皮肤三种部位常见的疾病以及与这些疾病密切一“”相关的微生物,通过这些己知的微生物,然后找出个微生物社交网络中其他微生物,通过对相关性进行排序,从而找出可能与这些疾病密切相关的微生物。3.3实验结果和分析3*3.1实验数据微生物的丰度数据来源于人类微生物组计划(HMP),本文提取的是Mothur输出的V13高质量文件。该数据是通过对人体五种不同身体部分,包括皮肤、呼吸道、口肠道、阴道和腔采样,测量606种微生物分别在这五种身体部位所获得的丰度数h一据,数据来源的网站为ttp://hmpdacc.org/HMMCP/。对于每个样本点的解释信息来自SampleFlowSchematic文件(即16S和宏基因组样本标不映射),该文件对十21 硕士学位论之lMQl)MA'STERSTHESIS样本信息如ID号、性别、采样点、引物序列以及条码序列等相关信息作出了详细。此ht//hdacc.ources/metagenomicsilih说明文件网址p:mprg/resosequencnganavss.pp。_-hil.最后,人类微生物疾病的相关联数据库来源于tp://www.cuabcn/hmdad。其中包括了39种人类疾病和292种微生物。33.2基于SparCC计算不同人体部位的微生物相关性本节采用SparCC方法分别计算出了肠道(gastrointestinaltract)、呼吸道(airways)以及皮肤(skin)三种具有代表性的部位的微生物相互作用关系,并将相关性阈值0一设定为.2,即将SparCC相关性的绝对值大于等于0.2的对微生物相互作用关系保留下来,否则将其移除。其中,标号0TUi*i61606,总606,共存在种微生_()物,本文用0TUi来代表第i种微生物,第i种微生物可参考_http://hmpdacc.org/HMMCP/healthv/下的PhylotypeLookup文件。i代表下图3.4所示一文件中的第列数字,第三列起分别为微生物类别的界类、门类、纲类、目类、科类、属类六种分类。本文只列出部分文件解释内容。通过微生物丰度数据,采用SparCC方法计算相关性以及设定相应阈值后,本文分别构建了呼吸道(airways)、肠道(gastrointestinaltract)和皮肤(skin)三种部位的微生物相互作用网络,再通过Cytoscae可视化软件绘制微生物网络图p。但是,不同于蛋白质相互作用网络,微生物相互作用关系之间既存在正的相互作用,同时也存在负的相互作用,即微生物之间有相互促进、共生关系,也存在相互抑制、此消彼长的关系。在这里,本文进行处理,不论正关系或是负关系,都将这对微生一物关系视为存在,最终再根据找出的对微生物相互作用关系映射到最初的SparCC相关微生物网络中,,以判断正负关系。最终呼吸道部位的微生物相互作用网络包括51种微生物和202条成对的微生物相互作用关系。肠道部位的微生物相互作用关系网络包含了46种微生物以及308对相互作用关系。皮肤部位的微生物相关作用关系网络包括55种微生物和234条相互作用边。三种不同部位的数量关系绘制35363热图分别如下图.、图.、图.7所示,其中热图也显示出了马尔科夫聚类形成。3.83.9310的模块微生物之间相互作用关系网络分别如图、图、图.所示。hlotetaxonoayypyp"'itiitti1Root100Bactera(100Acnokaccsra(100Actiaobacteria(100;Aci&oncettled100Proicnibacer?c?ae(10CPzoi〇Dibacteriua100);();););)y();p);p{"""*"a'2Root!00/BacteriaICO)Firmicutes(ICO;Bacll100);LacobAcillale?100)Stretococc?cea?{100Strecc:ccus(ICC{)(/)ii(t(,p);pt);""""""3Root100acceriaICOrmicut?B100clli100tbacllalos100)Lactsbacillaceae100Laccob&cillus100{);B();Fi();Bai(/Lacoi(;{)j());**""??"4t100100init10Cilli00llle100thlcc100thl100Roo()Bacteria()Fncue9(.Bac(1B62i4s();Saoccaceae(Saococcus()/;));py)/py;a*a"tiii5Root100Bacteria(100Firmicures(100Cloatzidia100Cloazdale3(100Veill&n?llaceae100);7ellocell3100;();););(););(()图3.4HMP中PhylotypeLookup文件部分内容22 柯士学位论文MASTERSTHESISCoKlor*yanstoram1dH1ig丨c:0_iriii00408[0.2.0.6.1|Value""-rw%m.'■:.■■liL^h議OOOOOOOOO0000000000000000000000000000000^^图3.5呼吸道处微生物关系热图CoorelKyandHistogramiI—。51丄-h=JF-i^-P^ss.j§翻— ̄-r■)sss?_yri_■§顆-■i■8^?rU_■跟。7"_-iVSSf?■,-r'_■OTU3S_■0TU115J_----^----,§S:f?r1-t■驗t■「10TU9S_■_eM-?§S!J1-6-■T-J—■8SJ5匕-=■-LW■驗!jjL办OTU二178…E:_iil^1■OTU100?,1 ̄i■跑驟驟驟德飄P麟證寧S翌■‘^^0000000^^0^0000^^00^^00^0^5^0^00000^00000000图3.6肠道处微生物关系热图23 硕士学位论文?MASTERSTHESISColorKe,yHiandstogram||00.20.4060.811Vlauelsu^sSmyni_i「ll?.ll8fiW5g,W,Wrg;————gP-——-——-—————?JFPoPPiiPir3fh?1wt?PfPqoo^oo^*oooooooooooooooooooooooooooooooooooooooooogggg图3.7皮肤处微生物关系热图幾觸-4^o\/L〇tocianer6SltwkXctwr<2B>ialneok3<|<30^^^BE>,sneworocialtks^^235^<ocialnetwork4(3nZ^S图3.8呼吸道的微生物相互作用关系网络图24 柯士学位论文fMA'STERSTHESIS〇T26OTU5_-.socialneworktl〇TU46'^_^fJ\MrOTU87OTU115__'.ilne/\\socatworkB、_一一〔图3.9肠道微生物相互作用网络图图3.10皮肤微生物相互作用网络图25 碩士学位论文MA'#STERSTHESIS33J基于马尔科夫聚类的微生物社区经过SparCC计算相关性并构建网络后,本文采用马尔科夫聚类算法将微生物“”一网络划分成个个的微生物社交社区。呼吸道内的微生物相互作用网络经马尔“”生物相互作用网络形成科夫聚类之后分成了六个小的微生物社区;肠道内的微了“”“三个主要的微生物社区;皮肤处的微生物相互作用网络最后形成了六个微生”“”物社区。各个网络进行马尔科夫聚类后形成的小的微生物社区分别用椭圆形标示出来,如上图所示,肠道内的微生物菌群之间联系紧密,其网络。从图中可以看出一结构较呼吸道和皮肤处的微生物菌群结构更复杂些,构建的微生物网络中相互作用的边的数目同样比呼吸道和皮肤处更多。另外,呼吸道和皮肤处的微生物网络都一“”存在孤立的个仅有两种微生物的微生物社区,即OTU29(即Neisseriaceae_奈瑟氏菌科,其菌属类未被发现)和OTU42(即Cornebacteriaceae棒状杆菌科,_y其菌属类未被发现),在肠道中这两种微生物也分别孤立存在,该孤立节点并未在图中显示。一-本文在预测潜在的微生物疾病关联时,如果已知种微生物与某种疾病相关时,“”本文就要确定该微生物所处的微生物社区,也就是将寻找潜在的与疾病相关的“”微生物范围进行缩小,在此微生物社区中,根据与己知的由于某种疾病相关的微生物相连接的其他微生物的相关性排序,选择出排名靠前的微生物,并通过查找-相关文献,判断该预测的微生物是否是潜在的与疾病相关的微生物疾病关。微生物联预测流程图3。.11己知微生物i与疾病j有关联确定微生物“”i所在的社交网络“”中査找出于微生物在社交网络i相连接的其他微生物映射回微生物相互作用网络,对微生物进行相关性排序选择出相3性靠前异高辛这一“社交”网络的微生物,其可能就足潜在致病微生物“”3-图.11基于微生物社交网络的微生物疾病关联预测流程图26 硕士学位论文MA'?STERSTHESIS33.4测试实例分析由于本文从人类微生物组计划上选择的是三种部位,即呼吸道、肠道、皮肤处,的微生物丰度数据并通过这些丰度数据构建相关性网络以及聚类,所以,在进行-微生物疾病关联预测时,本文将预测范围缩小,只选择发生在这三种部位的疾病进行预测分析。(1)哮喘(Asthma)哮喘是呼吸道处的疾病,己有文献证明哮喘与嗜血杆菌属Haemohilus,对应(p0TU16)、普式菌属(Prevotella,对应OTU12)和葡萄球菌属(Stahlococcus,对__py“”应0TU4)存在必要的关系。其中0TU16处于微生物社区1中,与其相连接的__微生物分别如下:表3.61与OTU1相连接的七种微生物及相关性_Method0TU2OTU7OTU15OTU17OTU5OTU9OTU19__——一——SparCC0.2880.2760.2680.2520.2360.2300.203Searman0.4090.3970.4050.4350.4460.3450.347p“由于在微生物社区r中,与OTU12相连接的边数目较多,在这里本文选择_相关性较尚的目U八名显不如下:表3.2与OTU12相连接且相关性排名前八的微生物_MethodOTU2OTU19OTU44OTU35OTU5OTU32OTU10OTU43—_______SarCC0.3950.3770.3740.3470.3450.3370.2960.296pSpearman0.4770.5250.4050.5050.4600.3720.3910.322通过分析观察SarCC相关性值可以发现,与OTU16和OTU12都相关,且p__一〇TU2S排名都是第的是微生物(即tretococcus链球菌属),同时,OTU2与_p_OTU2之间以及OTU2与OTU16之间通过Spearman方法计算得到的相关性也」__是排名前三,相关性值高。最后通过查阅相关的医学文献,本文发现链球菌属与小儿哮喘和过敏性哮喘密切相关。在这里选择与OTU4相连接的相关性排名前八的_其他微生物,显示如下:表3.3与OTU4相连接且相关性排名前八的微生物_MethodOTU1OTU2OTU26OTUllOTU32OTU8OTU12OTU58—_—_————SarCC0.4490.4140.4080.4000.3920.3830.2550.241pSpearman0.3770.3880.3650.3880.4180.3210.3150.300其中通过查找相关文献,己经证明OTU2(即Stretococcus链球菌属)与小_p儿哮喘和过敏性哮喘相关,然而OTUl(即Propionibacterium丙酸菌属)与己知微_生物的相关性最高,且在〇TU2之前,同时,同时Spearman计算得到的相关性也_27 硕士学位论文MA'?STERSTHESIS排名很高,所以认为丙酸菌属是潜在的与哮喘相关的微生物。(2)结肠癌(Colorectalcarcinoma)处于肠道处的结肠癌己证明与其相关的微生物分别是普式菌属(Prevotella,对0TU[48应12)和拟杆菌属(Bacteroides,对应0TU13)L本文首先考虑与0TU12___“相连接的排名前八的微生物中,其中排名第八的微生物〇TU115处于微生物社区_”“”2中,其余八种都处在微生物社区1中。所以本文将0TU115删除。_表3.4与OTU12相连接且相关性排名前八的微生物_MethodOTU79OTU75OTU88OTU47OTU110OTU100OTU106OTU65一——__一——SparCC0.3.17..230219.384032030.3002890.260.Spearman0.5410.3730.3270.4050.2210.2560.3430.316OTU13,35。本文列出与相连接的排名前八的微生物如表.所示_表3.5与OTU13相连接且相关性排名前八的微生物_MethodOTU22OTU52OTU62OTU76OTU48OTU61OTU81OTU89_—____一—SparCC0.5220.4630.440.4370.4190.4190.4120.348Searman0.4774280.4510.4710.50205060.4370p0...39149[,己H正明〇TU52(Ctr)密切相关,综合排名有文献结肠癌与losidia梭菌纲_一35SCC二,然而OTU22Lachsieae从表.中ar排名第排名第的(norac毛螺菌科)p_p没有相关文献证明,并且〇TU13与OTU22之间的Spearman相关性也较高,所_J,从表3以推测OTU22即毛螺菌科为潜在的与结肠癌相关的微生物。再者.4中可_以看出OTU79(Prevotellaceae普雷沃氏菌科)与OTU13之间的SarCC和__pSearman相关性都是最高的,OTU79即普雷沃氏菌科为与结肠癌p所以本文也推测_相关的潜在微生物。(3)过敏性皮肤炎(Atoicdermatitis)p一50过敏性皮肤炎是发生在皮肤处的种疾病11己证明〇TU4。其中文献_(Stahlococcus葡萄球菌)与过敏性皮肤炎的发生存在必要的联系。与OTU4相py_“”连接的微生物有如下六种所示:其中OTU2处于微生物社区2中,其余五种都_“”在微生物社区3中,所以本文将OTU2排除,只考虑其余的五种微生物。_表3.6与OTU4相连接的六种微生物及相关性_MethodOTUlOTU11OTU8OTU26OTU32—一___SarCC05210.4970.4770.380.274p.Searman0.2820.5160.4080.2150.325p518[]由于OTU(Cornebacterium棒状杆菌属)与皮肤黏膜感染相关,并且_y一SarCC,SarCC、二名的微生物OTUlp排名第三然后p相关性排名第第_(Proionibacterium丙酸菌属)与OTUll(Proionibacteriaceae属于丙酸杆菌科,p_p28 碩士学位论文M'?ASTERSTHESIS未划分到菌属类,即其菌属分类目前尚未发现,为空白)没有相关文献证明其是否与过敏性皮肤炎相关,并且0TU11的Searman相关性值最高,而0TU1的_p_Spearman相关性值较低,所以本文推测0TU11即丙酸杆菌科这种微生物可能是潜_在的与过敏性皮肤炎疾病相关的微生物。3.4本章小结目前,存在很多基于网络拓扑结构以及模块化来预测疾病基因的方法,并且相对成熟,但是却很少有相关研宄者利用网络信息来分析微生物网络特性。针对这些问题,本章首先描述了基于SparCC方法,并构建呼吸道、肠道、皮肤三种部位的微生物相互作用关系网络。然后讲述了马尔科夫算法对各个部位网络聚类的结果并“”进行分析。随后,本文对聚类形成的微生物社区进行了分析,列举了呼吸道、肠道、皮肤处的三种常见的疾病哮喘、结肠癌、过敏性皮肤炎,通过排名预测潜在-的微生物疾病关联,并给出可能与疾病相关的微生物,最后通过文献查找进行详细分析,丙酸,毛。最后预测结果为菌属可能是哮喘的潜在致病微生物螺菌科可能与,过敏性皮肤炎可能与丙酸菌属或丙酸杆菌科相关结肠癌的发生发展相关。29 硕士学位论文MA'#STERSTHESIS第四章基于异构网络随机游走的微生物-疾病关联预测第三章内容利用微生物相互作用网络分析其网络特性,采用SparCC相似性和-马尔科夫聚类算法,通过文献查找以验证潜在微生物疾病关联的有效性。本章将在对随机游走算法进行深入分析的基础上-,将其应用到微生物疾病异构网络中,预测-微生物疾病关联和潜在的致病微生物,通过相关医学文献的挖掘验证本文所提出的研宄方法的有效性。4.1引言人类微生物组计划(HMP)为了描述和识别与人类健康或疾病相关的微生物,一52开发了[]系列新的技术和工具用于计算分析和建立相应的资源存储库。人体内存在着大量的微生物主要有细菌,同时也包括病毒,、真菌等居住在人体的各种器官53—如皮肤[\、口腔、头发、胃和胃肠道等般来说,共生的微生物群对人类生理有545556[][][]广泛影响,他们也有助于人体免疫系统的发展,以及产生对病原体的抵抗力57t58][1和药物代谢作用。同时,微生物与宿主之间的关系不是单向的关系,而是通过一个互利共生的复杂系统,复杂的合作关系以形成。例如微生物代谢产生的副产品可以改变体内的周围环境,从而破坏其他微生物的生存;细菌等所形成的不同分类群之间可以相互协作构建生物膜给予其成员抗生素耐药性。然而,鉴别引起人类各一直以来都是一一种疾病的微生物个巨大的研宄挑战。最近,些计算方法已经提出596G61用于研究微生物和人类疾病[1[][]。这些研究包括鉴别导致致病性的细菌基因,预测微生物蛋白质在人类微生物事件中的影响,分析人类肠道微生物组的特定基因。一同时,系列微生物网络的构建方法也相继提出,这是理解这些微生物功能的关键62[][@,这些构建方法中包括大规模例如共现和相互排斥的微生物相互关系的文本挖掘、通过挖掘科学文献的方法组建细菌网络。这些方法提出的目的都是为了帮助人们更全面、更系统的理解微生物群落。一一随机游走的概念与物理上的布朗运动概念脉相承,它是种理想的数学状态,同时随机游走也是一个微观粒子运动形成的一个模型。随机游走思想最早是由卡尔64一[11905,皮尔逊在年提出的,是种数据统计模型是由连续的随机运动组成的轨一一迹,就像个醉汉或意识不清之人,在走路的过程中每走步都是随机产生的,而一一且与前面的运动都是无关的,。在图上的随机游走是指由某点出发随机的选择个邻居节点并移动到该邻居节点上,然后再以当前节点作为新的起点,重复迭代以30 硕士学位论文'?MASTERSTHESIS6K[5]上的过程。在生物信息学领域,0hler等人改进了随机游走方法,提出了带重启的t%,并将其应用到蛋白质相互作用网络上进行疾病基因预测随机游走方法。Li等人-提出了异构网络的随机游走方法来推断基因表型相互关系,都取得了不错的预测效-,果,。在这里本文将这种算法应用到微生物疾病数据上并使用相关方法验证其性能。4-.2基于异构微生物社交网络和随机游走方法预测微生物疾病关联这部分,本文将详细介绍这个方法。首先,本文将描述通过整合疾病数据和微生物数据构建异构网络的方法,;其次将随机游走算法应用到异构网络上,;最后采用相关方法进行验证,最后再对与疾病相关的候选微生物进行排名。相关的详细内容描述如下。4.2.1经典随机游走算法一近年来,图论成为了相对活跃的门学科,其在生物信息学、计算机学、物理学等各个领域几乎都有涉及。简单说来,图是由多个节点和连接这些节点的边所组成的具有拓扑结构的图形,本文可以将其抽象为在现实世界中的各个事物之间的相互联系,越来越多的研究者们使用随机游走算。在数据挖掘和机器学习等相关领域法来处理问题。图上的随机游走能有效改善无监督学习、半监督学习和监督学习中一些问题面临的。=0=\,\^1;1;1;,日=66(1,为节点的集合'为无向边^)表示无向图{2...71{12...71},},的集合一V一W。E中的每条边对应着中的个节点对。为权重。定义为相似度矩阵,W=w公式4.1["]?xn其中,w=vvw.2'公式4ij{ij)当有满足如下关系时,即两节点之间是否有边可达,本文称W为图G的邻接矩阵:31 硕士学位论文'#MASTERSTHESIS1_?可达w公式4_3,1^0(巧到巧不可达D为节点对角矩阵,D满足如下公式辽…〇11?=??D::44公式.0^■nn-一其中,每项需满足如下公式71au=av=W4.5(_t)i公式j^7=1基于图的随机游走转移概率表示为如下公式#公式4石LkWifeau^其中?^表示节点A转移到&的转移概率,其状态转移矩阵为/表示在第t步的状态转移矩阵。aty表示t=0时刻的初始状态,y为经过t次随机游走后状态分布,有如下公式表示:c?°=y公式4.7y4.2.2异构网络矩阵构建,即疾病相互作用网络三种类型的数据源分别代表着三种网络、微生物相互作一一-用关系网络和微生物疾病网络,,。在疾病网络中每个节点代表种疾病两种疾病连接的边表示两种疾病基于症状(symptoms)的相似性不为零微生物相互作一SW一用关系网络通过pearman相关性测量方法进行构建,每个节点代表个微生物,一S-0-两个微生物连接的边代表pearman相关值大于某阈值。微生物疾病网络通过1==,e1表示微生物i的改变会引发疾病,ei0i矩阵表示,则表示微生物的改j(j)-的变化,变不会引发疾病。本文通过己知的微生物疾病网络将疾病网络和微生物j一一网络连接起来构建个包含三种网络的异构网络。异构网络的个简单说明如下图41,,,它.所示上层子网是疾病网络下层子网是微生物社交网络们之间通过已知微生物-疾病相关关联连接。32 硕士学位论文MASTERSTHESISD3D4D1\D2???...(>/g.、图4.1异构网络解释图4.2*3带重启的异构网络随机游走一一一随机游走也是种排序算法,它用于模拟个随机因子,选定个种子节点或一者种子集合,然后在每步中随机的移动到该随机因子的直接邻居节点。最后图中一KShl的所有节点根据随机因子到达每个节点的概率进行排序,er。在生物信息学中等人对图中的随机游走算法进行改进,并将该方法应用到蛋白质网络进行疾病基因.预测,,48:。这里本文将其应用到微生物组上带重启的随机游走如公式所示t+1-c°P=1MP+P公式4.8(r)r一,变量m是列归,表示的是节点其中化的邻接矩阵i到节点y的转移概率。变量^P13是等概率的映射到/是/个节点在t时刻所对应的概率的向量。初始概率向量,所有初始节点的概率总和为1,参数ye01代表疾病的节点上(,代表重启概率。)一在算法进行的每步中,随机游走因子将会以概率Y返回到种子节点中。若干步骤一一+1之后,,概率向量会达到个稳定状态。通过段时间的迭代之后概率向量声和声—1()1〇。之间的差值低于。稳定状态下的概率P〇〇给出了种子节点的近似测量如果68【]P〇〇(i)>P〇〇,节点i比节点更接近种子节点。(/)jAm一A=是个普通的异构网络。其中,代表由n个微生物节点构\dtf133 硕士学位论文MA'?STERSTHESIS成的微生物网络,Z代表由m个疾病构成的疾病网络,代表n个微生物Dmxm(;)"7-fiA节点和m个疾病节点构成的微生物,fi代表的转置,疾病网络。为跳转概率表示随机游走因子从微生物网络到疾病网络,或者从疾病网络到微生物网络的跳转概率;1=0,。正如图4.1所示,。如果疾病网络和微生物网络将会独立排名并不是所有的微生物都与疾病之间存在联系。当随机游走因子在微生物网络中时,它既能跳转到疾病网络,同时也能继续存在于微生物网络中。如果随机游走因子所在的节点刚好直接连接了疾病网络中的节点,它将以概率;I跳转到疾病网络,或者是以概率-A移动到微生物网络中的其他节点1。所示异构网络的转移概率矩阵如以下公式()4.9所示:M=公式4M.9Mdmd]其中,正对角线上的变量和别代表了微生物相互作用关系网络和疾病相互作用网络的概率转移矩阵,反对角线上的变量和Mdm分别代表微生物到疾病的概率转移矩阵以及疾病到微生物的概率转移矩阵。具体节点之间的转移概率计算公式如下。这里,本文将从微生物节点到疾病节点4的转移概率如下所示定义如公式4.10:=p(dm=公式4.10i;l)otherwise.一?类似的,从某疾病到微生物节点m的转移概率的计算方法采用以下的公式,4.11所示:=nd=sBr公式4.11p(jj\i);7|v〇otherwise.微生物网络转移矩阵M中第i行、第列的概率是从mjUm的转移myy34 硕士学位论文'?MASTERSTHESIS412概率如公式.所示:=1^m公式4.12()/i—otherwise.,疾病网络转移矩阵中第;行,rf、第y列的概率是p(pp^从4到的转移概率如;;|y公式4.13所示:0,和A?=微1U/4.13D,(D)Ji公式lJ1-A()(^)U.」—otherwise.,VEy(^D)i,;一上部分列出了如何构建微生物网络,、疾病网络及其各自的转移矩阵网络随后,本文就要对初始向量进行初始化。其中参数P。和参数七分别表示微生物网络和疾病网络中的起始节点,微生物网络中的初始向量pQ是等概率的将初始概率分配给,1,微生物网络中的节点概率和等于。同样的疾病网络中初始向量d。是等概率的,概率和等于将初始概率分配给疾病网络中的节点1。这使得随机游走因子可以以相同概率从起始节点进行游走,。将微生物网络和疾病网络的初始向量合并从而构1(一成异构网络初始概率矩阵向量P=参数个子网络,Q776(0,1)用来衡定每[即疾病网络和微生物网络的重要性。如果7?等于0.5,则表明两个子网络同样重要,05,,如果卩大于.则表明随机游走因子更倾向于返回到疾病网络种子节点表明疾病网络更重要;相反的,如果0.5,|?小于表明随机游走因子倾向于返回到微生物网络种子节点中。将上文提到的转移矩阵M和初始向量&带入到带重启的随机游走算法1(一=中,然后经过多次迭代,本文将获得个稳定的概率/^微生物和[疾病的排名根据Poo和得到。异构网络的随机游走框图以及算法描述分别如图4.2和4.3所示。35 硕士学位论文SS#MASTERSTHEI微生物网络疾病网络初始化起始向量_异构网络随机游走|(候选微生物排名预测图4.2异构网络随机游走框架图算法:RWRH输入:Heterogeneousnetwork,arameteryr,Ap,j输出:Ranklist1.构建异构网络M?-GenetetramarixfromtheDiseasedataandMicrobedata;2.带重启的随机游走P<r-seede=1nod〇;-t<1;reeatp=i-'PMp+pt+i(Y)ty〇,-t<1+1;-10-uniltPP<e||t+1£||3.排序Rans<-rankecandkidatemicrobesasedonPlitthb;tOutputRanklist.图4.3RWRH算法描述36 硕士学位论文MA'STERSTHESIS4.3实验结果和分析4.3.1实验数据-上文提到,构建异构网络时本文选用了三种数据集,即微生物疾病关联数据、微生物数据和疾病数据-。人类微生物疾病相关联数据库来源于网址h//.il./h39ttp:wwwcuabcnmdad,其中包括了种人类疾病以及292种微生物(并非全,也包含菌门,,部都是菌属水平、纲等)。在这里本文对数据进行处理对微生物在菌属水平上进行提取,然后再根据已知的HMP数据中htto.CPh://hmpdaccoru/HMM/ealthv和己存在的微生物进行比对,最终本文找出了71种,在两者中都共同存在的微生物,提取出对应的丰度数据并处理,并通过Spearman相关性计算方法来构建相关性网络,若相关性的绝对值大于给定阈值0.2,本文就一对微生物之间存在关系认为,并将其相关值设置为1,否则就设置为0。在这71种微生物相互作用关系网络中包含了451条相互作用边。因为39种疾病名称中包一含些症状的名字,去除掉重复、有相同症状的疾病,本文最终找出了28种疾病,12并基于症状构建了疾病网络,疾病相似性矩阵包含7条已知的相互作用关系。疾4一.4、图4.5.病网络和微生物网络分别如下图所示,其中图44中每个节点代表种一一疾病,边表示两种疾病存在基于症状的相关性4.5。图中每个节点代表个微生物,实边代表两个微生物有相关性连接。最终依据28种疾病和91种微生物,从己--知的微生物疾病关联数据库中找出了127种已知的微生物疾病关系,并构建了微[@-生物疾病网络。Ml一⑵-图4.428种疾病相互作用网络37 硕士学位论文MA'STERSTHESIS二三?:?響f:图4.5Spearman相关性构建的微生物网络4一.3.2留交叉验证交叉验证的思想是将某种意义F的原始数据(dataset)分组为训练集(trainset)和验证集(testsetorvalidationset)。首先使用分类器对训练集进行训练,然后采用验证集测试之前训练得出的模型(model),最后通过该模型来评价分类器的性能指一一标。首先,由于在每回合中留交叉验证几乎将所有的样本数据都用作了训练模彻,W此得到的结果越接近原始的数据分布情况,评估结果越可靠,排除随;其次7()[]机因素对于实验数据的影响,从而保证实验过程是能被复制和再执行的。本文提-出了基于异构网络随机游走方法,(RWRH)对微生物疾病关联进行预测并将此方一法与单层的微生物网络进行比较(L--C。同时使用留交叉验证eaveoneoutross一-疾病关联的准确性Validation)方法检查本文预测的微生物。在每次交叉验证过一程中-,本文移除条己知的微生物疾病关联,以该疾病和与该疾病相关的剩余微生物作为种子节点,然后以除种子微生物外的其余微生物作为候选微生物进行排名。一一如果已知的引起疾病的微生物排名第,本文就认为该算法是个成功的预测。本一文称为L001交叉验证;然后再采取另种交叉验证方法,即首先移除4某个疾病38 硕士学位论文MA'STERSI?THESS相关的所有微生物,然后以该疾病作为种子节点运行随机游走算法,本文称该验证为L002交叉验证。4J3参数分析在本文的这个算法中有三个参数,分别为y,A,心参数y表示重启概率,这个参数在K(3hler的随机游走算法中已表明,在本文这项工作中,它对程序的结果只有轻微的影响。本文将其y设置为0.7。参数A表示跳转概率,它控制着疾病相互作用网络和微生物相互作用网络之间的强度。越大的A会引入疾病和微生物之间更多的相互依赖的排名。为了研究这个,本文将A从0109,02参数的影响.到.之间以步长.设置各种相应值。随着2值的增大,算法性能也随着提高。=参数控制着疾病种子节点和微生物种子节点之间的影响。如果?70.5,表示>05疾病网络和微生物网络同等重要。如果.,随机游走因子偏向于回到疾病种子节点,说明疾病网络结构对潜在微生物优先次序排名有更重要的影响。为了找出?7值一一的影响,本文设置不同的,、7?值以运行RWRH算法。留交叉验证得到排名为三、五的微生物分别在表4.1、4.2、4.3中显示。表4.1L001验证中参数;Ur对排名为1的影响jTOPI=====T0.l0Jr03t0.7t03]”]]]A=0.%78.7%7.8%7.%.171.1%1=>1037.1%6.3%8.7%7.8%13.4%A=057.8%7.8%9.4%10.2%13.4%A=0.711.0%12.6%12.6%13.4%14.2%A=0919.7%18.9%16.5%15.7%11.8%.表4.2LOOl验证中参数;1、r对排名为3的影响?TOP3r=0====.lt03t0?5t0.7r0.9]]/j;=A0..120.5%19.7%22.8%228%26.8%A=032.1.3%22.0%22.8%244%23.6%A=02.0%2223.6%24.4%228%.52.0%.1=026.8%26.0%27.%29.1%22.8%>.76A=0.0%30..0%30.0%307%.9300%30.39 碩士学位论文MA'?STERSTHESIS表4.3LOO1验证中参数A、7对排名为5的影响7TOP5r=0.1r=03r=037=0.7t=0.97]]7]A=0.130.0%28.3%30.0%32.3%36.2%A=0331.5%33.1%36.2%36.2%37.8%A=0J34.6%35.4%37.0%38.6%37.0%1=0736236.2%37.8%37.0%35.4%>..%A=0935.4%354354%37.0%36.2%..%.表4.4L002验证中参数;I、r?对排名为1的影响TO=====PIi0.l70370.5rQ.770.9j77j7A=012.4%2.4%2.4%2.4%2.4%.A=0J2.4%2.4%24%24%2.4%..A=0J2.4%2.4%2.4%2.4%2.4%=A0....724%2.4%24%24%2.4%=A0.93.1%3.1%3.1%3.1%3.1%本文通过对不同参数进行设值分析LOO,l交叉验证可以得出以下的结论。AA09一验证预测的微生物数目随着当参数y、固定时,并且低于.,通过留7的增加?X0一而增加.9时,通过留7加而;当参数高于交叉验证预测的微生物数目随着?的增。、,07,减少当y7固定并且低于.预测得到的微生物数目随着A的增加而增加;?而当高于0.7,随着;I的增加,微生物数目先升高后降低。而从L002交叉验证中,本文可以看出,当参数y不变时,其余两个参数的变化对于校验得到的结果几乎没-有产生很大的影响。本文最后对微生物疾病关联预测采用L001交叉验证,并将参数取值为效果最好的值。4*3.4ROC曲线分析ROC(ReceiverOeratingCharacteristic)曲线是通过设定阈值对预测结果进行p分类从而得到敏感度和特异性值而绘制的曲线。敏感度(Sensitivity)指排序后大于一414Sifit)定阈值的引起疾病的微生物所占的比例,定义如公式.。特异性(pecicy一指小于定阈值的没有引起疾病的微生物所占的比例,定义如公式4.15。本文使用ROC曲线分析算法性能。TPSensitivity=4.14公式TP+FN40 硕士学位论文MA'?STERSTHESISTN,…Sect=--—415pificiy公式.^+其中,7T指真阳性,7W指真阴性,FP指假阳性,fW指假阴性OC曲。通过R线比较异构网络随机游走(RWRH)和仅在微生物网络上的随机游走RWR),如(4RWRHRWR,ect图.6所示,算法曲线高于算法其特异性(Spificiy)也优于随机游走RWR。ROC曲线表明异构网络的随机游走具有较高的灵敏度(Sensitivity)和一特异性。进步显著表明了疾病网络的重要性。广r[—,'—r°-9,fr*轟■'-0*.8i|'-I#0--.6/jI/--:0.5|香Jl10--.4/fi-*-0.3fJ0,2|/*-〇.i麵iA圓-p_ranumwalk〇nHator〇?n〇〇u?newor}tigtkm"'****ranomwlon?micr〇nawordaklhb?lk-cc[[I-r—L--[f:0002400607080910.1030.5*Sp1〇cIflty图4.6RWRH和RWR方法的ROC曲线对比43-.5微生物疾病关联预测-通过以上方法的证明,验证了本文所提出的通过构建异构网络进行微生物疾病关联预测算法的有效性,同时预测出的潜在的引起疾病的微生物,能够为医学家和一些更准确生物学家提供、可靠、有效的生物实验和临床信息。本文通过异构网络生物==随机游走预测了28种疾病的致病微。其中参数设置为A0.9,?〇.l0.7,在r,:K这里,本文列出了三种常见的疾病,即二型糖尿病、哮喘和牛皮癣以及与该疾病相关的潜在致病微生物。(1)二型糖尿病(DiabetesMellitus,Type2)41 硕士学位论之'E?MASTERSTHSIS一糖尿病在现代人群中是种高发性的疾病,最主要的特征表现为肥胖症。糖尿病是由多种病因引起的以慢性高血糖为特征的代谢紊乱性疾病。而其中高血糖则是由于胰岛素分泌缺陷或者其生物作用受损,或者有两者共同作用引起。梭菌属71[](Cilllostridium)和乳杆菌属(Lactobacus)是己知的与糖尿病相关的微生物,并且在候选基因中排名前二。嗜血杆菌属(Haemophilus)排名第三,同时属于变形菌门(Proteobacteria);普氏菌属(Prevotella)排名第四,并隶属于拟杆菌门(Bacteroidetes)。然而这两种微生物都与糖尿病无关。通过查阅相关文献,本文发72o[]现存在相关文献证实了变形菌门(Prteobacteria)和拟杆菌门与糖尿病有关,因此本文认为嗜血杆菌属和普氏菌属是潜在的引起糖尿病的微生物。加德纳菌属(Gardnerella)和纤毛菌属(Leptotrichia)分别排名第五和第六,但是没有相关文献证明这两个微生物与糖尿病相关,因此,本文认为加德纳菌属和纤毛菌属是潜在的与糖尿病相关的微生物。(2)哮喘(Asthma)一哮喘又名支气管哮喘,是种比较常见的。此种炎症、慢性的肺部气道炎症导致喘息困难、呼吸急促、胸闷气短和咳嗽等症状的反复发作。普氏菌属、葡萄球菌属(staphylococcus)、嗜血杆菌属分别是排名前三的微生物,同时它们也是与哮-喘相关的致病微生物,并出现在己知的127对微生物疾病相关数据中链球菌属etococcus)排名,同时也不是己知的与哮喘相关的微生物,但是通过(strp第四747511[]查阅相关的医学文献,本文发现链球菌属与小儿哮喘和过敏性哮喘密切相关。韦永氏球菌属(Veillonella)在候选微生物中排名第六,且没有出现在已知的微生物-疾病关联数据中,但是有医学文献证实了韦永氏球菌属在患有哮喘的小儿中明显减76[]P少。两酸菌属roionibacterium)排名第五,也没有发现相关文章证明其与哮(p喘相关,所以本文认为丙酸菌属可能是潜在的引起哮喘的微生物。(3)牛皮癣oriasis)(ps一一些典型的红色牛皮癣俗称银屑病,是种慢性炎症性皮肤病。该疾病伴随着、一鱗片状等特征,且病程较长,不易治愈。牛皮癣也通常被认为是种由环境因素引7778[][]起的遗传性疾病。葡萄球菌属oionibacterium)、链球菌属、丙酸菌属(Prp在候选微生物中分别排名前三,是己知的与牛皮癣相关的微生物,且己有相关文章证798Q[][]实了这三种微生物与其有关。嗜血杆菌属排名第五,并未出现在127对己知的-微生物疾病关联数据中,而蜂。但是有篇文章指出嗜血杆菌属和蜂窝组织炎有联系@1窝组织炎可能会引发滴状银屑病。普氏菌属排名第四,并且目前没有找到相关文献证明普氏菌属是否也牛皮癣相关,所以,本文认为普氏菌属可能是潜在的与牛皮42 硕士学位论文'MASTERSTHESIS癣相关的致病微生物。4.4本章小结目前有关于微生物-疾病关联预测的方法主要是基于文本挖掘的方法。从疾病基因预测方法得到启发,本章主要针对异构网络的随机游走算法进行介绍。在随机游走的思想上改进,提出了基于异构网络的带重启概率的随机游走方法。该算法能有,同时对于参数影响也有较强的健壮性效捕获疾病网络和微生物网络之间的互补性。本章首先简单介绍了图上的经典随机游走模型。然后再介绍如何构建异构网络矩阵的方法,并将异构网络矩阵应用到随机游走模型上。最后通过交叉验证、参数分析和ROC曲线分析,证明了该算法的合理性,并分析了三种常见疾病:二型糖尿病、哮喘和牛皮癣以及潜在的可能与这些疾病相关的微生物,再通过文献查找相关排名靠前的微生物是否与疾病相关以证实算法的有效性。通过微生物社交网络以及疾病-相似性网络的拓扑属性,为找出新的微生物疾病关联数据提供新的指导和依据。43 硕士学位论文M'?ASTERSTHESIS第五章总结与展望5.1总结“”从美国国立卫生院于2007年底正式启动人类微生物组计划开始己有十年之久,。在这十年时间内,随着三代测序技术的迅速成熟与发展微生物组学的研宄己经逐步进入了一个快速发展的时代。人体微生物组计划作为人类基因组计划的扩一展和延伸,它并且也是多个国家、多个学科之间共同协作参与的门综合性科学。对于人体微生物组的研究有助于打破环境微生物与医学微生物之间的界限,能够用于处理各种医学问题,同时为各种疾病的预防和治疗提供新的解决方法和思路。也可以根据个人的饮食习惯和生理特点,适当调节和控制体内的微生物组成成分,从而有助于改善和提高人体的健康状况,最终起到治疗疾病的作用。通过相关有效的-研究算法,从复杂的微生物数据中出发,预测潜在的微生物疾病关联具有深刻的科学意义和巨大的经济效益。本文分别对基于微生物的社交网络和基于异构网络随机游走预测潜在的微生-疾病关联方法进行了相关研宄,物。首先介绍了微生物相互作用关系网络推理的方-法及其网络特性,并阐述了预测微生物疾病关联的研究意义。然后通过SparCC和一Spearman方法,分别构建微生物相互作用网络并进行分析。因此,本文提出了种-基于微生物社交网络的微生物疾病关联预测方法,采用马尔科夫聚类算法分别形成呼吸道,、皮肤、肠道三者处的微生物社区或者微生物网络模块并通过排名和查阅相关文献证明方法有效性,并分析了与哮喘、过敏性皮肤炎和结肠癌相关的潜在微一一生物,;另种是基于异构网络的随机游走方法并通过留交叉验证、参数和ROC曲线分析方法进行实验验证,证明了该方法优于单层微生物网络随机游走,最后通过分析哮喘、二型糖尿病、牛皮癣三种疾病证明了预测方法的有效性。5一.2下步研究工作-通过本文对微生物疾病关联预测方法的研究及其相关验证可知,本文所提方法己经能够进行相对有效的预测。但是所有的方法都是基于微生物网络进行预测,而通过微生物网络构建并选择有效的微生物之间的关联时,其阈值的设定会使数据难免存在偏差,因此,需要结合更多的生物信息来提高预测算法的有效性和准确率。44 颂士学位论之/MASTERSTHESIS一:结合己开展的工作,本文的下步工作安排如下“”一由于微生物网络的研宄相对较少第,微生物的没有可供参考,社交特性的依据和标准,所以通过微生物的丰度数据采用何种相关性构建方法是本文遇到的难题,由于微生物网络结构复杂,。同时各种聚类算法的适用性应当予以考虑。因此可以考虑多种微生物网络相关性构建方法和聚类分析方法,从而选择出最优方法。最后列举多种疾病进行验证分析。-第二,疾病网络、微生物网络、微生物疾病相互关联网络节点数量较少,不可避免的存在噪声和不完整性。因此需要查阅更多文献以找出更多的疾病、微生物数据,,。另外异构网络随机游走算法的参数设置较多对于参数的选择难免会降低方法有效性,对参数设置进行启发式的定义,。因此,是否可以通过数据特性从而改进异构网络随机游走算法。45 硕士学位论文'?MASTERSTHESIS参考文献1LckerWZJrAClarifcatItertionsinElilStJ.Biiidi.iionofnaccoocasemsoScence,,[]gy[]-1979,298):475477.([2]RodriguezMartmez,JoseM,Pascual,etal.Antimicrobialresistanceinbacterialms-biofiJ.ReviewsnMedicalMicrobiolo2006173:6575ligy.,,[]()3WoykeT,etal.Symbiosisinsightsthroughmetagenomicanalysisofamicrobial[]-consortium.J.Nature20064437114:9505.,,)[](4JaersG.4.ThestruleforexistenceM.Thestruleforexence.gggggist[][]193413-13:6162..5RaesJ,FoerstnerKP.Getthemostoutofourmetaenome:comutationalanalsis[y]gpyofenvironmentalsequencedata[J].CurrentOpinioninMicrobiology,2007,105490:.()6FaustK,RaesJ.Microbialinteractions:fromnetworkstomodelsJ].NatureReviews[]fM-icrobiolo2012108:538550.gy,,()7SekirovIFinlaBB.TheroleoftheintestinalmicrobiotainentericintionJ.The,yfec[][]Journa-lofhsiolo20095871741594167:.,,pygy()8CostelloEKStaamanKDethl.fecolefsenLetaThealicationoloicaltheor,,,[]gppgytowardanunderstandinofthehumanmicrobiome[J.Science20123366086:g],,()-12551262.9IversonV,MorrisRM,FrazarCD,etal.Untanglinggenomesfrommetagenomes:[]revealinunculturedclassofineEurarchaeotaJ.Science20123356068:ganmary,,()[]587-590.10VonMerinCHuenholtzPRaesJetal.titativehloeneticassessmentof,,,Quan[]ggpygicrobialitiesindii2007mcommuniverseenvronmentsJ.scence3155815:,,)[](-11261130.'11Falkowskl.iiliiiPGFencheTDelonEFThemcrobaennesthatdrveEarths],,gg[b-ioeochemicalcclesJi200832058790341039.scence:1.gy,,[]()12WernerJJKnihtsDGarciaMLetal.Bacterialcommunitstructuresareuniue,,,gyq[]-andresilientinfullscalebioenergysstemsJ.ProceedinsoftheNationalAcademy[]gy-ofithUitttAic201110810415863.ScencesofenedSaesofmera:,,()13ValaesTetaiiMounierJMonnetCl.Mcrobialinteractonswithinacheese,l,,y[]microbialcommunitJ.Alied&EnvironmentalMicrobiolo2008741172:.y,,([]ppgy)hlllil14MarsPD.Aredentadiseasesexamesofecoocacatastrohes?J.[]pgp[]-icrobiolo20031492.M:27994gy,,()15MaloKJ.&PorieFIntestinalhomeostasisaitsbeakdownininflammatory.w.ndr,,y[]46 硕士学位论文'MASTERSTHESIS-boweldiseaseJ.Nature474,2983062011.[]()16LeRTumbauhPKleinSetal.HumanutmicrobesassociatedwithobesitJ.[]y,g,,gy[]Nt20064447122-aure:13.,022,()17TumbauhPJBackhedFFultonLetal.Markedalterationsinthedistalut[]g,5,g-microblkiiCllHiiomeinedtodietnducedobestJ.eost&Mcrobe20083.y[,,]18BonneauRFacciottiMTReissDJetalAredictielforitl.vemodtranscriona[],,,ppcontrolofhsioloinafreelivincell2007lJ.Cel1317:1354.,,pygyg[]()19SzklarczkDFranceschiniAKuhnMetal.TheSTRINGdatabasein2011:,,,[]yiiifunctionalnteractionnetworksofrotensloballnteratedandscoredJ.Nuceicp,gygl[]dh139D-Aci61D568.isResearc201atabasessue:D5,,()20MisIBelCMSmithVA.RevliecoloiltiBeilnaeeancaneworksusnasan,,[]gggy-networkinferencealorithmsJ.Ecolo2010917:18929.g[]gy,,()[21]EilerA,HeinrichF,BertilssonS.Coherentdynamicsandassociationnetworksamon-lakebacteriolanktontaxaJ.IsmeJournal201162:330.gp,,342[]()22SteeleJA,CountwaPD?XiaL,etal.Marinebacterial,archaealandrotistan[]ypassociationnetsrevealecoloicallisJ.IsmeJournal2011591414workgnkage:.[],,()23ErdosPReni.OntheevolutionofrandomrahsJ.Publicationofthe,,,[][]yAgpM—athematicalInstituteoftheHunarianAcademOfences2012381:1761.gy,,()il.li24BarabasALAbertREmerenceofscainnrandomnetworksJ.science1999,,,gg[][]2865439509-512:.()25ChafronS,RehrauerH,PemthalerJ,etal.Aglobalnetworkofcoexistingmicrobes[]-fromenvironmenlwholhtaandeenomeseuencedataJ.Genomeresearc2010gq,,[]207-:947959.()26ZhoDenYLuoFtaillluJl.FtonalmoecuarecoloicanetwoksJ.Mbio,g,,euncgr,[][]20-101415921601:.,()[27]JeongH,MasonSP,BarabasiAL,etal.LethalityandcentralityinproteinnetworksJ.Nature20014116833:41.,,[]()28PaineRT.ANoteonTrohicComlexitandCommunitStabilitJ.The[]ppyyy[]Amer-icanNaturalist1969103Volume103Number929:193.,,(,)9[29]ClausetA,NewmanMEJ,MooreC.FindingcommunitystructureinverylargenetworksJ.PhsicalreviewE2004,706:066111.,[]y()30K-FreiimerAilIl.ThlliilichSreeisonetaearescaeoranzatonofthe[],,Mj,gg-ttworkofttJ.NAiRbacerialneecologicalcooccurrenceineracionsucleiccdsesearch,[]20-103812:385768.,()’'-31WattsDJStroatzSH.CollectivednamicsofsmallworldnetworksJ.Nature,,[]gy[]1998393-:440442.,47 碩士学位论文丨MASTERSTHESIS32Belcheva,Antoaneta,Irrazabal,etal.GutMicrobialMetabolismDrives[]f-TransformatClihelialCellCll82288ionoMsh2DeficientoonEtsJ.e201415:.p,,[]()[33]LeyRE,BackhedF,TumbaughP,etal.ObesityAltersGutMicrobialEcology[J].PoceedinsoftheNationalAcademofSciencesoftheUnitedStatesofAmericargy,2005,10231:11070.()34LarsenN,VogensenFK,BergFWJVD,etal.GutMicrobiotainHumanAdults[]-wibeduJlOithTe2DabetesDiffersfromNonDiaticAlts.Posne2010yp,,[]529085:e.()35RosserECllindleinikaKononSetal.Reuatorcelsareucedbut,,,[]OTgyByg---microbiotadriveninterleukin1andinterleukin6roductionJ.NatureMedicine],pp[201420111334:.,()-b36XuJLiY.Discoverindiseaseenestooilftinhlocaeauresuman[],ggypg--roteinroteininteractionnetworkJ.Bioirmatics20062222:28002805.nfo.pp,,[]()37GandhiTK,ZhonJathivananSetal.Analsisofthehumanroteing,M,yp[]dcomiithtflittidttsJNtinteractomeanarsonweaswormandneraconaase.aurepy,y[]Gene-tcs2006383:285293.i,,()38B-arabasiALGulbahceNLoscalzoJ.Networkmedicinetbased:anework,,[]h-approactohumandiseaseJ.NatureReviewsGenetics,2011,121:5668.[]()39RaesJFoerstnerKP.Getthemostoutofourmetaenome:comutational,[]ygpanalsisofenvironmentalseuencedataJCurtOiioinMicrobiolo2007yq.rennngy,,[]p105:490.()40JumstartConsortiumHumanMicrobiomeProectDataGenerationWorkingGrou.[]pjp-badcommunfhEvaliiiluationof16SrDNAseityproingforumanmcrobomeresearchJ.PloSone201276:e39315.],,()[4iii1MorganJLarlinAEEsenJA.MetaenomcSeuencnofanIn,Dg[],gqg-Viilit.l4l0209.itroSimulatedMcrobaCommunJPosOne20095:ey,,[()]42RJBokPMo-aesrlecularecosstemsbiolo:towardsanunderstandinof.,ygyg[]-communitfunctionJ.NatureReviewsMicrobiolo2008696939:.y,,()[]gy[43AitchisonJ.ThestatisticalanalsisofcomositionaldataJ.1986.]yp[][44]AitchisonJ.Aconciseguidetocompositionaldataanalysis,CDAwork[J.Girona,]-81200324.:73,-45P.liheoawlowskGlahnVBciantiAComositionaldataanass:trand,ucpyy[]yalicationsi2011.M.Wlepp,[]y-46ElldinrihtAJVanDSOuzounisCA.Aneffietaloithmforarescaeetectonicnr,,gg[]g-ofroteili.li57584.infamesJNucecAcidsResearch2002307:1p,,()[]47胡庆生.PPI网络的改进马尔科夫聚类算法C.2014全国理论计[],雷秀娟[]算机48 碩士学位论文MA'?STERSTHESfS科学学术年会.2014.Sobhan-48iITaJRoudotThoravalFetaMbdiilll.icroialsbosisncoorectacancer[],p,?y(CRC)patients[J].PloSone,2011,6(1):el6393.49KostcADGeversDPedamalluCSetalGenomicanlsidenfieationi.aistisassoci,,5y[]ofFusobacteriumwithcolorectainomaJGlcarc.enomeresearch2012222:[,,]()292-298.50KongHH,OhJ,DemingC,etal.Temporalshiftsintheskinmicrobiome[]associatedwithdiseasefdiildiiilaresantreatmentnchrenwthatopcdermatitsJ.[]Genome20225850-research12:859.,,()51SmeekensSP,HuttenhowerC,RizaA,etal.Skinmicrobiomeimbalancein[]patientswithSTAT1/STAT3defectsimpairsinnatehostdefenseresponsesJ.Journal[]-ofinnateimmunit201363253262:.y,,()""i52HumanMicrobiomeProect/ProgramIntiatives.TheNIHCommonFund.[]jRetrieved8March2012.SommeFBFTh-53rackhediitmastersofhostdevelmentand].eutmcroboao?[gpphysiology[J].NatureReviewsMicrobiology,2013,11(4):227.54Goil.iillwitzerESSalanSTrometeAetaLunmcrobotaromotestolerance,g,p,gp[]-PDL-toallerensinneonatesvia1J.NatureMedicine2014206:6427.g,[],()55MazmanianSK,LiuCH,TzianabosAO,etal.Animmunomodulatormolecule[]yofsymbioticbacteriadirectsmaturationofthehostimmunesystemJ.Cell,2005,[]-81221.:10711()56RJL-oundMazmanianSK.InducibleFox3+relatorTcelldevelomentba,gu[]pypycommensalbacteriumoftheintestinalmicrobiotaJ.ProceedinsoftheNational[g]dem-AcaofSc12712204209.iences201007:12y,,()57KrethJZhangYHMC.StretococcalAntaonisminOralBiofilms:[],pgStreptococcussanguinisandStreptococcusgordoniiInterferencewithStreptococcusmutansJ.Journalofil2008190134632Bacteroo:.,,[]gy()[58]WeiJ,LiH,ZhaoL?etal.Gutmicrobiota:apotentialnewterritoryfordrugtaretingJ.NatureReviewsDruDiscover200872:123.ggy,,[]()[59]YangC,ZhengX,LiF,etal.mmnet:AnRPackageforMetagenomicsSystemsB-ioloAnalsisJ.BiomedResearchInternational201420157402:l5.gy,,y[]()60CoeilComillhoEDSantiaoAMArrasJPeta.utatonamethodolofor,g,,pgy[]-redlmii.pictingtheandscaeofthehumancrobialnteractomereionlevelinfluenceJpg[]JournalofBiti&CttilBil20151351550023ionformacsomuaonaoo:.pgy,,()61NafachSFischbachMAPollardKS.Metauer:awebserverforraid[]y,y?Qpannotationandquantitativeanalysisofspecificgenesinthehumangut49 碩士学位论文'?MASTERSTHESIS-iomeJiiimicrob.Bonformatcs20153120:336870.[,,)](M-62LimKMKLiCChnKRetal.Inter:automatedtextmininofmicrobial,5g,[]@ginteractions.Bioinformatcs1:btwi206357.^,]63M-FreilichSreieilisonIetalThllimerA.earescaeoranzationofthe],K,j,gg[bac-terialnetworkofliliiJ.Niecoocacooccurrencenteractonsucleicacdsresearchg,[]20-103812:38573868.,()64PearsonK.TheProblemofTheRandomWalkJ.Nature1905721866318.,,:[][]()65KohlerS,BauerS5HornD,etal.Walkintheinteractomeforrioritizationof[]gpcandatediseaseenesJTheAmercanJournaofHumantcs824:idg.ilGenei2008[],,()949-958.66L--iYPatraJCGenomewidihtlilki.enferrineneenoereationshbwanon[,]ggpyppyg-theheteroeneousnetworkJ.Bfoigioinrmatcs2010269:12191224.,,[]()houXZMB-67ZencheJarabasiALetal.HumanstomsdiseasenetworkJm.,5,[]yp][Naturecommunications,2014,5.一D68赵志琴.分形和网络方法在蛋白质数据分析中的些应用.湘潭大学2015,[][],69MaWZhanZenPeta-l.Ananalsisofhumanmicrobedisease,gL,g,y[]assocatsJBresBoormatcs2016iion.ifinginiinfi,.[]70二.2016孔繁良.基于级结构的蛋白质三级结构预测[D]济南大学.[],71LarsenN,VogensenFK,vandenBergFWJ,etal.Gutmicrobiotainhumanadults[]t-withype2diabetesdiffersfromnondiabeticadultsJ,PloSone201052:e9085.[],,()[72FuretJP,KongLC,TapJ,etal.Differentialadatationofhumanutmicrobiotato]pgi--bariiiatrcsurgerynducedweightlosslinkswithmetabolcandlowgrade-inflammationmarkersJDit200591230493057].abees1:.,,)[([73]HiltyM,BurkeC,PedroH,etal.DisorderedmicrobialcommunitiesinasthmaticaisJ.PloSone201051.rwa:e8578y,,()[]74FreDJacobsonRPolandGetal.Assessmentoftheassociationbetween[]y,,,edipiatrcasthmaandStreptococcuspyogenesupperrespiratoryinfectionC.Ai.lillerandAsthmaProceednsOceanSidePubcationsInc2009gyg,,,[]305540-545:.()75PrestonJAThorbumANStarkeMRetal.Stretococcusneumoniaeinfection[],,y,pp-suressesaliidiiilllpplergcarwaysseasebynducngreguatoryTcesJ.Euroean]p[R-esiratorJournal20113715364:.py,,()[76]ArrietaMC,StiemsmaLT,DimitriuPA,etal.EarlyinfancymicrobialandmetabolicalterationsaffectriskofchildhoodasthmaJ.Sciencetranslational[]-medicine20157307307rl52307l52:ara.,,()77.uestionsandanswersaboutsoriNationalInstitutesofHealthpiassJ.2010.[]Q[]50 硕士学位论文#MASTERSTHESIS78MenterAGottlfoliebAFeldmanSReta.Guidelinesofcarerthemanaementof,,[],gsoridiiiiSi1Oviididlipiassanpsoratcarthrts:ecton.ervewofsoriassanuenesofpgcareforthetreatmentofpsoriasiswithbiologics[J].JournaloftheAmerican-Academofl826850Dermatoo2008585:.ygy,,)([79FahlenA,EnstrandL,BakerBS5etaLComarisonofbacterialmicrobiotainskin]gpbihiveflliosnormalandsoriaticsknJ.Arcsodermatooicaresearch2012piesfrompg,,[]3041-22:15.()80GaoZ,TsengC,StroberBE,etal.Substantialalterationsofthecutaneousbacterial[]bilesil2008372719iotainsoriatconsJ.PoSone:e.p,[],()[81]ChillerK,SelkinBA,MurakawaGJ.Skinmicrofloraandbacterialinfectionsoftheskllii.inC.JournaofInvestiativeDermatooSmosumProceednsElsevier,[]ggyypg200163-170174:.,()51 碩士学位论之'HEMASTERSTSIS攻读硕士期间发表的论文和参加的科研项目公开发表的学术论文:1X-ianunShenYaoChenXinenJianetalPdictindi.reseasemicrobe[]j,,gpgggassociationbrandomwalkinontheheteroeneousnetworkEygg.2016IEEInternationalConferenceonBiiiiionformaticsandBomedcne2016.CCFB,类[国际学术会议]2XianunShen,YaoChen,WenieHuetal.Mobilenodeslocalisationbasedon[]jjhiiillfibileillclmbngoptimization^.InternatonaJournaoWrelessandMo]-Comutin2016111:1823.pg,,()3YXJ-XianunShenaoCheniatlPiiiiDiCi[inennea.rortznseaseausn]j,,gpggggmiBlkionthehetetwork(Mthscrobesasedonrandomwangrogeneousne.eod,SCI,IF35,己检索.投稿)攻读硕士学位期间参加的科研项目:“”1国家自然科学基金重点项目:高通量微生物组学数据模式提取和分析[](N-o1532008),20162020.6.湖北省“[2]自然科学基金对外科技合作项目:微生物大数据挖掘及医学应用合”-16作研究(2014BHE014),201420.52 碩士学位论文'?MASTERSTHESIS致谢时光匆匆,岁月如梭,转眼之间又到了毕业离开的时候,。作为专业硕士的我一两年的学习时间是那样的紧迫,同时也是那样的充实。研开学的场景仍然记忆犹新,仿佛还是昨天,不知不觉中我们即将离开,离开华师,离开实验室的老师和同,踏上新的旅程学。在这两年的研宄生生活中,我要由衷的感谢我的导师沈显君教授对我的悉心培养和耐心指导。沈老师严谨的学术作风,丰富的专业知识,积极的人生态度深刻的影响着我,更重要。孜孜不倦的教导着我应该如何学习和做研宄的是教育我做人做事的道理,,。同时我要感谢胡小华教授带领着我走进了生物信息学这块充满挑战和意义的研究领域。胡老师严谨的学术态度和平易近人的性格值得我学习。然后我也要由衷感谢蒋兴鹏教授对我的学术论文不厌其烦的指导和修改,蒋老师沉稳的治学态度和严谨的学者风范让我知道了该如何去做科研,同时也总能带给我新的灵感和思路,帮助我能够更好的前进,。感谢杨进才教授在我的研宄生涯所给予的帮助能够及时帮助我解决困惑。正是这些老师们关怀和指导,才让我能够顺利完成学习任务。同时还要感谢实验室的兄弟姐妹们,使我在学习和生活的道路上充满了快乐和,是我人生中美好的回忆。感谢马博幸福。你们的陪伴、朱博、潘博、艳姐、袁杰师兄、易阳师姐、易丽师姐、严杰、朱子男、毛智明、汪晓艳、周锦还有小师妹们。谢谢你们陪我度过短暂的两年美好时光,也感谢你们在学习和生活中给予的帮助和支持。,最后,我将最诚挚的感谢献给我的父母,感谢他们给予的关爱和无私的付出一不论是在生活还是学业上,都如既往的支持我,、鼓励我是我人生中最坚强的后盾。踏入社会以后,我会继续坚持不懈,让自己变得更优秀,谢谢你们!53

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭