基于本体的疾病数据整合与挖掘方法研究

基于本体的疾病数据整合与挖掘方法研究

ID:77657494

大小:4.01 MB

页数:123页

时间:2024-02-04

上传者:笑似︶ㄣ無奈
基于本体的疾病数据整合与挖掘方法研究_第1页
基于本体的疾病数据整合与挖掘方法研究_第2页
基于本体的疾病数据整合与挖掘方法研究_第3页
基于本体的疾病数据整合与挖掘方法研究_第4页
基于本体的疾病数据整合与挖掘方法研究_第5页
基于本体的疾病数据整合与挖掘方法研究_第6页
基于本体的疾病数据整合与挖掘方法研究_第7页
基于本体的疾病数据整合与挖掘方法研究_第8页
基于本体的疾病数据整合与挖掘方法研究_第9页
基于本体的疾病数据整合与挖掘方法研究_第10页
资源描述:

《基于本体的疾病数据整合与挖掘方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

博士学位论文基于本体的疾病数据整合与挖掘方法研究RESEARCHONONTOLOGYBASEDAPPROACHESFORDISEASEDATAINTEGRATIONANDMINING哈尔滨工业大学2014年10月 国内图书分类号:TP391.2学校代码:10213国际图书分类号:681.37密级:公开工学博士学位论文基于本体的疾病数据整合与挖掘方法研究博士研究生:程亮导师:王亚东教授申请学位:工学博士学科:计算机应用技术所在单位:计算机科学与技术学院答辩日期:2014年10月授予学位单位:哈尔滨工业大学 ClassifiedIndex:TP391.2U.D.C:681.37DissertationfortheDoctoralDegreeinEngineeringRESEARCHONONTOLOGYBASEDAPPROACHESFORDISEASEDATAINTEGRATIONANDMININGCandidate:ChengLiangSupervisor:Prof.WangYadongAcademicDegreeAppliedfor:DoctorofEngineeringSpeciality:ComputerApplicationTechnologyAffiliation:SchoolofComputerScienceandTechnologyDateofDefence:october,2014Degree-Conferring-Institution:HarbinInstituteofTechnology 摘要摘要近年来疾病相关研究备受关注,其中疾病数据库整合、疾病相似度、疾病本体与基因本体术语关联是目前的研究热点。疾病数据库中的疾病术语描述不一致增加了疾病数据库整合的难度;疾病关联的多样性是计算疾病相似度面临的挑战。用定量的方法衡量文献中的术语关联是挖掘跨本体术语关联亟需解决的难题。本文针对疾病研究中所存在的这些困难进行了深入的探讨和研究,其主要内容如下:(1)提出了基于疾病本体的疾病数据库整合方法。疾病相关的数据库众多,其中每个数据库都记录着疾病与一两种特征之间的关联,且它们之间缺乏交互,无法为疾病提供统一的视图。本文根据疾病术语之间的同义词关系以及本体中存在的集合包含关系,将疾病数据库中的疾病术语分别以同义词映射以及推理映射的方式映射到到疾病本体的术语上,从而整合了不同疾病数据库中的疾病术语。按疾病特征类型将疾病数据库分类,将疾病数据库中的疾病特征映射到该特征所通用的标识符,并按疾病特征类型合并相同记录,去除冗余数据。基于集成的疾病数据库,挖掘了疾病之间的关联以及特征之间的关联。(2)提出了基于基因关联网络的疾病相似度算法。基于基因之间的关联计算疾病相似度是当前疾病相似度方法的研究热点。基因之间的关联方式有很多种,但是目前的方法都仅考虑了基因之间的一两种关联。本文首先将疾病的相似度转换为疾病相关的基因集之间的关联分值,然后基于综合的加权的人类基因关联网络设计算法。该算法首先将加权的人类基因关联网络标准化,再根据基因对的关联权值计算基因集之间的关联分值。通过从文献中搜集相似的疾病对作为基准集,对疾病相似度算法的性能进行了有效的评价,证实了基于基因关联网络的疾病相似度算法优于已有的其他算法。(3)提出了集成语义与基因关联的疾病相似度算法。综合的加权的人类基因关联网络可用于衡量疾病相关的基因集之间的关联分值;疾病术语对、以及它们在疾病本体中的共同祖先相关的基因数可用于计算疾病术语的语义关联分值。这两类关联分值的乘积被用于计算集成的疾病相似度。本文的研究证明,该算法适用于假设“相似的药物通常可以治疗相似的疾病”。同时,本文基于该假设实现了疾病相似度系统,挖掘了疾病的潜在治疗药物。(4)提出了基于文献的跨本体术语关联算法。当前的基于文献的术语关联方法仅通过术语出现的文献数目来衡量跨本体术语之间的关联,这不利于发现通过语义关联建立起的跨本体术语关联。本文利用本体中术语的语义关联扩-I- 哈尔滨工业大学工学博士学位论文展术语与文献之间的关联,并基于扩展的关联设计算法计算跨本体术语之间的关联分值。本文将该算法应用于挖掘基因本体和疾病本体的术语关联,取得了良好效果。关键词:疾病数据库整合;疾病本体;疾病术语;疾病特征;疾病相似度;基因关联网络;语义关联;跨本体术语关联-II- AbstractAbstractInrecentyears,alargeamountofresearchhasbeenfocusingondisease-relatedarea,suchastheintegrationofdisease-relateddatabases,diseasesimilarity,andtherelationshipbetweentermsofdiseaseontology(DO)andgeneontology(GO).Theinconsistenceofdiseasetermsamongdifferentdatabases,thediversityofassociationsbetweendiseases,andmeasuringliterature-basedrelationshipsbetweentermsresultinthedifficultyofintegratingdisease-relateddatabases,calculatingsimilaritybetweenterms,andminingrelationshipsbetweentermsacrossontologies,respectively.Thisdissertationfocusedonthedifficultiesandproblemsindiseaseresearch.Themaincontentincludes:(1)Theapproachforintegratingofdisease-relateddatabaseswasproposed.Therearemanydisease-relateddatabases,andeachofthesedatabasesfocusesonassociationbetweendiseasesandoneortwotypesoffeatures.Owingtothelackofinteractionbetweenthesedatabases,itisdifficulttoaccessaglobalviewofdisease.Twotypesofmappingincludingmappingwithsynonymousandmappingbyinferringareusedtotagsynonymousrelationship,andsetinclusionrelationshipbetweenterms,respectively.Basedonthesemappings,termsofdisease-relateddatabasesareintegratedintoDO.Disease-relateddatabasesareclassifiedbyfeaturesofdiseases.Andfeaturesofdiseasesareconvertedintopopularidentifier.Then,thesamerecordscontainingrelationshipsbetweenfeaturesanddiseaseareignoredthroughcomparingtheseidentifiers.Basedontheintegrateddatabase,associationsbetweendiseasesandassociationsbetweenfeaturesaremined.(2)Theapproachforcalculatingdiseasesimilaritybasedongeneassociationnetworkwasproposed.Approachesusingassociationbetweengenesisahotspotofmeasuringsimilaritybetweendiseases.Manytypesofassociationsbetweengenesexist.However,onlyoneortwotypesoftheseassociationsareusedforthispurpose.Similaritybetweendiseaseswasconvertedtoassociationscorebetweengenesetsofdiseasesaccordingtothismethod.Then,thealgorithmwasdesginedbasedonacomprehensivelyweightedhumangeneassociationnetwork.First,theweightededgesofthenetworkwerenormalized.Second,theassociationscorebetweengenesetswasmeasuredbasedonthenormalizednetwork.Pairsofsimilardiseasesextractedfromliteraturewereusedasthebenchmarkset,whichwasexploitedtoevaluatedthediseasesimilaritymethod.Theresultofexperimentshowsthattheperformanceofourmethodispriortoothermethods.(3)Theapproachforcalculatingdiseasesimilaritybyintegratingsemanticandgeneassociationnetworkwasproposed.Acomprehensivelyweightedhuman-III- 哈尔滨工业大学工学博士学位论文geneassociationnetworkcanbeusedtomeasureassociationscorebeteendisease-relatedgenesets.Thenumberofgenesinvolvedinapairofdiseasesandtheircommonancestorswereexploitedtoweightsemanticassociationscoreofthediseasepair.Theproductofthesetwotypesofassociationscoreswereusedtocomputeintegrateddiseasesimilarity.Themethodwasverifiedtobesuitablefortheassumptionthatsimilardiseasescanoftenbetreatedbysimilardrugs.Meanwhile,asystembasedonthisassumptionisimplementedforminingpotentialtherapeuticdrugsfordiseases.(4)Theapproachforrelatingtermsacrossontologiesbasedonliteraturewasproposed.Termsoccurringinliteratureareusedtomeasureassociationbetweentermsacrossontologies.However,semanticassociationsbetweentermsinontologiesareoftenignored.Anditmakesagainstfindingassociationbetweenterms.Semanticassociationsofontologiesareusedtoextendtherelationshipsbetweentermandliterature.Theseextensionalrelationshipsareexploitedtoweightrelativescorebetweenterms.ThemethodwasusedtomineassociationbetweentermsacrossDOandGO.Theresultofexperimentshowsthatthemethodperformsverywell.Keywords:Theintegrationofdisease-relateddatabases,diseaseontology,diseaseterm,diseasefeature,diseasesimilarity,geneassociationnetwork,semanticassociation,associationbetweentermsacrossontologies-IV- 目录目录摘要..........................................................................................................................IABSTRACT...............................................................................................................III第1章绪论...........................................................................................................11.1课题背景和意义........................................................................................11.1.1研究背景....................................................................................................11.1.2研究的目的与意义....................................................................................21.2相关背景知识............................................................................................41.2.1本体............................................................................................................41.2.2语义相似度................................................................................................81.2.3疾病术语集................................................................................................91.2.4疾病数据库..............................................................................................121.3研究现状.................................................................................................151.3.1生物数据整合方法的研究现状..............................................................151.3.2生物数据挖掘方法的研究现状..............................................................191.4本文结构.................................................................................................26第2章基于疾病本体的疾病数据库整合.............................................................272.1引言........................................................................................................272.2疾病数据库集成方法的研究...................................................................282.2.1疾病术语集成方法的研究......................................................................312.2.2疾病数据库去冗余方法的研究..............................................................372.3疾病数据库整合结果与分析...................................................................372.3.1疾病数据库术语集成..............................................................................372.3.2疾病数据库集成......................................................................................402.3.3疾病特征关联挖掘..................................................................................422.3.4实验结果分析..........................................................................................442.4本章小结.................................................................................................47第3章基于基因关联网络的疾病相似度算法研究.............................................483.1引言........................................................................................................483.2疾病相似度算法的研究..........................................................................503.2.1疾病相关基因集的相似度......................................................................513.2.2疾病相似度算法相关的数据集..............................................................53-V- 哈尔滨工业大学工学博士学位论文3.3疾病相似度算法验证方法的研究............................................................553.4疾病相似度算法实验结果与分析............................................................563.5本章小结.................................................................................................59第4章集成语义与基因关联的疾病相似度算法研究.........................................604.1引言........................................................................................................604.2集成的疾病相似度算法的研究...............................................................614.2.1基于疾病本体的疾病术语相似度..........................................................624.2.2融合的疾病相似度..................................................................................644.2.3疾病相似度阈值定义..............................................................................644.2.4相似的疾病之间的药物关联..................................................................644.3集成的疾病相似度算法实验结果与分析.................................................664.3.1基于基准数据集的验证..........................................................................664.3.2疾病相似度与潜在的治疗药物关联......................................................684.3.3基于疾病相似度的疾病药物挖掘..........................................................744.4本章小结.................................................................................................77第5章基于文献的跨本体术语关联算法研究.....................................................795.1引言........................................................................................................795.2基于文献的跨本体术语关联算法的研究.................................................805.2.1基于语义关联扩展术语与文献的关系..................................................815.2.2术语关联算法..........................................................................................835.2.3术语关联推理..........................................................................................845.2.4术语关联算法相关数据集......................................................................855.3基于文献的术语关联算法验证方法的研究.............................................865.4实验结果分析.........................................................................................895.4.1基于相似的疾病对的验证......................................................................895.4.2基于富集的术语关联验证......................................................................905.4.3语义关联对ARSS方法的性能影响......................................................915.4.4基于文献分割的术语关联挖掘..............................................................925.5本章小结.................................................................................................93结论.......................................................................................................................95参考文献...................................................................................................................97攻读博士学位期间发表的论文及其它成果.........................................................108哈尔滨工业大学学位论文原创性声明及使用授权说明.....................................109致谢.....................................................................................................................110-VI- 目录个人简历.................................................................................................................111-VII- 哈尔滨工业大学工学博士学位论文ContentsAbstract(InChinese)........................................................................................ІAbstract(InEnglish)........................................................................................IІІChapter1Introduction..........................................................................................11.1Background,significanceofthesubject..........................................................11.1.1Background..............................................................................................11.1.2Objectiveandsignificance.......................................................................21.2Relatedknowledgeandbackground...............................................................41.2.1Ontology..................................................................................................41.2.2Semanticsimilarity................................................................................81.2.3Diseasevocabularies................................................................................91.2.4Disease-relateddatabases.......................................................................121.3Relatedstudiessurvey...................................................................................151.3.1Researchstatusoftheintegrationofbiologicaldata...............................151.3.2Researchstatusofapproachesforminingbiologicaldata......................191.4Mainresearchcontentsofthissubject..........................................................26Chapter2Theintegrationofdisease-relateddatabasesbasedonDO...............272.1Introduction..................................................................................................272.2Researchonintegratingdisease-relateddatabases…..................................282.2.1Researchonintegratingdiseaseterms…................................................312.2.2Researchonremovingredundancydata.......................................….......372.3Theresultsandanalysisofintegration..........................................................372.3.1Theintegrationofdiseaseterms………………………………….........372.3.2Theintegrationofdisease-relateddatabases...........……………….........402.3.3Miningassociationsamongdiseasesandfeatures………………............422.3.4Theanalysisoftheresultofexperiment.................……………….........442.4Summaryofthechapter................................................................................47Chapter3Amethodforcalculatingdiseasesimilaritybasedongeneassociationnetwork.................................................................................................................483.1Introduction..................................................................................................483.2Researchonmethodforcalculatingdiseasesimilarity.................................493.2.1Functionalsimilarityofdisease-relatedgenesets…....…………………513.2.2Datasetformethodofcalculatingdiseasesimilarity..………...............533.3Researchonevaluationmethodfordiseasesimilarityalgorithm...................553.4Experimentalresultsandanalysisofdiseasesimilarityalgorithm….............563.5Summaryofthechapter................................................................................59-VIII- ContentsChapter4Amethodforcalculatingdiseasesimilaritybyintegratingsemanticandgenefunctionalassociations………………………........................................604.1Introduction..................................................................................................604.2Researchonmethodforcalculatingintegrateddiseasesimilarity……........614.2.1SimilaritybetweendiseasetermsbasedonDO......................................624.2.2Integrateddiseasesimilarity........................….......................................644.2.3Definingthresholdfordiseasesimilarity.....….......................................644.2.4Associationsbetweentherapeuticdrugsofsimilardiseases....................644.3Experimentalresultsandanalysisofintegrateddiseasesimilaritymethod....664.3.1Validationbasedonbenchmarkset………...….......................................664.3.2Therelationshipbetweendiseasesimilarityandpotentialtherapeuticdrugs...........................…................................................................................684.3.3Miningtherapeuticdrugsfordiseasesbasedondiseasesimilarity….….744.4Summaryofthechapter................................................................................77Chapter5Researchonrelationshipsbetweentermsacrossontologiesbasedonliterature.…………………………………………………………………………....795.1Introduction..................................................................................................795.2Researchonalgorithmforrelatingtermsbasedonliterature….....................805.2.1Extendingrelationshipsbetweentermsandliteraturebasedonsemanticassociation..........................................................................…….....................815.2.2Algorithmforrelatingterms....................…….......................................835.2.3Inferringrelationshipbetweenterms…………………............................845.2.4Datasetusedtorelateterms…………..………………...........................855.3Researchonevaluationmethodforalgorithmofrelatingtermsbasedonliterature……………………………………………...………............................865.4Experimentalresultsandanalysis.................................................................895.4.1Validationbasedonsimilarpairsofdiseases.............…….....................895.4.2Validationbasedonenrichmentalterms…….............…….....................905.4.3TheimpactofsemanticassociationtoARSS..........................................915.4.4Predictingrelationshipbetweentermsbyliteraturepartitioning….........925.5Summaryofthechapter................................................................................93Conclusions...........................................................................................................95References.............................................................................................................97PaperspublishedintheperiodofPh.D.education...........................................108StatementofcopyrightandLetterofauthorization………………...…………109Acknowledgements.............................................................................................110Resume................................................................................................................111-IX- 第1章绪论第1章绪论1.1课题背景和意义1.1.1研究背景生命科学在二十一世纪得到了蓬勃发展,取得了丰硕的成果,为探讨人类疾病的发生、发展提供了新的思路和方法,极大地促进了临床诊断和治疗技术的发展。近年来,随着基因组、蛋白质组等分子生物学技术的不断创新和生物信息学在生命科学中的广泛应用,为生命科学研究带来了丰富的生物医学数据。与此同时,海量的生物医学数据也给全面的了解生物医学带来了严峻的挑战。在这种背景之下,整合并挖掘生物医学数据研究应运而生,并逐渐从概念转为热门的研究模式。生物医学是综合工程学、医学和生物学的理论和方法而发展起来的交叉边缘学科,基本任务是运用工程技术手段研究和解决生命科学,特别是医学中的有关问题,主要研究利用计算机技术结合医学临床关联疾病和疾病的影响因素。[1]通过文献可以了解到,近年来对生物医学的研究日趋增多。PubMed是一个免费的搜寻引擎,提供生物医学方面的论文搜寻。图1-1是1998-2012年期间每年发表的与疾病相关的论文数目。在过去的十五年内,PubMed每年收录的疾病相关的文章都在七万篇以上,且逐年递增。2013年收录的疾病相关的文章数目是1998年的两倍还要多,达到十八万篇以上。图1-1PubMed中研究疾病的文章数目Fig.1-1ThenumberofliteraturesfromPubMed生物医学研究获得了大量的生物医学数据,最初它们被记录在不同的文献中。随着文献数据的越来越多,一些文献中的数据被人工校验并存储到数据库-1- 哈尔滨工业大学工学博士学位论文[2]中。在线人类孟德尔遗传(OnlineMendelianInheritanceinMan-OMIM)数据库就是比较早期出现的关注疾病生物学特征的数据库。它主要着眼于可遗传的或遗传性的基因疾病,并持续更新关于人类基因和遗传紊乱的数据。到目前为止,已知分子机理的表型数目达到5,032个,跟疾病相关的基因共有3,068个。图1-2给出了OMIM自上线后每年的新增记录情况。由图可知,自1996年至2013年,每年都会增加500个以上疾病和遗传关联记录。除此之外,还有很多类似的数据库存在,它们分别记录着疾病的表型、疾病的治疗药物、疾病相关的环境等。图1-2OMIM中每年增加的记录数目Fig.1-2ThenumberofrecordsincreasedannuallyfromOMIM对疾病的研究并不孤立,研究人员倾向于建立疾病的关联,利用已有的数[3-7]据库中的疾病数据去发现未知的疾病关联。早期的研究侧重于从定性的角度建立疾病的关联。例如:利用疾病相关的基因特征来构建的人类疾病网络[8-10][11]、基于通路建立疾病的关联。随着定性的疾病关联数据日益丰富,基于定性的关联来定量的衡量疾病的相似程度颇受关联。例如:通过基因表达分析[12][13,14]复杂疾病相似度、利用表型计算遗传疾病的相似度、通过疾病本体[15][16,17](DiseaseOntology-DO)来衡量疾病相似度等。虽然疾病数据库中保存着大量的疾病数据,但是相对于生物医学文献来说,这些数据仍然存在不足。其原因在于疾病数据库中的数据来源于生物医学文献,却又不能全面的反应文献中的信息。因此,从生物医学文献中挖掘疾病数据,从而建立疾病之间的关联也是非常值得期待的研究领域。1.1.2研究的目的与意义面向疾病的研究困难重重。首先,由于面向疾病研究的成果存储在不同的数据库中,这些数据库之间是分布式存储且相互独立的,这些给全面的理解疾-2- 第1章绪论病带来了很大的障碍。因此,整合海量的疾病数据,以便于综合的理解疾病是未来生物医学领域的挑战之一。其次,计算疾病相似度的算法也需要进一步的改进,基于文献挖掘疾病之间的关联也破在眉睫。为了解决这些问题,本文提出了一种面向疾病的数据整合及挖掘研究。该研究主要包括:集成疾病术语及疾病数据库、设计更加完备的算法提高计算疾病之间的相似程度的精确、基于文献挖掘疾病本体和基因本体(GeneOntology[18]-GO)术语之间的关联等。研究的具体内容包括:疾病术语及疾病数据库集成研究;基于疾病本体的疾病全局视图以及疾病关联网络视图研究;疾病相似度算法研究;疾病相似度查询与分析可视化研究;基于文献的疾病本体与基因本体术语之间的关联挖掘研究。这些研究的意义在于:(1)提高了疾病数据库之间的交互性由于不同的疾病数据库采用的疾病术语不一致,给疾病数据库之间的交互带来了障碍,这非常不利于疾病相关研究。集成疾病数据库中不同的疾病术语集,形成统一的疾病术语集,可以从疾病术语层面集成疾病数据库,达到提高疾病数据库交互的目的。(2)加强了对疾病关联特征的全面的认识与疾病关联的特征包括:分子特征、表型特征、环境特征等。疾病的这些特征关联记录在不同的疾病数据库中,不利于全面的理解疾病。随着疾病关联特征的不断挖掘,研究人员已经不满足于只了解疾病的单一特征。只有将这些数据库整合成统一的疾病关联数据库,才能为研究人员提供全面的疾病关联数据,便于全面的理解疾病。(3)更加精确的衡量疾病之间的关联程度研究人员理解疾病之间的关联主要包括两个方面:一是定性的建立疾病与疾病的关联网络;二是定量的提供疾病对的相似度。早期,研究人员集中在用人类孟德尔遗传中的基因与疾病关联来构建疾病与疾病之间的关联网络。随着疾病数据的不断丰富,部分研究人员尝试用疾病关联基因的关联来定量的衡量疾病对相似度。随着疾病本体的不断成熟,研究人员开始尝试利用疾病本体来计算疾病对相似度。但是,在结合疾病相关的基因以及疾病本体来计算疾病对相似度的方法方面,还存在很大挑战。因此,结合这两个方面的疾病关联来计算疾病相似度,对于更加精确的衡量疾病之间的关联程度大有裨益。(4)基于疾病关联关系发现疾病关联的分子特性为疾病寻找治疗药物的研究由来已久。部分疾病的药物研究已然很丰富,但是同样存在一些疾病缺乏相关的药物知识。由于相似的疾病对之间存在相似的治疗药物,因此可以利用相似疾病的药物来为未知药物的疾病寻找潜在的治-3- 哈尔滨工业大学工学博士学位论文疗药物。疾病相似度算法为寻找相似的疾病提供了有力的依据,从而便于挖掘新的疾病药物关联。(5)挖掘疾病本体与基因本体术语的关联关系。当前的研究热衷于寻找疾病基因关联关系,以及基因与功能、生物学过程关联关系。很多研究以基因为桥梁建立疾病与功能、生物学过程的关联关系。尽管如此,大量的疾病与功能、生物学过程之间的关联关系隐藏在生物医学文献中,但是从文献中建立疾病关联的研究尚不成熟。因此,本文设计了一种从文献中获取疾病与功能、生物学过程关联的方法,期望能弥补这一研究领域的空缺。1.2相关背景知识1.2.1本体本体在不同的领域有不同的含义。从哲学的角度出发,本体处理现实中的本质和结构。亚里斯多德在它的形而上学论中提到本体,并将其定义为“存在”科学。本体关注事物的本质及结构,它从非常本质的角度来研究事物的属性。本体不像实验科学,它的目标不是从特定的角度发现并对现实进行建模。本体独立于任何更深层次的思考,且独立于他们的真是存在。例如,在描述“独角兽”和其它虚拟实体时,本体表现的非常完美。尽管这些虚拟的实体并不存在,但是可以通过通用的目录和关系来表述它们的本质和结构。在计算机科学领域,本体非常盛行。它被定义为一个特定的信息对象类型或人造的计算对象类型。由于对于人工智能系统,“存在”是可以被表示的。因此,在这种情况下,从存在的角度思考问题是切实可行的。计算机科学领域的本体是对一个系统的结构进行模型化的一种形式化的方式。例如,关注的事物中的相关联的实体和关系,以及其中对我们有用的部分。下面给出关于这种系统的一个具体例子:如何描述一个公司中所有的员工以及这些员工之间的关系。本体工程分析相关的实体并利用一元谓词或二元谓词将它们组织成可以被标识的概念和关系。本体的骨架是由一个通用的或专用的概念层次构成,例如:分类。假如我们对人力资源感兴趣,人、管理者、研究人员可以是相关的概念。显然,人是后两个概念的上层概念。可以将协作看成是人与人之间的关联关系。一个在公司工作的具体的人可以被看成是相关概念的实例。1993年,Gruber最初将本体的概念定义为“一个概念模型的明确的规范”[19][20]。1997年,Borst将本体定义为“一个共享的概念模型的形式化的规范”。-4- 第1章绪论这个定义增加了对概念模型的需求,即概念模型应该能表达多个部分的共享的概念。它强调的是一致性而不是独立的视角。同时,这个概念模型应该是机器可阅读的。到了1998年,Studer等人将以上定义进行合并,并将本体定义为[21]“一个本体是一个共享的概念模型的一个形式化的、明确的规范”。概念模型[22]Genesereth和Nilsson等人声明:“形式化的方式表示知识是基于概念模型的:对于一个感兴趣的领域,假设存在对象、概念、以及其它的实体,以及这些之间实体的关系。一个概念模型就是对我们想要描述的世界进行抽象、简化的表示。每个知识库、基于知识的系统、或者知识级的代理都致力于一些明确的或不明确的规范”。基于此,可以得到概念规范的数学表示:一个外延的关系结构。根据Genesereth等人的思想,一个外延的关系结构是一个二元组tuple(D,R)。在这里D表示包含论域的集合。R表示D中的关系。在人力资源管理系统中,D就是该系统中的所有人。R包含人、管理者、研究人员、协作关系等。基于Genesereth等人对概念规范的定义,Gruber对概念规范进行了扩展。概念规范是一个内含的关系结构,它是一个三元组triple(D,W,R)。其中,D表示包含论域的集合。W是可能的外部世界。R是在领域空间上的概念关系。形式化的、明确的规范明确的规范是以非形式化的或形式化的语言描述的。形式化表示的是机器能阅读的。假设L是一个一阶逻辑语言,它包含词汇V和一个外延关系结构S=(D,R)。一个外延的一阶结构是一个二元组M=(S,I),其中,I是其中的全部功能:VD∪R,它将词汇集V中的每个词汇符号映射到D中的元素或R中的关系。假设L是一个一阶逻辑语言,它包含词汇V和一个内涵的关系结构C=(D,W,R)。一个内涵的一阶结构是一个二元组K=(C,J),J是其中的全部功能:VD∪R,它将词汇集V中的每个词汇符号映射到D中的元素或R中的关系。假设C=(D,W,R)是一个概念规范。L是一个一阶逻辑语言,它包含词汇V以及一个内涵的一阶结构K=(C,J),如果对于所有的常量符号c∈V,都有I(c)=J(c);如果存在一个世界w∈W,其中所有的谓语符号v∈V,都存在一个内涵关系r∈R,J(v)=r且I(v)=r(w)。一个针对S=(D,R)的模型M=(S,I),被认为是期望的模型。本体的层次结构-5- 哈尔滨工业大学工学博士学位论文基于Studer等人对本体定义,可以理解为本体是通过明确的语言,以形式化的方式描述给定领域的概念以及概念之间的关联。概念之间的关联又称为概念层次或分类关系,它构成了本体的基本骨架。本体的概念层次结构形成了概念之间的有向无环图。以基因本体为例,图1-3给出了基因本体的层次结构,该本体由三个独立的有向无环图组成:分子功能(MolecularFunction-MF)、生物学过程(BiologicalProcess-BP)以及细胞构成(CellComponent-CC)。图中的节点表示描述基因产品功能的概念或术语。基因本体通过关联关系将其中的术语连接起来。最常用的关联关系类型有‘is_a’关系和‘part_of’关系[23]。其中,‘is_a’关系表示的是类与子类关系,‘part_of’关系表示的是部分与整体的关系。例如:发育被生物学过程集合包含,那么发育与生物学过程之间可以通过‘is_a’关系连接起来;细胞成分是细胞的组成部分,因此细胞成分与细胞之间可以通过‘part_of’关系连接起来。基因本体术语描述基因产品被称为基因本体术语注释基因产品。这种注释关系包含直接的或继承的,根据本体术语之间的集合包含关系,可知注释到一个给定的术语表示注释到该术语的所有祖先节点。图1-3基因本体的三个目录及部分节点图Fig.1-3IllustrationexampleoftheGOgraphshowingthethreecatagoriesandsomeoftheirnodes-6- 第1章绪论[18]随着基因本体的成功应用,更多的生物医学组织开始关注本体。由于[24]医学主题词(MedicalSubjectHeadings-MeSH)、医学系统命名法临床术[25]语(SystematizedNomenclatureofMedicineClinicalTerms-SNOMEDCT)等本体库由来已久,这也为生物医学本体的构建提供了参考。因此,在短短的几年时间里,产生了大量的生物医学本体,如:细胞类型本体(celltype-CT)[26]、疾病本体、小分子化合物本体(Chemicalentitiesofbiologicalinterest-[27][14]ChEBI)、人类表型本体(humanphenotypeontology-HPO)等。生物医学本体主要由三部分组成:1)概念。生物医学术语、术语的定义、以及术语的同义词组成一个概念。如在MeSH中,生物医学术语乳腺肿瘤,以及其同义词乳腺癌等组成一个概念。每个生物医学本体都包含多个概念。2)关系类型。概念与概念之间存在一定的关联关系,如:包含关系‘is_a’、部分与整体关系‘part_of’等。其中‘is_a’关系是最常用的生物医学本体概念关系。生物医学本体对这些关系类型进行了严格的定义。3)概念与概念之间的关联。生物医学本体在定义概念的同时,通过关系类型将多个概念关联到一起。如:乳腺肿瘤被肿瘤包含。大量的生物医学本体的构建,不仅提高了生物医学本体的规模,同时也拓宽了生物医学本体的应用领域。目前,比较成熟的本体应用主要集中在如下几个方面。1)生物医学本体应用于规范生物医学术语。在MeSH中,将乳腺肿瘤以及乳腺癌定义为同义词关系,且通过同一个概念来表示。另外,MeSH还记录着乳腺癌和肿瘤的关系。2)生物医学本体应用于生物医学数据库描述规范。3)生物医学本体应用于生物医学文献的检索。例如:利用MeSH术语标[28]注PubMed文献,通过MeSH术语之间的语义关联建立基于MeSH的语义查询。4)生物医学本体应用于生物医学文本抽取。5)使用生物医学本体注释生物医学数据库,从而发现生物医学数据之间更多的关联。目前,这些生物医学本体主要存储在三大机构:1)美国生物技术信息中心(NationalCenterforBiotechnologyInformation-NCBI)建立了一体化医学[29]语言系统(UnifiedMedicalLanguageSystem-UMLS),综合了100多个生物医学本体,构建了超级词汇表、专家词汇,以及语义网络,并提供了生物医学文本注释工具等。2)BarrySmith等人建立了OBOFoundry(OpenBiological[30]andBiomedicalOntologies),综合了60多个生物医学本体,提出了生物医学本体描述语言OBO,以及相应的本体构建工具等。3)由美国国立卫生研究院路线图支持的国家生物医学本体中心(NationalCenterforBiomedicalOntology-NCBO),NCBO中存储了300多个生物医学本体,提供了一系列的注释工具、Web服务工具、本体匹配工具等。-7- 哈尔滨工业大学工学博士学位论文随着生物医学的不断发展,对本体的需求会越来越高,面向生物医学本体的应用会越来越多,生物医学本体的发展将会面临新的挑战。1.2.2语义相似度近年来,本体在生物医学领域成为了一个备受关注的研究方向。当生物学实体采用一种通用的模式(本体)来描述时,这些实体之间可以通过其注释来比较。这种类型的比较称之为语义相似度。目前,比较本体概念相似度主要有两类方法:基于边的以及基于点的方法[31]。基于边的方法利用本体所提供的总的边以及边的类型计算术语相似度。基于点的方法利用点及点的属性衡量概念相似度。如图1-4所示,列出了这两类方法的所包含的具体实例,下面分别给出详细介绍。基于边的方法基于边的方法主要是计算在图中两个术语之间的路径数目。当概念之间存[32]在多条路径时,主要是通过‘距离’技术来衡量概念间的语义相似度。该技术利用最短路径或者所有路径的平均值来定义概念间的距离。除此之外,还有‘共同路径’技术,该技术是根据两个概念的最低共同祖先节点到根节点的[33]路径长度来计算语义相似度的。这些方法计算语义相似很直观,它们基于生物医学本体的两条假设。假设[34]一:所有的点和边的分布是一致的。假设二:在本体中同一层的边表示的语义距离是等价的。这两条假设在生物医学本体中往往不成立。因此,有几类方法尝试弱化这两条假设,如:基于层次深度对边设置权重,利用点的稠度和[35]连接类型设置边的权重。尽管如此,在同一层的术语没有相同的特异性,以及在同一层的边不表示相同的语义距离。因此,前面提到的假设问题在这里并没有得到解决。基于点的方法基于点的方法依赖于比较术语包含的属性,这些属性可以被关联到术语自身、术语的祖先节点以及术语的子孙节点。在这类方法中,常用术语所包含的信息熵来衡量术语间的语义相似度。信息熵给出了一种方法来衡量术语特异性以及提供信息的程度。一个概念c的信息熵可以被定义为概率的负对数,如公式1-1所示。ICc()log(())pc(1-1)该公式中pc()表示的是出现术语c的可能性,通常可以用术语注释的频率来衡[36]量。信息熵还可以利用本体中术语的子孙节点数目来衡量。两个本体术语的语义相似度,可以通过它们的共同祖先节点的信息熵来衡-8- 第1章绪论量。目前有两类常用的计算共同祖先节点的信息熵方法。方法一:信息量最大[37]的共同祖先节点,这种方法只考虑两个术语的信息量最大的共同祖先节点。方法二:不相交的共同祖先节点,这种方法中考虑两个术语的所有不相交的共[38]同祖先节点。基于信息熵的方法与基因边的方法相比,其对于可变的语义距离以及可变的点稠度问题敏感性很低。这是由于信息熵给出了术语特异性的衡量方法,而这种方法独立于术语在本体中的深度。因为对于感兴趣的科学领域相关的术语会更频繁的出现在注释中,信息熵受生物医学的研究趋势影响。尽管如此,从术语的角度来理解信息熵仍然是有意义的,因为两个基因产品更有可能共享一个通用的术语。其它的基于点的方法还包括查找共享的注释数目,具体而言,就是与两个[39]概念都相关的基因产品数目;基于本体结构计算共同的祖先节点数目;基[40]于点的深度和点的连接稠度等。图1-4比较概念相似度的主要方法类型Fig.1-4Maintypesofapproachesforcomparingconceptsimilarity1.2.3疾病术语集疾病术语词汇量大,缺乏统一的描述方式。目前记录疾病名称的医学术语集包括:人类孟德尔遗传疾病术语、医学主题词、医学系统命名法之临床术语、[41]美国国立癌症研究所术语(TheNationalCancerInstituteThesaurus-NCIT)、[42]合并的疾病术语集(MErgedDIseasevoCabulary-MEDIC)、疾病本体等。(1)人类孟德尔遗传疾病术语-9- 哈尔滨工业大学工学博士学位论文OMIM是人类遗传疾病及基因数据库。该数据库由若干个记录组成。每个记录以一种遗传疾病或一个基因为主题展开。此外,OMIM中还记录了遗传疾病与疾病之间的关联关系。(2)医学主题词医学主题词是一部庞大的可控词汇表,它是广泛应用于医学信息检索的一种目录工具。在生命科学领域旨在用于标引期刊文献和书籍。当19世纪美国医学索引创刊时,为了方便编撰和检索,创造了医学主题词这一概念。国家医学图书馆(NationalLibraryofMedicine-NLM)创建并负责更新MeSH。目前,医学文献分析和联机检索系统(MedicalLiteratureAnalysisandRetrievalSystemOnline-MEDLINE)以及NLM的图书馆藏目录都在采用MeSH。MeSH提供的医学术语树结构中包含了26000多个主要的医学概念,每个医学概念由一个医学主题词和多个同义词组成。MeSH将这些术语划分为16个部分。其中,以C和F03命名的部分描述了疾病术语。(3)医学系统命名法之临床术语SNOMEDCT是一部经过系统组织编排的,便于计算机处理的医学术语集,涵盖大多数方面的临床信息,如疾病、所见、操作、微生物、药物等。采用该术语集,可以协调在不同的学科、专业和照护地点之间实现对于临床数据的标引、存储、检索和聚合。同时,它还有助于组织病历内容,减少临床照护和科学研究工作中数据采集、编码及使用方式的变异。(4)美国国立癌症研究所术语NCIT是一部由美国国立癌症研究所编制的参考术语表和生物医学本体,作为一种公认的生物医学编码和参考标准,应用范围越来越广。NCIT的收词范围很广,包括与癌症相关的临床医护、转化研究、基础研究及公共信息和管理活动等。NCIT提供近10000种癌症相关疾病、8000种药物和联合治疗方案及其他有关癌症的生物医学研究主题的定义、同义词和其它信息。(5)合并的疾病术语集MEDIC是一个合并的疾病术语集。它合并了MeSH和OMIM中的疾病术语集。MeSH虽然给出了疾病的术语,并给出了这些疾病术语的目录分类,但是并没有记录全部的疾病。非常罕见的遗传疾病术语并不包含在MeSH中。OMIM给出了所有的遗传疾病术语,但是没有给出疾病术语的目录分类。MEDIC集成了MeSH和OMIM,它保留了MeSH的疾病分类结构,同时手动的将OMIM中的疾病术语归类到MeSH的疾病术语分类目录中。该术语集包含了更多的疾病词汇,同时用于疾病的分类结构信息。(6)疾病本体-10- 第1章绪论疾病本体是第一个围绕疾病名称构建的本体库,其目标是从病因以及疾病产生的解剖学位置的角度对疾病进行分类,并提供对每个疾病的明确的定义。该本体库中的概念表示疾病,概念与概念之间的‘is_a’关联表示疾病术语之间的包含关系。每个疾病概念包含一个疾病术语名称以及与该疾病术语有同义词关联的疾病术语。疾病本体将疾病统一分为遗传的、发育的、后天的人类疾病等八个疾病目录。此外,疾病本体还通过交叉引用语义整合了其它的疾病和医学术语集,如:MeSH、国际疾病伤害及死因分类标准(TheInternational[43]StatisticalClassificationofDiseasesandRelatedHealthProblems-ICD)、NCIT、SNOMEDCT以及OMIM等。该本体被广泛的应用于描述数据库的疾病术语,同时也被广泛的应用于计算疾病对的相似度等。疾病本体共有8043个疾病概念,7322个疾病间的‘is_a’关系。疾病本体可以通过‘is_a’关系表示为概念间的有向无环图。在有向无环图中,疾病术语表示节点,疾病术语之间的‘is_a’关系表示边。图1-5给出了有向无环图的子图,它从具体的疾病术语‘Cutaneouslupuserythematosus(DOID:0050169)’开始,到根节点疾病术语‘Disease(DOID:4)’结束。图1-5疾病本体术语‘CutaneouslupuserythematosusDOID:0050169’的有向无环图Fig.1-5Thesub-graphofDAGforDOterm‘CutaneouslupuserythematosusDOID:0050169’-11- 哈尔滨工业大学工学博士学位论文1.2.4疾病数据库近年来,生物医学数据库整合受到广泛关注。虽然面向疾病的分子、表型、环境特征(Disease-relatedmolecular,phenotypicandenvironmentalfeatures-DR-MPEs)数据库越来越丰富,但是缺乏一个包含所有疾病特征的疾病数据库。目前出现的面向疾病的DR-MPEs数据库有:基因与功能关联库(Gene[44]ReferenceIntoFunction-GeneRIF)、OMIM、遗传关联数据库(Genetic[45]AssociationDatabase-GAD)、选择性剪接与疾病数据库(SpliceDisease)[46][47]、比较毒物组数据库(ComparativeToxicogenomicsDatabase-CTD)、染色体重组与疾病关联数据库(DatabaseofChromosomalRearrangementsIn[48]Diseases-dbCRID)、癌症基因组关联与元分析数据库(CancerGenome-wide[49]AssociationandMetaAnalysesDatabase-CancerGAMAdb)、基因组关联研[50]究数据库(Genome-WideAssociationStudiesdatabase-GWASdb)、连锁不[51]平衡与疾病关联数据库(DistiLD)、国家人类基因组研究的基因组关联研究目录(NationalHumanGenomeResearchInstituteGenomeWideAssociationStudiesCatalog-NHGRIGWASCatalog)、microRNA与疾病关联数据库[52](miR2Disease)、人类microRNA疾病数据库(HumanMicroRNADisease[53]Database-HMDD)、通用的蛋白质资源知识库(UniversalProteinResource[54]Knowledgebase-UniprotKB)、人类代谢数据库(HumanMetabolomeDatabase[55]-HMDB)、布伦瑞克酶数据库(BRaunschweigENzymeDatabase-Brenda)[56]、人类疾病相关的病毒集成位点数据库(HumanDisease-RelatedViral[57]IntegrationSitesDatabase-DR.VIS)、人类表型本体、药物基因组学知识库[58](PharmcogenomicsKnowledgebase-PharmGKB)等。(1)基因与功能关联库GeneRIF描述了基因的功能注释,它由两部分信息组成。第一部分是对基因功能的精确描述,它不超过425个字符。第二部分是与第一部分描述相关的文献标识符。在对基因的功能描述符部分,包含着基因与疾病之间的关联信息。[59]该关联信息部分中疾病术语已经被标准化为疾病本体中的疾病术语。(2)在线人类孟德尔遗传数据库在线人类孟德尔遗传数据库是涵盖人类遗传病和基因座位等相关信息和文献的中心数据库。它不仅仅提供了大量的遗传疾病术语,更提供了遗传疾病与基因之间的关联关系。该数据库的数据内容采用文本形式存储,可以从美国国立生物技术信息中心的文件服务器下载。(3)遗传关联数据库遗传关联数据库记录着复杂疾病的人类遗传关联研究。它的数据来源于同-12- 第1章绪论行评审的文献。它是对人类基因组研究涉及到的候选基因信息的总结。它以基因为中心存储着基因与疾病之间以及环境与疾病之间的关联信息。(4)选择性剪切与疾病数据库选择性剪切与疾病数据库中的数据来源于实验,它记录着RNA选择性突变与疾病之间的关联。RNA选择性突变包括顺式作用突变,它通过扰乱剪切和反式作用引起疾病。该数据库的信息包括:基因标示符、突变位点、突变类型、基因组序列以及详细的选择性突变与疾病信息。(5)比较毒物组数据库很多慢性病是由环境因素与基因之间的相互作用导致的。很多复杂的疾病是由可逆的行为或可避免的暴露引起的。相当少的疾病是由单基因突变引起的。比较毒物组数据库集成了科学文献中的数据,来描述化合物与基因相互作用、疾病与化合物关联以及疾病与基因关联。(6)染色体重组与疾病关联数据库染色体重组与疾病关联数据库中的数据来源于1172个原始文献。它记录着实验测试的染色体重组事件、与该染色体重组事件相关的疾病或临床症状、关于染色体重组事件的详细信息、断点的精确位置、以及所涉及的基因关联信息等。(7)癌症基因组关联与元分析数据库癌症基因组关联与元分析数据库是一个持续更新的数据库。它用于跟踪在癌症基因关联研究中获得的成果,并提供有价值的生物信息学工具,用于癌症研究人员和临床医生快速获取最新的相关研究。(8)基因组关联研究数据库基因组关联研究数据库组合了基因组关联数据中的遗传突变与他们的综合的功能注释以及疾病分类,并提供了一站式的服务。GWASdb按照疾病本体和人类表型本体对遗传突变进行了分类。(9)连锁不平衡与疾病关联数据库连锁不平衡与疾病关联数据库为了增加现有的基因组关联研究的用法,组合了与疾病相关的遗传突变与染色体信息。它将疾病术语对应到国际疾病分类标准中。并标识与疾病关联的连锁不平衡性域,以及该区域包含的单核苷酸多态性以及基因。(10)国家人类基因组研究的基因组关联研究目录国家人类基因组研究的基因组关联研究目录是记录单核苷酸多态性与表型特征关联的数据库。该数据库的信息来源于基因组关联研究实验,其记录单-5核苷酸多态性与表型特征的关联数据p-value值小于1.0×10。-13- 哈尔滨工业大学工学博士学位论文(11)microRNA与疾病关联数据库miR2Disease是一个经过人工验证数据的数据库,它旨在提供一个关于多种人类疾病中的microRNA失调的综合资源,它包含从600余篇文献中搜集得到的299个microRNA和100余种疾病之间1939对已知关联关系。其中1/7的microRNA与疾病之间的关系显示了microRNA失调在人类疾病中的致病作用。miR2Disease中的每条microRNA与疾病关联记录都包含着microRNA的标识符、疾病名称、microRNA的表达水平、实验方法、实验证实的靶基因以及来源文献等信息。miR2Diease提供了基于microRNA标识符、疾病名称以及靶基因名称三个关键概念的检索方式。此外,miR2Disease还提供了允许研究者提交没有收录的microRNA与疾病关联关系,经确认后,这些关系将会被更新到数据库中。(12)人类microRNA疾病数据库HMDD是人类microRNA与疾病关联数据库。它记录着实验验证的microRNA与疾病之间的关联关系。(13)通用的蛋白质资源知识库UniprotKB是通用的蛋白质资源知识库,它包含着关于蛋白质的丰富的功能注释。其对蛋白质功能注释的文本中包含着丰富的疾病信息。研究人员利用[60]MeSH疾病部分术语注释UniproKB,建立了蛋白质与疾病之间的关联关系。(14)人类代谢数据库HMDB是人类代谢数据库,它存储详细的人类小分子代谢信息。其目的是应用于发现代谢产物、临床化合物、生物标记物。数据库包含三部分信息:化合物数据、临床数据、分子生物学数据。基于该数据库可以了解与疾病相关的代谢产物信息。(15)布伦瑞克酶数据库BRENDA是一个综合的关系数据库。它是一个公开的最大的酶信息数据库,其数据来源于科学文献。数据库记录的信息包括酶的功能、结构、位点、疾病关联等信息。(16)人类疾病相关的病毒集成位点数据库病毒绑定在恶性疾病的发展中起着重要的作用。病毒在绑定位点和序列上存在很大的差异。研究发现病毒绑定位点和致癌基因很接近。理解病毒集成位点的DNA特征对于识别潜在的致癌基因是非常有帮助的。DR.VIS就是这样一个数据库。它聚集着人类疾病相关的病毒绑定位点、疾病特征、染色体区域、基因组位点和病毒宿主连接序列。(17)人类表型本体-14- 第1章绪论人类表型本体以本体的形式存储结构化的人类临床表型与遗传疾病关联数据。HPO的目标是提供人类疾病领域中标准的表型异常信息。HPO中的术语描述了异常的表型,例如:房间隔缺损(atrialseptaldefect)。(18)药物基因组学知识库PharmGKB是一个综合的药物组学知识资源。它包含剂量指南、药物标签、潜在的临床基因药物关联、基因型表现关联等临床信息。综上所述,生物医学领域存在大量的疾病相关的表型、环境、分子层面的特征数据库。这些数据库物理上存储在不同的位置,且相互独立。由于这些数据库都是研究一两种疾病相关的分子、表型、环境特征与疾病之间的关联关系,因此只有分别浏览所有的疾病数据库,才能全局的了解疾病的相关特征。即便如此,由于不同的数据库在描述疾病名称时并没有使用统一的疾病术语集,因此,很难从全局的角度来理解疾病。1.3研究现状1.3.1生物数据整合方法的研究现状生物医学数据的指数级增长需要提高对生物医学知识的发现,有效的数据集成工具是解决这一问题的关键。根据2010年更新的生物信息学链接目录,目前有大约1500个公共可获取的链接,其中包括数据库和聚集、组织、可视化、集成和分析生物数据的网络服务。对于一个给定的任务,生物信息学领域的研究人员需要查阅大量的数据库和网络服务。尽管如此,集成多个异构的数据集和网络服务使得研究人员望而生畏。因为这需要他们精通计算网上的数据库、网络服务以及数据相关的算法。目前,有三种最常用的数据集成方法:链接集成方法、数据仓库方法、联邦的方法。在数据库和信息系统领域,本体使得可以从多个异构的数据源集成数据、将数据转换为通用的表示方式,并将知识传递到软件。语义异构被认为是数据集成领域最重要的挑战,因为它需要理解现实世界与数据之间的关系。本体为语义异构问题提供了一种解决方案。它为数据源中的术语提供了形式化的定义方式,同时它为不同的数据术语之间的关系提供了一种明确的含义。很多组织目前正在利用语义网技术加速数据集成。链接集成方法很多公共的数据库与网络互连,并提供了网页的访问方式。很多这样的数据库提供了能链接到其它数据库实体的超链接。在很多情况下,可以利用实体检索号(具体数据库的标识符)关联网页上的数据库记录。-15- 哈尔滨工业大学工学博士学位论文正常情况下,不同的数据源之间的实体存在明确的映射,因此这些实体之间存在链接。由于这个原因,数据库通常仅仅提供与最常用的数据源之间的链接。因为有超过1500个分子生物学数据库以及众多的物种,只能考虑链接其中最相关的数据库。通过导航的方式集成数据屏蔽了数据源的关系数据库模型,给用户提供了一系列页面。这些页面之间相互关联,形成了它们之间的关联关系。这种整合方式的一个最重要的问题是信息分为多阶段呈现,每个阶段的页面之前通过链接关联起来。通过网页将多个数据库关联起来是最常用的数据整合方式。尽管如此,这种整合方式并不是期望的数据库内部整合方式。基于链接的方式集成数据库在门户网站以及关键字索引系统中是最流行和有效的方法。这种系统的例子有很多,如:序列检索系统(SequenceRetrieval[61]System-SRS),Entrez以及Integr8等。Goble等人在2008年曾指出,40%的欧洲生物信息学院(TheEuropeanMolecularBiologyLaboratoryEuropean[62]BioinformaticsInstitute-EMBL-EBI)源于SRS查询。SRS最初的设计目的是用于访问生物学序列数据库。另外一个药物设计相关的重要的数据库[63]ChEMBL,它包含绑定、功能和大量化合物的ADMET信息。目前,NCBI[64]的Entrez系统提供了生物医学研究领域最重要的数据库。Entrez将不同数[65]据库间的实体关系映射出来。在药物设计领域,PubChem是NCBI提供的非常重要的化学信息学数据库。它被分为树数据库、物质数据库、化合物数据库[66]以及生物文献数据库。Integr8提供了对190个物种的基因组和蛋白组数据的访问方式。它提供了序列的通用信息以及文献源等,并实现了一些静态的分[67]析。DiseaseCard提供了一个基于网站的协作工具,其目的是通过链接的方式集成少数疾病相关的遗传学和生物医学信息。数据仓库方法与上述数据集成方式不同,数据仓库方法为具体的数据集成目的提供了一种特定的集成模型。数据仓库的目的是将很多特定类型的数据存储为一个更大的数据,并通过多个已有的技术为该数据库提供一个通用的模式(图1-5)。将不同的数据库集成为数据仓库的过程包括三个步骤:抽取、转换以及装载。抽取指的是使用一种封装的结构将不同数据源中的数据提取出来。转换指的是将抽取出来的数据转换为数据仓库定义的数据模型。装载指的是将数据载入到数据仓库中。数据仓库为研究人员提供了一种快速而有效的访问方式,而且该访问方式是安全的。而数据仓库的这些特点对于生物医学研究人员是很重要的。基于数据仓库提供的访问系统在本地很容易控制,因此,构建数据仓库需要一个非常-16- 第1章绪论好的策略。图1-6数据仓库方法Fig.1-6Datawarehouseapproach为不同的数据提供一个统一的存储面临一系列的问题。由于数据量太大通常会导致不利于管理。在维护数据仓库时,更新数据仓库就会带来很大的困难。此时问题就会凸显出来。例如,查询数据时,结果只会和最新的一次数据仓库更新相关。更有甚者,为所有的数据类型创建一个全局的模式是很复杂的。正常情况下,当仅反映全局模式中通用的数据元素时,会丢失一些单个数据源所能提供的丰富信息。相反,如果保持不同的数据源中的所有信息,就无法管理全局的数据模式。构建数据仓库虽然会面临很多问题,但是它仍然是数据集成的最常用的解决方案。判断数据仓库合理性的主要标准是数据的质量问题。如果保证了数据质量,那么选择数据仓库的方法集成数据库是非常有效的。数据仓库的例子有很多。集成的基因组数据库(IntegratedGenomic[68]Database-IGDB)存储了人类遗传、蛋白、结构和文献数据。适应性临床[69]试验数据库(AdaptableClinicalTrialDatabase–ACT/DB)利用实体属性值[70]的形式存储了癌症临床试验相关的数据。DataFoundry利用一个封装的仲裁[71][54][72][73]体系结构存储PDB、SWISS-PROT、SCop和dbEST的数据。基因[74]组信息管理系统(GenomeInformationManagementSystem-GIMS)是一个面向对象的数据库,它集成了基因组序列数据以及转录组合蛋白质相互作用的[75]功能数据。BIOMOLQUEST集成了PDB、SWISS-PROT等数据,并提供了一个搜索引擎。联邦的方法联邦的方法集成数据库保持原有数据源的独立性。原有的数据源可以是自治的,也可以分布式的存在在网络上。联邦维持一个公共的模型,分布式的数-17- 哈尔滨工业大学工学博士学位论文据源需要一个中间件将逐个数据源转换到公共的模型中。联邦将多个数据库的内容统一将展示给用户。这种类型的集成模式克服了数据仓库方法中的数据库更新问题。因为数据一直是存储在源数据库中,所以查询结果永远是最新的结[76]果。Biokleisli是将这种集成模式应用到生物数据的先驱。图1-7基于封装器的联邦模式Fig.1-7Federatedmodelwithwrapper联邦的数据库面临着过滤数据的难题。由于本体没有存储数据,因此,数据过滤只能暂时完成。该模型面临的另外一个问题是性能问题。由于访问联邦的数据库涉及到对每个数据源的访问,因此其性能受到每个数据源性能的约束。由于联邦的数据库使用一个通用的模型,因此在表示不同的数据类型时,它会面临和数据仓库同样的问题。当研究人员需要最新的信息,或者当研究人员必须继承大量的公有和私有的数据库时,数据库联邦是非常合适的。联邦的方法有三种实现途径:仲裁模式方法、联邦工作流方法以及多代理系统的方法。联邦数据库不可避免的问题是存储多样化和访问模式的单一性之间的矛盾。仲裁模式方法可以解决此类问题。联邦数据库可以通过关系模式或半结构的模式实现。早期采用仲裁模式的联邦数据库有斯坦福大学提供的多信息源管[77][78]理系统(TSIMMIS)和SIMS系统。通常情况下,仲裁模式将具体领域的实体及实体间的关系以图的形式展示。其中,点表示实体,边表示关系。仲裁模式在联邦数据库中起到了中间件的作用。在仲裁模式中,数据源参考仲裁模式而不是通用的模式定义实体。同样,查询也是基于仲裁模式而不是通用的模式(图1-6)。与单个数据库相比,它能为用户提供更强大的查询功能。另外,其优势在于仲裁模式可以针对具体的用户类型或具体的查询集。-18- 第1章绪论Web服务中经常使用工作流系统提供复杂的数据处理过程。这种系统对于模块重利用有很大的优势。它允许个人以很小的代价创建复杂的过程工作流。具有以下两种特征的情况被认为是使用工作流的方式集成的数据库:1)一系列与数据源相关的服务按通用的模式转换数据,这些服务类似于封装器。2)仲裁服务将用户的查询分割为单个服务,并将查询结果集成的展示给用户。近年来,多代理系统的方法备受关注。其优势在于能提供多样化的应用和系统。一个代理就是一个分布在当地的计算的系统,该代理能自动的获取其设[79]计目的。Woolridge定义了单个代理的需求:应变能力(适应环境的能力)、主动能力、社会能力(与其它代理的交互能力)。根据此定义,一个多代理系统集成了一组代理,这些代理彼此能协作交互工作。与单个代理相比,多代理的优势在于其可靠性、鲁棒性、模块化、并行性以及动态性等。1.3.2生物数据挖掘方法的研究现状1.3.2.1疾病相似度算法的研究现状疾病相似度指的是疾病与疾病之间的属性重叠程度。具体而言,就是疾病之间共同的病因、共同的表型等。在生物医学中,定性的衡量疾病与疾病之间的关联网络由来已久,但是关于定量的衡量疾病之间的相似程度方面的研究相对较弱。缺乏衡量疾病相似度的方法的原因之一是很长一段时间没有统一的疾病术语集。疾病本体的出现弥补了这一空缺。疾病本体围绕疾病概念构建。它规范了疾病概念的定义,同时它定义了疾病与疾病之间的集合包含关系。因此,今年来,围绕疾病本体计算疾病相似度的方法陆续出现。研究人员早期采用本体概念相似度计算策略来计算疾病相似度。基因本体是生物医学领域最常用的本体。常用于计算基因本体相似度的方法有如下三种:[37]Resnik提出的方法Resnik最早提出了基于信息熵计算本体概念的相似度,如公式1-2所示。Sim(,)ccICC()(1-2)Resnik12MICA该公式中c和c表示一对概念,c表示c和c的信息量最大的共同祖先节点。12MICA12[80]Lin提出的方法根据Lin的观点,概念对的相似度与概念对的共同部分成正比,与概念对之间的不同的部分成反比。概念对的共同部分和不同部分由信息熵来衡量。针对概念对c和c,因为选择一个通用的c和选择一个通用的c没有关联,所以1212事件xc与事件xc是相互独立的。c和c共同的信息量被定义为112212-19- 哈尔滨工业大学工学博士学位论文log()log()pcpc,由于本体是树状结构,如果xc和xc,那么x和x的12112212共同部分是xcxc,其中c是包含c和c的最具体的概念类。因12MICAMICAMICA12此,c和c的相似度可以定义为公式1-3:122log(pc)MICASim(,)cc(1-3)Lin12log()log()pcpc12Wang等人提出的方法Resnik和Lin的方法都是基于信息熵设计的。因此,它们的方法都依赖于[81]本体概念的注释。Wang等人完全从基因本体的结构出发,设计了基于本体结构的语义相似度算法。一个基因本体概念A可以被表示为DAGA(,ATEA,A)。其中DAGA表示A在基因本体中的有向无环图,T表示DAG中的所有节点,它包括节点A以及该AA节点的所有祖先节点,EA表示DAGA中的所有边。为了能够定量的比较两个概念的语义,Wang等人提出了一种对基因本体概念进行编码的方法:A的语义值被定义为DAG中所有的概念对A的聚集的贡献;其中,距离A越近的节点A对A的语义贡献越大;相反,距离A越远的节点对A的语义贡献越小。因此,基因本体概念t对于基因本体概念A的语义贡献被定义为公式1-4:SA()1A(1-4)St()max{w*St(')|'tchildrenoftift()A}AeA该公式中,we表示边eEA对于连接t和其子节点t'的语义贡献因子。在DAGA中,基因本体术语A是最具体的术语,因此其对自身的语义贡献值为1。DAGA中其它的术语更通用一些,其对于A的语义贡献更小一些,因此01we。在获取了DAG中所有术语的语义贡献值后,可以将A的语义值定义为公式1-5:ASVA()StA()(1-5)tTADAG中的边可以表示多种关系,如‘is_a’关系和‘part_of’关系,它们的语A义贡献因子可以分别定义为为0.8和0.6。假设基因本体术语A和B可以分别表示为DAGA(,ATEA,A)和DAG(,ATE,),那么这两个术语的语义相似度可以被定义为公式1-6:BBB(StAB()St())tTABTSGO(,)AB(1-6)SVA()SVB()-20- 第1章绪论该公式中,StA()表示基因本体术语t对于A的语义贡献值,StB()表示基因本体术语t对于B的语义贡献值。Resnik、Lin的方法是通用的本体语义相似度算法。它们的方法在基因本体中的应用已经非常成熟,近期这些方法开始应用于疾病相关的本体。其中,研究人员已经基于疾病本体实现了Resnik和Lin的方法,并提供了相应的软[82]件工具包,以方便计算疾病概念的相似度。尽管基因本体语义相似度存在多方面的评估标准,但是在疾病本体中并不存在统一的评估标准。Wang等人的方法最先设计用于计算基因本体术语的相似度,且显示出了良好的性能。因此,研究人员将该方法应用于计算疾病术语相似度,然后通过发现相似的疾病[83]去构建microRNA关联网络,有效的拓展了疾病相似度的应用方向。Resnik、Lin和Wang等人的方法都是基于疾病相关的本体结构来计算疾病的相似度。Mathur等人则提出了两类从疾病相关的基因出发计算疾病相似[17][16]度的方法:基于重叠的基因方法、基于过程相似度的方法。基于重叠的基因方法Mathur等人首先利用疾病本体注释了蛋白质数据库Swissprot,在疾病术语与基因之间建立了关联。然后比较疾病对之间的基因来计算疾病相似度,如公式1-7所示:nA(B)/(nAB)SimAB(,)(1-7)(()/nAN)*(()/nBN)该公式中,A和B表示两个疾病本体术语;nA()和nB()分别表示A和B相关的基因数目;N表示与疾病相关的所有基因数目。基于过程相似度的方法基于过程相似度的方法分为两步。首先将疾病关联到基因本体术语,利用疾病相关的基因以及基因本体相关的基因,并通过超几何分布找到富集到疾病术语的生物学过程术语;其次设计算法根据基因本体术语的相似度计算疾病的相似度,下面对该方法进行详细介绍。假设A和B是基因本体的两个概念,那么同时注释x和y的程度可以定义为公式1-8:nx()yscxy(,)(1-8)nx()y理论而言,同时注释具体的术语比同时注释抽象的术语有更高的语义相似度。为了克服该限制,将公式1-8乘以x和y信息熵的平均值,如公式1-9所示:simxy(,)scxy(,)*AvgICxICy((),())(1-9)-21- 哈尔滨工业大学工学博士学位论文其中ICx()是x的信息熵,它被定义为log2p,p表示注释术语x的基因数目在所有的基因中的概率。假设疾病A富集的生物学过程术语为集合TA,该集合包含有m个生物学过程术语TAi(1im);疾病B富集的生物学过程术语为集合TB,该集合包含有n个生物学过程术语T(1jn)。那么疾病A和B的相似度表示为公式1-10:BjmsimTT(Ai,B)nsimTT(Bj,A)11im1jnsimAB(,)(1-10)2mn疾病A和B相关的每个生物学过程术语都利用公式1-11进行标准化:nsimTT(Bj,A)ICGO()P1jnNF*(1-11)MaxIC()MaxIC()GODIS其中,P表示生物学过程术语,MaxIC()GO和MaxIC()DIS分别表示基因本体术语和疾病本体术语中最大的信息熵。尽管目前存在一些计算疾病相似度的方法,但是这些方法与疾病相似度的应用缺乏直接的关联。上述方法中,仅有Wang等人的方法被应用于发现microRNA功能关联网络。在研究中,除了microRNA功能关联网络与疾病相[84-87]似度有很大的关联外,相似的疾病之间很有可能拥有相同的治疗药物。本文的第二和第三章将围绕设计疾病相似度算法以及挖掘疾病的治疗药物展开。1.3.2.2基于文献的生物学术语关联基于生物医学文献发现相关联的术语包含两步:命名实体识别和实体关系抽取,命名实体识别有两种解决方案:基于字典和基于机器学习的方案。基于字典的方案通常从生物信息学数据库中采集实体的名称、同义词以及缩写,例如:UniProt、ChEBI等,并对字典进行编码,然后利用字符串匹配的策略从科学文献中抽取实体。随着标准的语义资源的不断进步,基于字典的方法与生物医学本体的兼容性更好。这种方法的优势在于他们不需要训练集,且可以用[88]于识别任意的科学文本中的名称实体。UMLS提供的MetaMap和NCBO提[89]供的Annotator是常用基于字典的名称实体识别工具。MetaMapMetaMap将生物医学文本概念映射到UMLS超级词汇表上,该程序是高度可配的。MetaMap的输出和内部的行为都可以通过选项进行控制。它注释文本通过四步完成:解析、产生变异、检索候选、候选评估。解析过程是将任-22- 第1章绪论意的文本解析为简单的名词短语,该过程依据UMLS提供的专家词汇。产生变异过程就是针对每个名称短语,找到其同义词、缩写及派生词。检索候选过程是面向超级词汇表检索与该名词、同义词以及派生词匹配的术语。候选评估是根据检索到的术语,以及该术语与其匹配的变异类型进行打分,根据分值大小对候选结果进行评估。AnnotatorAnnotator是由NCBO组织提供的Web服务。该服务封装了密西根大学的名称实体识别工具MGrep。详细的MGrep算法不是很清晰,它仅仅是以会议海报的形式发表的。Annotor将其算法解释为“基于基数树的数据结构实[90]现,能快速有效的将文本匹配到字典中”。在机器学习的方法中,注释术语前需要训练实体识别算法。命名实体识别通常被由一系列的贴标签任务组成,因为记号顺序在识别名称实体构件中起到了很重要的作用。在解决生物医学命名实体识别的问题中,已经引用了隐马尔科夫模型(HiddenMarkovModel-HMM)和最大熵马尔科夫模型(Maximum[91]EntropyMarkovModels-MEMM)。在给序列贴标签的问题上,在生物医[92-96]学领域最常用的是条件随机域模型(ConditionalRandomFields-CRF)。在利用实体的非独立文本特征时,最大熵马尔科夫模型的优势是不存在标签偏见问题。条件随机域模型组合了最大熵马尔科夫模型在此处的优势。另外一个[97,98]常用的学习技术是支持向量机(SupportVectorMachines-SVM)。支持向量机提供了一种对文本的分类方法,即基于名称实体的形态学特征和一系列文本的特征对名称实体目录进行标记。这些方法快速且高效。名称实体识别可以进一步的分为实体提及(entitymention-EM)和实体标准化(entitynormalization-EN)。实体提及方案的目的是发现提及基因或基因产品的文本。实体标准化方案的目的是将识别到的实体关联到生物信息学数据库中的实体。数据库信息可以用于消除实体的语义歧义并进行实体的同源性分析。实体关系抽取是基于已经关联的名称实体,建立实体之间的关联。目前建立实体关联的方法主要是基于共同出现的术语之间的比较。基于共同出现的方法不是一种计算密集型方法。基于该方法发现的关联缺乏有效的验证。基于该方法构建的系统能运行在很大的语料库上。与具体实体相关的全面的关联数据[99]能被用于定量的揭露实体间的关联关系。例如:Bio-LDA利用调控表达搜索术语对,从而推理共同出现的基因、药物、通路以及疾病。尽管文献中很多共同出现的实体并不存在真正的关联,我们可以利用共同发生方法捕获大量的真阳性数据。基于共同发生的方法捕获的术语关联可以作-23- 哈尔滨工业大学工学博士学位论文为一个基准集,因为它能给出最大的召回率。与此同时,由于该方法的灵活性,基于共同发生的方法可以用于快速的过滤与特定概念相关的文献。如果要发现更精确的数据,可以利用句法解析等方法,这类方法往往是计算密集型的方法。目前主要有三种常用的基于共同出现的方法:标准化的MEDLINE距离[100,101][102,103](NormalizedMEDLINEDistance)、互信息方法以及改进的互信[104]息方法。标准化的MEDLINE距离Jeremy等人设计该方法用于发现蛋白组学数据与疾病之间的关联。该方[105]法中涉及到的疾病术语来自医学主题词,蛋白术语来自于PeptideAtlas。Jeremy等人利用疾病术语和蛋白术语对生物医学文献进行名称实体识别。在识别到的文献与术语关联的基础上,利用标准化的MEDLINE距离来衡量术语对之间的关联程度。假设有一个疾病数据d,和一个蛋白术语p,那么d和p之间的距离定义为公式1-12:g(,)log(,)dpfdpmax(1-12)NMDdp(,)logMg(,)dpmin其中,M表示MEDLINE中所有的文献数目;fdp(,)表示同时描述了d和p的文献数目;gmax(,)dp和gmin(,)dp分别被定义为公式1-13和公式1-14:g(,)max{log(),log()}dpfdfp(1-13)maxg(,)min{log(),log()}dpfdfp(1-14)min其中fd()和fp()分表表示与d和p相关的文献数目。该方法基于标准化的google距离(NormailizedGoogleDistance-NGD)设计。由公式1-12可知两个概念的距离越大,其关联程度越小。互信息方法基于互信息理论,概念对A和B的关联程度可以定义为公式1-15:PAB(1-15)MIMAB(,)log()2PPAB其中,P表示A在文献中出现的概率,P表示B在文献中出现的概率,表示ABA和B同时出现在文献中的概率。由于具体的研究和发现是与时间相关的,因此先验信息可以用于优化公式1-15中的概率。例如:在具体疾病第一次出现之前,与其相关的描述出现的概率为零。因此,PA和PB的计算融入了其第一次在文献中出现的时间。公式1-16到公式1-18给出了具体的改进策略:-24- 第1章绪论TABPAB(1-16)AMaxAB(,)tffTAPA(1-17)AAtfTBPB(1-18)ABtf其中,T和T分别表示A和B被提及到的文献数目;T表示A和B共同被ABAB提及到的文献数目;A和B分表表示A和B被提及到之前的文献数目。ffMaxAB(,)表示A和B中的最大值。ffff科学文献中出现的关联与现实中的关联有一定的差异。如果现实中A和B两个事物互相独立,它们之间会存在交集,且它们之间的互信息为零。科学文献中如果同时记录了两个术语,那表明它们不独立。因此,将公式1-15修改为公式1-19:PAB(1-19)MIMAB(,)PPAB改进的互信息方法Blaise等人设计了改进的互信息方法计算术语之间的关联程度。该方法中涉及到的疾病术语来自Karolinska学院,基因术语来自人类基因命名组织。Blaise等人利用疾病术语、基因术语等对生物医学文献进行名称实体识别。在识别到的文献与术语关联的基础上,利用互信息理论设计改进的互信息方法计算术语之间的关联程度。假设有一个疾病数据A,和一个基因术语B,那么A和B之间的距离定义为公式1-20:''199*(RR)minR(1-20)''RRmaxmin'''''其中,R表示最大的R值,R表示最小的R值。R的定义如下:maxmin'RSlg()(1-21)其中,S被定义为公式1-22:PABS(1-22)PP*ABP表示与A相关的文献数目除以所有的文献数目,P表示与B相关的文献数AB目除以所有的文献数目,P表示同时出现A和B的文献数目除以所有的文献AB数目。-25- 哈尔滨工业大学工学博士学位论文1.4本文结构图1-8论文结构图Fig.1-8Formationofthethesis本文的研究以疾病为中心,围绕疾病数据库整合与疾病数据挖掘两大核心问题展开。图1-8列出了本文的结构、各章节的作用以及各章节之间的关联关系。第2章设计了基于疾病本体的疾病相关术语集的集成方法,整合了疾病相关的分子、表型、环境等特征数据库。该章节为后续章节提供了可靠的疾病基因关联数据,为疾病数据挖掘提供了坚实的基础。第3章设计了基于基因关联网络的疾病相似度算法,该算法有效的挖掘出了相似的疾病对。本章还提出了疾病相似度评估方案,对多种疾病相似度算法进行了比较。第4章设计了集成语义与基因关联的疾病相似度算法。本章是对上述章节疾病相似度算法的进一步提高,同时本章还将疾病相似度算法成功的应用于挖掘潜在的疾病治疗药物上,为发现疾病潜在的治疗药物提供了便捷有效的工具。第5章研究了基于文献的术语关联算法。该算法将本体中的术语关联应用于跨本体术语关联挖掘,对已有的基于文献的术语关联挖掘算法进行了改进,挖掘出了更多、更有意义的与疾病相关的基因本体术语。-26- 第2章基于疾病本体的疾病数据库整合第2章基于疾病本体的疾病数据库整合2.1引言知识是指人类在实践中认识客观世界的成果,疾病知识就是人类对疾病的认识程度。随着生物学的研究不断深入,生物医学也在飞速的发展,产生了海量的疾病知识。这些疾病知识包括编码基因的突变引起的疾病,如:TWIST1基因突变会引起Saethre-Chotzen综合征(PMID:16251895);疾病的表型信息,如:1型辛普森畸形综合征的表型包括2-3手指并指畸形(PMID:6538755),海-韦综合征的表型有2-3脚趾畸形(PMID:19676059);非编码基因对疾病产生的协调关系,如:hsa-let-7a-2基因对乳腺癌有下调的作用(PMID:17028596)。除此之外,还有环境对疾病的影响,酶与疾病之间的关联等。疾病知识由众多的研究者探索,并发布在大量的生物医学文献中。研究人员从文献中人工的寻找出了大量的生物学知识,构建成种类繁多的疾病数据库,以利于对疾病知识的检索及更深层次的研究。如:OMIM记录了遗传基因与疾病之间的关联信息;HMDD记录了microRNA与疾病之间的关联;NHGRIGWASCatalog记录了GWAS知识;HPO记录了表型之间的关联,以及疾病的表型信息;CTD记录了影响疾病的环境因素等。目前,疾病数据库中最常用的疾病术语集包括疾病本体、医学主题词、OMIM以及自定义的疾病术语集。其中,医学主题词是对医学术语的统一描述,它将生物医学词汇分为16个目录,其中目录C和F03描述了疾病名称,该术语集被众多疾病数据库采纳,如:GAD、HMDD等。OMIM记录了疾病的遗传因素,同时也描述了大量的遗传疾病名称,该术语集常用于疾病数据库中对疾病术语的描述,如:HMDB、HPO等。近年来,疾病本体首次提出从疾病名称的角度来构建本体,并很快被不同的疾病数据库应用,如:miR2Disease、dbCRID等。疾病数据库很大程度上解决了疾病数据查询、浏览不方便的问题,但是由于单个的疾病数据库关注的是疾病相关的某一种特征,这不利于全局的理解疾病。如:OMIM数据库记录了疾病与基因之间的关联,但是在该数据库中并没有记录环境对疾病的影响;GAD描述了疾病相关的遗传因素,但如果想同时了解疾病的治疗药物,从而比较不同的疾病之间的药物关联性和遗传相关性,仅仅依靠GAD就无法实现。从单个类型的疾病特征来理解疾病显然是片面的,而这恰恰是目前数据库普遍存在的问题。-27- 哈尔滨工业大学工学博士学位论文通过查询不同的数据库从不同的角度来理解疾病,是解决目前单个数据库无法提供全面的疾病关联的唯一途径。但是由于众多疾病数据库对疾病名称的描述不一致,会给这种查询方式带来很大的不便以及降低了查询的准确性。目前,存在很多的疾病术语集试图规范疾病的名称,但是缺乏一个统一的疾病名称描述标准。不同的疾病数据库所采用的疾病术语集之间存在着对疾病名称描述的差异,不利于从不同的数据库检索出同一种疾病的所有知识。除此之外,存在多个数据库描述疾病的同一种特征,如:OMIM和GAD中都记录了疾病和基因之间的关联,这些数据库之间存在重复的记录,同时也存在不同的记录。如果对这些数据库分别进行查询,比较其中的记录,了解全面的疾病基因,这也是一个非常繁琐的任务。针对疾病数据库存在的问题,本章提出了基于疾病本体的疾病数据库整合策略,建立了更加全面的疾病数据库SIDD(语义集成的疾病数据库)。首先,规范疾病数据库中的疾病名称,然后,比较数据库中共同的疾病特征,去除不同数据库冗余的记录,最后,将这些信息整合起来,形成一个统一的疾病数据库。在规范疾病数据库的过程中,我们以疾病本体为核心,将MeSH、OMIM等疾病术语集中的疾病术语映射到疾病本体中,并扩充疾病本体中的疾病术语,以弥补疾病术语不全面的问题。在比较数据库中共同的疾病特征时,我们首先规范疾病特征的标识符,然后比较这些标识符。基于统一的疾病术语,我们将多个疾病数据库整合起来,并比较其中的共同特征,去除冗余的记录,构建了集成的疾病数据库。在此基础上,我们提供了基于疾病本体的疾病术语映射查询、全局疾病视图、疾病关联网络等。本章其它部分的内容包括:2.2节给出了基于疾病本体的疾病数据库整合流程,并介绍了两阶段疾病术语集成方法以及去除数据库中冗余记录的方法;2.3节介绍了系统的总体设计,并对疾病数据库整合的结果进行了总结与分析讨论;2.4节对本章进行小结。2.2疾病数据库集成方法的研究集成疾病数据库面临两个挑战,一是疾病数据库中对疾病名称的描述不一致;二是疾病数据库中存在相同的记录,在集成时需要去除冗余。针对这些挑战,本章基于疾病本体对疾病数据库进行了整合。图2-1所示给出了本章对于疾病数据库整合的流程。Step1.聚集众多的疾病数据源,从单个的疾病数据源中抽取出相应的疾病数据。如,从OMIM数据库中提取疾病与基因之间的关联信息;从GAD中提取疾病相关的遗传因素以及引起疾病的环境因素;从miR2Disseasse数据库中提-28- 第2章基于疾病本体的疾病数据库整合取microRNA与疾病之间的关联信息。图2-1基于疾病本体的疾病数据库整合流程Fig.2-1WorkflowofintegratingdiseasedatabasesbasedonDiseaseOntologyStep2.集成疾病数据库中的疾病术语。目前,疾病数据库常用的术语包括:疾病本体、医学主题词、OMIM以及具体疾病数据库的疾病术语。其中OMIM只记录了遗传疾病;医学主题词并不是针对疾病名称构建;疾病本体是唯一一个从疾病名称的角度来定义的本体;具体疾病数据库采用的疾病术语应用范围仅限于该数据库。因此,在这些疾病术语集中,疾病本体更适合于疾病数据库的集成。另外,考虑到疾病本体并不包含所有的疾病,所以我们将医学主题词、OMIM以及具体疾病数据库的疾病术语集成到疾病本体上。集成包含两个阶段,第一个阶段是寻找同义词,从医学主题词、OMIM以及具体的疾病术语集中找到疾病本体词汇集中疾病词汇的同义词。第二个阶段是扩充疾病本体。根据医学主题词等疾病术语集中的疾病术语之间的层次关系,以及已建立的疾病术语关联,将在疾病本体中没有同义词的疾病术语关联到疾病本体上,对疾病本体进行扩充,从而增强疾病本体的描述能力,以便于集成更多的疾病数据。Step3.疾病数据库之间存在相同的疾病特征记录。在集成疾病数据库时,-29- 哈尔滨工业大学工学博士学位论文对于这些相同的特征记录,需要去除冗余。首先,将疾病数据库中的特征映射表2-1疾病相关的数据库Table2-1.Disease-relateddatabase数据库名称数据库目网址疾病术语录GeneRIF基因与疾http://www.ncbi.nlm.nih.gov/gene/abo疾病本体病ut-generifOMIM基因与疾http://www.omim.org/OMIM病GAD基因与疾http://geneticassociationdb.nih.gov/医学主题词病SpliceDisea基因与疾http://202.38.126.151:8080/SDisease/医学主题词se病CTD基因与疾http://ctdbase.org/医学主题词病dbCRID遗传突变http://dbcrid.biolead.org/index.php疾病本体与疾病Cancer遗传突变http://www.hugenavigator.net/Cancer具体疾病数GAMAdb与疾病GEMKB/home.do据库的疾病术语GWASdb遗传突变http://jjwanglab.org:8080/gwasdb/具体疾病数与疾病据库的疾病术语DistiLD遗传突变http://distild.jensenlab.org/具体疾病数与疾病据库的疾病术语NHGRI遗传突变http://www.genome.gov/gwastudies/具体疾病数GWAS与疾病据库的疾病Catalog术语miR2DiseasMicroRNAhttp://www.mir2disease.org/疾病本体e与疾病HMDDMicroRNAhttp://202.38.126.151/hmdd/mirna/md医学主题词与疾病/UniProtKB蛋白质与http://www.uniprot.org/医学主题词疾病HMDB代谢与疾http://www.hmdb.ca/OMIM病BRENDA酶与疾病http://www.brenda-enzymes.org/具体疾病数据库的疾病术语DR.VIS病毒与疾http://www.scbit.org/dbmi/drvis具体疾病数病据库的疾病术语GAD环境与疾http://geneticassociationdb.nih.gov/医学主题词病CTD环境与疾http://ctdbase.org/医学主题词病HPO表型与疾http://www.human-phenotype-ontologOMIM病y.org/PharmGKB药物与疾http://www.pharmgkb.org/index.jsp医学主题词病-30- 第2章基于疾病本体的疾病数据库整合首先,进行标识符转换,然后,逐一的比较疾病数据库中的特征,合并其中相同的数据。表2-1列出了疾病相关的数据库。表的第一列是疾病数据库名称,该列共包含18个疾病数据库。表的第二列给出了疾病数据库的目录,描述了疾病数据库记录的疾病相关的特征类型,如:OMIM的目录为基因与疾病,表明OMIM记录了疾病及相关的基因特征关联。表的第三列是疾病数据库的网址。表的第四列疾病提供了疾病数据库所使用的疾病术语集名称,如:miR2Disease使用了疾病本体作为其疾病术语集。由表2-1可知,18个疾病数据库共使用了四种类型的疾病术语集:OMIM、医学主题词、具体疾病数据库的病术语、疾病本体。集成这些数据库的第一步就是要集成这些不同类型的疾病术语集。其中具体疾病数据库中的疾病术语来源于医学文献,因为这些数据库中的疾病知识来源于文献。由于文献之间彼此独立,且文献中的疾病术语并没有指定是参考具体的疾病术语集给出,因此这些疾病术语存在大量的随意性。OMIM是描述遗传疾病的数据库,因此其中的疾病术语都是和遗传疾病相关,非遗传疾病或没有寻找到相关联基因的遗传疾病很少记录在该数据库中。医学主题词是描述医学术语的本体库。其中只有少量的术语记录着疾病名称。疾病本体是围绕疾病名称定义的本体,但是存在一些疾病名称并没有记录在疾病本体中。因此,从这些疾病术语集的特征出发考虑,我们认为利用疾病本体的术语及疾病本体术语之间的关联整合其它的疾病术语集,从而对疾病本体进行扩充,有利于有效的集成疾病数据库中不同种类的疾病术语集。2.2.1疾病术语集成方法的研究本节针对疾病术语集集成问题设计了两阶段疾病术语集成策略。首先针对疾病术语集的特征,建立了疾病本体与其它三种类型的疾病术语集之间的同义词映射关联,将疾病本体和其它的疾病术语集关联起来。其次,在疾病术语集之间同义词关联的基础上,利用疾病术语集的层次结构,建立了疾病术语集之间的推理关联,对疾病本体的术语进行了有效的扩充,增强了疾病本体的表示能力,集成了不同类型的疾病术语集。两阶段疾病术语集成的详细过程描述如下。Step1.寻找疾病本体术语的同义词,建立疾病术语之间的同义词映射。OMIM、医学主题词以及具体疾病数据库中的疾病术语中有部分与疾病本体中的疾病术语是同义词,如:疾病本体和医学主题词中都有疾病术语“皮肤红斑狼疮”。基于疾病术语集的特征,设计算法寻找疾病术语集之间的同义词映射。-31- 哈尔滨工业大学工学博士学位论文该部分的目的是寻找出疾病本体中所有疾病术语在其它疾病术语集中的的同义词术语,建立疾病本体与其它三个疾病术语集之间的同义词关联。Step2.建立疾病术语之间的推理映射,扩充疾病本体。尽管疾病本体是从疾病名称的角度来构建本体的,但是并非所有的疾病术语都包含在疾病本体中。医学主题词、OMIM中存在一些没有包含在疾病本体中的疾病术语,如:疾病本体中没有定义“盘状红斑狼疮”,但是在医学主题词中有该疾病术语。基于疾病术语的层次结构,将疾病本体中没有的疾病术语映射到疾病本体,建立这些疾病术语与疾病本体中的疾病术语之间的推理关联,对疾病本体进行扩充,有利于增强疾病本体的知识表示性能。图2-2给出了疾病术语的映射过程。对于具体疾病数据库的疾病术语,仅比较其在疾病本体中是否有同义词。对于医学主题词和OMIM中的疾病术语,在比较完同义词后,还要基于同义词扩充疾病本体的疾病术语。图2-2疾病术语映射过程图Fig.2-2Procedureofmappingdiseaseterms2.2.1.1疾病术语集之间的同义词映射疾病本体与OMIM、医学主题词以及具体疾病数据库的疾病术语集之间记录着大量词义相同的疾病词汇。如:疾病本体中的疾病术语‘Neurodegenerativedisease(DOID:1289)’和医学主题词中的疾病术语‘Neurodegenerativediseases(D019636)’;疾病术语集中的‘type1aALPS(DOID:6874)’和OMIM中的疾病术语‘ALPStypeIA(OMIM:601859)’;疾病本体中的疾病术语‘breastcancer(DOID:1612)’和BRENDA中的疾病术语‘breastcancer’等。由于不同的疾病术语集在定义疾病的名称时并没有采取统一的标准,因此-32- 第2章基于疾病本体的疾病数据库整合在表示同义的疾病术语时,采取的策略不完全相同。部分同义词在不同的疾病术语集中表示完全一致,但是还存在一些同义的疾病术语表示不完全一致。为算法2-1建立疾病术语集之间的同义词映射输入:四种疾病术语集:OMIM、医学主题词、具体疾病数据库的疾病术语、疾病本体输出:疾病本体术语与OMIM、医学主题词、具体疾病数据库的疾病术语之间的同义词映射(1)读入疾病本体中的疾病术语,将术语中多余的空格去除,存入到do_term_list.(2)读入OMIM、医学主题词、具体疾病数据库的疾病术语集中的疾病术语,将术语中多余的空格去除,存入到dis_term_list.(3)定义疾病同义词do_term_syn_list.(4)FORdo_termindo_term_list:(5)FORdis_termindis_term_list:(6)IFdo_termequalsdis_term:(7)Addmappingbetweendo_termanddis_termtodo_term_syn_list.(8)EL:(9)定义do_term不同形式的同义词,包括do_term,等价的词及不同形式的单复数的小写到variation_list中.(10)FORvariationinvariation_list:(11)IFvariationequalsdis_term:(12)Addmappingbetweendo_termanddis_termtodo_term_syn_list.(13)EL:(14)BOOLEANRESULT=Compare(vatiation,dis_term)#利用波特词干算法比较vatiation的词干与dis_term的词干.(15)IFRESULT==TRUE:(16)Addmappingbetweendo_termanddis_termtodo_term_syn_list.(17)输出do_term_syn_list.-33- 哈尔滨工业大学工学博士学位论文了集成疾病术语的不同类型的同义词表示方式,我们将同义疾病不同的表示方式分为六类,具体如下:(1)大小写问题。在描述同一个疾病时,不同的疾病术语集描述疾病名称可能使用大写也可能使用小写字母,如:疾病本体中的疾病术语‘diabetesmellitus(DOID:9351)’和医学主题词中的疾病术语‘DiabetesMellitus(D003920)’描述的是同一种病。(2)等价的词。存在一些英文意义等价的词汇,如:‘juvenile’和‘childhood’,‘kidney’和‘renal’,‘fast’和‘rapid’等。同时存在一些不同的数字格式,如:疾病本体中的疾病术语‘type1aALPS(DOID:6874)’和OMIM的疾病术语‘ALPStypeIA(OMIM:601859)’描述的是同一种疾病。(3)单复数问题。如:疾病本体中的疾病术语‘Neurodegenerativedisease(DOID:1289)’和医学主题词中的疾病术语‘Neurodegenerativediseases(D019636)’描述的是同一个疾病。(4)词干问题。如:‘Alzheimer’’和‘Alzheimer’s’’的有共同的词根[1]‘alzheimer’。利用波特词干算法可以找出共同词根的疾病名称。(5)空格问题。如:BRENDA中与酶‘EC3.6.3.44’相关的疾病术语‘breastcancer’和疾病本体中的疾病术语‘breastcancer(DOID:1612)’指代的是同一种病。(6)词序问题。如:疾病本体中的疾病术语‘type1diabetesmellitus(DOID:9744)’和医学主题词中的疾病术语‘DiabetesMellitus,Type1’表示的是同一种病。基于疾病术语集的以上特征,设计算法2-1,寻找疾病本体在其它疾病术语集中的同义词。2.2.1.2疾病术语集之间的推理映射虽然疾病本体是围绕疾病概念构建的疾病术语集,但是疾病本体并不包含所有的疾病术语。OMIM、医学主题词中存在一些疾病本体未定义的疾病术语。为了将这些疾病本体未定义的疾病术语映射到疾病本体,从而扩充疾病本体,增强疾病本体的表示性能,在此设计算法,建立疾病术语集之间的推理映射。医学主题词是描述医学术语的本体,其医学术语之间通过‘is_a’关系链接,形成了术语之间的层次结构。医学主题词由16个目录组成,其中C和F03是关于疾病名称的目录。如图2-3所示,图的左侧给出了医学主题词中的疾病术语之间的层次结构。图中,圆圈表示疾病,箭头表示疾病间的‘is_a’关系,例如:疾病‘HypobetalipoproteinemiaFamilial,ApolipoproteinB(D052476)’‘is_a’疾病‘Hypobetalipoproteinemias(D006995)’,其中‘Hypobetalipoproteinemia-34- 第2章基于疾病本体的疾病数据库整合Familial,ApolipoproteinB(D052476)’是‘Hypobetalipoproteinemias(D006995)’的子节点,‘Hypobetalipoproteinemias(D006995)’是‘HypobetalipoproteinemiaFamilial,ApolipoproteinB(D052476)’的父节点。疾病本体是围绕疾病名称构建的本体,其结构与医学主题词类似。图2-3从医学主题词到疾病本体的映射实例Fig.2-3AnexampleofMFIfromMeSHtoDO为了将疾病本体中没有的疾病术语扩充到疾病本体中,需要在这些疾病术语与疾病本体中的疾病树之间建立‘is_a’关联。医学主题词中没有被疾病本体定义的疾病术语,在医学主题词中其祖先节点有可能已经通过同义词映射的方式映射到疾病本体中了。由于医学主题词和疾病本体都使用了‘is_a’关系定义疾病术语之间的关联,因此,针对医学主题词中没有被疾病本体定义的疾病术语,我们将通过其祖先节点连接到疾病本体上。换句话说,如果医学主题词中的某一个疾病术语没有在疾病本体中定义,而其祖先节点和疾病本体中的概念是同义词映射关系,我们将医学主题词中从该节点到祖先节点的路径及疾病术语节点加入到疾病本体中,建立本体术语之间的推理映射,从而扩充疾病本体,增强疾病本体的知识表示能力。OMIM是遗传疾病的术语集,但是并没有给出遗传疾病之间的层次关系。研究人员将OMIM中的疾病术语通过‘is_a’关系连接到医学主题词中,建立了疾病术语集MEDIC。因此,可以通过同样的方式将OMIM中的疾病术语推理映射到疾病本体中。基于MEDIC和医学主题词的疾病层次特征,设计算法2-2,寻找疾病本体在其它疾病术语集中的推理映射。如图2-3所示,疾病术语‘HypobetalipoproteinemiaFamilial,ApolipoproteinB(D052476)’没有被疾病本体定义,但是在医学主题词中有定义。该疾病在医学主题词中的祖先节点包括-35- 哈尔滨工业大学工学博士学位论文‘Hypobetalipoproteinemias(D006995)’和‘Hypolipoproteinemias(D007009)’。其中,‘Hypobetalipoproteinemias(D006995)’和‘hypobetalipoproteinemia算法2-2建立疾病术语集之间的推理映射输入:三种疾病术语集:MEDIC、医学主题词、疾病本体输出:疾病本体术语与OMIM、医学主题词之间的推理映射1读入疾病本体中的疾病术语,将术语存入到do_term_list.2读入MEDIC、医学主题词的疾病术语,将术语存入到dis_term_list.3读入MEDIC、医学主题词的疾病术语关联关系,将术语与根节点的关联路径存入到dis_term_path_list.4读入OMIM、医学主题词、疾病本体中同义的疾病术语,将术语存入到do_term_syn_list.5定义疾病推理关联do_term_infer_list.6FORdis_termindis_term_list:7FORdo_termindo_term_list:8IFcontains(do_term_syn_list,do_term,dis_term):#如果do_term和dis_term已经存在同义词关联9break.10EL:11FORdis_term_pathindis_term_path_list:12dis_term_pathdis_term_anc_list#将dis_term_path中的疾病dis_term的祖先节点按关系由近到远的顺序存储到dis_term_anc_list中。13FORdis_term_ancindis_term_anc_list:14IFcontains(do_term_syn_list,do_term,dis_term_anc):#如果do_term和dis_term_anc存在同义词关联15Addmappingbetweendo_termanddis_termtodo_term_infer_list.16break;17输出do_term_infer_list.(DOID:1390)’通过同义词映射建立了关联,‘Hypolipoproteinemias(D007009)’和‘Hypolipoproteinemias(DOID:1387)’通过同义词映射建立了关联。由于‘Hypobetalipoproteinemias(D006995)’与‘Hypobetalipoproteinemias(D006995)’-36- 第2章基于疾病本体的疾病数据库整合在同一条疾病路径中,且前者更靠近‘HypobetalipoproteinemiaFamilial,ApolipoproteinB(D052476)’,因此,我们将‘HypobetalipoproteinemiaFamilial,ApolipoproteinB(D052476)’映射到‘hypobetalipoproteinemia(DOID:1390)’。2.2.2疾病数据库去冗余方法的研究根据2.2节提供的方法,可以集成18个疾病数据库中的疾病术语集。基于此,18个疾病数据库疾病名称不一致的问题就解决了。集成这些数据库,还有一个问题需要解决,即数据库间存在重复的记录。如:基因IFNG与疾病‘breastcancer(DOID:1612)’有关联,该知识分别记录在GeneRIF,GAD以及CTD中。但是,在GeneRIF数据库中,基因‘IFNG’使用的是NCBI提供的基因标识符‘3458’;GAD和CTD数据库中,基因‘IFNG’使用的是人类基因统一命名协会命名的标识符‘5438’。因此,需要统一疾病数据库中疾病特征的标识符。目前,存在很多组织使用不同的标准命名同一种疾病特征的标识符,同时也存在这些标识符之间的转换标准。因此,对疾病数据库按特征进行分类,将每种特征的标识符转换为对该疾病特征最常用的标识符,实现不同数据库间对同一种疾病特征的可比较性,最终合并相同的记录,去除冗余数据。2.3疾病数据库整合结果与分析本章前面的部分介绍了疾病数据库的现状以及集成方法。我们首先通过同义词映射和推理映射的方法集成了疾病数据库中的疾病术语,然后将疾病数据库中的疾病特征标识符映射到常用的特征标识符,从而比较去除冗余。本节将对疾病术语集成的结果,以及数据库集成的结果进行分析。2.3.1疾病数据库术语集成疾病数据库使用了四种类型的疾病术语集:OMIM、医学主题词、具体疾病数据库的疾病术语、疾病本体。基于这四种疾病术语集的特征,将前三种疾病术语通过同义词映射的方式关联到疾病本体上。在此基础上,基于本体的继承关系,将疾病本体中没有定义的疾病术语推理映射到疾病本体上。如果同义词映射准确,对于推理映射的结果,主要依赖于医学主题词以及MEDIC的疾病层次划分。考虑到这些疾病术语集的疾病层次是由医学专家划分,且都是常用的医学本体,我们认为其中的疾病层次划分是正确的。对于同义词映射部分,映射算法是基于疾病术语集的特征来设计的,由于疾病术语众多,且特征之间也存在不兼容性,因此我们需要人工的检查结果,以确保映射的正确性,从而-37- 哈尔滨工业大学工学博士学位论文准确的集成疾病的数据库。基于同义词映射算法,我们发现了8203个疾病名称映射到疾病本体中。为了确保同义词映射的准确性,我们设计了如图2-4的检查策略。首先,将8203个疾病术语等分为四个部分,每个部分包含2051个疾病映射。然后,安排四个医学硕士对四个疾病术语部分进行检查,每个人检查其中的两个部分,且每个部分由两个人检查。按照这样的检查策略,每个疾病映射对均由两个人检查。在检查的过程中,如果认为同义词映射的结果是正确的,在映射结果后面标‘1’,如果认为映射结果不正确的,在映射结果后面标‘0’。经过对8203个同义词疾病结果进行检查,共有7939个疾病对被同时被两个人标为‘1’,163个疾病对被标为1个‘1’和1个‘0’,101个疾病对被同时被两个人标为‘0’。为了确保同义词映射的准确性,我们只保留7939个被两个人同时标为‘1’的疾病对,去除了剩下的264个疾病对。图2-4手动检查过程Fig.2-4Theprocessofmanualchecking疾病映射结果如表2-2所示。表的第一列是疾病术语集的名称,表的第二列列出了通过同义词映射关联到疾病本体中的疾病术语数目,表的第三列列出了通过推理映射关联到疾病本体中的疾病术语数目。医学主题词、OMIM、具体疾病数据库的疾病术语分别有2937、2046、2956个疾病通过同义词映射的方式映射到疾病本体中。基于同义词映射,医学主题词和OMIM中还分别有1347和2140个疾病通过推理映射关联到疾病本体上。-38- 第2章基于疾病本体的疾病数据库整合表2-2映射到疾病本体上的疾病术语数目Table2-2.ThenumberofdiseasetermsmappedtoDO疾病术语集同义词映射推理映射医学主题词29371347OMIM20462140具体疾病数据库的疾病术语29560总数79393487表2-3SIDD数据库统计Table2-3.StatisticsofSIDDdatabase知识库名特征类源数据SIDD的记录数源数据库SIDD中疾SIDD中称型库的记目(百分比)中疾病与病与特征的特征录数目特征的关的关系数数目系数目目GeneRIF基因5229249924(95.5%)522922650465314OMIM基因72935693(78.1%)7993407523918GAD基因127596115102(90.2%)22530594063611295SpliceDise基因23752264(95.3%)275014159318aseCTD基因1945718557(95.4%)243971209306517dbCRID遗传突31232366(75.8%)2384179852365变Cancer遗传突98939761(88.6%)9779567231211GAMAdb变GWASdb遗传突16518961781(37.4%)6679540203247809变DistiLD遗传突7884076647(97.2%)315314103646770912变NHGRI遗传突82053791(46.2%)4005250833108GWAS变CatalogmiR2DiseamicroR21832183(100.0%)218315969406seNAHMDDmicroR71116956(97.8%)979250133516NAUniprotKB蛋白29342919(99.5%)3881215641955HMDB代谢12681099(86.7%)12167268500Brenda酶106287103068(97.0%)1314116450491269DR.VIS病毒566566(100.0%)632345311GAD环境44963843(85.5%)807532210714CTD环境7530268160(90.5%)813793831227370HPO表型5508746257(84.0%)861803682205803PharmGKB药物43753132(71.6%)359918330283总计全部733872584069(79.6%)10369944465131139365通过疾病映射不仅将医学主题词、OMIM、具体疾病数据库的疾病术语集-39- 哈尔滨工业大学工学博士学位论文成到疾病本体上,还扩充了疾病本体。在没有进行推理映射前,疾病本体中共有8632个疾病,7322个疾病术语之间的关联。通过疾病术语整合,增加了2214个新的疾病术语,以及5029个新的关联。这很好的丰富了疾病本体,同时增强了疾病本体的知识表示能力。另外,医学主题词中共有4668个疾病在C和F03目录下,通过同义词映射只能发现其中的63.0%在疾病本体中有相关联的疾病术语。增加推理映射后,可以将其中91.8%的疾病术语关联到疾病本体。OMIM中共有5084个疾病术语,通过同义词映射只能发现其中的40.2%在疾病本体中有相关联的疾病术语。增加推理映射后,可以将其中82.3%的疾病术语关联到疾病本体。此外,基于推理映射,疾病本体得到了扩展,由原先的8620个疾病术语扩展到了10813个疾病术语,增强了疾病本体的知识表示能力。由此可见,推理映射对集成疾病术语集起到了非常重要的作用。2.3.2疾病数据库集成通过疾病术语映射以及去除疾病数据库冗余记录,我们将18个疾病数据库整合到集成的疾病数据库SIDD。整合后的结果如表2-3所示。第一列是疾病数据源,SIDD共集成了18个不同的疾病数据库。第二列是疾病特征的分类,如:GeneRIF记录了疾病与疾病特征之间的关联。18个疾病数据库至少包含一种疾病特征,其中只有GAD和CTD分别包含两种类型的疾病特征。第三列和第四列分别表示源数据库的记录数目和SIDD中的记录数目,其中GeneRIF源数据库中有52292条记录,有49924(95.5%)条记录集成到SIDD中。第五列和第六列分别表示源数据库中疾病与特征的关系数目和SIDD中疾病与特征的关系数目,其中GeneRIF数据库中共有52292条疾病记录,在SIDD数据库中共有265046条疾病记录。SIDD数据库中的疾病名称已经映射到疾病本体中的疾病术语。疾病本体中的疾病术语之间通过‘is_a’关系连接。根据‘is_a’关系的特征,子节点的实例可以被认为是父节点的实例。在疾病本体及数据库中,子疾病的特征也可以被认为是父疾病的特征。基于此,SIDD推理出更多的疾病与特征关联。第七列是疾病特征数目,如:SIDD集成了GeneRIF中5314个疾病相关的基因特征。整合后,18个数据库中79.6%的数据都集成到SIDD中了,这为统一查询、浏览疾病数据建立了基础。另外,经过整合相同的特征疾病关联,共有235893条疾病特征关联被合并。SIDD共集成了5916个疾病,其中只有少部分与单核苷酸多态性、microRNA、选择性剪切、药物等特征相关,很大部分与基因、蛋白、酶相关。图2-5a给出了每个数据库被整合的疾病数目。其中横坐标表示疾病数据库名称,-40- 第2章基于疾病本体的疾病数据库整合纵坐标表示该疾病库中的疾病数目。例如:图2-5a中的第二个方块表示图2-5SIDD集成的疾病和数据库的分布(a)每个数据库中的疾病数目(b)SIDD中疾病的分布Fig.2-5DistributionofdiseasesanddatabasesintegratedinSIDD(a)Thenumberofdiseasesineachdatabase(b)DistributionofdiseasesintegratedinSIDDCTD中包含3070个疾病。图2-5b给出了5916个疾病在不同的数据库中出现的次数。其中横坐标表示数据库的数目,纵坐标表示出现在一定数目的数据库中的疾病数目。例如:图中第一栅表示的是有839(14.2%)个疾病只出现在-41- 哈尔滨工业大学工学博士学位论文18个数据库中的一个数据库中,第二栅表示的是有729(12.3%)个疾病只出现在18个数据库中的二个数据库中。由图可知,有3015(51.0%)个疾病出现在18个数据库中的五个以上的知识库中。这表明疾病常和多种不同的特征关联,集成多个疾病数据库有利于全面的了解疾病相关的特征。图2-6SIDD与GeneRIF疾病特征数目Fig.2-6Thenumberofdiseasefeatures同单个的疾病数据库相比,SIDD不仅仅包含更多的疾病,还记录了更多的疾病特征。图2-6给出了SIDD与GAD包含的疾病特征的比较结果。其中,横坐标表示的是不同的疾病,纵坐标表示的是疾病的特征数目。图2-6按照疾病数目从多到少列出GAD和SIDD中所有的疾病。由图可知,SIDD中单个疾病包含的疾病特征最多能有几十万个,相比较而言,GAD中单个疾病相关的疾病特征最多只能有几千个,且其包含的疾病数目要远少于SIDD数据库。因此,通过SIDD给出了疾病更丰富的特征。2.3.3疾病特征关联挖掘SIDD集成了18个疾病数据库,这些数据库描述了疾病不同层面的相关特征。如图2-5所示,在SIDD集成的5916个疾病中,有5077(86.8%)个疾病至少出现在其中的两个数据库中。换句话说,SIDD中的疾病大多有多种不同的疾病特征。因此,SIDD能帮助研究人员从不同的角度理解疾病。同时,不同的疾病特征也能通过它们共同的相关的疾病联系起来。因此,通过共同的疾病相关的特征,可以挖掘疾病与疾病之间的关联,同样,基于特征共同相关的疾病,可以挖掘特征与特征之间的关联。挖掘疾病之间的关联-42- 第2章基于疾病本体的疾病数据库整合SIDD中的数据从多个不同的角度描述了疾病之间的关联。在此,我们使用[106]Cytoscape软件创建了一个疾病关联网络。该网络描述了五种疾病特征(基因、蛋白、microRNA、表型、药物)和三种常见的疾病(overiancancer,neuroblatoma,multiplemyeloma)之间的关联。如图2-7所示,大的四方形表示的是疾病,小的圆环按颜色差异表示不同类型的疾病特征,方形和圆环之间的连线表示疾病与特征之间存在关联。图中间的小圆环包含10个基因(CXCL12,MMP2,BCL2,MYC,BIRC5,CCND1,CDKN2A,IGF1,SKP2,KIT)和7个microRNA(hsa-mir-17,hsa-mir-18a,hsa-mir-19a,hsa-mir-19b-1,hsa-mir-20a,hsa-mir-335,hsa-mir-92a-1),它们和三种疾病都有关联。通过该网络,我们可以更加直观的理解三种疾病之间的关联关系。基于SIDD,可以挖掘很多类型的疾病关联网络。图2-7‘ovariancancer’、‘ovariancancer’和‘ovariancancer’的相互作用网络Fig.2-7Interactionnetworkdemonstratingtherelationshipsamongovariancancer,neuroblastomaandmultiplemyeloma挖掘特征之间的关联第一个特征关联例子挖掘的是microRNA靶基因,如图2-8a所示。图中的虚线表示的挖掘的关联,实现表示的是SIDD中记录的关联。该图显示在SIDD中microRNA‘has-miR-27a’和基因‘PHB’以及‘SPRY2’都和疾病‘hepatocellularcarcinoma(DOID:684)’关联,在文献中有记载,这些基因是[107,108]microRNA‘hsa-miR-27a-3p’的靶基因。另外一个特征关联例子挖掘的-43- 哈尔滨工业大学工学博士学位论文药物的靶点,如图2-8b所示。该图显示在SIDD中药物‘bevacizumab’和基因‘VEGF’都和疾病‘ovariancancer(DOID:2394)’关联,在文献中有记载,该[109]基因是药物‘bevacizumab’的治疗靶点。种种迹象表明,通过SIDD能挖掘更多的疾病特征之间的关联。图2-8挖掘特征之间的关联(a)挖掘microRNA与基因之间的关联(b)挖掘基因与药物之间的关联Fig.2-8Miningassociationbetweenfeatures(a)MiningassociationbetweenmicroRNAandgene(b)Miningassociationbetweengeneanddrug总之,SIDD是一个综合的疾病数据库。它集成了多个疾病相关的数据库。它将在生命科学研究中起到重要的作用,并帮助生物学家从不同的角度来理解疾病。2.3.4实验结果分析全面的系统设计如图2-9所示。系统自下向上,通过三个步骤集成疾病与分子、表型、环境等特征之间的关联。首先,我们将18个疾病相关数据库集中到本地,并抽取其中的疾病与分子、表型、环境等特征关联记录。其次,我们将18个数据库描述的疾病名称映射到疾病本体上,从而便于数据库的集成。再次,我们对疾病相关的分子、表型、环境等特征进行分类,并去除其中的冗余记录,形成集成的疾病数据库,并保存在MySQL数据库中。为了便于访问集成的疾病数据库,系统采用JSP和Servlet技术实现。该系统的网络接口提供了三个方面的功能:1)在疾病本体中搜索疾病术语,并以树的形式展示疾病本体;2)提供全局的浏览疾病相关的分子、表型、环境等特征功能,并为数据提供下载功能;3)基于疾病相关的分子、表型、环境等特征构建疾病关联网络,并以图形形式展示在网页中。集成的数据库可以通过网络访问,网址为:http://mlg.hit.edu.cn/SIDD.基于整合的疾病术语集,我们集成了疾病相关的特征数据库,并建立了集成的疾病数据库SIDD。为了进一步的体现该数据库的价值,我们提供了基于SIDD的系统以全局的形式展示疾病相关的分子、表型、环境等特征。系统提供-44- 第2章基于疾病本体的疾病数据库整合的功能包括查询疾病术语集之间的映射、提交新的疾病术语关联信息、全局浏览疾病数据、疾病网络可视化等。其中,系统最主要的功能包含两个部分:全局的疾病浏览以及疾病关联网络可视化。图2-9集成的疾病数据库系统结构Fig.2-9SystemoverviewofSIDDdatabase全局的疾病浏览SIDD实现了一个搜索引擎,为用户提供了两种搜索疾病术语方式。第一种方式是基于完全匹配的方式,用户可以检索疾病的名称或疾病在疾病本体中的标识符。第二种方式是基于字符串的模糊匹配方式,在该方式下,当系统接收到疾病名称时,SIDD将返回与该疾病名称最相似的疾病术语集。字符串的模糊匹配是通过Apache提供的Lucene工具包实现的。用户查询到感兴趣的疾病后,就可以通过网页浏览疾病相关的分子、表型、环境等特征。为了方便用户在本地机器浏览,系统为用户提供了方便的数据下载方式。-45- 哈尔滨工业大学工学博士学位论文图2-10系统搜索和浏览工作流程Fig.2-10SchematicworkflowofSIDD’ssearchingandbrowsing.如图2-10所示,全局的疾病浏览步骤如下。(1)疾病浏览页面。该页面以疾病本体树的形式列出疾病术语,并为每个疾病术语提供两个超链接:疾病标识符链接以及疾病关联记录链接。(2)搜索引擎页面。在该页面可以提交疾病标识符或疾病名称,从而获取感兴趣的疾病术语。(3)搜索结果页面。该页面列出检索出的疾病术语,并对每个疾病术语提供三个超链接:疾病标识符链接、疾病关联记录链接以及在本体树中浏览疾病术语链接。(4)疾病术语浏览页面。该页面不仅列出了疾病术语的名称、定义等,还给出了疾病的父子节点。(5)疾病相关的分子、表型、环境等特征页面。(6)从源数据库中抽取出来的详细的信息。点击数据源列中具体的数据源名称,即可浏览该行中疾病关联在源数据库中的具体信息。-46- 第2章基于疾病本体的疾病数据库整合疾病关联网络可视化疾病关联网络由疾病与疾病之间共同相关的分子、表型、环境等特征组成。其可视化过程如图2-11所示。首先输入两个或三个疾病术语,系统检索出与之最相似的疾病术语,并显示在网页上。用户在其中选择关注的疾病术语,并选择感兴趣的数据库类型或源数据库名称提交到系统,系统根据用户的提交信息[110]产生疾病关联网络并展示在网页上。网络可视化部分借助Cytoscape网页插件实现。图2-11系统网络可视化工作流程Fig.2-11SchematicworkflowofSIDD’snetworkvisualization.2.4本章小结本章研究了基于疾病本体的疾病术语整合方法,并集成了18个疾病相关的数据库。疾病术语整合方法由两部分组成:基于疾病术语特征的同义词映射、基于疾病术语关联的推理映射。通过该方法整合了18个疾病数据库相关的疾病术语集:疾病本体、医学主题词、OMIM等。其中,医学主题词中有91.8%(4264/4684)的疾病术语被集成到疾病本体中。OMIM中有82.3%(4186/5084)的疾病术语被集成到疾病本体中。通过推理映射,疾病本体中的疾病术语增加了25.4%(2193/8620)。在集成疾病术语的同时,很好的增强了疾病本体的知识表示能力。通过去除18疾病数据库的冗余信息,合并共同的疾病特征关联信息,建立了集成的疾病数据库SIDD。该数据库整合了九种类型的疾病特征:基因、遗传突变、microRNA、蛋白、酶、代谢、病毒、表型、药物、环境等。SIDD包含5916个疾病,139365个特征,以及它们之间的4465131种关联。该数据库的建立有利于构建疾病之间的关联网路,以及寻找疾病特征之间的关联。-47- 哈尔滨工业大学工学博士学位论文第3章基于基因关联网络的疾病相似度算法研究3.1引言[107]近年来,相似度的研究在生物医学领域颇受关注,如:基因序列相似度、[31][1]生物本体术语的相似度、药物相似度等。相似度指的是定量的衡量事物的相似性,事物间的相似性由它们之间共同的属性决定。一个具体的事物,总是有许许多多的性质与关系,我们把一个事物的性质与关系都叫做该事物的属性。事物的形状、颜色、气味、美丑、善恶、优劣、用途等都是事物的性质。包含、被包含、整体、部分、大于、小于、压迫、反抗、朋友、热爱、同盟、矛盾、等都是事物的关系。而任何属性都是属于某种对象的。比较事物的相似度就是定量的衡量事物间的共同属性。疾病相似度是对疾病与疾病相似性的量化过程。疾病相似性是疾病与疾病之间的共同属性。疾病的属性包括:疾病与疾病之间的共同关系、疾病与疾病之间共同的关联因素。疾病与疾病之间的共同关系包括:疾病与疾病之间的包含关系,如:‘乳腺癌’包含‘男性乳腺癌’和‘女性乳腺癌’。‘乳腺癌’与‘男性乳腺癌’及‘女性乳腺癌’的关系是包含与被包含的关系。‘男性乳腺癌’与‘女性乳腺癌’通过‘乳腺癌’关联起来。疾病与疾病之间共同的关联因素包括:共同的致病基因、共同的治疗药物、共同的代谢产物等。基因‘NOS3’和‘AGTR2’是疾病‘乳腺癌’和‘糖尿病’的共同的致病基因;药物‘caffeine’和‘cisplatin’都是疾病‘乳腺癌’和‘卵巢癌’的治疗药物;代谢产物‘D-Glucose’和‘3-Methylhistidine’都是疾病‘类型2糖尿病’和‘阿尔茨海默氏病’共同相关的代谢产物。基于疾病对之间的相似性建立疾病关联网络的方法有很多。疾病关联网络研究初期是基于单个类型的疾病分子特征构建。如:Kwang等人基于疾病对之[10]间共同的基因设计的人类疾病网络算法。随着研究的不断深入,基于分子间的相互作用构建人类疾病网络显示出其优势。Zhang等人将蛋白质相互作用信[111]息组合到算法中,对人类疾病网络进行了扩展。最近,研究人员已经开始尝[11]试通过通路发现关联的疾病对,从而构建人类疾病网络。尽管定性的衡量疾病对之间的关联研究日趋成熟,但是仍然缺乏定量的计算疾病对相似度的算法。其主要原因有两个:缺乏标准的疾病术语集、缺乏疾病相似度算法衡量标准。尽管目前已经存在大量的疾病相关的术语集,如:医学主题词、国际疾病分类等,但是这些疾病术语集都不是围绕疾病本身构建。-48- 第3章基于基因关联网络的疾病相似度算法研究医学主题词包含物种、解剖学等众多生物学主题。国际疾病分类围绕人类的死亡原因构建。随着疾病本体的提出,疾病术语集的问题得到了很好的解决,因为疾病本体是第一个以疾病为中心构建的本体。为了能很好的衡量疾病相似度算法,本文构建了一个基准集,为疾病相似度算法制定了一个衡量标准。计算疾病相似度的方法通常可以从两个角度考虑:基于本体计算疾病术语语义相似度、基于疾病相关的基因计算疾病相似度。疾病术语语义相似度指的是疾病术语之间的语义距离,而这种语义距离可以根据本体中的疾病术语关联计算得到。生物医学领域经常利用本体计算术语的语义相似度,如:基因本体、人类表型本体等。尽管如此,这些方法中很少一部分被用于计算疾病相似度。Resnik设计的方法是其中最常见的方法,该方法被应用于基因本体计算基因功能、细胞构成、生物学过程术语的相似度,和其它多种方法(union-intersection、[112][113]longestsharedpath、JC)相比,具有明显的优势。Resnik的方法利用本体中的‘is_a’关系计算术语相似度,该方法计算疾病对之间的相似度依赖于疾病对信息量最大的共同祖先节点。Lin的方法改进了Resnik的方法中对信息熵的比较方法,从理论的角度对Resnik的方法进行了提高。Resnik和Lin的方法最近被研究人员写入R包,以方便计算疾病的相似度。Wang等人提出的方法对Resnik的方法进行了提高。它在计算疾病对相似度时,不仅考虑了疾病对的信息量最大的共同祖先节点,还考虑了疾病对其它的共同祖先节点。该方法的优越性在基因本体中得到了很好的体现,而且被用于计算医学主题词中的疾病术语语义相似度。疾病的关联不仅仅体现在疾病相关的本体上,而且体现在共同的致病基因上。因此,研究人员同样关注如何基于疾病的致病基因计算疾病的相似度。目前存在两种基于基因计算疾病相似度的方法。第一种方法是基于共同的疾病基因(basedonoverlappinggeneset-BOG)的方法。该方法比较疾病之间共同相关的基因数目,获取疾病相似度。与基于语义的角度计算相似度相比,它从一个全新的角度发现相似的疾病对。因此,该方法能发现新的未知疾病关联。尽管如此,该方法在计算疾病相似度时,没有考虑疾病基因之间的关联,而显然这种关联对疾病相似度有着影响。第二种方法基于过程相似性(processsimilaritybased-PSB)计算基因相似度从而获得疾病相似度。其中,基因相似度指的是通过基因的属性关联所得到的基因之间的相似程度,过程指的是致病基因相关的基因本体的生物学过程术语。该方法考虑了疾病基因的关联,因此对BOG方法有了很大的提高。PSB与Resnik、Lin、LC和JC的方法相比,也体现了良好的性能。基因间的关联包含很多方面,如:基因共表达、蛋白质相互作用、基因本体术语等。尽管如此,PSB方法仅利用了基因本体术语中的生-49- 哈尔滨工业大学工学博士学位论文物学过程部分,如果考虑更多的基因关联方式,很有可能提高计算疾病相似度的性能。因此,本章提出了一种全新的方法(FunSim),该方法将更多的基因关联方式融入到计算疾病相似度。本章其它部分的内容包括:3.2节给出了疾病相似度算法的流程,并分步骤详细介绍FunSim算法。3.3节给出了对算法的验证过程;3.4节对实验结果进行总结与分析讨论;3.5节对本章进行小结。3.2疾病相似度算法的研究图3-1FunSim方法流程Fig.3-1ProcedureofSemFunSimFunSim方法从全面的基因关联出发设计疾病相似度算法。在3.1节中我们已经介绍了全面的基因关联对计算疾病相似度具有显著的意义。图3-1给出了FunSim方法的流程。图中,人类基因关联网络指的是一个全面的人类基因关联。基因的关联类型有很多种:基因序列相似、蛋白质相互作用、通路关联等。基[114]于基因的关联构建的基因关联网络有很多,如HumanNet。疾病相关的基因集包含致病的基因与疾病之间的关联。目前,有很多数据库存储了疾病与基因之间的关联关系,如:在线人类孟德尔遗传数据库、遗传关联数据库等。图3-1中,d1、d2表示两个疾病。d1相关的基因集为G1,d2相关的基因集为G2。图中的小圆圈代表基因,小圆圈之间的连线表示基因之间的相互作用。图中的大圆-50- 第3章基于基因关联网络的疾病相似度算法研究圈表示疾病。3.2.1疾病相关基因集的相似度基因关联网络已经被广泛的应用于理解疾病:基于全基因组关联网络排序[115]候选疾病基因、通过蛋白质相互作用网络关联疾病和基因、利用小鼠表型对[116]疾病基因进行排序等。我们从HumanNet中获取人类基因之间的相互作用。它是一个综合的人类基因网络。HumanNet中的基因对之间的相互作用关联概率由一个相关的对数似然分值反应。相关的对数似然分值通过贝叶斯网络整合不同物种的21个类型的组学数据而得到。针对不同的数据类型,它根据其链接基因的程度衡量其对人类基因相互作用贡献的大小。相关的对数似然分值通过公示3-1进行标准化。LLSgg(,)LLSijminLLSN(ggi,j)(3-1)LLSLLSmaxmin公示3-1中,对于基因对gi和gj,LLSN(,ggij)表示经过标准化后的基因对之间的对数似然分值。LLSgg(,)表示基因对之间的对数似然分值。LLS表ijmin示HumanNet中最小的对数似然分值,LLS表示HumanNet中最大的对数似然max分值。经过标准化,基因对之间的对数似然分值分布在0到1之间。标准化部分虽然改变了基因对相互作用值的大小,但是并没有改变基因对相互作用值的相对大小。HumanNet给出了人类基因对之间的对数似然分值。并不是所有的基因对都有相应的分值。基于HumanNet,我们在公式3-2中定义了基因对之间的相似度分值。其中,FunSimgg(,ij)表示基因对gi和gj的相似度,()HumanNet表示HumanNet中的所有相互作用边。eij(,)表示gi和gj之间的相互作用边。如果两个基因完全一样,我们认为它们的相似度为1;如果基因对之间的相互作用存在于HumanNet中,我们认为其相似度等于HumanNet中给出的基因对之间的对数似然分值;如果两个基因不同,且它们之间的相互作用不存在于HumanNet中,我们认为该基因对之间的相似度为0。例如,在图3-2中,基因g1和g2之间的对数似然分值为0.4,我们认为该基因对之间的相似度为0.4;基因g1和g3之间没有连线,我们认为该基因对之间的相似度为0。1ijFunSimgg(,)LLS(gg,)ijandeij(,)(HumanNet)(3-2)ijNij0ijandeij(,)(HumanNet)接下来我们定义单个基因与基因集之间的相似度。对于基因g和基因集合-51- 哈尔滨工业大学工学博士学位论文G,Fg()表示从基因g到基因集合G的相似度。max(FunSimgg(,))表示基因Gi1ik集合G中所有基因与单个基因g之间的最大相似度值。如图3-1和3-2,从g1到基因集合G2的相似度为0.4。因为基因集合G2中只有基因g2和g1之间存在相互作用为0.4,根据公式3-3将其选为从g1到基因集合G2的相似度。根据该公式,如果基因集为一个基因时,单个基因与基因集之间的相似度和公式3-2的结果一致。Fg()max(FunSimgg(,)),gG(3-3)Gii1ikFg()avgFunSimgg((,)),gG(3-4)Gii1ikFg()medianFunSimgg((,)),gG(3-5)Gii1ikFg()也可以定义为公式3-4或3-5。根据公式3-4,Fg()表示基因集合G中GG所有基因与单个基因g之间的平均相似度值。根据公式3-5,Fg()表示基因集G合G中所有基因与单个基因g之间的中间相似度值。图3-2基因集G1和G2的相似度Fig.3-2SimilaritybetweengenesetsG1andG2-52- 第3章基于基因关联网络的疾病相似度算法研究疾病与疾病之间的基因相似度需要计算两个基因集之间的相似度。因此,定义基因集之间的相似度如公式3-6所示。在公式3-6中,FunSimdd(,)表示12疾病对d和d相关的基因集G和G的相似度。基因集G共有m个基因,基因12121集G共有n个基因。2FG21(g12i)FG(gj)11imjnFunSimdd(,),gGg,G(3-6)121ij122mn图3-4给出了基于FunSim的基因集相似度的实例。图3-1中给出了两个疾病d1和d2分别相关的基因集合G1和G2,在图3-2中,给出了两个基因集合在HumanNet中的相互作用。根据公式3-6,图3-2给出了基因集合G1和G2的详细计算过程。在图3-2的右侧分别列出了FgGi2()1和FgGj1()2。针对基因1im1jn集合G1和G2,基于HumanNet和公式3-3和3-6,可以得出基因集合G1和G2的相似度为0.572;基于HumanNet和公式3-4和3-6,可以得出基因集合G1和G2的相似度为0.514;基于HumanNet和公式3-5和3-6,可以得出基因集合G1和G2的相似度为0.578。根据公式3-4、3-5以及3-6可以得到不同的相似度值,分别用FunSimdd(,)、FunSimdd(,)和FunSimdd(,)表示。12max12avg12median3.2.2疾病相似度算法相关的数据集在上述章节中,我们已经了解到计算疾病对的基因相似度需要疾病相关的基因数据集以及基因相互作用网络。因此,计算疾病相似度需要两方面的数据:疾病相关的基因、基因相互作用网络。这两方面的数据分别来自集成的疾病数[117]据库SIDD、人类基因相互作用网络HumanNet。此外,计算疾病相似度还需要疾病术语集,即疾病本体。下面详细介绍这三方面的数据。3.2.2.1集成的疾病基因关联数据库表3-1用于计算疾病相似度的数据源Table3-1.Datasourcesusedformeasuringdiseasesimilarity数据源网址DOhttps://diseaseontology.svn.sourceforge.net/svnroot/diseaseontology/trunk/SIDDhttp://mlg.hit.edu.cn/SIDDHumanNethttp://www.functionalnet.org/humannet/download.htmlGOhttp://www.geneontology.org/GO.downloads.ontology.shtmlGOAhttp://www.geneontology.org/GO.downloads.annotations.shtml[117]疾病相关的基因集来自于集成的疾病数据库SIDD。SIDD集成了五个疾-53- 哈尔滨工业大学工学博士学位论文病相关的基因数据库:GeneRIF、OMIM、CTD、GAD、SpliceDisease。SIDD共包含2817个疾病本体中的疾病,12072个基因以及117190个疾病与基因关联。SIDD数据库是我们之前整合的数据库,其中的疾病基因关联可以直接从网上下载。表3-1列出了SIDD数据及其它本章相关数据的下载网址。其中,表的第一列是数据源的名称,第二列列出了数据源的下载网址。3.2.2.2基因相互作用网络基因相互作用网络来源于HumanNet。该网络是一个扩展的人类基因关联网络。它通过采集多种不同类型的基因关联来建立基因之间的网络。这些基因之间的关联包括:人类信使RNA共表达关联、蛋白质相互作用关联、蛋白质复杂性关联、比较基因组学关联等。同时,HumanNet还组合了同源物种基因的同样类型的关联,如:果蝇和蠕虫。该网络包含16243个人类基因以及476399个基因间的相互作用。图3-3基因相互作用网络Fig.3-3Illustrationexampleofgeneinteractionnetwork图3-3给出了HumanNet中的基因相互作用网络的示意图。该图对图3-1中的基因相互作用网络进行了放大,并对基因集G1和G2中的基因相互作用给出了具体的数值,更进一步说明了HumanNet。图中g1和g2之间的连线上标记物0.4,它表示g1和g2的相互作用为0.4。HumanNet中的每个相互作用就相当于图中一条边,其所有的相互作用构成了人类基因相互作用网络。-54- 第3章基于基因关联网络的疾病相似度算法研究3.2.2.3疾病相关的术语集生物医学领域存在很多疾病相关的术语集。有些疾病术语集通过‘is_a’关系建立疾病之间的语义关联,如:医学主题词、疾病本体等。在这些疾病相关的本体中,只有疾病本体围绕疾病概念组织术语,且它通过扩展交叉映射整合了疾病和医学术语集。关于其它的疾病术语本体,它们不仅仅包含疾病概念,而且包含病理学概念、解剖学概念等。医学主题词就是其中一例,它是一个非常综合的本体,且将医学概念分为16个目录。在这些目录中,只有C和F03目录围绕疾病本身定义术语。尽管如此,在C和F03目录下,并不是所有的术语都以疾病名称命名。例如:C目录下的概念‘pain(D010146)’。除此之外,[16]疾病本体已经被验证适合注释疾病相关的数据集以及适合计算疾病相似度。因此,我们选择疾病本体作为计算疾病相似度的疾病术语集。3.3疾病相似度算法验证方法的研究图3-4FunSim性能验证过程Fig.3-4TheprocessofvalidationtheperformanceofFunSim-55- 哈尔滨工业大学工学博士学位论文疾病相似度算法的验证是又一大难题。目前应用于计算疾病相似度的算法包括:Resnik、Lin、Wang、BOG和PSB。这些方法中,Resnik、Lin以及Wang等人的方法在基因本体中应用广泛,且已经被证明适合于计算生物医学本体的语义相似度,但是它们在计算疾病相似度领域缺乏有效的验证。BOG和PSB方法虽然给出了非常详细的算法设计过程,但是它们同样缺乏有效的验证。为了能更好的评估疾病相似度算法,本章提出了一种新的验证方法。该方法首先在文献中寻找已知的相似疾病对,将这些疾病对作为基准疾病对样本。然后,在疾病术语集中随机的选取疾病对作为对照组样本。详细的验证过程如图3-4所示。在图3-4中,圆圈表示疾病本体中的疾病术语,圆圈之间的联系表示疾病术语之间的‘is_a’关系,其中箭头指向的父节点,另外一个是子节点。相似的疾病基准集包括两个疾病集,它们分别来自于两篇文献。其中一个疾病集来自于Suthram等人的研究。他们验证了Mathur等人给出的相似的疾病对。Mathur等人利用表达谱数据设计算法寻找到相似的疾病对,并利用药物进行验证。另外一个疾病集来自于Pakhomov等人的研究,该数据集通过两个医学专家验证[118]得到。我们将这两部分疾病集合并为基准集,共有47个疾病,70个疾病对。以基准集作为正例,同时从疾病本体中随机的抽取700个疾病对作为反例。利用五种相似度算法计算相似度,比较得到的相似度接受者操作特性曲线[119](receiveroperatingcharacteristiccurve–ROCcurve)。该验证方法共产生了100个随机的疾病对,分别实验了100次,以提高实验的可靠性。3.4疾病相似度算法实验结果与分析在上一节中,我们利用疾病相关的基因集之间的相似度,给出了三种计算疾病相似度的方式:基于最大值的方式(公式3-3)、基于平均值的方式(公式3-4)以及基于中间值的方式(公式3-5)。在此,我们首先比较了这三种不同的方式,选择其中最合适的方式计算疾病相似度。如图3-4所示,在验证过程中,我们引入了两种类型的疾病对集合。一方面,两种手动检查的数据集被集成到一个基准集上,该数据集被认为是相似的疾病对。基准集包含70个疾病对。另外一方面,我们从疾病本体中随机产生了700个疾病对,该数据集被认为是不相似的疾病对。我们利用FunSim方法计算了基准集和随机集中疾病对的相似度,并提供了一个ROC曲线,检查基准集中的疾病对相似度是否能排在前面。图3-5a给出了通过每种方法得到的接受者操作特性曲线,图的横坐标表示特异性,图的纵坐标表示敏感性。由图可知,通过每种方法得到的接受者操作特性曲线下方-56- 第3章基于基因关联网络的疾病相似度算法研究的面积为:平均值(92.43%)、中间值(93.18%)、最大值(94.37%)。对于每种方法,接受者操作特性曲线下方的面积越大性能越好。由图可知,在以上三种方式中,基于平均值的方式效果相对较差,但其接受者操作特性曲线下方的面积任然超过百分之九十。总之,实验结果表明基于基因集计算疾病相似度是非常有效的,且基于最大值的方式能起到最佳的效果。图3-5三种基因集相似度算法的ROC曲线分析(a)一次实验的ROC曲线(b)一百次实验的AUC平均值Fig.3-5ROCanalysisofthethreetypesofsimilaritymethodsforgenesets(a)ROCofanexperiment(b)AverageAUCofahundredexperiments为了避免实验结果由于偶然的因素造成,我们随机的生成了100份疾病对集合,并进行了100次实验。实验结果如图3-5b所示。图中横坐标是疾病相似度算法,纵坐标是平均的接受者操作特性曲线下方的面积值。由图可知,平均的面积值分别为:平均值的方式(0.9282)、中间值的方式(0.9370)、最大值的方式(94.15%)。该结果与图3-5a的结果一致。从理论上来看,比较基因集的相似度时,基于最大值的方式比基于平均值或中间值的方式更合适。例如疾病d和疾病d是同一种病,疾病d相关的基因121集为G{,ggg,},疾病d相关的基因集为G{,ggg,}。基因g、g和g112322123123彼此之间的相似度分别为:FunSimgg(,)1,FunSimgg(,)1,1122FunSimgg(,)1,FunSimgg(,)FunSimgg(,)0.5,331221FunSimgg(,)FunSimgg(,)0.3,FunSimgg(,)FunSimgg(,)0。13312332根据公式3-3,基于最大值的方式可知疾病d和疾病d的相似度为1。根12-57- 哈尔滨工业大学工学博士学位论文据公式3-4,基于平均值的方式可知疾病d和疾病d的相似度为0.511。根据公12式3-3,基于中间值的方式可知疾病d和疾病d的相似度为0.433。显然,因为12疾病d和疾病d是同一种病,所以它们的相似度应该为1。综上所述,基于最12大值的方式比较基因集的相似度是一种非常合适的方式。根据我们已有的知识,目前比较好的计算疾病相似度的方法包括:Resnik、Lin、Wang、BOG、PSB。Resnik的方法最常用的基于语义的方法。它适合于计算基因本体的术语相似度,并已经在DOSim包中实现,应用于计算疾病本体中的疾病术语相似度。Wang等人他们考虑了更多的祖先节点计算本体术语相似度,对Resnik的方法进行了提高。基于该方法计算疾病相似度以及被应用于推理microRNA功能网络。BOG方法从比较疾病共同的基因来设计疾病相似度算法。PSB方法通过将基因本体关联作为疾病基因的关联来计算疾病相似度,很好的提高了BOG方法。我们将提出的方法(FunSim)与目前比较好的四种方法进行了比较。我们实现了所有的方法,对于需要进行参数设置的方法,我们参考原文选择了最合适的参数。例如:在实现PSB方法时,利用基因本体(OBOv1.2)和人类基因组的基因本体注释(表3-1)数据,在做疾病-基因本体的富集分析时,选择超几何分布P-value为小于0.005。我们利用FunSim方法计算了基准集中疾病对的相似度。我们获取了基准集和随机集的疾病相似度,并提供了一个接受者操作特性曲线,检查基准集中的疾病对相似度是否能排在前面。图3-6a给出了通过每种方法得到的接受者操作特性曲线,图的横坐标表示特异性,图的纵坐标表示敏感性。由图可知,通过每种方法得到的接受者操作特性曲线下方的面积为:Resnik(63.14%)、Lin(66.17%)、Wang(68.04%)、BOG(78.10%)、PSB(89.52%)、FunSim(94.37%)。对于每种方法而言,接受者操作特性曲线下方的面积越大性能越好。接受者操作特性曲线下方的面积表明Wang的方法比Resnik的方法有一点提高,且Wang的方法和Resnik方法得到的面积非常接近。显而易见,在基于基因的方法中,BOG方法的性能是最差的。尽管通过PSB方法得到了很高的性能,FunSim仍然将PSB方法的性能提高了5%左右。为了避免实验结果由于偶然的因素造成,我们随机的生成了100份疾病对集合,并进行了100次实验。实验结果如图3-6b所示。图中横坐标是疾病相似度算法,纵坐标是平均的接受者操作特性曲线下方的面积值。由图可知,平均的面积值为:Resnik(0.6345)、Lin(0.6642)、Wang(0.6784)、BOG(0.7657)、PSB(0.8984)、FunSim(0.9415)。该结果与图3-6b的结果一致。目前,已经发现了多种类型的基因关联。尽管如此,其中只有一两种基因-58- 第3章基于基因关联网络的疾病相似度算法研究关联被用于计算疾病相似度。我们设计FunSim为了利用HumanNet的基因关联计算疾病相似度。HumanNet是一个综合的基因关联网络,且在之前的研究中成功的应用于计算基因本体不同目录的关联。在图3-5和3-6中,FunSim的接受者操作特性曲线下方的面积值高于BOG和PSB。结果表明综合的基因关联非常适合于计算疾病相似度。图3-6六种方法的ROC曲线分析(a)一次实验的ROC曲线(b)一百次实验的AUC平均值Fig.3-6ROCanalysisofthesixmethods(a)ROCofanexperiment(b)AverageAUCofahundredexperiments3.5本章小结本章总结了已有的疾病相似度算法,提出了一种评估疾病相似度算法的方法,并设计了基于基因关联网络的疾病相似度算法。目前,基于疾病关联的基因计算疾病相似度的方法还有待提高。已有的方法主要是基于一种或两种类型的基因关联,比较疾病关联基因集的关联,从而计算疾病的相似度。然而,基因的关联方式有很多种:序列相似、蛋白质相互作用、共通路等。综合所有的基因关联方式有利于全面的衡量基因集的相似度,从而提高疾病的相似度算法。因此,本章提出了一种基于综合的基因关联网络的疾病相似度算法(FunSim)。为了有效的评估该算法的性能,我们首先在文献中搜集已知的相似疾病对,将这些疾病对作为基准疾病对样本。然后,在疾病术语集中随机的选取疾病对作为对照组样本。评估过程即比较疾病相似度算法在两组疾病对集上获得的ROC曲线。结果表明,FunSim方法获得的ROC曲线包含的面积达到了94.15%。-59- 哈尔滨工业大学工学博士学位论文第4章集成语义与基因关联的疾病相似度算法研究4.1引言上一章中,我们已经说明了衡量疾病的相似性需要比较疾病之间的共同属性。疾病之间的共同属性可以通过两个方面来比较。一方面是疾病相关的基因,简单来说,疾病对之间共同的致病基因越多,表明疾病对越相似。另外一方面是疾病在本体中描述的集合包含关系,该类型的关系反应了疾病之间的语义重叠程度。我们在上一章中主要是通过全面的比较疾病相关的基因的关联(FunSim)来设计疾病相似度算法,实验结果说明该方法有明显的提高。FunSim没有利用本体的集合包含关系,如果再考虑该类型的疾病关联,该方法也许还有提高的空间。从疾病的关联因素方面来说,生物信息技术日新月异,加速了对致病基因、疾病表型、影响疾病的环境等因素的了解,有利于计算疾病的相似度。从疾病相似度推动生物医学进一步的发展来看,该研究方向更是备受青睐。由于microRNA不能直接导致生成蛋白,因此很难通过蛋白发现microRNA的功能。microRNA相关的疾病研究日趋成熟,研究人员通过比较microRNA相关的疾病相似度,发现microRNA的相似度,从而构建microRNA功能关联网络,发现microRNA的功能。在发现疾病药物方面,由于相似的药物能治疗相似的疾病,利用已知药物的疾病去探索发现相似的疾病药物,有利于发现新的疾病药物。同样,在致病基因层面,相似的疾病更有可能拥有共同的致病基因,因此相似的疾病也被用于寻找新的疾病致病基因。虽然已经存在多种疾病相似度算法,但是缺乏方便快捷的方式获取疾病相似度。如果逐个实现这些算法,是非常耗时的。早在2009年,研究者们已经意识到该问题,尝试利用R语言实现了多种疾病相似度算法,并提供了DOSim包,该包实现Resnik、Lin、Wang等多种语义相似度算法。该工具包在一定程度上满足了研究的需求。但是该包也存在一些显著的问题。比如,DOSim包只实现了语义相似度算法,但是没有提供基于疾病基因的相似度算法。此外,该包并没有提供疾病相似度的任何应用,这限制了该工具包的使用范围。基于基因的方法计算疾病相似度依赖于疾病相关的基因,基因语义的方法计算疾病相似度依赖于疾病在本体中的语义关联。显而易见,并不是所有的疾病属性都体现在疾病相关的基因上,有些属性只记录在本体中,反之也一样。因此,本章提出了一种全新的方法(SemFunSim),该方法整合了疾病相关的基-60- 第4章集成语义与基因关联的疾病相似度算法研究因以及语义的关联计算疾病相似度。在验证了算法有效性的基础上,本章为SemFunSim算法找到了合适的应用—挖掘潜在的疾病治疗药物,并提供了基于Web的工具,实现了SemFunSim等多种疾病相似度算法,便于研究人员挖掘潜在的疾病治疗药物。FunSim方法和其它五种方法(Resnik、Lin、Wang、BOG、PSB)一样,虽然设计出了明确的计算疾病相似度的方法,但是它并没有给出相应的相似度阈值。换句话说,利用这些方法可以得到疾病对的相似度,但是无法评估相似度值的可靠性大小。没有确定阈值从某种角度上限制了这些算法的可应用性。因此,本文在设计SemFunSim方法的同时,给出了该方法的阈值。本章其它部分的内容包括:4.2节给出了疾病相似度算法的流程,并分步骤详细介绍疾病相似度算法以及定义阈值的方法。4.3节介绍了算法的验证过程,给出了系统的总体设计,并对实验结果进行总结与分析讨论。4.4节对本章进行小结。4.2集成的疾病相似度算法的研究SemFunSim方法计算疾病相似度考虑两个方面的疾病属性关联:疾病相关的基因关联、疾病相关的语义关联。在4.1节中我们已经介绍了这两个方面的疾病属性关联,对计算疾病相似度具有显著的意义。图4-1给出了SemFunSim方法的流程。图中,HumanNet表示基因关联网络;SIDD记录了疾病相关的基因集;疾病本体记录了疾病术语的语义关联。d1、d2、dMICA表示不同的疾病,其中,疾病dMICA是疾病d1和d2信息量最大的共同祖先节点。d1相关的基因集为G1,d2相关的基因集为G2。图中的小圆圈代表基因,小圆圈之间的连线表示基因之间的相互作用。图中的大圆圈表示疾病,大圆圈之间的连线表示疾病之间通过‘is_a’关系连接,且其中箭头指向的是父节点,另外一个是子节点。SemFunSim首先计算疾病相关的基因相似度(FunSim),然后计算疾病的语义相似度(SemSim),最后融合这两个部分。SemFunSim方法的详细流程如下。Step1.计算疾病对相关的基因集之间的相似度。当前存在很多疾病与基因关联的数据,它们存储在疾病基因数据库中。可以把疾病相关的基因当做疾病的某一种属性,因此,疾病与疾病的相似程度可以通过比较它们之间相关联基因的相似程度。如图4-1所示,疾病与基因相关联数据来源于集成的疾病数据库SIDD,基因与基因之间的相似度通过人类基因相互作用网络HumanNet计算。该部分的相似度算法第三章已经给出(FunSim)。Step2.计算疾病对的语义相似度(SemSim)。如图4-1所示,疾病与疾病-61- 哈尔滨工业大学工学博士学位论文之间的语义关联可以通过疾病本体计算。首先,通过疾病本体的‘is_a’关系建立疾病术语之间的关联网络。然后,根据疾病与基因之间的关联,寻找出疾病对之间信息量最大的共同祖先节点。基于疾病对以及它们的信息量最大的共同祖先节点以及疾病与基因关联计算疾病对的语义相似度。Step3.计算疾病对的相似度(SemFunSim)。疾病对的相似度由疾病对的共同属性决定。疾病对的共同属性包括两个方面:疾病与疾病之间的语义关联和疾病之间的基因关联。如图4-1所示,首先分别计算疾病对的基因相似度和疾病对的语义相似度,然后融合疾病对这两方面的相似度到SemFunSim。图4-1SemFunSim方法流程Fig.4-1ProcedureofSemFunSim4.2.1基于疾病本体的疾病术语相似度语义相似度表示特定的语义相关性,如:汽车和油之间的关系比汽车和自行车之间的关系更密切,但是后者的相似程度更大。根据Rada等人的研究,本[32]体中的‘is_a’关系被认为是可以用来计算语义相似度的。因此,在疾病本体中的‘is_a’关系可以被用于计算疾病对之间的语义相似度。利用信息熵可以计算本体中的‘is_a’关系所表示的语义相似度。该方法最早由Resnik等人提出(公式1-2),随着研究的不断深入,Lin对该方法进行了有效的改进。根据Lin的观点,A和B的相似度由它们之间的共同部分和不同部分决定。本体术语对之间的语义相似度大小与它们之间共同的部分成正比,与它们不同的部分成反比。也就是说两个术语之间共同的部分越多,相似度越大;不同的部分越多,相似度越小。Lin将A和B之间的共同部分定义为IcommonAB((,)),其中,commonAB(,)表示A和B之间的共性部分。I()表示所包含的信息量。例如:如果A表示一个桔子,B表示一个苹果。那么,A和B的共性部分可以表示为fruit(A)andfruit(B)。基于信息理论,一个声明包含的信息量可以表示为概率的负对数:-62- 第4章集成语义与基因关联的疾病相似度算法研究IcommonAB((,))log(PfruitAandfruitB()())(4-1)A和B之间的不同的部分可以定义为:IdescriptionAB((,))IcommonAB((,))(4-2)其中,description(A,B)表示A和B包含的所有部分。根据Lin的观点,一个疾病对的相似度可以定义如下:2ICd()MICA(4-3)Simdd(,)12ICd()ICd()12其中,d和d表示疾病本体中的疾病术语,d表示d和d的信息量最大的12MICA12共同祖先。ICd()是d的信息量。ICd()和ICd()分别表示d和d的信息MICAMICA1212量。根据公式1-2对信息量的定义,公式4-3可以表示为:2||Grootlog2||GMICASimdd(,)(4-4)122||Grootlog|GG|||12其中,d是疾病本体中的根节点,G是d相关的基因集,||G表示集合rootrootrootrootG包含的基因数目。G是疾病d相关的基因集合,||G表示集合GrootMICAMICAMICAMICA包含的基因数目。G是疾病d相关的基因集合,||G表示集合G包含的基因数1111目。G是疾病d相关的基因集合,||G表示集合G包含的基因数目。由于||G2222root是常量,所以,疾病对的相似度与||G及||G成正比,与||G的平方成反比。12MICA在第三章中我们已经介绍了基于信息熵的方法容易导致相似的疾病对之间的相似度偏低。部分相似的疾病对在疾病本体中只存在一个共同的祖先节点,即根节点,此时,基于Resnik和Lin的方法得到的疾病对的相似度为0。为了避免这种情况的发生,我们定义疾病对d1和d2的相似度如公式4-5所示。|GG|||12SemSimdd(,)(4-5)12|GG|||MICAMICA在公式4-4中,SemSimdd(,12)表示疾病对d1和d2的语义相似度。||G1和||G2分别表示疾病对d1和d2相关的基因数目。dMICA是d1和d2最大信息量的共同祖先节点,GMICA是dMICA相关的基因集,||GMICA是该基因集合的基因数目。在公式4-5中,疾病对d1和d2相似度的大小与基因集||G1和||G2成正比,与||GMICA的平方成反比,这与Lin等人的观点一致。-63- 哈尔滨工业大学工学博士学位论文4.2.2融合的疾病相似度疾病对d1和d2的相似度定义在公式4-6中,基因集合G和G分别与d1和12d2相关。FunSimdd(,)表示G和G之间的关联。SemSimdd(,)表示d1和d2的121212语义关联。Simdd(,)fFunSimdd((,),SemSimdd(,))(4-6)121212如果考虑疾病的基因关联与疾病的语义关联可以被认为是互相独立的两个部分,那么疾病对的相似度等于FunSimdd(,)乘以SemSimdd(,)(公式4-7)。1212Simdd(,)FunSimdd(,)SemSimdd(,)(4-7)121212当然,也可以以下的方式定义疾病对的相似度(公式4-8)。FunSimdd(,)SemSimdd(,)1212Simdd(,)(4-8)1224.2.3疾病相似度阈值定义在比较毒物组数据库中,有916个疾病存在潜在的治疗药物。我们基于随机的数据为这些疾病定义了相似度阈值,该方法具体如下。首先,针对916个疾病在疾病本体中的有向无环图,我们随机的切换图中节点的疾病名称,并保证不破坏原有的有向无环图结构。然后,针对基因关联网络HumanNet,我们随机的切换网络中节点的基因名称,并保证不破坏原有的网络结构。再次,针对随机生成的数据,我们利用SemFunSim方法计算其中每对疾病的相似度。该实验过程迭代了1000次。最后,我们根据公式4-8来计算每个相似度的错误发现率(falsediscoveryratio-FDR)。1000NiFDRSim()i1(4-9)T1000NT其中,Sim表示相似度分值,N表示第i次随机实验得到的相似度分值大于TiSim的次数,N表示在真实的情况下疾病相似度分值大于等于Sim的次数。TTT4.2.4相似的疾病之间的药物关联第三章我们已经介绍了基于基准集的疾病相似度验证方法。本章提出了集成的疾病相似度算法SemFunSim,我们同样在基准集上验证了该算法的有效性。除此之外,我们还发现了疾病相似度算法的一个新的应用。由于相似的疾病很有可能被相同的药物治疗,因此疾病相似度算法可以用于挖掘潜在的疾病治疗药物。-64- 第4章集成语义与基因关联的疾病相似度算法研究实验过程如图4-2所示。首先我们利用SemFunSim算法识别出最相似的疾病对集合和最不相似的疾病对集合,然后比较这两组集合中每组疾病对之间是否存在共同的治疗药物。如果相似的疾病对集合包含的有共同治疗药物的疾病对数目多于不相似的疾病对集合,那么证明SemFunSim算法与理论吻合。接下来我们将SemFunSim算法与已有的算法进行比较。最后,SemFunSim算法被应用于挖掘疾病的潜在治疗药物。图4-2SemFunSim性能验证过程Fig.4-2TheprocessofvalidationtheperformanceofSemFunSim为了比较相似的疾病是否有共同的潜在治疗药物,我们抽取了CTD数据库中的疾病药物数据。CTD数据库不仅仅记录了疾病相关的基因,还记录了疾病潜在的治疗药物和疾病相关的标记物。我们只抽取其中疾病潜在的治疗药物作为参考。CTD中使用了医学主题词作为其疾病术语集。在之前的研究中,CTD中的疾病术语已经被集成到疾病本体上。在提取完CTD数据库后,共有916种疾病、3522种药物以及11134种疾病药物关联。平均而言,每一种疾病有三种潜在的治疗药物,每一种药物能治疗12种疾病。-65- 哈尔滨工业大学工学博士学位论文CMiCN(,)(MKi,)pvalue1(4-10)0iXCNK(,)为了进一步的比较有共同潜在治疗药物的疾病对存在明显的统计分值,我们使用超几何分布计算P-value值。在公式4-10中,N是全部的药物数目(3522);M和K分别表示两个疾病相关的潜在治疗药物。X是疾病对共同的潜在治疗药物;C(N,K)是从N中选取K的组合。得到的P-value最终进行了假阳性检验,我们比较了调整的P-value值。为了全面的验证SemFunSim的优越性,如图4-2所示,将CTD中没有潜在治疗药物的44种疾病和916种已知潜在治疗药物的疾病进行比较。根据假设“相似的疾病有相似的治疗药物”,在相似的疾病对中,其中一个疾病的潜在治疗药物可以被用作另外一个疾病的潜在治疗药物参考。针对相似的疾病对,我们搜索PubMed,发现了新的疾病治疗药物。4.3集成的疾病相似度算法实验结果与分析4.3.1基于基准数据集的验证图4-3两种集成的方法的ROC曲线分析(a)一次实验的ROC曲线(b)一百次实验的AUC平均值Fig.4-3ROCanalysisofthetwotypesofintegratingmethods(a)ROCofanexperiment(b)AverageAUCofahundredexperiments如图4-3所示,在验证过程中,我们引入了两种类型的疾病对集合。一方面,两种手动检查的数据集被集成到一个基准集上,该数据集被认为是相似的-66- 第4章集成语义与基因关联的疾病相似度算法研究疾病对。基准集包含70个疾病对。另外一方面,我们从疾病本体中随机产生了700个疾病对,该数据集被认为是不相似的疾病对。我们利用SemFunSim方法计算了基准集和随机集中疾病对的相似度,并提供了一个接受者操作特性曲线,检查基准集中的疾病对相似度是否能排在前面。图4-3a给出了通过每种方法得到的接受者操作特性曲线,图的横坐标表示特异性,图的纵坐标表示敏感性。由图可知,通过每种方法得到的接受者操作特性曲线下方的面积为:平均值(93.78%)、乘积(96.36%)。对于每种方法而言,接受者操作特性曲线下方的面积越大性能越好。由图可知,在以上两种方式中,基于平均值的方式效果相对较差,利用乘积的方式能起到最佳的效果。为了避免实现结果由于偶然的因素造成,我们随机的生成了100份疾病对集合,并进行了100次实验。实验结果如图4-3b所示。图中横坐标是疾病相似度算法,纵坐标是平均的接受者操作特性曲线下方的面积值。由图可知,平均的面积值为:平均值的方式(0.9426)、乘积的方式(0.9647)。图4-4七种方法的ROC曲线分析(a)一次实验的ROC曲线(b)一百次实验的AUC平均值Fig.4-4ROCanalysisofthesevenmethods(a)ROCofanexperiment(b)AverageAUCofahundredexperiments图4-4a给出了通过每种方法得到的ROC曲线,图的横坐标表示特异性,图的纵坐标表示敏感性。由图可知,通过每种方法得到的ROC曲线下方的面积分别为:Resnik(63.14%)、Lin(66.17%)、Wang(68.04%)、BOG(78.10%)、PSB(89.52%)、FunSim(94.37%)、SemFunSim(96.36%)。对于每种方法而言,ROC曲线下方的面积(AUC)越大性能越好。ROC曲线下方的面积表明Wang-67- 哈尔滨工业大学工学博士学位论文的方法比Resnik的方法有一点提高,且Wang的方法和Resnik方法得到的面积非常接近。显而易见,在基于基因的方法中,BOG方法的性能是最差的。尽管通过PSB方法得到了很高的性能,FunSim仍然将PSB方法的性能提高了5%左右。在融合了基因和语义关联后,SemFunSim方法将性能提高到接近100%。为了避免实现结果由于偶然的因素造成,我们随机的生成了100份疾病对集合,并进行了100次实验。实验结果如图4-4b所示。图中横坐标是疾病相似度算法,纵坐标是平均的AUC值,直方图中的垂直线表示的是100次实验的误差范围。由图可知,平均的AUC值分别为:Resnik(0.6345)、Wang(0.6784)、BOG(0.7657)、PSB(0.8984)、FunSim(0.9415)、SemFunSim(0.9637)。该结果与图4-4a的结果一致。目前,已经发现了多种类型的基因关联。尽管如此,其中只有一两种基因关联被用于计算疾病相似度。我们设计FunSim利用HumanNet的基因关联计算疾病相似度。HumanNet是一个综合的基因关联网络,且在之前的研究中成功的应用于计算基因本体不同目录的术语关联。在图4-4中,FunSim的AUC值高于BOG和PSB。结果表明综合的基因关联非常适合于计算疾病相似度。在五种疾病相似度算法中,Resnik的方法利用最大信息量共同祖先的信息熵识别疾病间的语义关联。在基准集中,有一些疾病对仅有一个共同的祖先节点(根节点)。因此,根据Resnik方法,这些疾病对的疾病相似度为0。例如:疾病对‘diabetesmellitus(DOID:9351)’和‘Alzheimer’sdisease(DOID:10652)’的相似度为0,因为在疾病本体中,该疾病对的最大信息量共同祖先是根节点,而根节点的信息量为0。为了避免错误的理解相似的疾病对,SemSim中没有使用信息量。这样的话,在遇到以上的情况时,疾病相关的基因关联就能起到作用。图4-4A中的ROC曲线表明SemFunSim方法有最高的AUC值,这充分的验证了被集成进来的语义关联对识别真阳性率和减少假阴性率有明显的提高。4.3.2疾病相似度与潜在的治疗药物关联在图4-3中,我们引入CTD,对疾病的潜在治疗药物进行了比较。在CTD中已经记录了916种疾病存在潜在的治疗药物。为了阐述观点“相似的疾病有相似的治疗药物”,我们从两个方面进行验证。首先,我们利用SemFunSim方法计算916种疾病中所有疾病对的相似度,得到其中最相似的100个疾病对和最不相似的100个疾病对。在两组疾病对中,我们比较了每个疾病对是否存在共同的治疗药物。如果疾病对有共同的治疗药物,我们利用超几何分布计算并调整其P-value值。计算完后,我们统计每组疾病对中有共同治疗药物的疾病对数目,以及调整的P-value值小于0.05的疾病对数目。其次,我们利用SemFunSim-68- 第4章集成语义与基因关联的疾病相似度算法研究等五种方法计算916种疾病中所有疾病对的相似度,基于每种方法得到其中最相似的100个疾病对。同样,在所有疾病对中,我们比较了每个疾病对是否存在共同的治疗药物。如果疾病对有共同的治疗药物,我们利用超几何分布计算其P-value值。计算完后,我们统计每种方法获得的疾病对中有共同治疗药物的疾病对数目,计算p-value值小于0.05的疾病对数目。下面对这两个方面进行详细的介绍。图4-5SemFunSim识别的100对最相似疾病对和100对最不相似疾病对中有共同潜在治疗化合物的疾病对数目(a)最不相似的100个疾病对中有共同治疗药物的疾病对数目(b)最相似的100个疾病对中有共同治疗药物的疾病对数目Fig.4-5ThenumberofdiseasepairswithcommonPTCsinMDDPandMSDPmeasuredbySemFunSim(a)Thenumberofpairsofthetop100pairsofdissimilardiseaseswithcommonPTCs(b)Thenumberofpairsofthetop100pairsofsimilardiseaseswithcommonPTCs916个疾病共有417819个疾病对。其中有1251个疾病对能通过‘is_a’关系建立关联,为了避免由于包含关系导致的疾病对之间存在共同的潜在治疗药物,因此我们没有考虑这1251个疾病对。通过SemFunSim方法识别了其中100个最相似的疾病对和100个最不相似的疾病对。我们比较了这两组疾病对中有共同药物的疾病对数目,结果如图4-5所示。图4-5a描述了100个最不相似的疾病对中拥有共同的潜在治疗药物的疾病对数目。图4-5b描述了100个最相似的疾病对中拥有共同的潜在治疗药物的疾病对数目。在最不相似的100个疾病对中,只有1(1%)个疾病对有共同的潜在治疗药物,且调整的P-value小于0.05。相比较而言,在最相似的100个疾病对中,有79(79%)个疾病对有共同的潜在治疗药物,且其中有57(57%)个疾病对的调整的P-value小于0.05。-69- 哈尔滨工业大学工学博士学位论文显而易见,疾病对相似度越高,更有可能存在共同的潜在治疗药物。因此,SemFunSim方法很好的说明了观点“相似的疾病有相似的治疗药物”。为了进一步的验证SemFunSim方法,我们将SemFunSim方法的结果和其它四种方法进行了比较,结果如图4-6所示。在图中,横坐标是方法的名称,纵坐标表示疾病对数目。在每种方法识别的100个最相似的疾病对中,有共同治疗药物的疾病对数目用蓝色标记,调整的P-value小于0.05的疾病对数目用红色标记。由图可知,利用各种方法识别的有共同潜在治疗药物的疾病对数目为:BOG(2)、PSB(15)、Resnik(29)、Lin(30)、Wang(31)、SemFunSim(79)。利用各种方法得到的p-value小于0.05的疾病对数目分别为:BOG(0)、PSB(4)、Resnik(19)、Lin(20)、Wang(10)、SemFunSim(43)。FunSim方法是SemFunSim方法的一部分,根据该方法识别的有共同潜在治疗药物的疾病对数目为31个,其中P-value小于0.05的疾病对数目17个。图4-6七种方法识别的100对最相似疾病对中有共同潜在治疗化合物的疾病对数目Fig.4-6ThenumberofdiseasepairswithcommonPTCsinMSDPsmeasuredbysevenmethods在基于基因的方法中,BOG方法获得的有共同治疗药物的疾病对数目最少。PSB方法有了明显的提高(接近七倍)。尽管如此,在考虑了综合的基因关联后,-70- 第4章集成语义与基因关联的疾病相似度算法研究FunSim方法将PSB方法的结果提高了一倍。因此,综合的基因关联对疾病相似度有着非常重要的贡献。在所有五种疾病相似度算法中,BOG方法识别的疾病对数目也是最少的。其中基于语义的方法中,Resnik以及Wang的方法和FunSim方法识别的疾病对数目相当。在将SemSim方法融入到SemFumSim中后,结果有了明显的提高。在所有的方法中,SemFumSim方法识别的疾病对数目比其它任何一种方法识别的疾病对数目多一倍以上。结果充分表明SemFumSim方法更能阐述观点“相似的疾病有相似的治疗药物”。表4-1最相似的500/1000个疾病对中有共同治疗药物的疾病对数目Table4-1.ThenumberofpairsoftheT500-PSDsandT1000-PSDsmeasuredbyfivemethodswithcommonPTCs方法T500-PSDs中T1000-PSDsT500-PSDs中有T1000-PSDs中有有共同治疗药中有共同治共同治疗药物的共同治疗药物的调物的疾病对数疗药物的疾调整的P-value<整的P-value<0.05目病对数目0.05的数目的数目BOG325739Resnik1542476599Lin16227167101Wang1732816590PSB14030845104FunSim215457105170SemFunSim312556147237我们对最相似的500个疾病对(T500-PSDs)以及最相似的1000个疾病对(T1000-PSDs)进行了同样的比较。比较结果如表4-1所示。表的第一列给出了所有的方法;第二列表示的是T500-PSDs中有共同治疗药物的疾病对数目;第三列表示的是T1000-PSDs中有共同治疗药物的疾病对数目;第四列表示的是T500-PSDs中有共同治疗药物的调整的P-value<0.05的疾病对数目;第五列表示的是T1000-PSDs中有共同治疗药物的调整的P-value<0.05的疾病对数目。由表可知,在T1000-PSDs中,BOG方法共识别了57个有共同治疗药物的疾病对;Resnik方法共识别了247个有共同治疗药物的疾病对;Lin方法共识别了271个有共同治疗药物的疾病对;Wang方法共识别了281个有共同治疗药物的疾病对;PSB方法共识别了308个有共同治疗药物的疾病对;FunSim方法共识别了457个有共同治疗药物的疾病对;SemFunSim方法共识别了556个有共同治疗药物的疾病对。如果考虑调整的P-value<0.05,BOG、Resnik、Lin、Wang、PSB、FunSim、SemFunSim方法分别识别了9、99、101、90、104、170、237个疾病对。在T100PSDs中,FunSim方法和Resnik、Lin、Wang等方法识别的疾病对数目很接近,随着考虑更多的疾病对,FunSim方法的优势逐渐体现出来。表4-1中的实验结果表明SemFunSim方法比其他的方法有明显的优势。-71- 哈尔滨工业大学工学博士学位论文在4.2.3中我们已经介绍了定义阈值的方法,实验结果如图4-7所示。图4-7中,横坐标表示相似度分值的负对数(Negativelogsimilarityscores-NLSS),如公式4-11所示。NLSSlog(Sim)(4-11)TT2其中,Sim表示一个相似度分值,且NLSS{0,0.01,0.02,...,29.99,30}。TT图4-7中,FDR随着NLSS而单调递增,由于实验的随机性,极少数区域存在小量的波动。总体而言,实验结果非常合理:相似度越大,可信度越高。图4-7中,当NLSS等于4.05时,FDR第一次出现大于等于0.05的情况,此时相似度分值为0.06037。当NLSS等于9.84时,FDR第一次出现大于等于0.10的情况,此时相似度分值为0.00109。另外,当NLSS等于9.83时,相似度分值为0.00110。在真实情况下,有448个疾病对的相似度分值是大于0.06037的,有7026个疾病对的相似度分值是大于0.00110的。我们可以选择0.06037做为相似度的阈值。如果考虑需要验证更多的疾病对,也可以定义0.00110为相似度的阈值。图4-7相似度分值的假阳性率Fig.4-7FDRsforthesimilarityscore在早期的研究中,vanDriel等人开发了一个工具(MimMiner)用于计算记[13]录的相似度。前面的章节我们已经说明了CTD中包含916个有潜在治疗药物的疾病。根据疾病本体的交叉引用,这916个疾病与5080个OMIM的表型共有127个共同的疾病。我们从MimMiner网站上获取了5080个OMIM表型有-72- 第4章集成语义与基因关联的疾病相似度算法研究127个共同的疾病。我们针对这127个共同的疾病,比较了SemFunSim方法以及MimMiner方法。比较结果如图4-8所示。在T100-PSDs、T500-PSDs以及T1000-PSDs中,MimMiner分别识别了39、129和218个疾病对有共同的治疗药物。且其中P-value小于0.05的疾病对数目分别为17、52和79对。相比较而言,在T100-PSDs、T500-PSDs以及T1000-PSDs中,SemFunSim分别识别了74、271和441个疾病对有共同的治疗药物。且其中P-value小于0.05的疾病对数目分别为43、100和130对。结果表明由SemFunSim识别的相似的疾病更有可能拥有共同的治疗药物。图4-8MimMiner和SemFunSim识别的有共同治疗药物的相似的疾病对数目(a)MimMiner识别的有共同治疗药物的相似的疾病对数目(b)SemFunSim识别的有共同治疗药物的相似的疾病对数目Fig.4-8ThenumberofpairsofsimilardiseasesidentifiedusingMimMinerandSemFunSimwithcommonPTCs(a)ThenumberofpairsofsimilardiseasesidentifiedusingMimMinerwithcommonPTCs(b)ThenumberofpairsofsimilardiseasesidentifiedusingSemFunSimwithcommonPTCs我们根据阈值,进一步的比较了MimMiner方法和SemFunSim方法。MimMiner方法的阈值为0.4,共有53个疾病对的相似度大于0.4,其中有23(43.4%-23/53)个疾病对有共同的治疗药物,只有9(17.0%-9/53)对的P-value小于0.05。MimMiner方法的阈值为0.00111,共有107个疾病对的相似度大于0.4,其中有78(72.9%-78/107)个疾病对有共同的治疗药物,有44(41.1%-44/107)对的P-value小于0.05。实验结果表明在计算疾病相似度方面,SemFunSim的性能更优越一些。-73- 哈尔滨工业大学工学博士学位论文4.3.3基于疾病相似度的疾病药物挖掘在前面的章节中,我们已经充分证明了SemFunSim方法非常适合于发现有共同潜在治疗药物的疾病对。在本节中,我们将利用该方法寻找新的疾病治疗药物。在CTD中,共有916种疾病存在潜在的治疗药物,44种疾病不存在潜在的治疗药物。由于CTD中的数据是由人工从PubMed文献中获取,因此,有些疾病与潜在的治疗药物关联未能及时的从文献中获取。为此,我们设计实验,基于916中已知潜在治疗药物的疾病,针对44种没有潜在治疗药物的疾病,利用SemFunSim方法比较它们的疾病相似度,尝试发现其新的潜在治疗药物。该方法的详细设计如下。图4-9从PubMed中检索疾病与药物之间的关联Fig.4-9RetrieveassociationbetweendiseasesanddrugsfromPubMedStep1.在916种已知药物的疾病和44种未知药物的疾病之间,共有40304个疾病对。其中,有64个疾病对能通过‘is_a’关系建立关联,为了避免由于包含关系导致的疾病对之间存在共同的潜在治疗药物,因此我们没有考虑这64个疾病对。利用SemFunSim方法计算这些疾病对的相似度。-74- 第4章集成语义与基因关联的疾病相似度算法研究表4-2SemFunSim识别的最相似的20个疾病对Table4-2.Top20similardiseasepairsmeasuredbySemFunSim疾病标识符1疾病1(有潜在的治疾病标识符2疾病2(没有潜在的排序疗化合物)治疗化合物)DOID:5082livercirrhosisDOID:900hepatopulmonary1syndromeDOID:12987agranulocytosisDOID:614lymphopenia2DOID:1227neutropeniaDOID:614lymphopenia3DOID:9080macroglobulinemiaDOID:13372alpha1-antitrypsin4deficiencyDOID:2237hepatitisDOID:900hepatopulmonary5syndromeDOID:893wilsondiseaseDOID:2352hemochromatosis6DOID:418systemicsclerodermaDOID:853polymyalgia7rheumaticaDOID:2044drug-inducedDOID:900hepatopulmonary8hepatitissyndromeDOID:437myastheniagravisDOID:0050214lambert-eaton9myasthenicsyndromeDOID:12930dilatedDOID:397restrictive10cardiomyopathycardiomyopathyDOID:11335sarcoidosisDOID:2917cryoglobulinemia11DOID:10322berylliosisDOID:10320asbestosis12DOID:10322berylliosisDOID:841extrinsicallergic13alveolitisDOID:5295intestinaldiseaseDOID:900hepatopulmonary14syndromeDOID:780placentadiseaseDOID:3385bacterialvaginosis15DOID:7998hyperthyroidismDOID:0050328congenital16hypothyroidismDOID:9741biliarytractdiseaseDOID:900hepatopulmonary17syndromeDOID:4138bileductdiseaseDOID:900hepatopulmonary18syndromeDOID:0050589inflammatorybowelDOID:900hepatopulmonary19diseasesyndromeDOID:12236primarybiliaryDOID:900hepatopulmonary20cirrhosissyndromeStep2.在得到相似度的疾病对中,比较其相似度大小,抽取其中20个最-75- 哈尔滨工业大学工学博士学位论文相似的疾病对。Step3.在之前的研究中,已经证明了利用SemFunSim方法得到的相似的疾病很有可能拥有相似的药物。因此,这20个最相似的疾病对很有可能拥有共同的治疗药物。在每个疾病对中,有一个疾病是已知潜在治疗药物的疾病,另外一个是未知潜在治疗药物的疾病。将其中已知的药物作为参考,在PubMed中寻找其与未知药物的疾病之间的关联。表4-3从PubMed中检索出的新的疾病与潜在治疗化合物之间的关联Table4-3.NewassociationsbetweenPTCsanddiseasesareretrievedfromPubMed序号潜在的治疗CTD中有潜在治CTD中没有潜在治疗化PubMed标识符化合物疗化合物的疾病合物的疾病1PentoxifyllineLiverCirrhosisHepatopulmonary23002364syndrome5Azathioprinehepatitishepatopulmonary18341514syndrome7Azathioprinesystemicpolymyalgiarheumatica22640654|27502scleroderma267Methylprednissystemicpolymyalgiarheumatica2595195|176816olonescleroderma67Prednisolonesystemicpolymyalgiarheumatica24105317|23326scleroderma256|11727839|210406637Prednisonesystemicpolymyalgiarheumatica15466766scleroderma8Pentoxifyllinedrug-inducedhepatopulmonary23002364hepatitissyndrome9Prednisolonemyastheniagravislambert-eaton20420183myasthenicsyndrome11Methylprednissarcoidosiscryoglobulinemia6851261olone13Prednisoneberylliosisextrinsicallergic9489437alveolitis16Methimazolehyperthyroidismcongenital22672871hypothyroidism19Azathioprineinflammatoryhepatopulmonary18341514boweldiseasesyndrome基于SemFunSim方法比较得出的20个最相似的疾病对如表4-2所示。在表中,第一列和第二列表示的是疾病名称和疾病标识符,且该疾病在CTD中已有相应的潜在治疗药物。第三列和第四列表示的是疾病名称和疾病标识符,且该疾病在CTD中没有相应的潜在治疗药物。第五列是该疾病的相似度在所有相-76- 第4章集成语义与基因关联的疾病相似度算法研究似度中的排序。检索过程如图4-9所示。在之前的比较中,我们已经建立了未知药物的疾病和药物之间的关联。接下来我们从PubMed中检索,寻找支持它们之间关联的文献。由图可知,检索过程包括两个步骤。首先,我们进入PubMed的高级检索页面,分别针对药物和疾病,检索文章标题和摘要。然后,在检索的结果中,逐个文献检查,浏览其中证明药物与疾病之间存在关联的句子。如果文献中明确提出了药物与疾病之间存在关联,则将该文献记录下来,说明发现了新的疾病药物关联。如果文献中明确提出了药物与疾病之间存在关联,则不保存该关联。该检索过程由一个医学硕士在十个小时内完成。检索结果如表4-3所示。在表中,第一列是该疾病的相似度在所有相似度中的排序。第三列和第二列表示的是疾病名称,以及该疾病在CTD中相应的潜在治疗药物。第四列和第五列表示的是疾病名称,以及该PubMed中的文献。该文献记录了第四列的疾病与第二列的药物之间存在关联。由表4-2和表4-3可知。在20个最相似的疾病对中,共有13个疾病没有潜在的治疗药物。经过文献验证,发现了其中有7个疾病存在新的治疗药物,以及它们与药物的12种新的关联。这充分的表明了SemFunSim对于发现新的疾病药物是一个有效的方法。4.4本章小结本章提出了一种新的疾病相似度算法。该算法融合了语义关联与基因关联。语义关联是指疾病与疾病之间通过疾病本体的‘is_a’关系建立的关联。基因关联指的是疾病相关的基因之间存在的关联,包括:基因本体术语关联、蛋白质相互作用关联、共表达关联等。我们利用基准集(70个相似的疾病对)及100个来自疾病本体的随机集(700个疾病对),对SemFunSim方法进行了性能评估。在ROC曲线下面的面积达到了96.37%,该结果表明SemFunSim获得了一个非常高的真阳性率和非常低的假阴性率。除此之外,SemFunSim方法很好的阐述了观点“相似的疾病有相似的治疗药物”。我们从两个方面来验证SemFunSim方法适合该观点。一方面,我们通过SemFunSim方法得到100个最相似的疾病对,和100个最不相似的疾病对。结果表明,最相似的疾病对中有更多的疾病对存在共同的潜在治疗药物。另一方面,我们比较了SemFunSim方法和其它几种非常好的疾病相似度算法,在各自方法得到的100个最相似的疾病对中,比较其中拥有相同潜在治疗药物的疾病对数目。结果表明,SemFunSim方法能识别出更多的有共同的潜在治疗药物的疾病对。通过SemFunSim方法,我们还发现了12种新的疾病与药物之间的关联。结果表明SemFunSim方法不-77- 哈尔滨工业大学工学博士学位论文仅仅能帮助理解疾病之间的关联,还为挖掘疾病的潜在治疗药物提供了一种有效的方式。-78- 第5章基于文献的跨本体术语关联算法研究第5章基于文献的跨本体术语关联算法研究5.1引言分子相互作用网络解释了复杂的生物学过程,所有关于分子事件的已知信息都包含在大量的科学文献中。尽管代谢和信号通路都是由蛋白质和其它的化学实体组成,通常还是将它们视为彼此独立的通路,其主要原因是缺乏统一的判断标准。因此,有必要从生物文献中提取数据来全面的判定生物学网络,从而挖掘不同网络之间的关联。生物医学文献的指数级增长,给生物学带来了挑战。首先,研究人员很难全面的了解这些文献,以及文献中提供的生物学网络信息。其次,通过这些文献全面的理解生物学网络更是难上加难。尽管如此,随着研究的深入、文献的增多,这也是全面的理解生物学网络的必经之路。因此,如何从海量的生物学文献中挖掘出必要的网络关联数据,以支持全面的理解生物学网络,是目前生物学领域亟需解决的问题。从文献中获取网络关联信息,通常需要两个步骤来完成:利用生物学术语注释文献、基于文献与术语的关联算法计算术语之间的关联程度。大到复杂的癌症分子网络,小到蛋白质相互作用关联网络,这些网络在生物学领域都可以通过生物学术语来描述。因此,寻找网络的关联也可以认为是建立术语之间的关联。利用生物术语来注释文献是获取术语关联的第一步。该过程通常由生物学自然语言处理工具来完成,基于该过程可以建立文献与术语之间的关联。目前,[88]生物学常用的文献注释工具有UMLS提供的MetaMap工具,以及NCBO组[89]织提供的Annotator工具。UMLS组织为生物学术语提供了一套完善的术语集,MetaMap工具可以从任意的文本中抽取出与该术语集相关的数据。NCBO组织整合了大量的生物医学本体,这些本体中记录着不同领域的生物术语。同样,Annotator工具可以从任意的文本中抽取出与任一本体库相关的数据。MetaMap是一个可以下载的应用程序,Annotator为用户提供了远程的Web服[90]务。相比较而言,Annotator使用起来更方便、精度更高。基于文献注释过程,可以获取大量的文献与术语关联信息。紧接着需要从这些文献与术语的关联信息中寻找出术语之间的关联。早期,研究人员采用标准化的文献距离(normalizedMedicalLiteratureAnalysisandRetrievalSystem[101]Onlinedistance-NMD)来衡量术语之间的关联程度。该算法被应用于建立-79- 哈尔滨工业大学工学博士学位论文疾病相关术语之间的关联。随着研究的不断深入,研究人员开始利用扩展的互[104]信息方法(extendantmutualinformation-EMI)来计算文献中术语的关联程度。近年来,Blaise等人提出了计算术语之间的标准化的R分值(R-scaledscore[103]-RSS)来衡量术语之间的关联程度。该算法被应用于计算基因、疾病、基因本体术语等多个术语集之间的关联。总之,这些方法都是基于术语共同出现的文献建立的关联。如果两个术语没有出现在同一个文献中,那么这些方法就无法获取他们之间的关联。文献中提供的知识不仅仅可以为已经发现的术语关联提供科学支持,还可以挖掘新的术语关联。ABC原则就是常用的挖掘术语关联的理论。该理论认为如果术语A与术语C没有直接的关联,而A和C都与术语B关联,那么可以认为A与C也是相关的。本体是另外一个记录术语关联的数据集。例如,疾病本体中记录了乳腺癌被癌症集合包含的关系等。但是目前基于文献计算术语关联程度的方法中,显然忽略了本体提供的术语之间的语义关联。因此,本章提出了将本体的语义关联融合到文献术语关联算法中,以弥补现有方法的不足。本章首先利用Annotator注释在线医学文献分析与检索系统(MedicalLiteratureAnalysisandRetrievalSystemOnline-MEDLINE)中的文献;然后,将本体术语关联融入到了文献与术语的关联中,设计术语关联算法;最后,提出了基于基准数据集的方法、基于富集分析的验证方法以及基于文献分割的验证方法,分别从挖掘单个本体的术语关联、跨本体的术语关联以及推理新关联三个方面来验证我们的方法。本章其它部分的内容包括:5.2节给出了基于文献的术语关联算法的总体设计,并分步骤详细介绍了融合了本体术语关联的文献术语关联算法;5.3节提出了术语关联算法的验证方案;5.4节介绍了对算法的验证过程,并对实验结果进行总结与分析讨论;5.5节对本章进行小结。5.2基于文献的跨本体术语关联算法的研究调整的标准化的R分值(AdjustedR-scaledscore-ARSS)方法是基于文献计算跨本体术语关联的方法。图5-1给出了ARSS方法的流程。图中,红色的圆圈表示的是疾病本体中的术语t1,蓝色的圆圈表示的是基因本体中的术语t2。为了计算这对术语之间的关联分值,首先,下载MEDLINE数据库,将其中的文献用疾病本体和基因本体术语进行标记;其次,利用术语在本体中的语义关联推理术语与文献之间的关联;最后,我们将推理的术语与文献关联和RSS方法结合,针对文献中记载的术语与文献关联以及推理的术语与文献关联,设计ARSS方法,计算术语对之间的关联分值。-80- 第5章基于文献的跨本体术语关联算法研究图5-1ARSS方法流程Fig.5-1ProcessofARSS5.2.1基于语义关联扩展术语与文献的关系本体的每个术语表示一个类。本体中的‘is_a’关系表示类之间的集合包含关系。例如:疾病本体定义‘breastcanceris_acancer’,根据此定义,‘breastcancer’是‘cancer’的子集。因此,根据本体中的‘is_a’关系表达的集合包含关系,我们可以得到本体中的一个术语t所包含的术语集如下:St()desct(){}t(5-1)其中,desct()表示t的所有子孙术语集合。我们定义共发生程度(occurrencedegree-OD)来表示一个术语t和一篇文献l的关联程度如下:1ifoccursintlODtl(,)(5-2)0ifdoesn'toccurintl如果术语t在文献l中出现,则ODtl(,)标记为1;如果术语t没有出现在文献l中,则将ODtl(,)标记为0。如果术语t没有出现在文献l中(ODtl(,)0),术语t也有可能通过其子孙节点与文献l关联,因为t的子孙节点术语是t的子集。因此,我们根据本体中的‘is_a’关系对OD进行调整。调整后的OD(AOD)被定义如下:-81- 哈尔滨工业大学工学博士学位论文1ifODtl(,)1nAODtl(,)|St()|(5-3)ii1ifODtl(,)0andtdesctandODtl()(,)1ii|()|St其中,n表示出现在文献l中的t的子孙节点的数目;ti表示第i个出现在文献l中n的t的子孙节点;|St()|i表示St()1、St()2、…、以及St()n中所包含的不同的i1术语数目;|()|St表示St()中所包含的术语数目。如果术语t在文献l中出现(ODtl(,)1),则AODtl(,)被标记为1;如果术语t没有出现在文献l中,则根据t的子孙节点来定义AODtl(,)的值。图5-2术语之间的OD和AOD的实例Fig.5-2TheinstanceofODandAODbetweenterms如图5-2所示,给出了计算OD和AOD的实例。图中,圆圈表示的是本体中的概念,圆圈之间的连线表示的是术语之间的‘is_a’关系。在图的左上方,t3和t同时出现在一篇文献l中,根据公式5-2,相应的ODtl(,)和ODtl(,)等于1。434图的左下方是一个本体的有向无环图,其中圆圈表示本体的术语,圆圈之间的连线表示的是术语之间的‘is_a’关系,箭头指向的是父节点。基于该图,我们-82- 第5章基于文献的跨本体术语关联算法研究可以得到如下等式:St(){,,,,,,,}tttttttt,|()|8St,1123456781St()St(){,,,,}ttttt,以及|()StSt()|5。根据这些等式关系,运用公343467834式5-3,我们可以得到AODtl(,)1等于0.625。图的右侧给出了术语与文献之间的AOD值。5.2.2术语关联算法术语对可以通过它们之间共同相关的文献联系起来,术语对之间共同出现的程度(co-occurrencedegree-COD)可以定义如下:nCODtt(,)12(ODtl(,)1iiODtl(,))2(5-4)i0其中,t和t表示术语对;n表示包含有术语的MEDLINE文献的数目;l表示12i第i个文献。在之前的研究中,Raoul等人利用COD基于互信息定义R分值(Rscore-RS)来衡量术语之间的相关分值,具体如下:CODtt(,)12RStt(,)log()(5-5)1210CODtt(,)CODtt(,)1122其中,RStt(,)12表示t1和t2之间的RS。该RS被Raoul等人标准化为1-100之间。标准化过程如下:99*(RStt(,)RS)12minRSStt(,)112(5-6)()RSRSmaxmin其中,R和R分别表示最小和最大的RS。minmax我们在公式5-3中对t1和t2之间的OD进行了调整,相应的我们将COD调整为调整后的共同出现程度(Adjustedco-occurrecedegeree-ACOD)。nACODtt(,)12(AODtl(,)1iiAODtl(,))2(5-7)i0其中,t和t表示术语对;n表示包含有术语的MEDLINE文献的数目;l表示12i第i个文献。根据ACOD,我们调整R分值(AdjustedRscore-ARS)如下:-83- 哈尔滨工业大学工学博士学位论文ACODtt(,)12ARStt(,)log()(5-8)1210ACODtt(,)ACODtt(,)1122其中,ARStt(,)12表示t1和t2之间的ARS。参考5-6公式,我们将ARS标准化为1-100之间。标准化过程如下:99*(ARStt(,)ARS)12minARSStt(,)1(5-9)12()ARSARSmaxmin其中,AR和AR分别表示最小和最小的AR分值。minmax5.2.3术语关联推理根据公式5-6或5-9如果术语A和C之间不存在共同相关的文献,那么A和C之间关联分值为0。在实际情况中,即使A和C之间不存在共同相关的文献,如果它们之间存在共同相关的术语B,那么A和C之间也有可能存在关联。该[104,120]理论即为ABC原则。图5-3基于平均值和最大值的ABC原则实例Fig.5-3TheinstanceoftheaverageandthemaximumbyABCprinciple在公式5-9的基础上,基于平均值的ABC原则(Average-basedABCprinciple-84- 第5章基于文献的跨本体术语关联算法研究-Ave)入公式5-10所示:nARSSAB(,)ARSSCB(,)iii12AveAC(,)(5-10)n公式中,n表示A和C之间共同相关的术语个数;Bi表示第i个共同相关的术语。在公式5-9的基础上,基于最小值的ABC原则(Minimum-basedABCprinciple-Min)如公式5-11所示:nmin(ARSSAB(,ii),ARSSCB(,))i1MinAC(,)(5-11)n公式中,n表示A和C之间共同相关的术语个数;Bi表示第i个共同相关的术语;min(ARSSABARSSCB(,),(,))表示ARSSAB(,)和ARSSCB(,)中最小的。iiii如图5-3所示,圆圈表示概念,圆圈之间的连线表示概念之间的关联。概念A和C之间不存在直接的关联,但是通过它们之间共同相关的概念B,可以得到概念A和C之间的关联分值。其中最左边的圆圈表示术语A,最右边的圆圈表示术语C,中间的圆圈表示术语集B。以右上方的术语C为例,基于平均342243值的ABC原则推理得到的关联分值为AveAC(,),基于最小值6323的ABC原则推理得到的关联分值为MinAC(,)。35.2.4术语关联算法相关数据集MEDLINE是生命科学与生物医学信息学文献数据库。它包含从学术期刊中获取的文章的书目信息。它涵盖了医学、护理学、药物学、牙医学、兽医学以及卫生保健学,此外,它还包含生物学、分子进化学以及生物化学的文献。公共的生物医学数据数量庞大且增长迅速。这种增长速度给研究人员在数据提取领域带来了很大的障碍,且增加了数据的不可获取性。生物医学研究人员开始寻求使用本体和术语集来注释这些数据,以方便数据的检索。尽管如此,该注释过程不能自动的完成,且经常需要专家参与。另外,也缺乏系统来支持本体的注释。国家生物医学本体中心提供的注释工具(Annotator)是一个基于本体的Web服务工具,它提供了基于本体的生物数据注释的功能。生物医学研究人员可以利用注释服务将本体概念标记到生物医学文本上。-85- 哈尔滨工业大学工学博士学位论文从实践的角度来看,一个本体就是一个已知事物的表示形式。本体由下列两部分组成:对于可以跟踪的或直接观察到的事物的表示以及事物之间的关系。在生物学和相关的领域没有通用的标准的术语集。目前生物领域使用的术语大部分是面向物种或研究领域甚至于一个特定的研究组。这使得数据的交流和共享显得更加困难。基因本体项目为描述基因产品的属性提供了一个本体。该本体分包含三个领域:细胞构成、分子功能、生物学过程。细胞构成指的是细胞的成分或细胞外的环境。分子功能指的是基因产品在分子层面的元素活动,例如绑定或催化作用。生物学过程指的是一系列分子事件组成,这些过程可以是属于集成的生命单元的功能,例如:细胞、组织、器官、物种等。每个基因本体术语有一个术语名称,该名称可以是一个单词或一组单词组成的字符串。它还包含有一个唯一的阿拉伯标识符、术语的定义、命名空间(指定该术语指代的范围)。术语可以有多个同义词,这些同义词可以是与术语名称等价的类或与术语名称相关的类(范围更广或更窄)。基因本体中的术语组成了有向无环图,每个术语与一个或多个术语之间存在关联。基因本体的术语是物种无偏的,它的术语涉及到原核生物、真核生物。基因本体是不断变化的,其术语在不断的增加和纠正。基因本体注释指的是使用基因本体术语来指代基因产品的过程。在基因本体数据库中,注释数据由基因本体联盟的成员提供,该联盟积极吸收新成员。联盟中的欧洲生物信息组(EuropeanBioinformaticsInstitute–EBI)组织提供了人类的基因本体注释。基因本体的每条注释都标记了不同的数据类型。数据的注释类型由数据的来源决定,例如:EXP指的是从试验中推理得到;IEA指的是由电子注释推理得到。在生物医学领域,除了疾病本体外,还存在另外一个常用的本体(疾病本体)。疾病本体是以疾病名称为中心的本体,它定义了生物医学领域相关的疾病术语,以及这些术语之间的关联关系。例如:乳腺癌被癌症集合包含等。GeneRIF数据库中记录了基因以及基因相关的疾病信息。该数据库被研究人员注释到疾病本体中,形成了疾病术语与基因之间的关联数据。由于文献中记录了大量的疾病本体和基因本体术语之间的关联,因此,我们接下来将抽取文献中疾病本[121]体和基因本体术语,并研究跨本体之间的术语关联算法。5.3基于文献的术语关联算法验证方法的研究术语关联算法的验证是又一大难题。目前应用于计算生物医学术语关联的算法包括:RSS、EMI、NMD。为了证明ARSS方法的有效性,我们从三个方面来证明。第一个方面,基于基准数据集的验证。利用疾病本体中相似的疾病-86- 第5章基于文献的跨本体术语关联算法研究对作为基准集,验证ARSS方法在发现单个本体中的术语关联方面的性能。第二个方面,基于富集的术语关联验证。疾病存在与其相关联的基因,同样,基因本体术语也存在与其相关联的基因。因此,通过基因的富集可以发现疾病术语与基因本体术语之间的统计相关性。第三个方面,基于文献分割的术语关联验证。我们将文献分为两个部分,其中一个部分作为背景集,另外一个部分作为测试集。利用背景集通过ARSS算法以及ABC原则推理挖掘测试集中的关联。下面详细介绍后面两种方法。基于富集分析的验证方法图5-4基于富集分析的验证过程Fig.5-4Theprocessofvalidationbasedonenrichment基于富集分析的验证方法如图5-4所示。在GeneRIF数据库中,记录着疾病与基因之间的关联,且该数据库中的疾病术语已经关联到疾病本体中。在数[122]据库GOA中记录着基因与基因本体术语之间的关联。利用超几何分布可以-87- 哈尔滨工业大学工学博士学位论文[123]计算疾病术语与基因本体术语之间的P-value,并通过多样本测试获得调整的P-value。具体如下:CMiCN(,)(MKi,)pvalue1(5-12)0iXCNK(,)在公式5-12中,N是全部的基因数目;M和K分别表示疾病术语和基因本体术语相关的基因数目。X是疾病术语和基因本体术语共同的基因数目;C(N,K)是从N中选取K的组合。得到的P-value最终进行了假阳性检验,我们比较了调整的P-value值。通过该方法,可以得到与疾病术语有统计关联的基因本体术语。然后,我们利用RSS、EMI、NMD以及ARSS方法对疾病术语与基因本体术语进行关联分析。通过比较这些方法获取的相关的术语对是否存在统计显著性,可以验证这些方法的优劣性。基于文献分割的验证方法图5-5基于文献分割的验证过程Fig.5-5TheprocessofvalidationbasedonliteraturepartitioningMEDLINE被分为两个集合,如图5-5所示。其中一个集合是背景集合,该集合包含的文献是2009年1月23日以前的。另外一个集合是测试集合,该集合包含的文献是2009年1月23日至2012年11月23日的。基于以下规则从两个集合中获取真阳性的生物医学术语对(396对):1)是最相关的疾病本体术语与基因本体术语对(由EMI、RSS和NMD方法从测试集中识别);2)在背景集文献中没有直接关联;3)术语对中的术语在背景集中。基于以下规则从两个集合中获取假阳性的生物医学术语对(3960对):1)跨本体术语对的随机集;2)术语对不在真阳性集合中;3)在背景集文献中没有直接的关联;4)术语对中的术语在背景集中。通过RSS、EMI、NMD以及ARSS方法在背景集中获取[119]的术语相关分值,然后利用ABC原则进行推理,如果获取的ROC曲线面积-88- 第5章基于文献的跨本体术语关联算法研究大则表明方法优越。5.4实验结果分析5.4.1基于相似的疾病对的验证本文第三章提供了相似的疾病对,并基于该基准集验证了FunSim方法和SemFunSim方法。同样,本章将利用这些相似的疾病对来验证ARSS方法在发现单个本体中的相关术语对的性能。图5-6a给出了通过RSS、NMD、EMI和ARSS方法得到的ROC曲线,图的横坐标表示特异性,图的纵坐标表示敏感性。由图可知,通过每种方法得到的ROC曲线下方的面积分别为:RSS(75.99%)、NMD(78.69%)、EMI(80.91%)、ARSS(89.44%)。对于每种方法而言,ROC曲线下方的面积(AUC)越大性能越好。ROC曲线下方的面积表明RSS方法的性能是最差的。在融合了本体的语义关联后,ARSS的性能提高了很多。该结果表明,ARSS方法在挖掘单本体术语之间的关联上存在一定的优势。图5-6四种方法的ROC曲线分析(a)一次实验的ROC曲线(b)一百次实验的AUC平均值Fig.5-6ROCanalysisofthefourmethods(a)ROCofanexperiment(b)AverageAUCofahundredexperiments为了避免实现结果由于偶然的因素造成,我们随机的生成了100份疾病对集合,并进行了100次实验。实验结果如图5-6b所示。图中横坐标是疾病相似度算法,纵坐标是平均的AUC值。由图可知,平均的AUC值分别为:RSS(0.7542)、NMD(0.7841)、EMI(0.8054)、ARSS(0.8854)。该结果与图5-6A-89- 哈尔滨工业大学工学博士学位论文的结果一致。5.4.2基于富集的术语关联验证如图5-4所示。在验证过程中,我们引入了两种类型的基因关联集合。一方面,基因与基因本体的关联。另外一方面,基因与疾病本体的关联。并通过超几何分布寻找到有富集关系的基因本体术语和疾病本体术语对。图5-7基于富集分析的验证结果(a)ARSS与RSS方法的实验结果(b)ARSS与EMI方法的实验结果(c)ARSS与NMD方法的实验结果Fig.5-7Theresultofvalidationbasedonenrichment(a)TheresultofexperimentofARSSandRSS(b)TheresultofexperimentofARSSandEMI(c)TheresultofexperimentofARSSandNMD我们利用ARSS方法计算了术语对之间的关联分值,并统计了关联的术语对是否存在统计上的显著关联。我们同样利用RSS、NMD以及EMI方法计算-90- 第5章基于文献的跨本体术语关联算法研究了术语对之间的关联分值,并统计其中相关的术语对是否存在统计上的显著关联。最终我们比较了各种方法的结果。图5-7a给出了疾病本体术语与基因本体术语之间的比较结果。蓝色的线条表示的是使用RSS方法得到的结果,红色的线条表示的是使用ARSS方法得到的结果。横坐标表示的是基于术语关联分析方法获得的最相关的术语对数目。纵坐标表示的是存在统计显著性的术语对数目。由图可知,ARSS方法得到的曲线斜率越来越小,该结果表明按照ARSS方法得到的打分算法非常合理。此外,RSS方法总共只能发现497100对术语关联,且其中只有14595对术语存在统计显著性。而ARSS方法总共能发现2126700对术语关联,且其中有100223对术语存在统计显著性。如果只考虑ARSS方法中发现的前497100对术语关联,ARSS方法也能得到31125个存在统计相关的术语对。图5-7b和5-7c分别给出了ARSS方法与EMI及NMD方法之间的比较结果。由图可知,RSS、NMD以及EMI方法获取的曲线几乎重叠。因此,这三个方法在寻找相关的术语对上性能相当。由于这三种方法都只是利用现有的术语与文献关联计算术语与术语之间的关联分值,因此,如果术语对之间没有共同相关的文献,它们的相关分值则为0。ARSS方法则不然,除了文献记录的直接的术语关联,它还能基于语义关联推理出文献中没有记录的术语关联,因此,ARSS方法能发现更多的术语关联。如图5-7所示,实验结果表明基于ARSS方法能得到更多、更可靠的关联的术语对数目。5.4.3语义关联对ARSS方法的性能影响在扩展术语与文献之间的关联关系时,我们利用了‘is_a’关系提供的集合包含关系。ARSS方法将这些扩展的关联关系应用于发现相关的术语对。因此,‘is_a’关系的数目应该能影响到ARSS的性能。如果一个本体的层次是合理的,其中每个术语的‘is_a’关系的数目越多,ARSS的性能应该越好。基因本体的三个目录中的术语集所包含的‘is_a’关系不相等,因此,可以用它来衡量‘is_a’关系对ARSS方法的性能影响。在基因本体的有向无环图中,生物学过程、细胞构成和分子功能目录分别包含44462、4707、和11431个‘is_a’关系,他们分别包含24414、3127以及9529个术语。因此,生物学过程、细胞构成和分子功能目录中的每个术语拥有1.82、1.51和1.20个‘is_a’关系。表5-1中的结果表明ARSS的性能随着‘is_a’关系的减少而降低。比较结果如表5-1所示。表的第一列给出了基因本体的目录名称;第二列表示由RSS、EMI和NMD方法识别的相关的术语对数目;在这三种方法识别-91- 哈尔滨工业大学工学博士学位论文的最相关的术语对中,其中调整的P-value小于0.05的术语对数目被列在第三列中;在ARSS方法识别的最相关的术语对中,其中调整的P-value小于0.05的术语对数目被列在第四列中。表5-1ARSS、RSS、EMI和NMD方法识别的P-value小于0.05的相关的跨本体术语对数目Table5-1.ThenumberofpairsofrelativetermsacrossDOandthreecategoriesofGOidentifiedusingARSS,RSS,EMI,andNMDwithadjustedP-value<0.05.数据源RSS/EMI/NMD方RSS/EMI/NMD方法识别RSSS方法识别的调整法识别的相关的术的调整的P-value<0.05的的P-value<0.05的术语语对数目术语对数目对数目BP319,29211,37524,582CC113,7761,4492,100MF64,1141,7711,885在最相关的术语对中,ARSS比其它方法识别了更多统计相关的术语对。例如:在疾病本体和生物学过程术语对中,ARSS识别的统计显著的术语对是其它方法的2.16倍(24572/11375);在疾病本体和细胞构成术语对中,ARSS识别的统计显著的术语对是其它方法的1.45倍(2098/1449);在疾病本体和分子功能术语对中,ARSS识别的统计显著的术语对是其它方法的1.06倍(1885/1771)。5.4.4基于文献分割的术语关联挖掘基于ABC原则进行术语关联挖掘的方法有:平均的RSS(TheaveragedR-scaledscore-AveRSS)、最小的RSS(TheminimumR-scaledscore-MinRSS)、平均的EMI(Theaveragedextendantmutualinformation-AveEMI)、最小的EMIM(Theminimumextendantmutualinformation-MinEMI)、平均的NMD(TheaveragednormalizedMEDLINEdistance-AveNMD)、最小的NMD(TheminimumnormalizedMEDLINEdistance-MinNMD)。另外,本章提出的方法包括平均的ARSS(TheaveragedadjustedR-scaledscore-AveARSS)、最小的ARSS(TheminimumadjustedR-scaledscore-MinARSS)。本节比较了这八种方法所得到的推理结果。如图5-5所示,在验证过程中,我们引入了两种类型的疾病对集合。一方面,我们在测试集中找到背景集中不存在的术语关联作为真阳性集合。真阳性集合包含396个疾病对。另外一方面,我们从疾病本体和基因本体中随机产生了3960个疾病对,该数据集被认为是假阳性集合。我们利用ARSS方法计算了基准集和随机集中疾病对的相似度,并提供了-92- 第5章基于文献的跨本体术语关联算法研究一个接受者操作特性曲线,检查基准集中的疾病对相似度是否能排在前面。图5-8a给出了通过每种方法得到的接受者操作特性曲线,图的横坐标表示特异性,图的纵坐标表示敏感性。由图可知,通过每种方法得到的接受者操作特性曲线下方的面积为:MinARSS为0.8245、AveARSS为0.7863、AveRSS为0.6581、MinRSS为0.7024、AveEMI为0.6588、MinEMI为0.7641、AveNMD为0.7225、MinNMD为0.7359。对于每种方法而言,接受者操作特性曲线下方的面积越大性能越好。由图可知,在以上八种方式中,基于平均值的方式比基于最小值的方式的总体效果差,其中,MinARSS的效果最好。图5-8基于文献分割的验证结果(a)一次实验的ROC曲线(b)一百次实验的AUC平均值Fig.5-8Theresultofvalidationbasedonliteraturepartitioning(a)ROCofanexperiment(b)AverageAUCofahundredexperiments为了避免实验结果由于偶然的因素造成,我们随机的生成了100份术语对集合,并进行了100次实验。平均的实验结果如图5-8b所示。图中横坐标是术语关联方法,纵坐标是平均的接受者操作特性曲线下方的面积值,直方图中的垂直线表示的是100次实验的误差范围。由图可知,平均的面积值为:MinARSS为0.8203、AveARSS为0.7819、AveRSS为0.6496、MinRSS为0.6976、AveEMI为0.6563、MinEMI为0.7606、AveNMD为0.7153、MinNMD为0.7289。实验结果与5-8a一致。5.5本章小结本章总结了已有的术语关联算法,提出了一种新的基于文献的术语关联的-93- 哈尔滨工业大学工学博士学位论文算法(ARSS),将本体术语关联关系融入到已有的术语关联算法中计算跨本体术语关联度。同时,还提出了评估术语关联度算法的方法。我们首先下载了MEDLINE中的文献,并将其注释到疾病本体和基因本体上,建立了术语与文献的关联知识。然后,我们利用本体的集合包含关系来对术语与文献的关联关系进行扩展,形成了更多可靠的术语关联。在此基础上,我们利用RSS方法来计算术语的关联分值。本章从两个方面来证明了ARSS是非常有效、可靠的方法。一方面,我们用ARSS方法识别出的相关的术语对,并从已有的数据出发建立起了这些术语之间的统计相关性。我们分别比较了ARSS方法与RSS、EMI以及NMD方法。实验结果表明ARSS方法识别出的相关的术语对具有更强的统计相关性。另一方面,我们基于文献分割的方法来挖掘新的术语关联。实验结果表明基于ARSS方法挖掘的效果更好。-94- 结论结论本文研究了疾病数据库整合、疾病相似度计算、疾病本体与基因本体术语关联的方法。其中,疾病数据库整合旨在集成分布式的疾病数据库,消除疾病信息的孤岛,加强对疾病的全面理解;基于疾病相似度来挖掘疾病之间的关联,可以发现相似的疾病对,有利于挖掘疾病的潜在治疗药物;发现与疾病相关的基因本体术语可以拓宽对疾病的认识。本文的主要研究成果包括:(1)整合了18个疾病相关的数据库,建立了集成的疾病数据库系统。这18个数据库中的疾病术语包括医学主题词、OMIM以及具体数据库的疾病术语。这些疾病术语都被映射到疾病本体上。其中,2937个医学主题词术语、2046个OMIM术语以及2956个具体数据库的疾病术语通过同义词映射的方法映射到疾病本体上,1347个医学主题词术语、2140个OMIM术语通过推理映射的方法映射到疾病本体上。基于术语之间的映射关联,建立了集成的疾病数据库(SIDD),消除了分布式的疾病数据库带来的信息孤岛,提供了疾病与分子、表型、环境等多种类型的特征之间的关联。SIDD共包含5916个疾病、139365个特征以及疾病与特征之间的4465131个关联。基于SIDD中大量的疾病特征记录,挖掘出了疾病之间的关联、microRNA靶基因、药物靶点等。(2)设计了基于基因集的疾病相似度算法FunSim,提出了基于基准集的疾病相似度算法验证方案。疾病相似度算法的验证方案如下:首先从文献中搜集到70个相似的疾病对作为基准集,基准集中的疾病对作为正例,紧接着随机的生成700个疾病对作为反例,然后通过比较正反例可以得到相应的ROC曲线,最后计算曲线下方包含的面积从而得到算法的性能。实验结果显示FunSim方法获得的ROC曲线所包含的平均面积达到了94.15%,这表明FunSim方法具有高的真阳性率和低的假阴性率。(3)设计了集成语义与基因关联的疾病相似度算法SemFunSim,该算法可用于挖掘潜在的疾病治疗药物。基于基准集和随机集的实验中,SemFunSim获得的ROC曲线所包含的平均面积达到了96.37%,这表明SemFunSim获得了一个非常高的真阳性率和非常低的假阴性率。CTD中包含916个有治疗药物的疾病,利用SemFunSim方法识别出了其中最相似的100个疾病对,其中有79个疾病对之间有共同的治疗药物。而在相同的实验环境下,其它比较的方法只能识别35个或更少的疾病对之间有共同的治疗药物。该结果表明SemFunSim算法非常符合假设“相似的药物通常可以治疗相似的疾病”。CTD中包含44个没有治疗药物的疾病,SemFunSim方法比较了这44个疾病和916个已知药物-95- 哈尔滨工业大学工学博士学位论文的疾病,针对其中最相似的20个疾病对,从PubMed中发现了12种新的疾病药物关联,验证了该方法能有效的挖掘潜在的疾病治疗药物。(4)设计了基于文献的跨本体术语关联算法ARSS。利用疾病本体术语和基因本体术语提取MEDLINE中文献的摘要,在发现的相关的术语对中,ARSS方法比其它方法发现了更多有显著的统计关联的术语对。MEDLINE中的文献被分为背景集和测试集,背景集中的术语关联用于挖掘测试集中的术语关联。实验结果显示ARSS方法获得的ROC曲线所包含的平均面积达到了82.45%,这表明ARSS方法在挖掘新的术语关联上同样存在很大的优势。本文在疾病数据库整合、疾病相似度、疾病本体与基因本体术语关联方法研究中取得了一些阶段性的成果,作者认为还可以从以下方面对现有的研究进行扩展:(1)第二章中介绍了疾病数据库整合的难点在于集成这些数据库中的疾病术语集。现有的疾病相关的本体仍无法涵盖所有的疾病术语,疾病术语映射方法也不能保证将所有的疾病映射到疾病本体上。因此,以本文方法为基础,丰富疾病本体术语迫在眉睫。(2)第三章中利用综合的基因关联网络设计疾病相似度算法,展示了良好的性能。第四章集成了疾病的语义关联和基因关联网络,有效的提高了疾病相似度算法的性能。因此,如果考虑更多的疾病关联信息,如:表型、环境等,有可能会进一步改善疾病相似度计算方法的效果。(3)第五章中提出了基于文献的跨本体术语关联算法。目前该算法完全基于文献中记载的术语关联。在未来的研究中,可以通过引进更多的术语关联因素,如术语之间存在字符串上的包含关系等,来尝试发现更多相关的跨本体术语。-96- 参考文献参考文献[1]ROBERTSRJ.PubMedCentral:TheGenBankofthepublishedliterature[J].ProceedingsoftheNationalAcademyofSciencesoftheUnitedStatesofAmerica,2001,98(2):381-2.[2]AMBERGERJ,BOCCHINIC,HAMOSHA.AnewfaceandnewchallengesforOnlineMendelianInheritanceinMan(OMIM(R))[J].Humanmutation,2011,32(5):564-7.[3]AMESGM,GEORGEDB,HAMPSONCP,etal.Usingnetworkpropertiestopredictdiseasedynamicsonhumancontactnetworks[J].ProceedingsBiologicalsciences/TheRoyalSociety,2011,278(1724):3544-50.[4]BARRENASF,CHAVALIS,HOLMEP,etal.Networkpropertiesofcomplexhumandiseasegenesidentifiedthroughgenome-wideassociationstudies[J].PloSone,2009,4(11):e8090.[5]CHANSY,WHITEK,LOSCALZOJ.Decipheringthemolecularbasisofhumancardiovasculardiseasethroughnetworkbiology[J].Currentopinionincardiology,2012,27(3):202-9.[6]CHAVALIS,BARRENASF,KANDURIK,etal.Networkpropertiesofhumandiseasegeneswithpleiotropiceffects[J].BMCsystemsbiology,2010,10(4):78-11.[7]GOHKI,CHOIIG.Exploringthehumandiseasome:thehumandiseasenetwork[J].Briefingsinfunctionalgenomics,2012,11(6):533-42.[8]BARABASIAL,GULBAHCEN,LOSCALZOJ.Networkmedicine:anetwork-basedapproachtohumandisease[J].NaturereviewsGenetics,2011,12(1):56-68.[9]BOSCOA,MCKENNAKL,FIRTHMJ,etal.AnetworkmodelingapproachtoanalysisoftheTh2memoryresponsesunderlyinghumanatopicdisease[J].Journalofimmunology,2009,182(10):6011-21.[10]GOHKI,CUSICKME,VALLED,etal.Thehumandiseasenetwork[J].ProceedingsoftheNationalAcademyofSciencesoftheUnitedStatesofAmerica,2007,104(21):8685-90.[11]LIY,AGARWALP.Apathway-basedviewofhumandiseasesanddiseaserelationships[J].PloSone,2009,4(2):e4346.[12]SUTHRAMS,DUDLEYJT,CHIANGAP,etal.Network-basedelucidationofhumandiseasesimilaritiesrevealscommonfunctional-97- 哈尔滨工业大学工学博士学位论文modulesenrichedforpluripotentdrugtargets[J].PLoScomputationalbiology,2010,6(2):e1000662.[13]VANDRIELMA,BRUGGEMANJ,VRIENDG,etal.Atext-mininganalysisofthehumanphenome[J].Europeanjournalofhumangenetics:EJHG,2006,14(5):535-42.[14]ROBINSONPN,MUNDLOSS.Thehumanphenotypeontology[J].Clinicalgenetics,2010,77(6):525-34.[15]SCHRIMLLM,ARZEC,NADENDLAS,etal.DiseaseOntology:abackbonefordiseasesemanticintegration[J].Nucleicacidsresearch,2012,40(Databaseissue):D940-6.[16]MATHURS,DINAKARPANDIAND.Findingdiseasesimilaritybasedonimplicitsemanticsimilarity[J].Journalofbiomedicalinformatics,2012,45(2):363-71.[17]MATHURS,DINAKARPANDIAND.Automatedontologicalgeneannotationforcomputingdiseasesimilarity[M].AMIA.2010:12-6.[18]ASHBURNERM,BALLCA,BLAKEJA,etal.Geneontology:toolfortheunificationofbiology.TheGeneOntologyConsortium[J].Naturegenetics,2000,25(1):25-9.[19]GRUBERTR.Atranslationapproachtoportableontologyspecifications[J].Knowledgeacquisition,1993,5(2):199-220.[20]BORSTWN.Constructionofengineeringontologiesforknowledgesharingandreuse[M].UniversiteitTwente,1997.[21]STUDERR,BENJAMINSVR,FENSELD.Knowledgeengineering:principlesandmethods[J].Data&knowledgeengineering,1998,25(1):161-97.[22]GENESERETHMR,NILSSONNJ.Logicalfoundationsofartificialintelligence[M].MorganKaufmannLosAltos,CA,1987.[23]SMITHB,CEUSTERSW,KLAGGESB,etal.Relationsinbiomedicalontologies[J].Genomebiology,2005,6(5):R46.[24]LOWEHJ,BARNETTGO.Understandingandusingthemedicalsubjectheadings(MeSH)vocabularytoperformliteraturesearches[J].JAMA:thejournaloftheAmericanMedicalAssociation,1994,271(14):1103-8.[25]CORNETR,DEKEIZERN.FortyyearsofSNOMED:aliteraturereview[J].BMCmedicalinformaticsanddecisionmaking,2008,8(Suppl1):S2.[26]BARDJ,RHEESY,ASHBURNERM.Anontologyforcelltypes[J].Genomebiology,2005,6(2):R21.-98- 参考文献[27]DEGTYARENKOK,HASTINGSJ,DEMATOSP,etal.ChEBI:anopenbioinformaticsandcheminformaticsresource[M].2009.[28]MCENTYREJ,LIPMAND.PubMed:bridgingtheinformationgap[J].CMAJ:CanadianMedicalAssociationjournal=journaldel'Associationmedicalecanadienne,2001,164(9):1317-9.[29]BODENREIDERO.TheUnifiedMedicalLanguageSystem(UMLS):integratingbiomedicalterminology[J].Nucleicacidsresearch,2004,32(Databaseissue):D267-70.[30]SMITHB,ASHBURNERM,ROSSEC,etal.TheOBOFoundry:coordinatedevolutionofontologiestosupportbiomedicaldataintegration[J].Naturebiotechnology,2007,25(11):1251-5.[31]PESQUITAC,FARIAD,FALCAOAO,etal.Semanticsimilarityinbiomedicalontologies[J].PLoScomputationalbiology,2009,5(7):e1000443.[32]RADAR,MILIH,BICKNELLE,etal.Developmentandapplicationofametriconsemanticnets[J].Systems,ManandCybernetics,IEEETransactionson,1989,19(1):17-30.[33]WUZ,PALMERM.Verbssemanticsandlexicalselection;proceedingsoftheProceedingsofthe32ndannualmeetingonAssociationforComputationalLinguistics,F,1994[C].AssociationforComputationalLinguistics.[34]BUDANITSKYA.Lexicalsemanticrelatednessanditsapplicationinnaturallanguageprocessing.CSRG-390:DepartmentofComputerScience,UniversityofToronto,1999.[35]RICHARDSONR,SMEATONA,MURPHYJ:TechnicalReportWorkingPaperCA-1294,SchoolofComputerApplications,DublinCityUniversity,1994.[36]SECON,VEALET,HAYESJ.AnintrinsicinformationcontentmetricforsemanticsimilarityinWordNet;proceedingsoftheECAI,F,2004[C].Citeseer.[37]RESNIKP.Usinginformationcontenttoevaluatesemanticsimilarityinataxonomy;proceedingsoftheProceedingsofthe14thinternationaljointconferenceonArtificialintelligence-Volume1,F,1995[C].Proceedingsofthe14thinternationaljointconferenceonartificialintelligence.MorganKaufmannPublishersInc.[38]COUTOFM,SILVAMJ,COUTINHOPM.Semanticsimilarityoverthegeneontology:familycorrelationandselectingdisjunctiveancestors;-99- 哈尔滨工业大学工学博士学位论文proceedingsoftheProceedingsofthe14thACMinternationalconferenceonInformationandknowledgemanagement,F,2005[C].ACM.[39]BUDANITSKYA,HIRSTG.SemanticdistanceinWordNet:Anexperimental,application-orientedevaluationoffivemeasures;proceedingsoftheWorkshoponWordNetandOtherLexicalResources,F,2001[C].[40]OTHMANRM,DERISS,ILLIASRM.AgeneticsimilarityalgorithmforsearchingtheGeneOntologytermsandannotatinganonymousproteinsequences[J].Journalofbiomedicalinformatics,2008,41(1):65-81.[41]GOLBECKJ,FRAGOSOG,HARTELF,etal.TheNationalCancerInstitute'sthesaurusandontology[J].WebSemantics:Science,ServicesandAgentsontheWorldWideWeb,2011,1(1):1-5.[42]DAVISAP,WIEGERSTC,ROSENSTEINMC,etal.MEDIC:apracticaldiseasevocabularyusedattheComparativeToxicogenomicsDatabase[J].Database:thejournalofbiologicaldatabasesandcuration,2012,2012(1):bar065.[43]FELDMANNG,FENDRICHV,MCGOVERNK,etal.Anorallybioavailablesmall-moleculeinhibitorofHedgehogsignalinginhibitstumorinitiationandmetastasisinpancreaticcancer[J].Molecularcancertherapeutics,2008,7(9):2725-35.[44]MITCHELLJA,ARONSONAR,MORKJG,etal.Geneindexing:characterizationandanalysisofNLM'sGeneRIFs[J].AMIAAnnualSymposiumproceedings/AMIASymposiumAMIASymposium,2003,460-4.[45]BECKERKG,BARNESKC,BRIGHTTJ,etal.Thegeneticassociationdatabase[J].Naturegenetics,2004,36(5):431-2.[46]WANGJ,ZHANGJ,LIK,etal.SpliceDiseasedatabase:linkingRNAsplicinganddisease[J].Nucleicacidsresearch,2012,40(Databaseissue):D1055-9.[47]DAVISAP,MURPHYCG,JOHNSONR,etal.TheComparativeToxicogenomicsDatabase:update2013[J].Nucleicacidsresearch,2013,41(Databaseissue):D1104-14.[48]KONGF,ZHUJ,WUJ,etal.dbCRID:adatabaseofchromosomalrearrangementsinhumandiseases[J].Nucleicacidsresearch,2011,39(Databaseissue):D895-900.[49]SCHULLYSD,YUW,MCCALLUMV,etal.CancerGAMAdb:databaseofcancergeneticassociationsfrommeta-analysesandgenome-wide-100- 参考文献associationstudies[J].Europeanjournalofhumangenetics:EJHG,2011,19(8):928-30.[50]LIMJ,WANGP,LIUX,etal.GWASdb:adatabaseforhumangeneticvariantsidentifiedbygenome-wideassociationstudies[J].Nucleicacidsresearch,2012,40(Databaseissue):D1047-54.[51]PALLEJAA,HORNH,ELIASSONS,etal.DistiLDDatabase:diseasesandtraitsinlinkagedisequilibriumblocks[J].Nucleicacidsresearch,2012,40(Databaseissue):D1036-40.[52]JIANGQ,WANGY,HAOY,etal.miR2Disease:amanuallycurateddatabaseformicroRNAderegulationinhumandisease[J].Nucleicacidsresearch,2009,37(Databaseissue):D98-104.[53]LUM,ZHANGQ,DENGM,etal.AnanalysisofhumanmicroRNAanddiseaseassociations[J].PloSone,2008,3(10):e3420.[54]BOUTETE,LIEBERHERRD,TOGNOLLIM,etal.UniProtKB/Swiss-Prot[J].Methodsinmolecularbiology,2007,406(14):89-112.[55]WISHARTDS,KNOXC,GUOAC,etal.HMDB:aknowledgebaseforthehumanmetabolome[J].Nucleicacidsresearch,2009,37(Databaseissue):D603-10.[56]SCHEERM,GROTEA,CHANGA,etal.BRENDA,theenzymeinformationsystemin2011[J].Nucleicacidsresearch,2011,39(Databaseissue):D670-6.[57]ZHAOX,LIUQ,CAIQ,etal.Dr.VIS:adatabaseofhumandisease-relatedviralintegrationsites[J].Nucleicacidsresearch,2012,40(Databaseissue):D1041-6.[58]ALTMANRB.PharmGKB:alogicalhomeforknowledgerelatinggenotypetodrugresponsephenotype[J].Naturegenetics,2007,39(4):426.[59]OSBORNEJD,FLATOWJ,HOLKOM,etal.AnnotatingthehumangenomewithDiseaseOntology[J].BMCgenomics,2009,10(Suppl1):S6.[60]MOTTAZA,YIPYL,RUCHP,etal.Mappingproteinstodiseaseterminologies:fromUniProttoMeSH[J].BMCbioinformatics,2008,9(Suppl5):S3.[61]GOBLEC,STEVENSR.Stateofthenationindataintegrationforbioinformatics[J].Journalofbiomedicalinformatics,2008,41(5):687-93.[62]ETZOLDT,ULYANOVA,ARGOSP.SRS:informationretrievalsystemformolecularbiologydatabanks[J].Methodsinenzymology,1996,266(12):114-28.-101- 哈尔滨工业大学工学博士学位论文[63]OVERINGTONJ.ChEMBL.AninterviewwithJohnOverington,teamleader,chemogenomicsattheEuropeanBioinformaticsInstituteOutstationoftheEuropeanMolecularBiologyLaboratory(EMBL-EBI).InterviewbyWendyA.Warr[J].Journalofcomputer-aidedmoleculardesign,2009,23(4):195-8.[64]GIBNEYG,BAXEVANISAD.SearchingNCBIDatabasesUsingEntrez[M].2011.[65]WANGY,SUZEKT,ZHANGJ,etal.PubChemBioAssay:2014update[J].Nucleicacidsresearch,2014,42(Databaseissue):D1075-82.[66]MULDERNJ,KERSEYP,PRUESSM,etal.Insilicocharacterizationofproteins:UniProt,InterProandIntegr8[J].Molecularbiotechnology,2008,38(2):165-77.[67]LOPESP,OLIVEIRAJL.Aninnovativeportalforraregeneticdiseasesresearch:thesemanticDiseasecard[J].Journalofbiomedicalinformatics,2013,46(6):1108-15.[68]KAOS,SHIAUCK,GUDL,etal.IGDB.NSCLC:integratedgenomicdatabaseofnon-smallcelllungcancer[J].Nucleicacidsresearch,2012,40(Databaseissue):D972-7.[69]NADKARNIPM,BRANDTC,FRAWLEYS,etal.Managingattribute--valueclinicaltrialsdatausingtheACT/DBclient-serverdatabasesystem[J].JournaloftheAmericanMedicalInformaticsAssociation:JAMIA,1998,5(2):139-51.[70]CRITCHLOWT,FIDELISK,GANESHM,etal.DataFoundry:informationmanagementforscientificdata[J].IEEEtransactionsoninformationtechnologyinbiomedicine:apublicationoftheIEEEEngineeringinMedicineandBiologySociety,2000,4(1):52-7.[71]WESTBROOKJ,FENGZ,CHENL,etal.TheProteinDataBankandstructuralgenomics[J].Nucleicacidsresearch,2003,31(1):489-91.[72]ANDREEVAA,HOWORTHD,BRENNERSE,etal.SCOPdatabasein2004:refinementsintegratestructureandsequencefamilydata[J].Nucleicacidsresearch,2004,32(Databaseissue):D226-9.[73]RADEVAM,HOFMANNT,ALTENBERGB,etal.ThedatabasedbESTcorrectlypredictsgeneexpressionincoloncancerpatients[J].Currentpharmaceuticalbiotechnology,2008,9(6):510-5.[74]CORNELLM,PATONNW,WUS,etal.GIMS-adatawarehouseforstorageandanalysisofgenomesequenceandfunctionaldata;proceedings-102- 参考文献oftheBioinformaticsandBioengineeringConference,2001ProceedingsoftheIEEE2ndInternationalSymposiumon,F,2001[C].IEEE.[75]BUKHMANYV,SKOLNICKJ.BioMolQuest:integrateddatabase-basedretrievalofproteinstructuralandfunctionalinformation[J].Bioinformatics,2001,17(5):468-78.[76]DAVIDSONSB,OVERTONC,TANNENV,etal.BioKleisli:Adigitallibraryforbiomedicalresearchers[J].InternationalJournalonDigitalLibraries,1997,1(1):36-53.[77]CHAWATHES,GARCIA-MOLINAH,HAMMERJ,etal.TheTSIMMISproject:Integrationofheterogenousinformationsources[M].InformationProcessingSocietyofJapan.1994.[78]ARENSY,HSUC-N,KNOBLOCKCA.Queryprocessinginthesimsinformationmediator;proceedingsoftheARPA/RomeLaboratoryKnowledge-BasedPlanningandSchedulingInitiativeWorkshop,F,1996[C].[79]WOOLDRIDGEM,JENNINGSNR.Intelligentagents:Theoryandpractice[J].Theknowledgeengineeringreview,1995,10(02):115-52.[80]LIND.Aninformation-theoreticdefinitionofsimilarity;proceedingsoftheProceedingsofthe15thinternationalconferenceonMachineLearning,F,1998[C].Proceedingsofthe15thinternationalconferenceonMachineLearning.SanFrancisco,CA:MorganKaufmann.[81]WANGJZ,DUZ,PAYATTAKOOLR,etal.AnewmethodtomeasurethesemanticsimilarityofGOterms[J].Bioinformatics,2007,23(10):1274-81.[82]LIJ,GONGB,CHENX,etal.DOSim:anRpackageforsimilaritybetweendiseasesbasedonDiseaseOntology[J].BMCbioinformatics,2011,12(5):266.[83]WANGD,WANGJ,LUM,etal.InferringthehumanmicroRNAfunctionalsimilarityandfunctionalnetworkbasedonmicroRNA-associateddiseases[J].Bioinformatics,2010,26(13):1644-50.[84]GOTTLIEBA,STEINGY,RUPPINE,etal.PREDICT:amethodforinferringnoveldrugindicationswithapplicationtopersonalizedmedicine[J].Molecularsystemsbiology,2011,7(2):496-9.[85]DAKSHANAMURTHYS,ISSANT,ASSEFNIAS,etal.Predictingnewindicationsforapproveddrugsusingaproteochemometricmethod[J].JournalofMedicinalChemistry,2012,55(15):6832-48.[86]CHANSY,LOSCALZOJ.Theemergingparadigmofnetworkmedicineinthestudyofhumandisease[J].Circulationresearch,2012,111(3):359-74.-103- 哈尔滨工业大学工学博士学位论文[87]LIJ,LUZ.Anewmethodforcomputationaldrugrepositioningusingdrugpairwisesimilarity;proceedingsoftheBioinformaticsandBiomedicine(BIBM),2012IEEEInternationalConferenceon,F,2012[C].ProceedingsofTheIEEEInternationalConferenceonBioinformaticsandBiomedicine.[88]ARONSONAR,LANGFM.AnoverviewofMetaMap:historicalperspectiveandrecentadvances[J].JournaloftheAmericanMedicalInformaticsAssociation:JAMIA,2010,17(3):229-36.[89]JONQUETC,MUSENMA,SHAHNH.Buildingabiomedicalontologyrecommenderwebservice[J].Journalofbiomedicalsemantics,2010,1(Suppl1):S1.[90]STEWARTSA,VONMALTZAHNME,RAZAABIDIS.Comparingmetamaptomgrepasatoolformappingfreetexttoformalmedicallexions;proceedingsoftheProceedingsofthe1stinternationalworkshoponknowledgeextraction&consolidationfromsocial-mediainconjunctionwiththe11thinternationalsemanticwebconference(ISWC2012),Boston,USA,F,2012[C].[91]TOMANEKK,HAHNU.Semi-supervisedactivelearningforsequencelabeling;proceedingsoftheProceedingsoftheJointConferenceofthe47thAnnualMeetingoftheACLandthe4thInternationalJointConferenceonNaturalLanguageProcessingoftheAFNLP:Volume2-Volume2,F,2009[C].AssociationforComputationalLinguistics.[92]MCCALLUMA,FREITAGD,PEREIRAFC.MaximumEntropyMarkovModelsforInformationExtractionandSegmentation;proceedingsoftheICML,F,2000[C].[93]MCDONALDR,PEREIRAF.Identifyinggeneandproteinmentionsintextusingconditionalrandomfields[J].BMCbioinformatics,2005,6(Suppl1):S6.[94]SETTLESB.ABNER:anopensourcetoolforautomaticallytagginggenes,proteinsandotherentitynamesintext[J].Bioinformatics,2005,21(14):3191-2.[95]HSUC-N,CHANGY-M,KUOC-J,etal.Integratinghighdimensionalbi-directionalparsingmodelsforgenementiontagging[J].Bioinformatics,2008,24(13):i286-i94.[96]SASAKIY,TSURUOKAY,MCNAUGHTJ,etal.HowtomakethemostofNEdictionariesinstatisticalNER[J].BMCbioinformatics,2008,9(Suppl11):S5.-104- 参考文献[97]SHIL,CAMPAGNEF.Buildingaproteinnamedictionaryfromfulltext:amachinelearningtermextractionapproach[J].BMCbioinformatics,2005,6(2):88.[98]SAHAS,EKBALA,SAHAS.ASupervisedApproachforGeneMentionDetection[M]//PANIGRAHIBK,SUGANTHANPN,DASS,etal.Swarm,Evolutionary,andMemeticComputing,PtI.Berlin;Springer-VerlagBerlin.2011:425-32.[99]WANGH,DINGY,TANGJ,etal.FindingcomplexbiologicalrelationshipsinrecentPubMedarticlesusingBio-LDA[J].PloSone,2011,6(3):e17243.[100]CILIBRASIRL,VITANYIPM.Thegooglesimilaritydistance[J].KnowledgeandDataEngineering,IEEETransactionson,2007,19(3):370-83.[101]HANDCOCKJ,DEUTSCHEW,BOYLEJ.mspecLINE:bridgingknowledgeofhumandiseasewiththeproteome[J].BMCmedicalgenomics,2010,3(1):7.[102]SHANNONCE.Amathematicaltheoryofcommunication[J].ACMSIGMOBILEMobileComputingandCommunicationsReview,2001,5(1):3-55.[103]ALAKOBT,VELDHOVENA,VANBAALS,etal.CoPubMapper:miningMEDLINEbasedonsearchtermco-publication[J].BMCbioinformatics,2005,6(10):51-15.[104]WRENJD.Extendingthemutualinformationmeasuretorankinferredliteraturerelationships[J].BMCbioinformatics,2004,5(2):145.[105]BUNDGAARDL,JACOBSENS,SORENSENMA,etal.TheEquinePeptideAtlas:aresourcefordevelopingproteomics-basedveterinaryresearch[J].Proteomics,2014,14(6):763-73.[106]SHANNONP,MARKIELA,OZIERO,etal.Cytoscape:asoftwareenvironmentforintegratedmodelsofbiomolecularinteractionnetworks[J].Genomeresearch,2003,13(11):2498-504.[107]FLETCHERCE,DARTDA,SITA-LUMSDENA,etal.Androgen-regulatedprocessingoftheoncomirmiR-27a,whichtargetsProhibitininprostatecancer[J].Humanmoleculargenetics,2012,21(14):3112-27.[108]MAY,YUS,ZHAOW,etal.miR-27aregulatesthegrowth,colonyformationandmigrationofpancreaticcancercellsbytargetingSprouty2[J].Cancerletters,2010,298(2):150-8.-105- 哈尔滨工业大学工学博士学位论文[109]FURUTAT,NAKADAM,MISAKIK,etal.Molecularanalysisofarecurrentglioblastomatreatedwithbevacizumab[J].BrainTumorPathol,2013,1-8.[110]LOPESCT,FRANZM,KAZIF,etal.CytoscapeWeb:aninteractiveweb-basednetworkbrowser[J].Bioinformatics,2010,26(18):2347-8.[111]ZHANGX,ZHANGR,JIANGY,etal.Theexpandedhumandiseasenetworkcombiningprotein-proteininteractioninformation[J].Europeanjournalofhumangenetics:EJHG,2011,19(7):783-8.[112]JIANGJJ,CONRATHDW.Semanticsimilaritybasedoncorpusstatisticsandlexicaltaxonomy[M].arXivpreprintcmp-lg/9709008.1997.[113]GUOX,LIUR,SHRIVERCD,etal.Assessingsemanticsimilaritymeasuresforthecharacterizationofhumanregulatorypathways[J].Bioinformatics,2006,22(8):967-73.[114]LEEI,BLOMUM,WANGPI,etal.Prioritizingcandidatediseasegenesbynetwork-basedboostingofgenome-wideassociationdata[J].Genomeresearch,2011,21(7):1109-21.[115]KANNMG.Proteininteractionsanddisease:computationalapproachestouncovertheetiologyofdiseases[J].Briefingsinbioinformatics,2007,8(5):333-46.[116]CHENJ,XUH,ARONOWBJ,etal.Improvedhumandiseasecandidategeneprioritizationusingmousephenotype[J].BMCbioinformatics,2007,8(1):392.[117]CHENGL,WANGG,LIJ,etal.SIDD:ASemanticallyIntegratedDatabasetowardsaGlobalViewofHumanDisease[J].PloSone,2013,8(10):e75504.[118]PAKHOMOVS,MCINNESB,ADAMT,etal.Semanticsimilarityandrelatednessbetweenclinicalterms:anexperimentalstudy;proceedingsoftheAMIAAnnualSymposiumProceedings,F,2010[C].AmericanMedicalInformaticsAssociation.[119]HEAGERTYPJ,ZHENGY.SurvivalmodelpredictiveaccuracyandROCcurves[J].Biometrics,2005,61(1):92-105.[120]FRIJTERSR,VANVUGTM,SMEETSR,etal.Literatureminingforthediscoveryofhiddenconnectionsbetweendrugs,genesanddiseases[J].PLoScomputationalbiology,2010,6(9):e1000943.[121]YANGL,ZHOUY,TANGZ.Literatureminingassociationsofdiseasesusinggeneontology;proceedingsoftheComputerScience&Education(ICCSE),20138thInternationalConferenceon,F,2013[C].IEEE.-106- 参考文献[122]BARRELLD,DIMMERE,HUNTLEYRP,etal.TheGOAdatabasein2009--anintegratedGeneOntologyAnnotationresource[J].Nucleicacidsresearch,2009,37(Databaseissue):D396-403.[123]BENJAMINIY,HOCHBERGY.Controllingthefalsediscoveryrate:apracticalandpowerfulapproachtomultipletesting[J].JournaloftheRoyalStatisticalSocietySeriesB(Methodological),1995,289-300.-107- 攻读博士学位期间发表的论文及其它成果攻读博士学位期间发表的论文及其它成果(一)发表的学术论文[1]LiangCheng,JieLi,YadongWang.Usingsemanticassociationtoextendandinferliterature-orientedrelativitybetweenterms.IEEETransactionsonComputationalBiologyandBioinformatics.(Accept).(IF=1.536).[2]LiangCheng,JieLi,YadongWang.SIDD:ASemanticallyIntegratedDatabasetowardsaGlobalViewofHumanDisease.PLoSone,2013,8(10):e99415.(IF=3.534).[3]LiangCheng,GuohuaWang,JieLi,YadongWang.SemFunSim:ANewMethodforMeasuringDiseaseSimilaritybyIntegratingSemanticandGeneFunctionalAssociation.PLoSone,2014,9(6):e75504.(IF=3.534).-108- 学位论文原创性声明本人郑重声明:此处所提交的学位论文《基^•本体的疾病数据整合与挖掘方法研究》,足本人在导师指导下,在哈尔滨工业大学攻读学位期问独立进行研%工作所取得的成果,且学位论文中除己标注弓Ift]文献的部分外不包含他人完成或已发表的研究成果。对本学位论文的研宂工作做出重要贡献的个人和集体,均已在文中以明确方式注明。作者签名:日期:年“R/《曰 致谢致谢五年的博士生活一晃而过,回首走过的岁月,心中倍感充实,论文即将完成之日,感慨良多。首先诚挚的感谢我的导师王亚东教授,从研究方向的选择、实验算法的讨论以及论文编写和修改工作,都是在导师的悉心指导下完成的,自始至终都倾注着导师的大量心血。自硕士阶段起我即求学于先生门下,多年来聆听教诲,耳濡目染,在学识和做人方面都获益颇丰。导师渊博的专业知识,严谨的治学态度,精益求精的工作作风,诲人不倦的高尚师德,严以律己、宽以待人的崇高风范,朴实无华、平易近人的人格魅力对我影响深远。不仅使我树立了远大的学术目标、掌握了基本的研究方法,还使我明白了许多待人接物与为人处事的道理,是我学习的楷模。感谢敬爱的导师,在今后的学习工作中,我将会用一生来回报导师的教诲。本论文的顺利完成,离不开各位老师、同学和朋友的关心和帮助。在此感谢李杰副教授和汪国华副教授,在科学研究中给我提供的实验思路和实验方法上的指导,在论文编写和修改过程中给我提出了宝贵的意见。感谢臧天仪教授、陶海军教授在工程项目中给与我的的指导帮助,使我的工程应用能力有了很大的提高。在学习期间,得到蒋庆华、刘博、邱爽、徐培刚、胡杨、姜岳、张德楠、刘永壮、彭佳杰、章天骄、初砚硕、王振兴等师兄和师弟的关心和帮助,在此表示深深的感谢。没有他们的帮助和支持是没有办法完成我的学位论文的,同窗之间的友谊永远长存。感谢生我养我,含辛茹苦的父母,是他们为我创造了学习的条件;是他们一如既往的站在我的身后默默的支持着我。为了论文和实验,少了很多陪伴他们的时间,心中甚感愧疚。父母永远健康快乐是我最大的心愿!同时,我要感谢我的爱人,没有她的帮助、体谅、包容和支持,相信这五年的博士生生活将是很不一样的光景。感谢你们,所有关心、支持和帮助我的老师、家人和朋友!我所能做的、仅能做的,就是给你们一个感恩的承诺和更加努力的拼搏。-110- 个人简历个人简历教育经历:2002年7月考入合肥工业大学计算机科学与技术学院,2006年7月本科毕业并获得工学学士学位。2007年9月——2009年7月在哈尔滨工业大学计算机科学与技术学院学习并获得硕士学位。2009年9月——2014年10月在哈尔滨工业大学计算机科学与技术学院计算机应用学科攻读博士学位。-111-

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭