结合蛋白水平的多组学数据整合识别基因功能及致病基因

结合蛋白水平的多组学数据整合识别基因功能及致病基因

ID:77834707

大小:1.49 MB

页数:76页

时间:2024-02-04

上传者:笑似︶ㄣ無奈
结合蛋白水平的多组学数据整合识别基因功能及致病基因_第1页
结合蛋白水平的多组学数据整合识别基因功能及致病基因_第2页
结合蛋白水平的多组学数据整合识别基因功能及致病基因_第3页
结合蛋白水平的多组学数据整合识别基因功能及致病基因_第4页
结合蛋白水平的多组学数据整合识别基因功能及致病基因_第5页
结合蛋白水平的多组学数据整合识别基因功能及致病基因_第6页
结合蛋白水平的多组学数据整合识别基因功能及致病基因_第7页
结合蛋白水平的多组学数据整合识别基因功能及致病基因_第8页
结合蛋白水平的多组学数据整合识别基因功能及致病基因_第9页
结合蛋白水平的多组学数据整合识别基因功能及致病基因_第10页
资源描述:

《结合蛋白水平的多组学数据整合识别基因功能及致病基因》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

中图分类号:TP391论文编号:102870317-SX024学科分类号:080401硕士学位论文结合蛋白水平的多组学数据整合识别基因功能及致病基因研究生姓名杨华冬学科、专业测试计量技术及仪器研究方向生物医学智能信息处理技术指导教师陶玲副教授南京航空航天大学研究生院自动化学院二О一六年十二月 NanjingUniversityofAeronauticsandAstronauticsTheGraduateSchoolCollegeofAutomationEngineeringIntegrationofmultipleomicswithproteinleveltoidentifygenefunctionanddiseasegenesAThesisinMeasurementTechnologyandInstrumentbyYangHua-dongAdvisedbyAssociateProf.TaoLingSubmittedinPartialFulfillmentoftheRequirementsfortheDegreeofMasterofEngineeringDecember,2016 承诺书本人声明所呈交的硕士学位论文是本人在导师指导下进行的研究工作及取得的研究成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得南京航空航天大学或其他教育机构的学位或证书而使用过的材料。本人授权南京航空航天大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本承诺书)作者签名:日期: 南京航空航天大学硕士学位论文摘要致病基因预测一直是生物信息学领域的一个核心问题,发现致病基因是理解疾病发生机制、协助临床判断和预防治疗的基础。近年来产生了越来越多的基于功能相似性的致病基因预测方法,然而在目前定位的26000多个基因中,约有42%的基因的功能是未知的,功能注释的缺失会导致一些疾病候选基因在预测中被忽视掉。而如果仅仅在基因水平对基因功能进行预测是片面的,作为生物体内各种功能的主要执行者,蛋白质表达与基因功能息息相关,这就需要结合蛋白水平数据研究基因的功能。基于此,本文将结合人类蛋白质组表达数据并整合其他多组学数据预测人类未知基因的功能,预测致病基因。本文主要工作内容如下:本文提出了新的基因功能预测方法Pemo,其基于结合了蛋白质表达量的多组学数据预测基因功能。首先分析通过质谱实验得到的人类蛋白质表达量数据,构建未知功能基因的相关系数矩阵,利用相互作用网络筛选假阳性结果,根据组织特异性和条件概率构建先验概率功能矩阵,通过两个矩阵的乘积对功能注释进行打分排序。接着利用序列信息,RNA-Seq数据和互作网络数据分别对未知基因的功能进行预测,最后Pemo整合这四种组学数据对基因注释。在此基础上,本文结合蛋白水平信息和功能注释计算候选基因与遗传疾病之间的相关性。首先计算遗传疾病与GeneOntology(GO)注释之间的关系,然后充分挖掘GO数据库功能注释之间的关系,综合考虑注释在GO结构中的距离和其父节点的交集,同时结合蛋白质表达量建立合理的评价机制,评估遗传疾病与基因的关系。在基因功能预测方面,本文首先比较了多种组学数据的预测结果,其中基于蛋白质表达数据集的方法在预测准确率上明显高于其他组学数据。然后分析了基于单一组学数据的预测和整合多组学数据的预测结果,证明Pemo整合多组学数据的策略是有效的,在结合了蛋白水平的信息后,预测准确率有了很大提高。比较Pemo方法和其他基因功能预测方法,在GO的三个方面Pemo的表现都是最好的。在致病基因预测方面,本文成功预测出胃癌、肺癌、乳腺癌和先天性心脏病等遗传疾病的致病基因,假阳性率也较低,在与其他致病基因预测方法进行比较时,本文方法的结果也是有优势的。在致病候选基因的相互作用网络图谱中,大多数致病基因参与共同的致病生物通路,其中一些参与程度较高的候选基因可能是潜在致病基因,有待今后实验进一步验证。关键词:遗传疾病,功能相似性,功能预测,蛋白质表达量。I 南京航空航天大学硕士学位论文ABSTRACTDiseasegenepredictionhasbeenacoreissueinbioinformatics.Andthedetectionofdiseasegeneisthebasisforunderstandingthepathogenesisofthediseaseandassistingintheclinicaljudgment.Withthedevelopmentofhighthroughputexperiment,largebiologicalinformationgetsrapidgrowth.Thereareagrowingnumberofcomputationalapproachestominetherelationshipbetweendiseasesandgens.Inrecentyears,alotofdiseasegenespredictionbasedonfunctionalsimilarityhavebeenproposed.Whileinthecurrentpositionofthemorethan26thousandgenes,42%ofthegenesfunctionsareunknown.Atruecandidategenecanbemissedifitlackssufficientannotations.Asthemainbiologicalactor,proteinexpressioniscloserwiththegenefunctions.Sotheproteomicsdatanewlyreleasedwasintegratedwithmultipleomicsdatatopredictgenefunctionanddiseasegenes.Inthiswork,anovelmethod,Pemo,wasproposedtointegratemultipleomicswithproteinexpressiondatatopredictgenefunction.Humanproteinexpressionobtainedfrommassspectrometrywasappliedtopredictgenesfunctions.Twomatrix,PearsoncorrelationcoefficientmatrixandfunctionprobabilitymatrixofGeneOntology(GO)termannotations,werebuilt.Thegenesrelatedwithunknowngenesarefilteredbygene-geneinteractionsdataandthegeneswhichrarelyinteractswithothergeneswouldberemoved.TheGOtermsscoreweregeneratedbymultiplyingthetwomatrixandtheGOtermswereannotatedaccordingtosortingthescores.Pemointegratesmultipleomicsdata,includingproteinexpression,proteinsequences,RNA-Seqandgeneinteractionnetworkdata,intoNaiveBayesianframeworktopredictgenefunctions.Comparedwithotheromicsdata,theproteinexpressionperformsbestonfunctionalprediction.Theintegratedmultipleomicsdatamakestheaccuracyhigherthanusingonlyoneomicsdatasetandafterintegratingproteinexpressiondata,theaccuracyofpredictionhasaclearlyimproved.AndthePemoalsowascomparedwithotherfunctionpredictionmethodsandprovidedbestrecoveryofannotationterms.Thentherelationshipbetweendiseasesandgeneswaspredictedbasedongenefunctionalsimilarityandproteinexpression.WecalculatetherelevancebetweendiseaseandGeneOntology(GO)termsandminetherelationshipofGOtermsinGOdirectedacyclicgraph.WhilecalculatingthesimilaritybetweenGOterms,thedistanceandtheintersectionoftheirparentnodesetswasconsideredtoevaluatetherelationship.Thediseasegenesweresuccessfullypredictedandgetalowerfalsepositiverate.Inthiswork,thepredictionresultsoffourdiseases,stomachcancer,lungcancer,breastcancerandcongenitaheartdiseasewereshowed.Aftercomparingwithotherdiseasegenespredictionmethods,theresultofthemethodisbetterthanothers.SomepotentialdiseasegenesareIII 结合蛋白水平的多组学数据整合识别基因功能及致病基因alsopredictedandneedbefurtherexperimentalvalidation.Keywords:diseasegene,functionprediction,proteinexpression,massspectrometry.IV 南京航空航天大学硕士学位论文目录第一章绪论............................................................................................................................................11.1引言...............................................................................................................................................11.2致病基因预测...............................................................................................................................11.3基因功能预测方法.......................................................................................................................21.4基于多组学数据进行基因功能研究...........................................................................................21.5整合蛋白水平研究基因功能及致病基因...................................................................................31.6论文研究的关键问题...................................................................................................................31.7论文的研究内容与安排...............................................................................................................41.8本章小结.......................................................................................................................................5第二章基因功能预测方法....................................................................................................................72.1引言...............................................................................................................................................72.2基因功能数据库...........................................................................................................................72.3基因功能预测方法的发展...........................................................................................................72.4基于不同组学数据的基因功能预测...........................................................................................82.4.1基于序列相似性的基因功能预测....................................................................................82.4.2基于生物网络的基因功能预测........................................................................................92.4.3基于结构相似性的基因功能预测..................................................................................112.5整合多组学数据的基因功能预测.............................................................................................122.6本章小结....................................................................................................................................13第三章结合蛋白水平的多组学数据整合预测基因功能方法研究..................................................143.1引言.............................................................................................................................................143.2数据来源.....................................................................................................................................143.3基于蛋白表达数据的基因功能预测.........................................................................................153.3.1相关性矩阵建立..............................................................................................................153.3.2通过基因互作网络筛选..................................................................................................163.3.3先验概率矩阵建立..........................................................................................................173.4PSI-BLAST迭代算法................................................................................................................193.5Match-and-Split算法..................................................................................................................203.5.1网络的局部匹配和模块划分..........................................................................................203.5.2Match-and-Split算法描述...............................................................................................21V 结合蛋白水平的多组学数据整合识别基因功能及致病基因3.6多组学数据整合策略.................................................................................................................213.6.1多组学数据整合的必要性..............................................................................................213.6.2原始数据的融合..............................................................................................................223.6.3输出结果的融合..............................................................................................................233.7方法优势.....................................................................................................................................243.8本章小结.....................................................................................................................................25第四章基于多组学的基因功能预测方法的结果与分析..................................................................274.1引言.............................................................................................................................................274.2蛋白表达数据的不完整性.........................................................................................................274.3多组学数据的统计结果比较.....................................................................................................294.4整合多组学数据的功能预测结果.............................................................................................314.5与其他三种经典方法的比较.....................................................................................................324.6对不同的GO注释的评价结果.................................................................................................344.7未知功能基因的功能注释.........................................................................................................364.8本章小结.....................................................................................................................................37第五章结合蛋白水平和功能信息的致病基因预测..........................................................................385.1引言.............................................................................................................................................385.2致病基因预测进展.....................................................................................................................385.2.1疾病与基因的关系..........................................................................................................385.2.2OMIM数据库..................................................................................................................385.2.3致病基因预测方法..........................................................................................................395.3致病基因预测.............................................................................................................................405.3.1功能间的相似性..............................................................................................................415.3.2基于基因与疾病相关性的致病基因预测方法.............................................................435.4多种遗传疾病的致病基因预测结果.........................................................................................445.4.1胃癌..................................................................................................................................455.4.2乳腺癌..............................................................................................................................475.4.3先天性心脏病..................................................................................................................495.4.4肺癌.................................................................................................................................515.5本章小结.....................................................................................................................................53第六章总结与展望..............................................................................................................................546.1本文工作总结.............................................................................................................................546.2研究方案与创新性.....................................................................................................................55VI 南京航空航天大学硕士学位论文6.3后续研究工作展望.....................................................................................................................55参考文献...............................................................................................................................................57致谢........................................................................................................................................................63在学期间的研究成果及学术论文情况...............................................................................................64VII 南京航空航天大学硕士学位论文图表清单图1.1总体研究方案...............................................................................................................................4图3.1与TTN强相关的基因的相互作用网络..................................................................................17图3.2ESG方法两层图谱....................................................................................................................19图3.3p-path相似匹配........................................................................................................................21图3.4原始数据融合模型.....................................................................................................................22图3.5结果融合模型............................................................................................................................23图3.6基于蛋白质表达量的基因功能预测流程图.............................................................................25图4.1蛋白质表达数据分布.................................................................................................................28图4.2不同数据集的功能预测结果.....................................................................................................29图4.3四种组学数据的功能预测结果.................................................................................................30图4.4整合多组学数据的功能预测结果............................................................................................32图4.5四种基因功能预测方法的功能预测结果.................................................................................34图4.6GO注释在四种方法中的表现.................................................................................................35图5.1GO结构示意图[83].....................................................................................................................42图5.2致病基因预测结果比较............................................................................................................45图5.3预测的胃癌相关基因的相互作用网络图谱.............................................................................46图5.4预测的乳腺癌相关基因的相互作用网络图谱........................................................................48图5.5预测的先天性心脏病相关基因的相互作用网络图谱............................................................50图5.6预测的肺癌相关基因的相互作用网络图谱.............................................................................52表4.1对在GO数据库中没有注释的基因进行功能注释的结果.....................................................36表5.1致病基因预测方法.....................................................................................................................39表5.2四种疾病部分致病基因的功能相似性分析.............................................................................44表5.3胃癌相关基因预测结果分析.....................................................................................................45表5.4胃癌的潜在致病基因.................................................................................................................47表5.5乳腺癌相关基因的预测结果分析.............................................................................................48表5.6乳腺癌的潜在致病基因.............................................................................................................49表5.7先天性心脏病相关基因的预测结果分析.................................................................................50表5.8先天性心脏病的潜在致病基因.................................................................................................51表5.9肺癌相关基因的预测结果分析.................................................................................................51IX 结合蛋白水平的多组学数据整合识别基因功能及致病基因表5.10肺癌的潜在致病基因...............................................................................................................53X 南京航空航天大学硕士学位论文注释表序号略写英文全称中文全称1GOGeneOntology基因本体论2DAGDirectedacyclicgraph有向无环图3OMIMOnlineMendelianInheritanceinMan人类孟德尔遗传在线4mRNAMessengerRNA信使RNA5BPBiologicalProcess生物学过程6CCCellularComponent细胞组件7MFMolecularFunction分子功能8RNA-SeqRNASequencing转录组测序技术结合蛋白质表达的多组学数9PemoProteinexpressionmultipleomics据XI 南京航空航天大学硕士学位论文第一章绪论1.1引言现代研究证明,人类遗传疾病都直接或间接的与基因有关,基因或者染色体发生突变往往导致疾病的发生,其中癌症更是严重威胁人类的生命健康。据报告,癌症患者数量增速幅度越来越大,根据近几年的情况,研究人员预测到2025年癌症患者将达到1900万人。因此,预防癌症的发生至关重要,而疾病基因预测就是预防疾病的关键问题。同时,高通量生物实验技术的发展使各种生物数据快速增加,从这些生物数据中挖掘有效的生物信息,研究遗传疾病和基因的关系成为新的研究热点。1.2致病基因预测基因是DNA分子上的有效遗传片段,控制生物的遗传性状,是决定生物特征的最基本因子。识别疾病相关基因有助于理解疾病的形成机制,同时对疾病的诊断非常重要,基因突变会导致各种疾病的发生。TP53基因编码p53蛋白,p53蛋白调控细胞的生长和分裂,能使细胞的生长周期停留在G/S节律点,等待DNA修复蛋白修复,如果无法修复,p53蛋白还会启动细胞凋亡程序,1以避免细胞出现不正常的分裂生长。Tp53基因在生物体内行使肿瘤抑制的重要功能,而基因突变导致TP53失去功能是人类癌症中很常见的事,TP53在GeneOntology中有调控细胞分裂生长,控制细胞凋亡等154种功能,是一个对人体非常重要的基因。TP53基因发生突变会导致人类多种癌症的发生,如李-佛美尼症候群等。在genecard数据库中,白血病就与FLT3、RUNX1和KMT2A等基因有关,先天性心脏疾病与ACE、TNF和IL6等基因有关。所以说对疾病相关基因的预测至关重要,例如,如果在一个家族中发现了某个体的基因发生突变,那么对还没有表现出症状的其他家族成员可以进行早期的诊断检测,如果有存在致病基因的成员可以预先预防控制。疾病关联基因预测方法使用了很多不同的生物信息,而Franke等人发现使用GO数据库进行预测的效果最好[2]。目前普遍接受的生物学假设是,功能相关的基因往往导致相同或者类似的疾病。利用基因的已知功能预测基因与疾病的关系的生物信息学方法也已经非常成熟,所以,如果我们知道了基因的功能就能对它们与疾病的相关性进行预测,这对研究人员发现疾病相关基因非常关键。1.3基因功能预测方法高通量生物实验技术的发展提供了各种类型的生物信息,如序列信息、结构信息和相互作1 结合蛋白水平的多组学数据整合识别基因功能及致病基因用信息等,这些生物信息大多在生物功能发生过程中发挥指导和调控作用,通过对这些信息的研究,我们可以预测这些基因在哪些生物学功能中发挥作用。GO数据库将注释分为了三个方面,分别是:细胞组件,生物学过程和分子功能。这三个方面的注释侧重于不同领域的功能,而不同组学的高通量数据可能蕴含着不同方面的功能,因此,在挖掘功能信息时,对同一组学数据来说,在注释三个方面的预测表现可能是不同的,在有的功能方面表现很好,在其他方面表现可能就会较差。也基于此,现在的基因功能预测方法很少在基于单一数据进行预测,大都使用体现的功能信息互补的数据进行功能预测。基因的生物学功能受多种因素影响和调控的。研究人员发现直系同源的基因往往具有相似的生物学功能,而直系同源的基因间的序列通常是相似的,所以在对一个未知功能的基因进行功能鉴定的时候,可以用未知基因序列信息与参考基因组中的基因进行序列比对,搜寻未知基因的同源基因。1999年Hegyi和Gerstein通过全面的分析证明了蛋白质的结构和其功能是关联密切的[3],在蛋白质行使功能的过程中,其结构也会相应的有所改变,也就说明结构信息可能暗示了蛋白质参与的生物学过程,相对于序列相似的两种蛋白质,结构相似的两种蛋白质更加可能具有相似的生物学功能。如果两个基因相互作用,那么它们一般会参与相同或相关的生物学过程,这样我们就可以通过分析基因在一个相互作用网络中的位置得到可能与其一起参与某个生物学功能的基因,从而得到揭示未知功能基因的线索。总的来说,这些生物信息都从不同的角度出发挖掘基因是如何参与到生物学过程的,而生物体内的信息多种多样,随着生物实验技术的发展,我们还可以应用更多生物信息进行功能预测。1.4基于多组学数据进行基因功能研究随着生物信息学的发展,基因功能预测方法进展也十分迅速,尽管计算方法无法像生物实验方法那样准确提供基因的功能,但是计算方法可以大规模的对基因进行注释,指导实验进行功能验证,大大提升了效率。从简单预测到复杂预测,基因功能预测方法经历了从基于单一数据预测到综合多组学数据预测的过程。单一数据源并不能提供一个基因完整的信息,而且使用单一数据进行功能预测时噪声影响较大。每种数据源所表现的基因的功能信息是不一样的,只有综合多组学数据预测才能获取基因的完整的功能,提高预测的准确率。序列相似的基因之间可能会有相似的功能,表达谱相似的基因之间也有功能联系,另外,功能相似的基因之间倾向于发生相互作用或成为复合物的一部分,三维结构相似的蛋白质之间也共享相似的功能。这些多组学数据都在不同的方面体现了一部分功能信息。而更准确的功能预测肯定是整合了这些多组学数据后的功能预测方法。如果基因在不同的数据源中表现出了同一功能,那这个被预测出的功能通常是可靠的。有2 南京航空航天大学硕士学位论文相似表达谱的基因倾向于在相互作用网络中形成紧密的功能模块[69],因此各种数据源不是独立的,它们之间相互联系,又体现功能的不同方面。1.5整合蛋白水平研究基因功能及致病基因在基因功能预测方法的发展中,受限于生物实验技术的不成熟和生物信息的缺乏,更侧重于在基因水平研究基因功能信息,然而蛋白质才是生物体内功能的直接执行者,研究表明蛋白质丰度仅仅只受部分转录产物或mRNA的调控,如果只在基因层面上研究功能必定会造成预测的基因功能信息的不完整。因此,我们将重点放在对蛋白质表达数据的研究。2014年,Science杂志公布了人类蛋白质图谱的分析结果,包括与人类癌症有关的蛋白质图谱。Min-Sik等人通过高分辨率的质谱实验呈现了一幅囊括了人体所有的器官和组织的蛋白质表达图谱[1],包括17个成人组织,7个胎儿组织和6个细胞系,识别了17294个蛋白质编码基因,占人类目前发现的所有蛋白质编码基因的84%[4]。研究人员还发现了新的蛋白编码区域,包括之前被认为是丧失正常功能的假基因,非编码RNA和上游开放阅读框,有2535个蛋白质编码基因在PeptideAtlas、GPMDB和neXtProt数据库中是没有被注为蛋白质编码基因的。基因转录产物的表达量并不能完全决定蛋白质的表达量,因此基于高精度质谱技术的蛋白质表达量必定会提供不同于基因水平和RNA水平的生物功能信息。本文就是借助质谱实验得到的蛋白质表达量对基因的功能进行预测,并将预测的结果与其他组学数据进行比较。预测的基因功能将被用来计算基因与遗传疾病的相关性,也就是说,功能预测的准确率越高,预测的基因与疾病的相关性越准确。1.6论文研究的关键问题通过对生物各类高通量数据及其信息的背景知识了解及功能预测算法的掌握,本论文研究的关键问题主要包括以下几个方面:(1)通过查阅文献了解目前为止研究人员所使用的所有基因功能预测方法,了解这些方法的优势和局限性,掌握这些方法所使用的算法及对预测结果如何统计。(2)掌握各种类型的生物信息的特征和意义,探索蛋白质表达数据与蛋白质功能的关系,研究如何利用蛋白质水平的生物信息将未知功能的基因和功能联系起来。(3)搜寻出与未知功能蛋白质联系密切的蛋白质组,根据其在相互作用网络中的表现去掉网络中的孤立点,有效控制假阳性率。(4)充分利用蛋白质表达数据中的组织特异性,利用组织特异性调整先验概率矩阵。(5)在疾病预测中,综合多个方面在GO的有向无环图中建立GO注释之间的关系,精确预测致病基因。3 结合蛋白水平的多组学数据整合识别基因功能及致病基因1.7论文的研究内容与安排本课题以蛋白质表达数据为基础,深入挖掘了蛋白质表达数据集的特征,并以矩阵的形式集合了具有相同特征的蛋白质表达数据,采用相互作用数据对结果矩阵进行严格筛选,有效控制假阳性率,然后建立基于GO数据库和组织特异性的贝叶斯网络,将未知功能的蛋白质与功能联系起来,用Precision-recall统计预测结果,并与基于其他数据的方法进行比较,最后综合多种数据进行功能预测,蛋白质表达数据明显的提高了功能预测的准确率。总体方案如图1.1所示。图1.1总体研究方案本文一共由六章组成,各章的主要研究内容及相关结果如下:4 南京航空航天大学硕士学位论文第一章绪论首先阐述致病基因预测研究背景及意义,接着介绍了论文研究的关键问题和总体研究方案,最后给出了整个论文的研究内容和结构安排。第二章基因功能预测方法主要介绍了基因功能数据的来源和基于不同数据的基因功能预测方法的研究进展,内容包括GeneOntology数据库的三个方面和DAG结构,基于不同数据的功能预测方法的原理、优势和局限性,学术界主流的基因功能预测方法等。第三章结合蛋白水平的多组学数据整合预测基因功能方法研究介绍了本文的研究原理,重点阐述了对蛋白质表达量数据所采用的功能预测方法,蛋白质表达数据基于guilt-by-association原理,使用皮尔逊系数计算相关性,相互作用网络筛选相关蛋白质组,贝叶斯网络计算功能的先验概率,使用矩阵封装两个集合。RNA-Seq数据类型和蛋白质表达数据类型相似,因此采用同样的方法计算。对于序列信息,未知序列输入到PSI-BLAST得到第一层序列相似蛋白质组后继续进行第二次迭代,减少了对同源性序列的依赖。使用match-and-split算法对相互作用网络进行局部比对,找到网络中的功能模块,并使用朴素贝叶斯网络对多种数据进行融合预测。第四章基于多组学的基因功能预测方法的结果与分析本章对不同数据的预测效果进行比较,并建立融合框架,综合了多种数据进行预测,并与只使用单一数据的预测方法进行比较,分析融合多种数据的优势。最后对源于蛋白质表达数据中的某些在GO数据库中没有注释的基因进行注释,并开展了对基因功能预测的后续研究,当我们预测出未知功能基因的功能,可以通过算法研究这些基因与疾病的关联程度,本章对预测出GO功能的基因进行分析,研究它们与遗传疾病的关系。第五章结合蛋白水平和功能信息的致病基因预测本章基于前面所述的功能预测方法,结合蛋白质表达量信息并利用功能间的相似性对疾病相关基因进行预测,并列举了胃癌、乳腺癌、先天性心脏病和肺癌的预测结果。第六章总结与展望对功能预测方法和致病基因预测进行总结,并展望了功能预测的前景,并且随着功能注释的准确性增加,致病基因预测也会越来越精确。1.8本章小结阐述了基因功能预测与致病基因预测的研究目的和研究意义,简单介绍了两者的研究背景,然后介绍课题研究的关键问题,最后给出了全文的章节内容安排。5 结合蛋白水平的多组学数据整合识别基因功能及致病基因第二章基因功能预测方法2.1引言现代生物信息学领域一个很重要的课题就是基因功能预测,当阐释一个生物学过程时需要准确的基因功能的信息,随着高通量测序技术的迅速发展,基因序列相关的数据库不断增加,所以我们要充分利用利用这些高通量数据,挖掘生物学信息。然而在数据库中,还有大量的基因功能仍然是未知的。当发现一个未知基因时,也缺少迅速有效的实验手段对基因进行功能注释。用实验的方法检测基因功能时,费时费力,不同的基因可能会用到不同的引物进行检测,这更增加了实验的难度。当用计算的方法预测出基因的功能后,如果能有较高的准确率,就会大大减小实验方法的工作量。2.2基因功能数据库基因的功能数据大多下载自GeneOntology数据库。1998年之前,人们对基因功能的描述是混乱的,在没有交流的情况下,不同的研究人员可能对同一个功能进行了不同的描述,这导致研究人员会花费大量的精力来查找其他研究人员发布的生物信息。基因本体(GeneOntology,以下简称GO)团队对基因和基因产物的功能进行统一的归纳和整理,使用统一的词汇来对基因功能进行描述,建立GO数据库,整合文献资料中对基因和蛋白质功能的描述,逐渐发展成为研究人员重点使用的功能数据库。基因本体论从三个方面描述基因及其产物的生物学功能,分别是细胞组件、分子功能和生物过程,涉及到2000多个物种。基因本体的结构是一个有向无环图,使用is_a、part_of和regulates描述GO功能之间的关系,三个根节点,分别是GO功能的三个方面,层数越高,功能越具体。例如GO功能生物过程正调节和生物过程负调节的父节点是生物过程调节,它们之间的关系是is_a的关系。将GO的术语和基因联系起来是一个很浩大的工程,而且对各个数据库的更新进行追踪转化也非常繁琐,单独靠一个组织是难以完成的。这就需要对GO认同的数据库更新了新的数据后,上传到GO数据库,以此保证GO数据库中对基因的注释始终是最新的。2.3基因功能预测方法的发展1995年第一次测定了全序列的原核生物[7],之后又有多种真核生物的全序列被测定[8],然后对这些基因的功能进行描述就成为了首要任务。同时,如果能够在高准确率的基础上对基因的功能进行注释可以提高人们对基因的认识,对基因和疾病之间的关系的认识。研究功能信息的实验方法主要有免疫交联法、酵母双杂交法、免疫共沉淀法和不连锁互补6 南京航空航天大学硕士学位论文突变缺失法[9]。尽管实验方法是传统生物学中常用的方法,但实验方法费时费力,如果单纯使用实验方法,可能要花很多时间才能确定靶基因的范围,而且远远无法满足大规模预测的需要。因此,利用生物信息学手段开发功能预测方法是十分必要的。在基因功能研究早期,通过序列比对对基因组进行功能注释,根据未知基因与已知基因的相似性系数,来对未知基因进行描述。但由于序列数据库中的数据来源复杂,可能由不同的研究人员提交,难以全面的进行检测,因此这些数据格式不规范,存在一定的错误,因此在对基因组进行注释的时候会发现并这些数据并不能满足要求,尤其研究人员使用脚本进行自动注释时,结果会由于数据的低质量出现很多错误,给数据库的使用者们造成了极大的不便。随着人们对基因和蛋白质的认识不断加深,开始利用基因及其产物的分子结构、相互作用关系[10]、基于表达谱的相关系数和进化关系等进行基因功能的研究。基因及其产物的功能预测方法可分为基于序列相似性预测、基于相互作用网络预测、基于结构相似性预测和综合多种数据的功能预测的方法,这三类方法各有自己的优势和缺点,本文列举了基于这三类原理的基因及其产物的功能预测方法,逐一进行分析。2.4基于不同组学数据的基因功能预测2.4.1基于序列相似性的基因功能预测基于序列相似性的基因功能预测方法是一类出现很早的方法,最先被研究人员使用。序列水平上的相似的基因,其基因功能也相似[11],这是基于序列同源性的预测方法的假设。它使用基因或蛋白质序列数据,使用序列比对工具,建立序列相似性模型,来对基因及其产物进行功能预测。目前,大型的基因序列数据库主要有GenBank、Ensemble等,资源非常丰富。序列信息蕴藏着生物性状形成的信息,指导基因及其产物发挥作用,在生物体内发挥着重要作用,因此目前应用最广的功能预测方法就是基于序列相似性预测,而对于预测的效果起决定的作用是序列比对算法。目前,有很多序列比对的软件,一般常用的算法主要有三个:(1)空位种子片段索引算法,首先选取序列的某一段建立索引,类似于哈希算法,当输入未知序列时,先查找索引进行大致定位,如果此索引结构包含多个序列,再进行延展匹配实现精确定位;(2)Smith-Waterman动态规划,经典软件有BLAST、SHRiMP等,通过字母的匹配、插入和删除操作,使相同的字母尽可能对应在同一位置,使两条序列长度相同,然后找出最优比对结果。(3)BurrowsWheeler转换法,经典软件有Bowtie、SOAP2和BWA等,通过B-W转化压缩基因序列,建立索引,当输入未知序列时,通过查找和回溯定位序列,通过碱基替换实现错配查找。最常用的序列比对工具有BLAST和PSI—BLAST,输入新的基因序列,会返回与新基因序列相似的基因,每个返回的基因和新基因之间会有一个E值,序列间相似度越高,E值越小。7 结合蛋白水平的多组学数据整合识别基因功能及致病基因然后通过这些相似性高的已知功能基因推断新基因的功能[12]。BLAST软件出现以后,有很多基于BLAST软件的方法被开发出来,如OntoBlast方法,把通过BLAST搜索得到的与未知基因相关联的基因赋予不同的权值[13],GOtcha在此基础上结合GO功能节点之间的关系产生新的权值[66],在恶性疟原虫的预测结果中,GOtcha的敏感性相比BLAST提高了20%。这种传统方法如果能找出新基因序列的同源基因序列,预测准确率会比较高,但当未知基因与通过比对软件搜索出的序列同源性较低时,预测效果较差,所以这种方法不能适用于孤儿基因,同时序列的同源性并不等同于功能的一致性[13]。所以这种方法有较大的缺陷,过分依赖了序列的同源性。KiharaBioinformatics实验室对传统的基于序列的相似性方法进行了改进,开发出PFP[14](proteinfunctionprediction)方法和ESG(extendedsimilaritygroup)方法,提高了预测的准确率,降低了这类方法对序列相似性的依赖[14,15]。TroyHawkins等人开发出PFP方法,在PSI-BLAST方法的基础上进行了拓展,对每个GO注释进行打分,考虑了多个方面,例如根据E值大小对序列进行排序,根据排序给序列分配不同的权重,建立功能相关矩阵,对注释之间的相关性打分等。PFP方法降低了对序列同源性的依赖,对一些只搜索出同源性低的序列的未知基因仍有较高的功能预测准确率,所以大大提高了预测准确率。MeghanaChitale等人在PFP方法的基础上开发出ESG方法。PFP方法使用了一层相似性序列,ESG方法把第一层序列继续迭代到PSI-BLAST,得到第二层与第一层序列相似的序列,以此类推,得到多层序列。依据多层图谱的亲缘相似性对序列进行GO功能打分。生物体内很多功能都是由基因或蛋白质之间相互作用完成的,因此对基因及其产物的功能预测应该考虑到基因间的相互作用[16]。2.4.2基于生物网络的基因功能预测随着蛋白质芯片技术的发展,大量的蛋白质相互作用数据也迅速增多,其中有些数据库还对每个相互作用提供了可信度得分,很多特定的功能是由多个蛋白质相互作用实现的,对于生物生长、发育,细胞分化、凋亡以及理解调控机制等生命活动至关重要。生物分子网络主要包括相互作用网络、生物代谢与信号传导网络和基因转录调控网络,这些网络概括了生物分子在生物体内发生作用的方式,很多复杂疾病通常是由于相关调控网络的异常造成的,而不能归因于单个分子的突变[17],所以通过生物网络来研究基因功能是非常有必要的。生物分子网络具有拓扑属性[18],利用节点和边来描述分子间相互作用,节点之间由边连接,每条边代表节点之间的相互关系,可以加权。若两节点v1和v2由同一条边连接,则v1和8 南京航空航天大学硕士学位论文v2是邻居关系。路径的长度是指两个节点之间边的数量,若加权网络还要乘以权值,最短路径是连接两个节点的所有路径长度最小的一条路径,反之则为最长路径。生物分子网络具有无尺度属性,大部分普通节点只与少数节点相连,而有少数高级节点与大量节点相连,这样在多数情况下如果去掉一些普通节点并不影响该网络的拓扑性,而如果去掉高级节点对整个网络会造成毁灭性的破坏。依据生物分子网络的这两个属性,通过图论和机器学习[19]等算法的运用,生物分子网络可以总结为两种结构模式,网络模体和网络模块。(1)直接注释法直接注释法即网络模体注释,网络模体是生物分子网络中少数节点按一定的拓扑结构连接而成,而且相对于随机网络这种模体结构富集出现,这种模体可以用来搜寻复杂生物网络中明显的特征模式,将相互作用网络、传导网络和调控网络中的功能实现模块提取出来。未知功能的基因所在的网络模体中,两个相互连接的基因可能拥有共同的功能[20],如果是一个加权网络,边可能代表两个基因之间的相关性或发生作用的可行度。直接注释法就是利用未知基因在生物网络模体中连接的所有已知功能的基因进行功能预测。Schwikowski等人把与未知基因相连接的功能中出现频率最高的三个功能赋予未知基因[21],这种方法对单层网络的评判太单一,忽视了两个相互连接的基因的其他关联,NRC方法评估发生相互作用的两种基因之间的相似性[22],根据它们在拓扑图上的位置计算它们之间的最短路径和它们共有的相邻基因,赋予不同的权重,尽管这几种方法简单有效,但是并没有充分利用网络的多层拓扑结构。之后Hishigaki等人利用未知基因的多层邻居解决这个问题。对于一2个未知功能蛋白质P,研究人员给赋予它的每个功能f打分,得分为ne/e,其中nffff是蛋白质P的n层邻居中功能f的个数,e是功能f在蛋白质网络中出现的频率值的期望[23]。f这个方法的缺点是并没有注意到未知蛋白质的n层网络中蛋白质间的距离,距离越远蛋白质间的关联性越弱。Chua等人在此方法的基础上解决了蛋白质间的距离问题,他们认为一旦蛋白质间的距离超过两层,蛋白质间的关联性就可以忽略,所以他们选用了未知蛋白质的前两层网络,并根据与未知蛋白质的距离赋予不同的权重[24]。FunPred-1方法考虑更加全面,使用三种得分评估网络模体,分别是蛋白质之间邻近的比率,蛋白质连接路径和不同功能之间的关联[25]。随着算法的改进,预测的准确率也在不断提升,FunPred-1方法利用酵母菌的650个蛋白质做功能预测准确率达到87%。(2)模块注释法模块注释法首先通过聚类的方法,把分散的基因相互作用网络聚类为多个功能模块,然后在每个功能模块中把注释了大多数基因的功能赋给该模块的所有未知基因。模块注释法可以分为两类:一类是只使用基因或蛋白质相互作用网络拓扑图的[26];另一9 结合蛋白水平的多组学数据整合识别基因功能及致病基因类是在相互作用网络拓扑图的基础上结合其他数据源来研究基因间的关系[27],如基因序列数据和基因表达量数据等。这两类方法首先都要有一个聚类的过程,相互作用网络要被聚类为一个个功能模块。Sharan等人提出了NetworkBlast算法来发现蛋白质相互作用网络的功能模块,相互作用网络中的蛋白质会被分配一个概率得分来确定更适合于哪个功能模块[28]。Sandhan使用层次方法中的凝聚型层次聚类算法划分相互作用网络,分成不同的功能模块[29]。Vladimir等人使用非负矩阵分解的算法来对相互作用网络进行聚类[30],非负矩阵分解算法把所有网络都融入到一个矩阵中分解为三个代表不同生物学意义的矩阵[31],得到基因和GO功能之间新的关系。GAS方法利用STRING数据库对检索与未知功能的蛋白质发生相互作用的蛋白质,并关联功能注释,形成这些蛋白质的功能列表[32]。聚类算法直接影响模块注释法的预测结果,研究人员总是希望能够聚类出参与生物代谢过程和生物学通路的功能模块,然而一些聚类的算法假阳性率比较高,而且我们无法直接去描述聚类算法的性能,只能通过预测结果间接观察。很多研究方法都会综合相互作用网络和其他的数据进行分析。GeH等人发现相互作用的基因趋向于拥有相似的表达谱[33],许多研究人员都使用了这个结论来进行基因功能预测,例如Luscomde等人提出了一种分两步进行的方法,先根据一定的条件提取表达量相似的基因,然后分析这些基因组成的相互作用网络和生物学网络的关系[34]。也有研究人员如Simonis等人使用相反的步骤进行分析,都提升了只使用相互作用网络方法的准确率[35]。2.4.3基于结构相似性的基因功能预测1999年Hegyi和Gerstein通过全面的分析证明了蛋白质的结构和其功能是关联密切的[36]。早期有研究人员将蛋白质的功能赋给与它结构相似的蛋白质,然而Goldsmith[37]等人用这种方法进行预测时发现准确率非常低,这样的结果是无法让人信服的。同时Hegyi和Gerstein也在论文中指出了一些蛋白质结构和其功能的联系,例如不同的折叠分类代表了不同的功能分类,α/β折叠就代表该蛋白质和酶有关系,特别是转运酶和水解酶。于是有一些方法如DAL1,SSM和GRATH首先就是对蛋白质的折叠结构进行匹配,搜寻与未知蛋白质相似的折叠结构[38-40],然而结果证明这种基于折叠结构搜索的方法限制性非常大,因为很多蛋白质演变过程中功能出现变化,而它们的折叠结构却未发生变化。所以研究人员开始转变思路,从蛋白质结构基序出发,研究蛋白质功能。蛋白质结构基序是一种基本的蛋白质结构,是功能相关的几个蛋白质共有的三维亚结构,与蛋白质的功能密切相关。比如最常见的螺旋-转角-螺旋(HTH)基序是两段螺旋被一个短的转角结构分开,具有这种基序的转录调控蛋白在胚胎发育和正常细胞分化的基因表达调节中有重10 南京航空航天大学硕士学位论文要作用,许多DNA结合蛋白中都存在螺旋-转角-螺旋基序。Benjamin和Patricia利用蛋白质基序与功能之间的关系开发出GASPS方法,该方法应用在烯醇酶、酰胺水解酶和烯酰水合酶等蛋白质上,找出它们的基序,然后利用已有的基序-功能关系对蛋白质功能进行预测[41]。Tong[42]等人开发出POOL(PartialOrderOptimumLikelihood)方法可以用来预测出与生物学功能相关的残基[42]。所以蛋白质结构基序的预测对蛋白质功能预测非常重要。目前的蛋白质结构预测可以分为两类,一是实验方法,利用X射线衍射蛋白质结晶,但过程复杂,费时费力;二是使用算法对结构进行预测,可以假设折叠后的蛋白质取能量最低的构象,通过分子力学和分子动力学进行结构预测,也可以统计的方法,对已知的结构进行统计分析,建立模板,用未知序列和模板进行比较,然后根据规律优化结构。Osipovitch等人开发了基于蛋白质结构基序的蛋白质功能预测工具ProMOL,改进了原有方法中人工建模板和需要人工不断优化参数的问题,用于筛选酶的活性位点,并测试了PDB数据库和酶催化位点数据库CSA的两个数据集,取得了比原来的方法更好的效果[43]。ProMOL有效的预测了酶活性位点。此类方法的缺点是只能利用现存的3D基序进行预测,无法应用到新发现的蛋白质基序上,所以通常都要综合序列信息或相互作用信息对蛋白质进行功能预测。2.5整合多组学数据的基因功能预测序列信息、结构信息和生物分子网络都是可以用来描述基因及其产物的生物信息,基因功能也与它们密切相关。由试验获得的生物数据呈现飞速的增长,传统的分析方法已经不能处理这种大规模的数据了,如何有效的筛选、存储和挖掘这些高通量数据成为生物信息学新的挑战[44]。在功能预测研究中,研究人员发现使用单一数据进行预测,假阳性率比较高[45],获取的基因功能信息一般具有片面性,仅仅只通过单一数据无法去除假阳性结果。所以很多研究方法都会综合生物分子网络和其他类型的数据进行分析[46]。近年来,越来越多的研究人员开始构建数据融合框架,综合多组学数据进行功能预测。Cao和Cheng开发出SMISS方法,使用了蛋白质序列信息和蛋白质相互作用信息进行功能预测[47],综合了三种概率得分(MIS,SEQ和NET)构建网络模型,MIS得分来自PSI-BLAST搜索的同源序列,SEQ得分来自蛋白质序列,NET得分来自蛋白质间的相互作用,SMISS方法对2011CAFA提供的数据进行测试[48],取得了很好的效果,发现综合两种数据预测的结果要好过分别使用两种数据预测的结果。所以使用高效的算法来综合组学数据的效果可能要好过单独使用一类数据的预测效果。Bi-TMF方法综合蛋白质相互作用数据,蛋白质序列和系统发育谱数据对蛋白质进行注释[49],建立未知功能蛋白质在不同的数据源中与已知功能蛋白质的11 结合蛋白水平的多组学数据整合识别基因功能及致病基因关系拓扑图谱,通过提高集成分类器的性能,来提高功能预测的准确率。INGA综合运用CONSENSUS,BLAST,FRAM和STRING等软件或数据库来过滤相互作用网络,进行序列比对,转换注释,识别作用域,推断同源性,使用CAFA的数据进行评估,预测结果进入了总排名前十位[50]。Mostafavi和Morris提出使用网络加权和NWS(NetworkWeightingSum)方法合并所有网络[51]。rW*W(2.1)1针对r个网络矩阵,为网络的权重。通过最小化最小二乘误差解决合并后的矩阵Wtar和靶网络W之间的约束线性回归问题,以此来确定的值。tarTtarargmintr((Ww)(Ww))(2.2)Ftartartar其中,靶网络W是一个功能标签集F{f1,f2,...,fm},由WWf确定。f1但是这些算法将对网络复合模型的优化和基因功能的预测分割开来计算,这样模型优化的结果可能并不会对功能预测产生有利的影响[52]。MNet方法将综合的网络模型和功能预测统一到一个目标函数[53],同时对不同类型的数据调整权重,对各个数据网络进行优化,并利用酵母菌,人类,小鼠和果蝇的数据进行测试,与ProMK,OMG和LIG方法进行比较[54-56],MNet方法的结果在GO注释的三个方面都拥有比其他方法更好的稳定性。2.6本章小结本章主要介绍了标准化功能数据库GeneOntology和基因功能预测方法的发展,并根据数据类型的不同从四个方面进行了功能预测方法的阐述,分别是基于序列信息、相互作用网络、结构信息和综合多种信息的基因功能预测方法,分析了它们的优势和局限性。针对单一数据的预测有其固有的缺陷,无法充分挖掘各方面的基因功能,本章着重介绍了综合多种类型数据的功能预测方法。12 南京航空航天大学硕士学位论文第三章结合蛋白水平的多组学数据整合预测基因功能方法研究3.1引言分子生物中心法则描述了从DNA到mRNA和从mRNA到蛋白质的信息传递,鉴于这种关系,mRNA和蛋白质的丰度理应被认为是紧密相关的,然而研究人员研究了细胞的RNA水平和蛋白质水平,结果显示两者之间丰度的惊人不一致。事实上,从DNA到mRNA到蛋白质存在着三层调控:转录水平调控,翻译水平调控和翻译后水平调控,而且蛋白质才是生物体内各种功能的直接执行者,如果仅仅从基因水平研究基因功能预测,必然会使预测得到的功能信息的不完整。本课题从蛋白质水平出发,将蛋白质表达量应用于基因功能预测,使用Python脚本语言开发出基于蛋白质表达量的基因功能预测算法,使用皮尔逊系数对蛋白质表达量进行分类,使用相互作用网络进行过滤,使用贝叶斯网络计算先验概率,使用Python的numpy模块集成矩阵,并综合多种类型的数据进行功能预测,使用Precision-recall和F1measure对预测结果进行统计分析。在本章节中,我们展示了基于蛋白质表达量的功能预测结果,并与基于序列信息、相互作用信息和RNA-Seq数据的方法相比较,其中,基于序列信息的方法采用PSI-BLAST迭代算法,基于相互作用网络的方法采用Match-and-Split算法[57],由于RNA-Seq数据类型和蛋白质表达量数据类型类似,因此我们采用与其相同的算法进行功能预测。最后,本文提出Pemo方法整合多组学数据对基因进行功能预测,并与其他预测方法进行比较,进而基于功能相似性预测疾病与基因的关系。3.2数据来源本课题的蛋白质表达量来自MathiasWilhelm等人的质谱实验,包括17294个蛋白编码基因在人类30个组织中的表达量,其中有6个胎儿组织,17个成人组织,7个细胞系,占人类体内发现的所有蛋白编码基因的84%,并且还发现了2535个还没有被一些大型蛋白质组学数据库收录的蛋白编码基因。RNA-Seq数据下载自HPA数据库(www.proteinatlas.org),人类蛋白质相互作用数据下载自InAct数据库。人类GO功能注释下载自GeneOntology数据库(http://www.geneontology.org)[58]。蛋白质序列数据从UniProt数据库获得,UniProt数据库提供有关蛋白质氨基酸的最新信息,与30多个数据库建立了交叉引用。蛋白质序列数据来自Uniprot数据库,Unipot数据库被公认为是收录最广泛和最全面的蛋白质数据库,整合了TrEMBL、Swiss-Prot和PIR-PSD三个数据库,在Uniprot数据库中,每条不同的序列只有一个编号,无论是否是来自同一个物种,只要序列相同就合并为一条。13 结合蛋白水平的多组学数据整合识别基因功能及致病基因Unipot数据库的数据主要是在基因组测序完成以后获得的蛋白质序列,还包含了大量文献中的生物功能信息。下载得到的数据格式主要为FASTA和SwissProt两种格式。本文的相互作用数据下载自InAct,InAct数据库整合了包括DIP、BIND等公开的数据库。数据库中的数据来源于各种实验结果,既有小规模的实验结果,也包括高通量的实验结果,并且数据库中对每一个实验所涉及的内容都有详细的说明,包括实验平台、检测方法、实验时的条件等等,InAct还可以生成用户所选择的蛋白质相关的相互作用网络图。数据库数据格式采用国际蛋白质数据标准PSI,使数据下载后的处理非常方便。3.3基于蛋白表达数据的基因功能预测蛋白质是生命活动的重要的物质基础,也是生物信息学研究的中心之一,遗传信息的复制、转录和表达都要依靠各种蛋白质的协助完成,在生命活动中起着重要作用,蛋白质可以作为有机体新陈代谢过程的催化酶和有机体的结构成分,在激素功能、免疫反应、传递信息和调节控制细胞的生长、分化等生物过程中起重要作用。因此,本文的研究重点就是在蛋白水平上研究基因的功能。在基因功能预测方法中一个普遍原理是guilt-by-association,即把对基因的功能求解转换为通过生物学关系,求解与未知功能基因相关联的已知功能基因。一对基因的相关性越强,说明这两个基因联系越紧密,那么这对基因在功能上的联系也就越强。本课题认为如果两个基因在蛋白水平上有相似的蛋白表达谱,则这两个基因具有相似的功能。这样我们就把求未知基因的功能问题转化为求与未知基因相关性强的已知基因的问题。本课题使用蛋白质表达数据、RNA-Seq数据、相互作用数据和蛋白质序列四种进行基因功能预测,GO对基因及其产物的功能是从三个方面进行阐释的,分别是分子功能,生物学过程,细胞组件,本文也对基因的这三方面功能进行了预测,并用Precision-recall统计结果进行比较,观察质谱实验得到的基因表达量数据在功能预测上是否具有优势。同时,综合不同的数据进行功能预测并比较,观察蛋白质表达量数据是否可以明显提高基因功能预测的准确率。最后与经典的功能预测方法ESG、PFP和Prior的结果进行比较[59,60],并用F1measure进行统计。3.3.1相关性矩阵建立将蛋白质表达数据按已知功能基因和未知功能基因分成两个数据集,从已知功能基因蛋白表达集中取一个基因作为未知功能基因的蛋白表达量ge,计算g与数据集中其他基因uuge,ge,…,ge的皮尔逊相关系数,构建ge基因的相关系数矩阵M。12nuu_cos1ngeujgeugeijgeiR()()(3.1)uin1j1ssgeugei14 南京航空航天大学硕士学位论文Rui代表gu和gi的相关系数,n代表人体组织数量,geij代表gi基因在第j个组织中的表达量,sgeu代表gu基因在30个组织中表达量的标准差。如果Rui小于0.6,那么我们认为这两个基因不是强相关,则舍弃gi基因。如果Rui大于0.6,那么这两个基因被认为是强相关,它们之间是有功能上的联系,那么我们把相关系数Rui放入g基因的相关系数矩阵M,假设此系数矩阵的维度为1*m。iu_cosM[RR...R](3.2)u_cos12m两个变量的相关系数越高,从一个变量去预测另一个变量的准确率越高,因为相关系数越高,两个变量的变化趋势相同的部分越多,所以从一个变量的变化出发就能越多的预测另一个变量的变化。这是一个皮尔逊相关系数矩阵,矩阵中的所有系数都大于0.6,与未知功能基因是强相关的,我们认为它们在功能上是有联系的。3.3.2通过基因互作网络筛选在3.3.1节计算两个蛋白质表达量的相关性时,两个蛋白质并不是在所有的组织中的表达量都能提供充足的信息,因此,在相关性矩阵中可能会存在与未知基因弱相关的基因。为了减少相关性矩阵中结果的假阳性率,我们使用基因间的相互作用网络对相关基因进行筛选。在相互作用数据中取出相关性矩阵中的所有基因,并建立这些基因的相互作用网络,如果有基因很少或没有与其他基因发生相互作用,这些基因则被认为是孤立的,与其他基因没有功能上的联系。图3.1中的所有基因都是与未知功能基因TTN强相关的基因,大部分基因都会和其他很多基因发生相互作用,在图中表现为蓝色,但也有一部分基因只与其他基因发生一次或者不发生相互作用,图中表现为红色的部分。例如JUP基因只与DSP基因发生了相互作用,PCAW2基因没有与任何基因发生相互作用。我们认为在图3.1中被标注为红色的基因就是孤立基因,很少与其他基因有功能上的联系。通过这个相互作用网络,我们把孤立基因从相关性矩阵M中删除,得到一个新的相关性矩阵。u_cos15 结合蛋白水平的多组学数据整合识别基因功能及致病基因图3.1与TTN强相关的基因的相互作用网络3.3.3先验概率矩阵建立我们建立了与未知基因强相关的基因组矩阵,存储了它们的相关系数,接着通过这个相关系数矩阵将未知基因与GO注释联系起来,在GO注释文件中,GO注释在一个基因中发生是一个概率问题,因此我们要计算每个GO注释发生在相关基因组中的先验概率。构建g基因u功能得分矩阵M。对于GO功能注释GOj,设g基因是与g基因功能强相关的基因,并u_funciu通过了相互作用网络的筛选,计算在g基因功能发生的情况下,GOj的得分:iP(GO,GO)count(GO,GO)jkjkP(GO|GO)(3.3)jkP(GO)count(GO)kkNfunc(i)P(GO|GO)jkfg(GOj)(3.4)iP(GO)k1kN是g基因的所有功能注释的数量,GO是属于g基因的功能,f(GO)是注释func(i)ikigijGOj发生的先验概率。利用上边的公式得到功能矩阵:16 南京航空航天大学硕士学位论文fg1(GO1)fg1(GO2)...fg1(GOz)f(GO)f(GO)...f(GO)Mg21g22g2zu_func(3.5)............fgm(GO1)fgm(GO2)...fgm(GOz)蛋白质表达数据包括基因在人类30个组织中的蛋白水平的表达量,基因在不同的组织中特异性表达,如肌肉的肌动蛋白基因和红细胞的血红蛋白基因等。本文根据基因在30个组织中的表达情况构建组织特异性GO注释如下:GGOGO...GOhearth1h2hn1...Gtissue(3.6)...GGOGO...GOlungl1l2ln2每个组织的系数集合代表与该组织密切相关的功能注释。将此功能集合融入功能矩阵M中,对于基因g1来说,如果它在多个组织中高表达,则取这些组织的特异性注释的并u_func集,调整M中对应GO注释系数为:u_funcge1_tissueC(3.7)g1_tissuege1Gn(1)Cg1_ii1C(3.8)g1Gn(1)C是基因g1在tissue组织中的组织特异性GO注释集合的系数,Gn(1)表示g1在几g1_tissue个组织中表现出特异性,C为基因g1在表现出多个组织特异性时的GO注释集合的系数。则g1矩阵M被调整为:u_funcCg1*fg1(GO1)fg1(GO2)Cg1*fg1(GO3)...fg1(GOz)f(GO)C*f(GO)f(GO)...f(GO)g21g2g22g23g2zM(3.9)u_prior...............Cgm*fgm(GO1)Cgm*fgm(GO2)fgm(GO3)...fgm(GOz)这是一个m×z矩阵,m是相关系数矩阵M经过相互作用网络过滤后基因的个数,zu_cos为GO注释的个数,相关系数矩阵M和先验概率矩阵M相乘得到g基因的功能得u_cosu_prioru分矩阵:MMM[ss...s](3.10)u_scoreu_coeu_priorGO1GO2GOzSGO1为g基因对功能注释GO1的得分,相关系数矩阵M的每个元素与功能矩阵uu_cos17 结合蛋白水平的多组学数据整合识别基因功能及致病基因M对应的列元素相乘相加,然后归一化得到sGO1得分,表示未知功能基因与这个GO注u_prior释的相关程度。将功能得分矩阵转化为列表,然后排序,筛选掉得分过低的GO注释,与g基因在GOu数据库中的功能注释进行比较。采用Precision-recall指标对最后结果进行统计分析。Precision是预测准确率,recall为预测的GO注释中正确的比例。3.4PSI-BLAST迭代算法蛋白质序列是由20种基本氨基酸组成的残基链,蛋白质序列的相似性体现了蛋白质间的进化关系和分子功能方面的信息共享,对于某些特定的功能可能是由特定的子序列实现的,如果能比对出这样的子序列,我们就能对未知功能的序列进行功能预测。蛋白质序列是蛋白质最基本的信息,对蛋白质的结构、在细胞中的位置和生物体内的发挥的作用起着决定性作用,因此目前应用最广的功能预测方法就是基于序列相似性预测,取得了很好的效果。基于序列信息的方法采用PSI-BLAST迭代算法预测基因功能。PSI-BLAST是一个局部序列比对检索工具,可以用于将核苷酸序列、蛋白质序列等与数据库内一致的数据比对检索,找出相似的序列。图3.2ESG方法两层图谱如图3.2所示,首先,使用PSI-BLAST对一个未知功能的蛋白质序列QuerySequence进行相似性检索,结果包括与未知序列相似的已知功能序列和E值,Sequence1,Sequence2,……,SequenceN,E值越小表示两者之间相似度越高,这是第一层相似蛋白质组,然后会在第一层的基础上继续迭代,得到第二层相似蛋白质组,如果继续迭代下去还会得到多层相似蛋白质组,在这里我们使用两层的相似蛋白质组。对于未知功能的蛋白质QuerydSequence在单层迭代中我们定义它拥有某个GO注释f的概率为P(f):aQa18 南京航空航天大学硕士学位论文1ifSifaannotationIS(fa){(3.11)i0otherwiseNdPQ(fa)Wi*ISi(fa)(3.12)i1E为第Sequencei与未知功能蛋白质序列QuerySequence的相关程度,Sequencei会被赋i予一个权W值,代表它的相关性在N个Sequence相关性中所占比例。I(f)是SequenceiiSia是否拥有GO注释f。a对于第一层序列,我们使用PSI-BLAST进行第二次迭代,对于第一层的某个序列Sequencei,通过迭代,我们得到N个与其相似的蛋白质序列S(i为层数,1<=j<=N),同iiji样每个序列都有一个权值W,通过公式(3-9)计算得到。ij在第二层相似蛋白质组中,S拥有GO注释f的概率为iaNidPSi(fa)v*ISij(fa)(1v)*Wij*ISij(fa)(3.13)j1参数v(0<=v<=1)是由S和其下一层序列共同决定的。i综合第一层和第二层的相似蛋白质组,得到未知功能蛋白质拥有GO注释f的概率为:aNdPQ(fa)Wi*PSi(fa)(3.14)i1这个概率得分减小了未知功能基因对第一层序列也就是同源序列的依赖,即使得到的相似序列组中同源序列很少时,也能保持相对较好的准确率,这有助于提高整体的预测准确率。基于PSI-BLAST多层迭代的方法的预测准确率要明显好于基于BLAST的单层预测方法。3.5Match-and-Split算法对于相互作用网络,我们应用Match-and-Split算法挖掘功能模块,进行功能预测,并与其他数据的预测效果相比较。3.5.1网络的局部匹配和模块划分Match-and-Split比对算法基于分治策略,采用模块化思想进行两对相互作用的比对。该算法由匹配和分裂两部分组成,匹配是对来自两个网络中的节点进行匹配,如果没有匹配上就删除,分裂是在匹配过程中有节点删除时,相应网络进一步划分[61],这两个过程进行下去直到模块无法进行划分,此时这些不能再划分的模块就是满足匹配规则的保守子网络。在进行节点间匹配时,Match-and-Split提供了两种匹配规则,p-path规则和s-similar规则,19 结合蛋白水平的多组学数据整合识别基因功能及致病基因前者是两个节点之间路径的匹配,后者为两个节点邻居间的匹配,本文选取了p-path匹配。p-path中的p指的是路径的长度,图3.3为基于p-path的相似匹配,其中a和a、b和121b、c和c分别相似,这两个网络被认为是一个保守的功能模块。212基于1-path的相似匹配基于2-path的相似匹配图3.3p-path相似匹配3.5.2Match-and-Split算法描述输入:两个生物网络G和H,计算G和H对应位置的定点间的相似度,相似度通过序列比对计算得到,可以用来描述匹配关系。算法描述:(1)基于p-path匹配规则对网络G和H的顶点集合进行匹配;(2)删除没有匹配的顶点,导出新的网络图G`和H`;(3)计算G`和H`的连通性,将G`和H`划分为模块组;(4)对G`和H`划分为模块组递归上述匹配和划分,直到两个子网络完全匹配为止。输出:G和H中匹配的保守功能模块。3.6多组学数据整合策略3.6.1多组学数据整合的必要性基因功能预测是后基因时代的一个热点,随着实验技术的不断发展,涌现出大量的基因水平和蛋白质水平的共同量数据,如何利用这些数据是一个关键问题,研究发现,通过单一数据进行功能预测效果往往不佳,可以概括为两个原因(1)高通量数据一般都有很高的噪声,比如蛋白质相互作用网络本身就有很高的噪声且不完整,高通量技术得到的相互作用网络包含大量的误报和漏报[62],有研究人员指出酵母双杂交实验所得到的相互作用数据的误报率可达50%。由于噪声过大,依靠单一数据例如序列信息进行功能预测并不能提供可靠的结果[63]。(2)功能类的数目很大,功能的发生受很多因素影响,所以单一数据提供的信息是有限的,这可能导致单一数据在某一功能类别表现较好,而在其他类别表现很差。20 南京航空航天大学硕士学位论文使用多种数据共同预测可以形成信息互补,可以进行多重筛选,如果一个基因在多种数据中都表现出同一种功能,那么这个功能往往是可靠的,从不同角度度量同一特征会使生物信息更加值得信任,会有效解决上述问题。Segal等人假设在一段生命活动中,有相似表达模式的基因或基因产物倾向于拥有相同的功能[64],依据这一假设,Segal根据基因共表达模式特征提取功能模块,发现它们在基因相互作用网络中也形成了联系紧密的密集功能模块,因此各种数据都不是相互独立的。当然,前期的工作即基于单一数据集预测功能对多数据融合是非常重要的,特别是在系统发育分析、GO的分层结构和分析GO注释在多个高质量的数据共同注释方面起到了重要作用[65,66]。本文使用的数据主要有蛋白质表达数据、蛋白质序列数据、基因相互作用数据和RNA-Seq数据,涉及了基因水平和蛋白水平,可以提供全面的功能信息,然而值得注意的是有两点因素无可避免的会影响最后的结果:(1)某种数据提供的信息在其他数据中都没有体现,这种信息仍然可能有噪声;(2)由于实验技术所限,即使基因本体论数据库一直在不断完善,还有很多基因功能仍未被挖掘,数据库可能无法提供足够的生物信息,这导致预测中可能会遗漏一些未知的信息。多种数据融合在机器学习领域和数据挖掘领域是一个重要问题,这个问题可以分为两种类型的方法:原始数据的融合和输出结果的融合[67]。3.6.2原始数据的融合原始数据融合是将所有数据使用相关算法融合成单一网络,然后对融合后的网络进行处理。原始数据融合模型如图3.4所示。数据1......数据i数据n......合并后的网络结果图3.4原始数据融合模型如图3.4所示,MNet方法将综合的网络模型和功能预测统一到一个目标函数,同时对不同类型的数据调整权重,对各个数据网络进行优化[68]。21 结合蛋白水平的多组学数据整合识别基因功能及致病基因tar每个数据类型都会被分配一个权重,融合网络W和靶网络W之间的线性回归问题通tar过最小化最小二乘误差解决,W由GO注释集F{f,f,...,f}确定。12mtarTtarargmintr((WW)(WW))(3.15)T为矩阵的转置操作符。朴素贝叶斯模型也常常被用于融合多数据源,前提为它们之间互相独立。最终合并后的网络的权重矩阵为:rW1(1W)(3.16)rr其中,r为数据源的个数,W是每个数据源的权重矩阵。XingliGuo等人使用朴素贝叶斯模型融合蛋白质相互作用和基因表达数据预测长非编码RNA的功能[69],取得了很好的预测效果。同时这种融合策略也有其固有的缺陷,由于不同的数据类型有着不同的尺度和维度,原始数据的融合面临着模型参数难以选取的问题,而且融合后的网络必然会丢失原始数据的一些信息,这是无法避免的。在本文中,我们使用不同的算法处理不同类型的数据,尽量保持原始数据的信息完整。3.6.3输出结果的融合输出结果的融合不同于原始数据在数据层面的融合,通过不同的算法获取每个原始数据计算得到的GO注释的得分向量,融合每个GO注释所有的得分构成最后的得分结果。结果融合模型如图3.5所示。......数据1数据i......数据n............结果1结果i结果n结果融合策略融合结果图3.5结果融合模型该模型对每种不对每种不同类型的数据用不同的算法进行基因功能预测,得到基因对GO22 南京航空航天大学硕士学位论文注释的得分,对于每个基因的每个注释得分进行综合,计算出新的功能得分赋给基因。Lan等人用了K邻近算法计算蛋白质在不同数据中的邻近蛋白[70],构建邻近网络图,并使用直接邻居法对GO注释打分,然后对不同数据源的得分求平均值。nSj(proteini)(3.16)j1Score(protein)inn为数据集的个数,S为得分。结果融合模型要分别对每个数据源进行训练学习,效率较低,同时和原始数据融合模型一样,结果融合模型也无法避免的会丢失一些信息。3.7方法优势如流程图3.6所示,本文基于蛋白质表达量的算法首先使用皮尔逊系数计算出与未知功能蛋白质表达相似的蛋白质组,使用相互作用网络筛选,降低假阳性率,使用贝叶斯网络计算功能的先验概率,用蛋白表达特异性调整矩阵。在多种数据融合中,使用PSI-BLAST序列比对软件进行迭代,减少对同源性的依赖,使用match-and-split算法对相互作用网络进行局部比对,最后用朴素贝叶斯模型对各个数据的结果进行综合。本文方法的优势主要包括:(1)蛋白质作为基因表达的最终产物,是生物体内功能的直接执行者,本文采用质谱实验得到的人类蛋白质表达图谱,数据可靠,之前从来没有被研究人员用来进行功能预测。(2)对于通过皮尔逊系数计算得到的相关蛋白质组,进一步使用相互作用网络过滤,大大降低了结果的假阳性率。(3)本课题提出了基于组织特异性调整功能矩阵,充分利用了基因在不同组织中的特异性表达,使预测结果更加准确。(4)综合了基因水平和蛋白质水平的高质量数据,几种组学数据对基因功能预测的贡献是互补的,第四章基因功能预测结果也体现了这一点。23 结合蛋白水平的多组学数据整合识别基因功能及致病基因蛋白质表达数据N基因功能是否已知?未注释的基因guY与gu强相组织特异条件概率关?删除Y先验概率矩阵加入相关性矩阵过滤互作网络过滤后的相关性矩阵最终得分矩阵图3.6基于蛋白质表达量的基因功能预测流程图3.8本章小结本章介绍了各种数据的来源,重点阐述了针对蛋白质表达量数据所采用的功能预测方法,包括相关性矩阵建立、相互作用网络筛选和功能相关矩阵的建立,并简单介绍了结果的统计分析方法。单独的蛋白质表达量的功能预测结果并不能说明问题,必须要将此结果与基于其他数据的预测结果进行比较,所以针对蛋白质序列信息描述了PSI-BLAST迭代方法,先将未知序24 南京航空航天大学硕士学位论文列输入到PSI-BLAST序列比对软件中,得到第一层相关蛋白质组,再将第一层蛋白质组输入到PSI-BLAST中得到第二层相关蛋白质组,针对相互作用网络细的描述了Match-and-Split算法,进行p-path的局部匹配和模块划分,挖掘功能模块。25 结合蛋白水平的多组学数据整合识别基因功能及致病基因第四章基于多组学的基因功能预测方法的结果与分析4.1引言单一数据只是体现了生物学功能的某一方面,每种数据只能获得基因某一方面的功能特性,而生物功能是受很多因素影响的。Pemo方法基于朴素贝叶斯网络整合多组学数据进行预测,综合后的预测结果要好于单一数据的预测结果,同时加入蛋白质表达量数据集后,使得功能预测结果有了很大的提升,说明了蛋白质表达数据与其他数据在表现基因功能方面的互补性。此外本章使用两种统计方法比较了Pemo方法与其他的基因功能预测方法,结果显示Pemo的预测效果是最好的。4.2蛋白表达数据的不完整性蛋白质表达数据是17294个蛋白编码基因在6个胎儿组织,17个成人组织,7个细胞系中的蛋白表达量,在17294个基因中,有相当一部分基因在大部分组织中是不表达的,在这些组织中,它们提供的功能信息是有限的,这必然会影响相关性的计算。如果使用整个蛋白质表达量数据集,相关性矩阵中必然存在很多假阳性结果。对此根据蛋白质在30个组织中表达量小于10的组织个数,蛋白质表达数据被分为六组,分别计算基于这六组数据的基因功能预测效果,观察这六组数据的预测结果。分为六组的蛋白质表达数据中蛋白编码基因的数量如图4.1所示,图中可见有7264个蛋白编码基因在至少25个组织中的蛋白表达量小于10,占了整个蛋白表达数据集的60%,对于这些基因,我们只知道它在这至少25个组织中表达量很低甚至不表达,对于它们在哪些组织中大量表达发挥生物学功能是不知道的。26 南京航空航天大学硕士学位论文图4.1蛋白质表达数据分布本研究认为,如果基因在这30个组织中的表达量普遍偏低,那这个基因与其他基因计算得到的相关系数是不可靠的,对最后的统计结果有消极的影响,而如果表达量高的话,则可靠性较高。最后统计的结果也证实了本文的这个推测。针对每组数据集的预测结果进行统计分析,比较它们的准确率。准确率—召回率曲线反映了算法整体的预测性能。我们对根据表达量划分的5个数据集分别从GO的三个方面进行预测,预测结果的Precision-recall曲线如图4.2,A图为总体预测结果,B图为在生物过程预测结果,C图为细胞组件的预测结果,D图为分子功能的预测结果。27 结合蛋白水平的多组学数据整合识别基因功能及致病基因recall图4.2不同数据集的功能预测结果从图4.2中,可以明显看出表达量小于10的组织个数越少,功能预测效果越好。这几个数据集在细胞组件方面表现最好,在生物过程方面表现相对较差。第一个数据集(表达量小于10的组织个数小于等于5个)在召回率为0.1时的准确率达到了0.8,召回率为0.5时准确率超过0.4,很明显比其他数据集的表现都要好。这说明基因的表达量小于10的组织个数越多,则我们计算的它与其他基因的相关性越不准确。但是如果要求在所有组织中高表达则会筛选掉太多数据。如果我们使用整个蛋白质表达数据进行预测,会有很大一部分的基因的功能预测结果会降低最终的准确率。所以,蛋白质表达数据的不完整性对最后的预测结果是有很大影响的,如果我们能够知道人类所有组织中蛋白质的表达情况,那么计算的基因间的相关性会更加准确,预测效果应该会好很多。4.3多组学数据的统计结果比较基于上述结论,我们把焦点集中于基因的表达量小于10的组织个数在0个到5个之间的1396个基因。即使这样,我们对这些基因在其他组织中的表达量情况仍然是未知的,对基于28 南京航空航天大学硕士学位论文蛋白质表达数据的预测结果肯定会有消极的影响。如前文所述,对与序列信息,未知序列输入到PSI-BLAST得到第一层序列相似蛋白质组后继续进行第二次迭代,减少了对同源性序列的依赖。使用match-and-split算法采用分治策略对相互作用网络进行局部比对,找到网络中的功能模块。RNA-Seq数据的格式和蛋白质表达量的数据类型是相同的,因此我们采用相同的方法进行预测。图4.3为分别基于蛋白质表达数据、RNA-Seq数据、相互作用数据(Interaction)和序列(sequence)数据在GO的三个方面的预测结果。A图为总体预测,B图为生物过程方面的预测,C图为细胞组件方面的预测,D图为分子功能方面的预测。图4.3四种组学数据的功能预测结果从图4.3可以很明显看出,蛋白质表达数据在功能预测方面和序列数据、RNA-Seq数据、相互作用数据比较时仍然存在较大的优势。随着召回率的增加,准确率在降低。在细胞组件方面,四种数据的表现都是最好的,尤其是蛋白质表达数据预测的准确率一度超过了0.8。使用蛋白质表达数据时召回率为0.1时,准确率接近0.8。召回率为0.3时,准确率超过了50%,而此时相互作用数据和RNA-Seq数据的准确率都低于0.4。在0.1到0.3之间,蛋白质表达数据29 结合蛋白水平的多组学数据整合识别基因功能及致病基因和序列数据相比预测效果是有一定的优势的。4.4整合多组学数据的功能预测结果单一数据只是体现了生物学功能过程的某一方面,每种数据只能获得基因某一方面的功能特性,而生物功能是受很多因素影响的,因此,本文提出的Pemo整合多组学数据可以有效地预测基因功能,提高预测的准确率,获取基因功能的完整信息,增加整体数据集质量[71]。研究表明,综合多种不同类型的生物数据的功能预测方法能获得可观的性能提升。首先我们使用测试集对每一种类型的数据进行单独预测,预测方法采用在上述章节中阐释的方法,并统计它们的Precision-recall结果,这样我们就得到了分别基于这四种数据的基因功能预测的结果,来纠正因为不同来源的数据导致的功能层次的不一致性。基于此,对预测得到的M矩阵中的GO注释进行打分时,采用朴素贝叶斯模型融合四种数据源,该模型假设u_score所有数据都独立的情况下有效,重新计算得分矩阵M,然后根据得分矩阵对GO注释综u_score合打分排名。当某个GO注释被多个数据源预测出来时,权重会变大。公式如下:sequenceinteractionRNASeqMSW1(1W)(1W)(1W)(1W)(4.1)i,ji,ji,ji,ji,jsequenceinteractionRANSeqMS其中,W,W,W和W分别表示在序列信息、相互作用信息、i,ji,ji,ji,jRNA-Seq数据和蛋白质表达量数据中的基因i和基因j的表现,不同的数据源一般有不同的贡献,W表示网络合并后的权值。本文的数据是不同类型的,所以我们认为数据是符合朴素贝i,j叶斯的独立性假设,四种数据都是来自不同的实验技术,因此不同的数据对基因的功能信息都可以有所贡献[72],分析各种数据在功能信息所占的权重在今后的工作中值得深入研究。图4.4为整合多组学数据的基因功能预测结果的Precision-recall曲线。30 南京航空航天大学硕士学位论文图4.4整合多组学数据的功能预测结果从图中可以看出,整合了序列信息、RNA-Seq数据和相互作用网络数据的基因功能预测结果在recall为0.7以后已经以较小的幅度超过了基于蛋白质表达量的功能预测,对RNA-Seq数据和相互作用网络数据的功能预测准确率有很大的提升,对基于蛋白质序列信息的基因功能预测也有一定幅度的提升,这说明我们的融合策略是有效的。而在Pemo整合了蛋白质表达量数据后,可以很明显看到Pemo预测的准确率有了很大幅度的提升,尤其是在recall大于0.1以后,Pemo相对于其他数据的融合有了较大的差距,说明蛋白质表达数据非常有效的补充了基于基因水平预测的功能,从图中可以看出蛋白质序列信息和蛋白质表达量数据都对基因的功能预测做出了很大的贡献,而且两者之间贡献的功能信息重合度比较小,是互补的。4.5与其他三种经典方法的比较如3.6.1节所述,我们下载的蛋白质表达数据是不完整的,所以当用本文的方法与其他的方法比较时,应该尽量使用表达量小于10的组织个数在0到5之间的1396个基因,即使这样和其他使用完整类型信息的方法比较时,对本文的预测结果还是很不利的。在已有的基因功能预测方法中,我们选择了三个比较经典的方法:ESG、PFP和Prior,其中ESG和PFP方法都有自己的在线服务平台[73],可以通过网络批量提交我们的数据集进行在线测试,我们提交了序列信息到平台上然后得到基因的功能信息,然后用Precision-recall统计31 结合蛋白水平的多组学数据整合识别基因功能及致病基因结果。而Prior方法没有自己的在线服务平台,所以根据Prior的文献我们重现了该方法,并根据输入得到了预测结果,用同样的统计方法统计。在本节中,我们使用同一数据作为输入,统计了三种基因功能预测方法,ESG、PFP和Prior,对它们的结果与Pemo的结果进行了比较。下图为Pemo的统计结果和ESG、PFP、Prior的统计结果的Precision-recall折线图,分别从生物过程、分子功能和细胞组件三个方面进行预测。四种方法采用相同的数据,相同的评价标准。图4.5为四种方法(ESG、Pemo、PFP和Prior)的功能预测结果的Precision-recall曲线图,分别从生物过程、分子功能和细胞组件三个方面进行预测,四种方法采用相同的数据,相同的评价标准。每个方法的预测结果用不同的颜色区分。A图为分子功能,B图为生物学过程,C图为细胞组件。图4.5四种基因功能预测方法的功能预测结果32 南京航空航天大学硕士学位论文在生物过程、细胞组件和分子功能三个方面,Pemo的预测结果相对其他方法有一定的优势。随着召回率的增加,准确率在降低。在细胞组件和分子功能方面在召回率为0.1时,Pemo的准确率都超过了0.7,召回率在0.2到0.3之间时,准确率一度超过了0.8,而在生物学过程中的准确率相对较低。融合了四种数据的融合框架Pemo的预测效果明显地超过了其他的方法,在三个方面都有较大的优势。在蛋白质表达数据不完善的情况下,Pemo的功能预测取得了相对不错的效果,充分说明了蛋白质表达数据相对其他数据在功能预测方面的优越性,以及Pemo在综合了多种生物信息后的方法优势。4.6对不同的GO注释的评价结果Precision-recall统计方法总体上体现了不同方法不同数据对基因的预测效果,然而这种统计方法在细节上不够直观,只能体现这些基因在recall轴上的准确率的平均值,对于具体的GO注释的预测效果如何不得而知,因此,本文接着分析了对于不同的GOterm,四种方法的预测效果。只有GOterm注释的基因超过38个才会被选择。图4.6的结果展示了14个生物过程注释,14个分子功能注释,14个细胞组件注释。对于每个GOterm,本文考虑有多少基因被GOterm注释,其中有多少被不同的方法准确地预测到了。例如GOtermGO:0044267注释了148个基因。在不同的方法针对这148个基因的功能预测中,成功预测出GO:0044267的基因个数为真阳性TP,没有预测出的为真阴性FN。而剩余的基因中预测出GO:0044267的基因个数为假阳性FP。通过这三个指标我们计算准确率precision和召回率recall。TPPrecision(4.2)TPFPTPRecall(4.3)TPFN进而,对于一个GOterm的F1measure就可以计算出来:2*Precision*RecallF(4.4)1PrecisionRecallF1measure可以用来评价模型的好坏。如图4.6所示,随着颜色逐渐加深,F1的值也越来越大。颜色越深,代表针对这个GOterm的预测效果越好。例如在生物过程方面,GO:0044267在Pemo、ESG、PFP和Prior方法中的的F1measure值分别为0.95,0.72,0.52和0.62,表达量数据预测的结果的F1measure值是最高的,颜色也是最深的。33 结合蛋白水平的多组学数据整合识别基因功能及致病基因图4.6GO注释在四种方法中的表现如图4.6所示,有83个基因被超过38个的生物过程注释,而图中展示了14个注释在四种方法中F1measure的表现,绝大部分的注释都在我们的方法中的表现最好,本文计算了Pemo、ESG、PFP和Prior方法的F1measure。从图中可以比较明显地看出,在生物过程、分子功能和细胞组件三个方面,本文的方法预测效果都相对比较好,而且注释的基因相对较多的GO注释的预测效果相对较好。34 南京航空航天大学硕士学位论文4.7未知功能基因的功能注释质谱实验得到的17294个蛋白编码基因,占人类目前发现的所有蛋白质编码基因的84%,其中有2535个蛋白质编码基因在PeptideAtlas、GPMDB和NextProt数据库中是没有被注为蛋白质编码基因的,目前这些基因的功能都是未知的,如果用实验的方法一个个去检测功能,会花费很多时间,消耗很多资源。而经过前面的比较,本课题采用的方法在功能预测上取得了不错效果,在本节中,对这些在GO中没有注释的基因进行功能注释。我们选取了预测的LOC390956、HIST1H4K和COX2三个基因的得分最高的前10个功能,结果如表4.1所示。表4.1中,第二列为GO注释的ID,第三列为功能的标准化描述,第四列为基因拥有这个注释的得分,经过上述章节的论述分析,得分越高,基因有这个注释的可能性越大,如基因HIST1H4K对注释GO:0008380的得分为0.98,则这个基因很可能有“RNAsplicing”这个功能。同时,有些功能在所有的基因预测的注释中反复出现,如GO:0005515:“proteinbinding”,说明这个基因是蛋白编码基因。未知基因的功能被预测后,能够用实验方法进行检测验证,这样就大大减少了实验过程的工作量。35 结合蛋白水平的多组学数据整合识别基因功能及致病基因表4.1对在GO数据库中没有注释的基因进行功能注释的结果GenesGOtermDefinitionscoreGO:0070062extracellularexosome0.68GO:0005634nucleus0.66GO:0005515proteinbinding0.54GO:0005737cytoplasm0.54GO:0005829cytosol0.53LOC390956GO:0044822poly(A)RNAbinding0.49GO:0000786nucleosome0.44GO:0046982proteinheterodimerizationactivity0.43GO:0003677DNAbinding0.38GO:0005925focaladhesion0.33GO:0008380RNAsplicing0.98GO:0005515proteinbinding0.91GO:0005654nucleoplasm0.87GO:0003723RNAbinding0.74GO:0000786nucleosome0.65HIST1H4KGO:0016020membrane0.63GO:0010467geneexpression0.59GO:0046982proteinheterodimerizationactivity0.56GO:0008152metabolicprocess0.42GO:0006412translation0.28GO:0005739mitochondrion0.88GO:0044281smallmoleculemetabolicprocess0.75GO:0005743mitochondrialinnermembrane0.72GO:0070062extracellularexosome0.72COX2GO:0044237cellularmetabolicprocess0.69GO:0005515proteinbinding0.67GO:0022904respiratoryelectrontransportchain0.52GO:0005759mitochondrialmatrix0.44GO:0005634nucleus0.3936 南京航空航天大学硕士学位论文4.8本章小结本章首先论述了蛋白质表达量数据的特征对相关性计算的影响,将质谱数据划分为六个数据集,分别对这六个数据集进行了功能预测,结果充分展示了不同特征的表达量数据对预测结果的影响,因此我们选择了表现最好的基因组与其他数据进行比较。然后使用第三章描述的方法分别对序列信息、RNA-Seq数据和相互作用信息进行功能预测,同样使用Precision-recall统计方法统计结果,并进行比较,其中蛋白质表达数据和序列数据表现更好,蛋白质表达数据相对表现最好。接着介绍了Pemo方法,该方法使用朴素贝叶斯网络对多组学数据进行综合预测,加入蛋白质表达量数据后的功能预测结果有了很大的提升,说明了蛋白质表达数据与其他数据在表现基因功能方面的互补性。最后将Pemo与其他三种经典基因功能预测方法PFP、Prior和ESG方法在细胞组件、生物学过程和分子功能方面进行了比较,Pemo取得了较明显的优势。37 结合蛋白水平的多组学数据整合识别基因功能及致病基因第五章结合蛋白水平和功能信息的致病基因预测5.1引言致病基因的预测对于疾病的诊断和治疗非常重要,是理解疾病产生原因和协助临床判断的基础。基于生物信息学的致病基因预测可以快速预测疾病和候选基因的关联程度,这样可以针对预测结果设计和开展生物实验,降低大规模筛选的人力和物力成本,大大加快疾病研究进程。本章结合蛋白水平和基因的功能信息预测疾病与致病基因之间的关系,并成功预测了多种遗传疾病的致病基因和潜在的致病基因。5.2致病基因预测进展5.2.1疾病与基因的关系疾病影响了人类的正常的工作、学习和生活,严重的疾病如癌症甚至威胁着人类的生命,对疾病的的研究对人类的健康甚至延续至关重要。因此,一项研究如果和疾病相关就会受到大量的关注,研究疾病和提供更优良的疾病解决方案也是生物信息学研究的核心目标之一。现代医学研究表明,人类疾病的发生都直接或间接的与基因有关,基因的突变或基因表达调控出现异常都会引起疾病,人类遗传疾病可以分为三类:(1)单基因遗传疾病。受一对等位基因控制的遗传病,大约有6600多种,并且每年递增,单一基因遗传病又可以分为常染色体显性和隐性,X、Y连锁病显性和隐性,母系遗传的线粒体病等,常见的单基因遗传疾病有红绿色盲、血友病和白化病等。(2)多基因遗传病。由两对或以上的致病基因的累计效应导致的遗传疾病,与单基因遗传疾病相比,多基因遗传疾病不只是由遗传基因决定,环境因素对其也有很大影响,常见的多基因遗传疾病包括先天性心脏病、重度肌无力和家族性智力低下等。(3)染色体异常遗传疾病。由染色体数目的异常和形态结构畸变引起,可以发生在每条染色体上。染色体异常遗传疾病发生在自发性流产、死胎和早夭中的概率为50%,新生儿中的发病约为1%,常见的染色体异常遗传疾病有猫叫综合征、Williams综合征和性腺发育不良等。5.2.2OMIM数据库人类孟德尔遗传在线(OnlineMendelianInheritanceinMan,OMIM)是一个权威的、综合的和持续更新的关于人类基因和遗传紊乱的数据库,有超过15000个人类基因和遗传疾病的详细目录[78]。该数据库的原始版本是《MendelianInheritanceinMan:CatologsofHumanGenes38 南京航空航天大学硕士学位论文andGeneticDisorders》,包含了所有已知的遗传疾病、疾病性状及其致病基因,还提供了已知致病基因的连锁关系、染色体定位等资料,还附有相关文献。书中制定的各种遗传病的MIM号是世界公认的,随着生物医学的快速发展,MIM内容急剧增多,于是人类孟德尔遗传在线应运而生,免费供全世界研究人员浏览和下载。OMIM有很多遗传疾病相关记录,主要是记录与该疾病相关的致病基因,还可能连接到其他数据库,有的致病基因相关的序列可能有上百条。本文的遗传疾病和其致病基因就下载自OMIM数据库,可信度是很高的。随着生物医学的不断发展,人们总结的疾病相关基因也越来越多,并最终整理为疾病数据库。权威性较高的数据库有OMIM,基因名片数据库(genecards),它们收录了几乎所有的人类疾病、基因和遗传相关的信息。5.2.3致病基因预测方法致病基因预测一直是生物信息学领域的一个核心问题,发现致病的基因是理解疾病发生机制、协助临床判断和预防治疗的基础,发现致病基因并能检测到致病突变,对确定病因、疾病的诊断等提供重要帮助,任何一个新的致病基因的发现都可以开发出针对该基因的药物,价值巨大,例如高血压基因、肥胖基因等等。当前大部分基于计算的致病基因预测方法都采用两种方法,一是基于致病基因的相互作用网络模块,二是利用致病基因的功能注释进行预测。前者假设相同或相似的疾病的相关基因在相互作用网络拓扑图中联系紧密[79]。后者假设相同或相似表型的疾病基因在功能上是有联系的。但是,相互作用网络数据的噪声很高,在各种组学的研究中,相互作用组学也是最复杂的。如果要确定一个相互作用需要用不同的方法对此进行验证,因此现在数据库中的相互作用数据有很多假阳性结果,并不可靠。GO数据库作为预测致病基因最具效果的数据常常被用来预测与遗传疾病相关的基因[2]。基因产物的分子功能与遗传疾病的发生密切相关,研究表明,如果人类遗传疾病之间具有相似的表型,那么它们对应的基因的注释也可能很相似[80]。所以本文结合蛋白水平的信息基于功能间的相似性来预测致病基因。基于功能相似性的致病基因预测一般都基于”guilty-by-association”原理,即如果某个基因与致病基因有相似的表达谱或在互作网络中连接也或者有相同的生物学过程,那么它也有可能与该疾病有关。39 结合蛋白水平的多组学数据整合识别基因功能及致病基因表5.1致病基因预测方法方法在线网站输入的数据类型DGPhttp://cgg.ebi.ac.uk/services/dgp/序列TOMhttp://www-micrel.deis.unibo.it/~tom/表达谱,GO注释Suspectshttp://www.genetics.med.ed.ac.uk/suspects/GO注释,序列,表达谱ToppNethttp://toppgene.cchmc.org蛋白质相互作用Genes2Diseaseshttp://www.ogic.ca/projects/g2d_2/GO注释目前已经有很多基于功能相似性预测疾病基因的方法,如表5.1列举了4个致病基因预测方法,使用了不同组学数据。Suspects方法使用三种组学数据GO注释,序列和表达谱[81],它假设如果基因之间拥有相似的GO注释、序列和表达谱,那么它们可能与相同或者相似的疾病有关。TOM方法分别计算GO注释之间的相似程度,使用皮尔逊相关系数计算基因之间表达谱的相关程度,然后综合这两种种得分计算待测基因与致病基因之间的相似性,并取平均值作为该基因与疾病之间的相关性。Genes2Diseases使用GO注释来预测致病基因,候选基因的优先级通过挖掘已知致病基因与疾病表型的关系来确定。5.3致病基因预测癌症一直是人类健康领域面临的重大挑战之一。随着高通量实验技术的进步和生物信息学的迅猛发展,致病基因预测也受到越来越多的关注。致病基因预测方法使用了很多不同的生物信息,而Franke等人发现使用GO数据库进行预测的效果最好[74]。在第四章的结果分析中,本文的基因功能预测取得了很好的效果。因此本章采用GeneOntology数据库的资源以及蛋白质表达量数据来研究疾病与致病基因之间的关系。本文计算两个GO注释在GO数据库中的相似性,评价基因与疾病的关联程度[75]。方法流程如下:(1)数据准备。下载GO数据库注释的结构文件gene_association.goa_human,在此文件中GO注释之间有两种关系:is_a和part_of。下载OMIM数据库中的已知遗传疾病和疾病关联基因,并在GO注释文件中搜索疾病关联基因的GO注释,根据评分机制,建立遗传疾病和GO注释的得分组。(2)功能相似性分析和使用蛋白水平的信息计算相关性。在OMIM数据库下载的文件中包括疾病和它们的致病基因,然后使用广度优先遍历算法计算待测基因的每一个GO注释,以及每一个遗传疾病已知的GO注释在GO注释文件中的最短路径[76],根据最短路径对它们打分,40 南京航空航天大学硕士学位论文使用蛋白水平的表达量计算基因之间的相关性,整合两种得分并以此来计算遗传疾病与待测基因的相关系数。(3)根据计算得到的待测基因与疾病之间的相关程度对待测基因排序,构成一个根据得分从高到低排列的致病基因组。5.3.1功能间的相似性一.语义相似性GO是一个标准化的功能数据库,概括了基因参与的生物过程、发挥的生物分子功能和所在的细胞位置,如图5.1所示,GO将这些内容根据注释之间的从属关系组织为有向无环图,GO注释之间一般有两种关系:“is-a”和“part-of”,“is-a”表示包含关系,如“cell”“is-a”“CellularComponent”表示注释“cell”是注释“CellularComponent”的一个子集。“part-of”也表示包含关系,但子集不一定会出现。在GO的有向无环图中,从父节点到子节点表示的功能信息越来越详细细致,父节点概括了所有子节点的信息。在预测疾病关联的基因中,我们要计算两个GO注释之间的相似性,一般有两种方法。一种是计算两个GO注释在有向无环图中的最短路径作为两种注释的相关程度,还有一种是计算两个GO注释在有向无环图中父节点的共同条目,因为在GO数据库中如果一个基因能被一个功能注释,也一定能被该功能的父节点所注释。第一种方法的缺陷是两个注释的最短路径未必代表它们在功能上的相似程度,因为一个注释可能从属于多个关联性很弱的注释。第二种方法的缺陷是父节点有多个子节点,从子节点出发计算其父节点的的相同数目,可能会丢掉一些注释信息。本文采取的方案是如果两个注释在GO结构中的距离大于5,则认为它们之间没有关系。如果小于5,比较它们父节点集合的交集中元素的个数,如果个数大于3,则认为它们的相关性就是根据在GO结构的最短路径计算。如果小于3,则将路径长度乘以交集个数来减小它们之间的相关性。41 结合蛋白水平的多组学数据整合识别基因功能及致病基因GeneOntologyPartofPartofPartofMolecularBiologicalCellularFunctionProcessComponeIs-aIs-aIs-aIs-acellIs-aIs-aCellularIs-aEstablishmentofTransporterprocesslocalizationlocalizationactivityPartofIs-aIs-abindingIs-aCellularIs-aIs-aCellpartlocalizationIs-aPartofVitaminDrugToxintransporterIs-atransportertransporterEstablishmentofactivityactivityactivitylocalizationincellApicalpartofcellIs-aIs-aAntibioticAlkanetransportertransporteractivityactivity图5.1GO结构示意图[83]二.功能间相似性计算本文采用两种方法相结合的方法,因为第二种方法恰好弥补了第一种方法的缺陷,如果两个GO注释计算得到的最短路径很短,那么我们还要用第二种方法进行验证,如果经过比较父节点集,发现它们的相似程度很小,那么说明这两个注释很有可能处于两个交集很少的分支,那么这两个注释的相关性就是两种方法计算得到的相关性的乘积。如果最短路径很长,那么说明这两个注释的关联性很弱,就没必要验证了。任意两个GO注释GO和GO之间的相似程度定义:ij1R(GO,GO)(5.1)ij1path(GO,GO)ij其中path(go,go)代表GO和GO之间最短路径,相同GO注释之间的最短路径为0,ijij直接相邻的GO注释之间的最短路径的距离为1,而两者之间的相关程度和最短路径是成反比42 南京航空航天大学硕士学位论文的。0ifpath(GOi,GOj)5path(goi,goj)path(GOi,GOj)*sameP(GOi,GOj)ifsameP(GOi,GOj)3ifpath(goi,goj)5(5.2)path(GOi,GOj)ifsameP(GOi,GOj)3其中,sameP(GOi,GOj)是GO注释GO和GO的父节点的交集,如果最短路径长度大于5,ij就认为两个注释无关。如果最短路径小于5,但父节点交集数小于3,则要减小两个注释的相关性。最短路径的查询和父节点交集的查询都是基于linuxshell实现的。5.3.2基于基因与疾病相关性的致病基因预测方法我们通过计算两个GO注释之间的关系评价疾病与待测基因之间的相关性,因此,本文首先通过OMIM数据库得到的致病基因集合评价致病基因与GO注释的关系。一个已知部分致病基因的遗传疾病,它在OMIM中的致病基因集合为DG:ggg,这些基因的GO注释的集合为DF:gogo...go,其中有的12k12m注释在集合中可能不止出现一次,设go在DF中出现的次数为n次。致病基因集合DG的注ii释对疾病的贡献为:niR(disease,go)im(5.3)njj1待测基因的GO注释go与DF集合中的注释的最大值为:iR(go,go)argmaxR(go,go)maxinearestgojDFij(5.4)则go与疾病的相关程度为:iscore(disease,go)R(disease,go)*R(go,go)(5.5)inearestmaxinearest我们取平均值作为它们之间的相关系数:mscore(disease,go)i(5.6)i1score(disease,gene)GOm根据公式(3.1),我们得到两个基因之间的相关性Rui,取平均值作为根据蛋白质表达量计算得到的基因和疾病之间的相关性:kRuij1score(disease,gene)(5.7)proteink取两个系数之间的平均值作为候选基因和疾病的最终相关系数:43 结合蛋白水平的多组学数据整合识别基因功能及致病基因score(disease,gene)score(disease,gene)GOproteinscore(disease,gene)(5.8)2根据计算得到的待测基因与疾病之间的相关程度对待测基因排序,构成一个根据得分从高到低排列的致病基因列表。5.4多种遗传疾病的致病基因预测结果对于特定的遗传疾病,根据打分为候选基因进行排序。基于蛋白质表达量和功能相似性的致病基因预测充分挖掘了GO注释之间的关系,对导致疾病的功能注释进行深入分析。如表5.2为四种遗传疾病的部分致病基因的注释情况,其中第一列表示疾病,分别是胃癌,乳腺癌和先天性心脏病,第二列为疾病的致病基因,第三列为这些致病基因在GeneOntology数据库中的注释个数,大部分致病基因都有较多的注释,第四列表示经过本文计算权值相对较高的几种GO注释,这些注释也是与对应的疾病密切相关的,与四种疾病普遍有关系的注释为“proteinbinding”,说明这些疾病的发生可能都与蛋白质相关。本章归纳了致病基因的相关注释,并计算了疾病与注释之间的相关性,为进一步计算候选基因与疾病的关系打下了基础。表5.2四种疾病部分致病基因的功能相似性分析疾病致病基因注释个数相关注释TP53200proteinbinding,nucleus,ATPbinding,StomachERBB264DNAdamageresponse,signaltransductionbyp53classCancerCDH18mediatorEGFR92TP53200cytoplasm,proteinbinding,damagedDNAbinding,cellularBreastCancerBRCA180responsetoDNAdamagestimulus,tubulinbinding,DNABRCA244damageresponseERBB230CongenitaACE32proteinbinding,extracellularregion,extracellularspace,HeartDiseaseTNF111plasmamembrane,externalsideofplasmamembraneIL6R48KRAS51proteinbinding,innateimmuneresponse,mitochondrion,LungCancerPTEN126cytosol,epidermalgrowthfactorreceptorsignalingpathwayBCL2132最后本文的方法与Gene2Disease和TOM方法比较排名在前30预测基因的准确率,其中44 南京航空航天大学硕士学位论文Gene2Disease方法完全基于GO功能信息进行预测,TOM整合了基因表达谱信息和GO功能信息进行预测。预测结果如图5.2所示。图5.2致病基因预测结果比较本文的方法为“Protein+GO”,结合蛋白水平信息和GO功能信息,在四种疾病的致病基因预测上准确率要好于基于GO功能信息的Gene2Disease方法,说明本文整合蛋白水平信息和GO功能信息的方法是有效的。本文的方法也好于基于基因表达谱和GO功能的TOM方法,说明整合蛋白水平的信息在致病基因预测方面要好于基因水平的信息,本文的方法在预测的准确率上是有优势的。5.4.1胃癌胃癌的发病率在中国各种恶性肿瘤中位居首位,遗传性胃癌多伴有基因突变,如细胞粘附蛋白的CDH1基因突变,如果出生在胃癌遗传家族中就要定期进行基因检查,来预防和治疗。基于功能相似性对胃癌进行致病基因预测,对候选基因进行排序,排名靠前的4个候选基因如表5.3所示。45 结合蛋白水平的多组学数据整合识别基因功能及致病基因表5.3胃癌相关基因预测结果分析致病基因排名基因描述TP53基因编码的蛋白质是p53,p53是一种转录因子,可调控细胞代谢通路,可抑制细胞分裂,也被称为抑癌蛋白[84]。TP53容易发生突TP531变,在癌细胞中,TP53呈现高水平表达。TP53基因突变在胃癌、乳腺癌、前列腺癌、肝癌中较为常见。ERBB2基因为表皮生长因子受体的家族成员之一,在蛋白表达数据ERBB25中在人体30个组织中表达普遍偏低,但在癌细胞中表达水平相对较高,细胞增殖能力会变强,分化和凋亡机制会受到抑制,加深细胞恶性程度。CDH14CDH1基因编码的蛋白质能阻止快速分裂细胞的增殖,是著名的肿瘤抑制基因,据报道,CDH1基因突变的男性,80岁时发生胃癌的概率高达70%。和ERBB2一样,同样为表皮生长因子受体的家族成员之一,研究表EGFR12明在许多实体肿瘤中EGFR都是高表达的,由于它在细胞增殖中的作用会促使肿瘤细胞的扩散。对于排序后的前30名候选基因,本文从互作网络数据中做它们的相互作用图谱。结果如图5.3所示。图5.3预测的胃癌相关基因的相互作用网络图谱图中可见,胃癌相关基因在相互作用网络中联系紧密,参与共同的致病生物通路,这符合基于相互作用网络预测致病基因的假设[85]。图中被标注为红色的基因为我们预测的新的致病46 南京航空航天大学硕士学位论文基因,其并未在数据库中被注释为和癌症相关。对胃癌影响权值较高的基因都被成功预测到了,它们所构成的胃癌相关网络较为复杂,在genecards数据库中,它们与胃癌的相关程度也较高。文献[93]研究了CDH1基因突变与胃癌易感性的关系,16项研究包括2611个病例,结果表明亚洲人种的CDH1基因可以抑制肿瘤细胞的生长,胃癌患者中多发生CDH1基因突变。文献[94]研究了ERBB2基因在癌症中的过表达特征,包括了32个被诊断为癌症的病例,发现其中15.6%的患者体内ERBB2基因是过表达的。文献[96]利用微阵列分析了胃癌患者体内转移性淋巴结密度变化时EGFR的表达状态,在胃癌组织中使用免疫组织化学检测EGFR的表达量,最终发现当转移性淋巴结密度增大时,EGFR的表达水平也增高。这些致病基因都在文献中被发现与胃癌的发生是有关系的,说明本文预测的致病基因可信度较高。前30个得分高的致病基因中有22个基因是在数据库中被注释为胃癌相关基因的,准确率为73.3%,Gene2Disease方法使用了GO功能信息的数据,在胃癌致病基因的预测中准确率为60%,说明我们的方法在整合了蛋白水平和GO功能信息后预测效果是有提升的,Tom方法结合了基因表达谱信息和GO功能信息,在胃癌的致病基因的预测中准确率为69.8%,说明了蛋白水平的信息更好的体现了基因的生物学功能,在胃癌的致病基因预测方面是有优势的。在22个被标注为蓝色的致病基因中,TP53,CDH1,EGFR等基因在相互作用网络中都很活跃,与多个基因发生相互作用,说明它们与胃癌的相关程度更紧密。而在8个未被注释为胃癌相关的基因中,PARK2和PSEN1等基因在互作网络中也与多个基因发生相互作用,参与胃癌相关的生物调控网络,它们在目前的文献中并未被注释为与胃癌相关,但由于它们在胃癌相关的互作网络中参与度较高,可能是胃癌的潜在致病基因,有待今后实验进一步验证。潜在的致病基因如表5.4所示,第三列致病通路参与度为基因在胃癌相关网络中发生相互作用的基因个数。表5.4胃癌的潜在致病基因致病基因排名基因描述PARK20.754PSEN10.573SIRT10.432MEF2C0.411SOX90.2315.4.2乳腺癌乳腺癌是妇女最常见的一种癌症,99%发生在女性,女性的乳腺是由脂肪、皮肤和纤维组47 结合蛋白水平的多组学数据整合识别基因功能及致病基因织组成的,乳腺癌就是发生在乳腺腺上皮组织中的恶性肿瘤。现在普遍的认同的乳腺癌基因是BRCA1和BRCA2,其中BRCA1基因的携带者患乳腺癌的几率是80%,BRCA2基因的携带者发生乳腺癌的的几率是55%-65%。最近,《Nature》的研究报告中指出研究人员又发现了9个和乳腺癌发生有关的新基因[86],具有高度遗传的多样性,对于乳腺癌相关基因的检测有利于提出合理的治疗方法。基于功能相似性对乳腺癌进行致病基因预测,对候选基因进行排序,排名靠前的4个候选基因(表5.3所述的基因本节不再赘述)如表5.5所示。表5.5乳腺癌相关基因的预测结果分析致病基因排名基因描述1990年研究人员发现了BRCA1基因直接与乳腺癌遗传有关。BRCA15BRCA1基因具有抑制恶性肿瘤发生的作用,位于人体的第17号染色体上,可修复遗传物质DNA损伤,调节人体细胞复制如果BRCA1发生了突变,它们抑制肿瘤的功能就会受到影响,从而使肿瘤无法抑制。BRCA2是遗传性倾向的乳腺癌易感基因,可修复DNA损伤,,BRCA246主要是修复根据同源重组修复双链断裂的DNA,是继BRCA1之后被发现的又一个与乳腺癌相关的易感基因,编码的产物是一种肿瘤抑制因子,与BRCA1不同的是,BRCA2多在男性乳腺癌中出现。在乳腺癌病例中,编码雌性激素受体的基因ESR1被发现多次发ESR116生变异,ESR1基因是被雌激素激活的转录因子,在GO数据库中被注释为DNAbinding等功能,可以促进性别和生殖功能发育,与多种疾病存在关联。CCND1基因位于染色体11q13,编码的蛋白质为cyclinD1,通CCND17过与雌激素的相互作用促进细胞增殖。在乳腺癌组织中CCND1基因表达异常,扩增约13&-20%,同时cyclinD1还会抑制STAT3发挥抗癌作用。对于排序后的前30名候选基因,本文从从互作网络数据中做它们的相互作用图谱。结果如图5.4所示。48 南京航空航天大学硕士学位论文图5.4预测的乳腺癌相关基因的相互作用网络图谱图中可见,乳腺癌相关基因倾向于在相互作用网络中参与共同的生物调控网络。图中标注红色的基因为我们预测的基因并未在数据库中被注释为和乳腺癌相关,被标注为红色的基因较少与其他基因发生相互作用,同时,图5.4中被标注为蓝色而没有与其他基因发生相互作用的基因如TGFB2,IGF1等在genecards数据库中与乳腺癌的相关性得分是相对较低的,而BRCA1,ESR1与乳腺癌关系紧密的基因在互作网络中则表现活跃,与多个其他基因发生相互作用,它们在数据库中得分较高,与乳腺癌关系密切。文献[91]表明,5%-10%的乳腺癌是遗传的,其中又有80%-90%的病例是由于BRCA1和BRCA2的突变引发的。在NCBI中,TP53被标记为抑癌基因,在癌细胞中高表达,文献[92]研究表明TP53和乳腺癌关系紧密,有超过10%的乳腺癌患者的TP53基因发生突变,呈高表达。文献[97]研究了ESR1基因在乳腺病中的增殖及其与乳腺癌的关系,在此之前,ESR1在乳腺病中所行使的功能从来没有被研究过,该文献使用石蜡包埋技术对58位女性乳腺癌患者的组织做了分析,结果发现15.5%的患者在乳腺癌早期出现了ESR1增殖,该结果有助于预测人类患乳腺癌的风险。TP53、BRCA1、BRCA2等致病基因都在文献中被认为与乳腺癌的发生有关系,它们都被预测到了,说明本文预测的结果是比较可信的。前30个得分高的基因中有20个基因是在数据库中被注释为与乳腺癌有关系,准确率为66.7%,基于GO注释的Gene2Disease方法预测的乳腺癌的准确率为62.5%,说明在功能信息的基础上整合了蛋白水平的信息后预测的准确率有了提高,使用基因表达谱信息和GO功能信息的TOM方法对乳腺癌预测的准确率为63.6%,本文在乳腺癌的致病基因预测方面准确率高于TOM方法,说明结合蛋白水平信息在乳腺癌致病基因预测上更有优势。20个在数据库中被注释为与乳腺癌有关系的基因在乳腺癌相关网络中参与度较高,而在49 结合蛋白水平的多组学数据整合识别基因功能及致病基因10个没有被注释为与乳腺癌相关的基因中,HDAC2和SIRT1等基因同样与多个基因发生相互作用,参与共同的致病生物通路,可能是乳腺癌的潜在致病基因,有待今后实验进一步验证。乳腺癌潜在的致病基因如表5.6所示,第三列致病通路参与度为基因在乳腺癌相关网络中发生相互作用的基因个数。表5.6乳腺癌的潜在致病基因致病基因排名基因描述HDAC20.643SIRT10.413SNCA0.61JUP0.461SOX90.3915.4.3先天性心脏病先天性心脏病在先天性畸形中是最常见的,在中国出生婴儿中的发病率为8%~12%,有少数的可以自然恢复,心脏发育是由多基因、多细胞和环境因素共同参与的复杂的生命活动,微小的紊乱都会导致心脏畸形。先天性心脏病患者突变的基因多发生于在心脏发育中高表达的基因中。基于功能相似性对先天性心脏病进行致病基因预测,对候选基因进行排序,排名靠前的3个候选基因(表5.3、5.5所述的基因本节不再赘述)如表5.7所示。表5.7先天性心脏病相关基因的预测结果分析致病基因排名基因描述ACE基因位于第17号染色体,包含26个外显子和25个内含子,ACEACE3基因编码生成血管紧张素转换酶,可催化血管紧张素I转化为血管紧张素II,降解缓激肽,血管紧张素和缓激肽在调节血管紧张性和平滑肌细胞的增生上有相反作用,对心脏结构及机能进行调控。TNF位肿瘤坏死因子,既可以直接杀死肿瘤细胞,又可以激活免疫系TNF9统,发挥抗肿瘤作用的细胞因子。TNF在体内通过是肿瘤出血、坏死,且肿瘤块做小或消失来发挥对抗肿瘤的作用,作为一种多效细胞因子,与人类健康密切相关。IL6R7IL6R是一种有效的多效性细胞因子,可以调节细胞生长和分化,并在免疫反应中起重要作用。50 南京航空航天大学硕士学位论文对于排序后的前30名候选基因,本文从从互作网络数据中做它们的相互作用图谱。结果如图5.5所示。图5.5预测的先天性心脏病相关基因的相互作用网络图谱如图5.5所示为我们预测的先天性心脏病的相关基因的相互作用网络,被标注为红色的基因是在OMIM数据库中没有标记为致病基因的,蓝色部分为被标记为致病基因的基因。相比于其他遗传疾病,与先天性心脏病相关的基因组成的相互作用网络相对简单,基因间发生相互作用的次数相对较少,在genecards数据库中,这些疾病基因与先天性心脏疾病的相关性得分也较低。图5.2中,三个方法在先天性心脏病方面的预测准确率相较其他遗传疾病是偏低的,其中本文的准确率为56.7%,Gene2Disease的准确率为50%,TOM的准确率为53.3%,这种情况是因为已知的先天性心脏病相关基因与先天性心脏病之间的相关性并不密切,导致了在计算的过程中对先天性心脏病与候选基因之间关系的计算并不十分准确。在排名前30的候选基因中,有17个基因被数据库注释为与先天性心脏疾病相关联,而13个没有被注释为致病基因的基因中,JUN、SOX9等基因在先天性心脏病相关网络中参与度较高,与致病基因参与共同的致病生物网络,可能是潜在的致病基因,有待今后实验进一步验证。潜在的致病基因如表5.8所示,第三列致病通路参与度为基因在先天性心脏病相关网络中发生相互作用的基因个数。51 结合蛋白水平的多组学数据整合识别基因功能及致病基因表5.8先天性心脏病的潜在致病基因致病基因排名基因描述JUN0.534SOX90.492MED10.461LEF10.411LYN0.3315.4.4肺癌肺癌是对人类生命健康威胁最大的癌症之一,男性肺癌的发病率和因肺癌导致的死亡率均占所有的恶性肿瘤的首位。大量的研究报告表明,肺癌的发生与吸烟密切相关,研究证明长期吸烟的人肺癌的发病率是正常人的10~20倍。同时家族性遗传也是肺癌发生的一个重要因素。研究人员对原发性肺部肿瘤和相邻正常组织的序列进行对比,结果显示了超过5万个“突变点”,确认了其中530个[87]突变点预测肺癌有关,包括以前已知的突变,包括KRAS致癌基因和其他391个编码区域。基于功能相似性对肺癌进行致病基因预测,对候选基因进行排序,排名靠前的3个候选基因(表5.3、5.5、5.7所述的基因本节不再赘述)如表5.9所示。表5.9肺癌相关基因的预测结果分析致病基因排名基因描述在RNS基因家族中,KRAS对人类癌症的影响是最大的,可调控细胞KRAS11生长的路径,在很多信号传导通路中发挥作用,而如果KRANS发生突变就会促进癌细胞的生长。PTEN产物为磷酸酯酶蛋白,对已知抑制癌症有重要作用,,参与细胞PTEN6周期调节,可以防止细胞过快生长分裂。一旦PTEN丢失或发生突变,癌细胞就会生长泛滥,不同的PTEN突变会通过调节不同的生物学方面来促使癌症的发生[88]。BCL23B淋巴细胞瘤-2基因,可以抑制细胞凋亡,增强细胞DNA损伤因子的抵抗性,研究表明,BCL2可预测弥漫性大B细胞淋巴瘤的预后[89]。对于排序后的前30名候选基因,本文从从互作网络数据中作它们的相互作用图谱。结果如图5.6所示。52 南京航空航天大学硕士学位论文图5.6预测的肺癌相关基因的相互作用网络图谱图5.6为我们预测的肺癌的相关基因的相互作用网络,在图中被标注为红色的基因没有在OMIM数据库中被标记为致病基因,蓝色部分为被标记为致病基因的基因。其中致病基因在互作网络倾向于参与共同的生物调控网络。TP53,EGFR等与肺癌有紧密联系的致病基因在互作网络中与多个基因发生相互作用,表现活跃,参与度高。在文献[95]中研究了在肺癌患者的细胞中EGFR基因,KRAS基因和TP53基因的突变情况,该文献使用肺灌洗液技术搜集77个癌症患者的样本,PCR技术用于增加EGFR、KRAS和TP53基因的突变热点区域,结果显示有27%的患者被发现有EGFR突变,1%的患者被发现有KRAS突变,36%的患者被发现有TP53基因突变。这些基因都在文献中被认为与肺癌的发生有关,它们大多在肺癌相关网络中参与程度较高,说明了本文预测的结果是较为可靠的。排名在前30位的候选基因中有23个基因在数据库中被注释为致病基因,准确率为76.7%,而Gene2Disease方法准确率为60%,TOM方法的准确率为70%,说明本文的方法在肺癌的致病基因预测方面有较大的优势,在整合了蛋白水平的信息后准确率有了较大提升。7个为未被注释为肺癌致病基因的基因中,LYN、FYN等基因在肺癌相关网络中参与程度很高,与其他致病基因参与共同的生物调控网络,可能是肺癌的潜在致病基因,有待今后实验进一步验证。潜在的致病基因如表5.10所示,第三列致病通路参与度为基因在肺癌相关网络中发生相互作用的基因个数。53 结合蛋白水平的多组学数据整合识别基因功能及致病基因表5.10肺癌的潜在致病基因致病基因排名基因描述LYN0.875FYN0.634PTPN110.524MEF2C0.511SOX90.6315.5本章小结本章首先介绍了疾病与基因的关系,并对OMIM数据库做了简单说明,然后阐述了致病基因预测研究的进展情况。接着对功能间相似性计算进行介绍,GO数据库中两个注释之间的关系不仅要计算它们之间在结构图中的距离,还要考虑它们父节点集合交集的数量。通过归纳疾病与注释的关系,计算候选基因与遗传疾病的相关性,成功预测了胃癌、乳腺癌、先天性心脏病和肺癌等的致病基因,并发现潜在的致病基因,有待实验验证。54 南京航空航天大学硕士学位论文第六章总结与展望6.1本文工作总结致病基因预测对疾病的预防和治疗有重要意义,而研究疾病与基因的关系必然要了解基因的功能信息。蛋白质是人体细胞、组织的重要成分,是生命活动的主要执行者,与基因功能息息相关,整合蛋白水平的信息有利于提升基因功能预测的准确率。本文主要工作包括以下几个部分:使用结合蛋白质表达量的多组学数据进行基因功能预测。利用python语言构建相关系数矩阵和先验概率功能矩阵,利用基因表达的组织特异性调整先验功能矩阵,根据矩阵乘积对注释排序。采用序列比对软件BLAST找出与未知基因序列相似的基因序列,根据这些基因的功能推测未知基因的功能。在预测效果方面,蛋白质表达数据在基因功能预测方面占据优势,多组学数据的预测结果要好于单一数据,在整合了蛋白质表达量后,准确率有明显提升。比较多种功能预测方法的预测效果来验证Pemo方法的性能。使用统一的数据分别利用Pemo方法、ESG方法、PFP方法和Prior方法进行基因功能预测。采用R语言进行结果统计,使用Precision-recall和F1measure统计方法,并作图展示比较结果。recall在0.1到0.8之间时,Pemo方法的准确率明显高于其他三种方法,在细胞组件方面,recall介于0.15到0.35之间时,Pemo的准确率超过80%。基于Pemo表现的良好性能,本文使用Pemo对部分未知功能的基因进行了功能预测。深入分析了遗传疾病与基因之间的关系,对基因间的功能相似性做了深入探讨,并结合蛋白水平数据更全面计算疾病和基因的相关性。基于此,本文成功预测了肺癌、胃癌、乳腺癌和先天性心脏病等遗传疾病的致病基因,假阳性率较低,使用cytoscape软件作候选基因的相互作用网络图谱,致病基因参与共同的致病生物通路,对于参与度较高的候选基因被认为是疾病的潜在致病基因,有待实验进一步验证。6.2研究方案与创新性本论文基于生物信息学的方法预测基因功能,并基于功能相似性识别致病基因。本文结合蛋白质表达量数据开发了基因功能预测算法Pemo,整合了多组学数据,利用PSI-BLAST迭代序列信息进行功能预测,利用Match-and-Split比对算法处理相互作用网络进行功能预测,比较这几种数据的预测结果,蛋白质表达量的预测效果是最好的。基于多组学数据的预测结果要好于单一数据的预测结果,在整合了蛋白质表达量数据后,功能预测准确率有了显著提高,证明了基于基因水平数据和蛋白水平的数据在功能预测方面的互补性。与三种经典的功能预测方法比较,Pemo的表现也是最好,明显超越了其他三种方法。55 结合蛋白水平的多组学数据整合识别基因功能及致病基因本文研究内容及方法的创新性可以归纳为以下几点:(1)蛋白质作为生物体内功能的主要执行者与功能信息密切相关,本文采用从质谱实验得到的人类蛋白质表达图谱,数据详实可靠,之前从来没有被研究人员用作基因功能预测。预测结果也证明了蛋白质表达数据在功能预测方面可以达到更高的准确率,整合了蛋白质表达数据后,准确率也有很大提高。(2)本文提出了基因在不同组织中蛋白水平表达的特异性,将组织特异性注释转化为集合作为参数,调整先验概率矩阵,与蛋白表达组织特异性相关的注释会得到更高的权重。(3)本文的致病基因预测方法整合了蛋白水平的数据,更好的计算了疾病与候选基因的相关程度,在多种遗传疾病预测中的结果相对其他方法都是有优势的。6.3后续研究工作展望基因功能预测的准确率越高,预测的疾病与基因的关系越准确。虽然本文深入研究了基因功能预测方法,利用蛋白质表达量数据和其他组学数据较成功的预测了未知功能的基因,并且取得了不错的准确率,但是基因功能预测方面仍然有许多进步的空间。首先蛋白表达数据是不完整的,仍有很多组织中蛋白质表达情况是未知的,这会对相关性的计算产生不利的影响。在融合多种不同类型的数据时,尽管我们使用不同的算法处理不同的数据,然而仍然不可避免的会丢失一部分信息,在融合算法上仍需要进一步改进。基因功能预测是有重大意义的,可以了解基因的功能,参与了哪些生物学通路,可以指导实验方法的进行,节省大量的人力物力成本,后续可以基于功能相似性预测疾病基因,通过了解潜在的健康风险提前预防,对遗传疾病的诊断和靶向治疗很有帮助。对致病基因的深入研究可以准确预测疾病发生的风险,我们还可以主动改善环境和生活习惯降低疾病发生的概率,做好健康管理[90]。56 南京航空航天大学硕士学位论文参考文献[1]Min-Sik,Kim,SnehaM.Pinto,DereseGetnet,etal.Adraftmapofthehumanproteome[J].Nature,2014;509(7502):575-581.[2]FrankeL,VanBakelH,FokkensL,atal.Reconstructionofafunctionalhumangenenetwork,withanapplicationforprioritizingpositionalcandidategenes[J].AmJHumGenet,2006,78(6):1011-1025.[3]HegyiH,GersteinM.Therelationshipbetweenproteinstructureandfunction:acomprehensivesurveywithapplicationtotheyeastgenome[J].JMolBiol,1999,288:147-164.[4]GavinAC,KrauseR,GrandiP,etal.Functionalorganizationoftheyeastproteomebysystematicanalysisofproteincomplexes.Nature,2002,415:141-147.[5]BerettaLProteomicsfromtheclinicalperspectivemanyhopesandmuchdebate[J].NatureMethods,2007(4):785-786.[6]NissonTMannMAebersoldReaal.Massspectrumentryinhigh-throughputproteomicsreadyforthebigtime[J].NatureMethdis.2010(7):681-685.[7]FleischmannRD,AdamsMD,WhiteO,ClaytonRA,etal.Whole-genomerandomsesquecingandassemblyofHaemophilusinfluenceRd.Science,1995,269(5223):496-512.[8]Lander,LaurenM,Linton,etal.Intitialsequencingandanalysisofthehumangenome.[J]Nature,2001,409:806-921.[9]Russell,S.A.MolecularCloning:Alaboratorymanual,ColdSpringHarberLaboratoryPress,2001.[10]YiannisA,AaltD,MarcoC,etal.BayesianMarkovRandomFieldAnalysisforProteinFunctionPredictionBasedonNetworkData[J].Plosone,2010,5:9293.[11]TuMinhPhuong,NgoPhuongNhung.Predictiongenefunctionusingsimilaritylearning[J].BMC,Genomics,2013,14:S4.[12]AltschulSF,MaddenTL.Basiclocalalignmentsearchtool[J].MolBiol,1990,215:403-410.[13]JiangY,OronTR,ClarkWT,etal.Anexpandedevaluationofproteinfunctionpredictionmethodsshowsanimprovementinaccuracy[J].GenomeBiol,2016,17(1):184.[14]HawkinsT,LubanS,KiharaD.EnhancedautomatedfunctionpredictionusingdistantlyrelatedsequencesandcontextualassociationbyPFP[J].ProteinSci,2006,15:1550-1556.[15]MeghanaChitale,TroyHawkins,ChangsoonPark,atal.ESG:extendedsimilaritygroupmethodforautomatedproteinfunctionprediction[J].Bioinformatics,2009,25:1739-1745.[16]RodedSharan,LgorUlitsky,RonShamir.Network-basedpredictionofproteinfunction[J].MolSystBiol,2007,3:88.[17]LuonanChen,JiaruiWu.Bio-networkmedicine[J].MolCellBiol,2015,7(3):185-186.57 结合蛋白水平的多组学数据整合识别基因功能及致病基因[18]NatasaPrzulj.Biologicalnetworkcomparisonusinggraphletdegreedistribution[J].Bioinformatics,2007,23(2):177-183.[19]SonjaLehtinen,JonLees,JurgBahler,etal.Genefunctionpredictionfromfunctionalassociationnetworksusingkernelpartialleastsquaresregression[J].2015,10:134-141.[20]WangH,HuangH,DingC.Correlatedproteinfunctionpredictionviamaximizationofdata-knowledgeconsistency[J].JComputeBiol,2015,22(6):546-562.[21]SchwikowskiB,UetzP,FieldsS.Anetworkofprotein-proteininteractionsinyeast[J].NatBiotechnol,2000,18:1257-1261.[22]MoosaviS,RahgozarM,RahimiA.Proteinfunctionpredictionusingneighborrelativityinprotein-proteininteractionnetwork[J].ComputBiolChem,2013,43:11-1.[23]HishigakiH,NakaiK,OnoT,TanigamiA,atal.Assessmentofpredictionaccuracyofproteinfunctionfromprotein--proteininteractiondata[J].Yeast,2001,18:523-531.[24]ChuaHN,SungWK,WongL.Exploitingindirectneighboursandtopologicalweighttopredictproteinfunctionfromprotein-proteininteractions[J].Bioinformatics,2006;22:1623-1630.[25]SahaS,ChatterjeeP,BasuS,atal.FunPred-1:proteinfunctionpredictionfromaproteininteractionnetworkusingneighborhoodanalysis[J].CellMolBiolLett,2014,19(4):675-691.[26]UshaKuppuswamy,SeshanAnanthasubramanian,YanliWang,etal.PredictiongeneontologyannotationsoforphanGWASgenesusingprotein-proteininteractions[J].AlgorithmsMolBiol,2014,9:10.[27]JanuszDutkowki,MichaelKramer,MichalASurma,etal.Ageneontologyinfferedfrommolecularfrommolecularnetworks[J].HHSAuthorManuscripts,2014,31:10-16.[28]SharanR,IdekerT,KelleyB,atal.Identificationofproteincomplexesbycomparativeanalysisofyeastandbacterialproteininteractiondata[J].JComputBiol,2005,12:835-846.[29]SandhanT,YooY,ChoiJ,KimS.Graphpyramidsforproteinfunctionprediction[J].BMCMedGenomics,2015,10:1186-1195.[30]VladimirGligorijevi,VukJanji,NatasaPrzuli.IntegrationofmolecularnetworkdatareconstructsGeneOntology[J].Bioinformatics,2014,30:i594-i600.[31]WangD,GaoX,WangX.Semi-SupervisedNonnegativeMatrixFactorizationviaConstraintPropagation[J].IEEETransCybern,2016,46:233-244.[32]DamianoPiovesan,ManuelGiollo,CarloFerrari,atal.Proteinfunctionpredictionusingguiltybyassociationfrominteractionnetworks.AminoAcids,2015,12:2583-2592.[33]GeH,LiuZ,ChurchGM,VidalM.CorrelationbetweentranscriptomeandinteractomemappingdatafromSaccharomycescerevisiae[J].NatGenet,2001,29:482-486.[34]LuscombeNM,BabuMM,YuH,atal.Genomicanalysisofregulatorynetworkdynamicsrevealslargetopologicalchanges[J].Nature,2013,431:308-312.[35]SimonisN,vanHeldenJ,CohenGN,atal.Transcriptionalregulationofproteincomplexesin58 南京航空航天大学硕士学位论文yeast[J].GenomeBiol,2013,5:421-432.[36]HegyiH,GersteinM.Therelationshipbetweenproteinstructureandfunction:acomprehensivesurveywithapplicationtotheyeastgenome[J].JMolBiol,1999,288:147-164.[37]S.Goldsmith-Fischman,BHonig.Structuralgenomics:computationalmethodsforstructureanalysis[J].ProteinSci,2003,12:1813-1821.[38]L.Holm,C.Sander.Proteinstructurecomparisonbyalignmentofdistancematrices[J].JMolBiol,1993,233:123-138.[39]E.Krissinel,K.Henrick.Secondary-structurematching(SSM),anewtoolforfastproteinstructurealignmentinthreedimensions[J].ActaCrystallogrDBiolCrystallogr,2004,60:2256–2268.[40]A.Harrison,F.Pearl,I.Sillitoe,atal.Thornton,C.Orengo[J].Recognisingthefoldofaproteinstructure[J].Bioinformatics,2003,19:1748–1759.[41]BenjaminJ.Polacco,PatriciaC.Babbitt.Automateddiscoveryof3Dmotifsforproteinfunctionannotation[J].Bioinformatics,2005,22:723-730.[42]W.Tong,Y.Wei,L.F.Murga,M.J.Ondrechen,atal.Partialorderoptimumlikelihood(POOL):maximumlikelihoodpredictionofproteinactivesiteresiduesusing3Dstructureandsequenceproperties[J].PLoSComputBiol,2009,13:112-119.[43]OsipovitchM,LambrechtM,BakerC,atal.Automatedproteinmotifgenerationinthestructure-basedproteinfunctionpredictiontoolProMOL[J].JStructFunctGenomic,2015,16:101-11.[44]A.E.Lobley,T.Nugent,C.Orengo,etal.FFPred:anintegratedfeature-basedfunctionpredictionserverforvertebrateproteomes[J].NucleicAcidsRes,2008,36:297-302.[45]JamesCCostello,MehmetMDalkilic,ScottMBeason,etal.GenenetworkinDrosophilamelanogaster.Integratingexperimentaldatatopredictgenefunction.GenomeBiol,2009,10(9):R97.[46]LourdesPena-Castillo,MuratTassan,ChadLMyers,etal.AcriticalassessmentofMusmusculusgenefunctionpredictionusingintegratedgenomicevidence[J].GenomeBiol,2008,10:1186-1191.[47]CaoR1,ChengJ.Integratedproteinfunctionpredictionbyminingfunctionassociations,sequences,andprotein-proteinandgene-geneinteractionnetworks[J].Methods,2016,93:84-91.[48]RadivojacP,ClarkWT,OronTR,atal.Alarge-scaleevaluationofcomputationalproteinfunctionprediction[J].NatureMethod,2013,10(3):221-227.[49]MengJ,WekesaJS,ShiGl,LuanYS.Proteinfunctionpredictionbasedondatafusionandfunctionalinterrelationship[J].MathBiosci,2016,274:25-32.[50]DamianoPioversan,ManuelGiollo,EmanuelaLeonardi,etal.INGA:proteinfunctionpredictioncombininginteractionnetworks,domainassignmentsandsequencesimilarity[J].NucleicAcidsRes,2015,43:134-140.59 结合蛋白水平的多组学数据整合识别基因功能及致病基因[51]MostafaviS,MorrisQ.Fastintegrationofheterogeneousdatasourcesforpredictiongenefunctionwithlimitedannotation[J].Bioinformatics,2010,26(14):1759-1765.[52]SaraMotafavi,DebajyotiRay,DavidWarde-Fariey,etal.GeneMANIA:areal-timemultipleassociationnetworkintegrationalgorithmforpredictinggenefunction[J].GenomeBiol,2008,9:S4.[53]GuoxianYu,HailongZhu,CarlottaDomeniconi,atal.Integratingmultiplenetworksforproteinfunctionprediction[J].BMCSystBiol,2015,10:1186-1752.[54]YuG,RangwalaH,DomeniconiC.Proteinfunctionpredictionbyintegratingmultiplekernels[J].Proceedingsofthe23rdInternationalJointConferenceonArtificialIntelligence[J].2013,46:1869–1875.[55]WangM,HuaX-S,HongR.etal.Unifiedvideoannotationviamultigraphlearning[J].IEEETransactionsonCircuitsandSystemsforVideoTechnology,2009,19(5):733–746.[56]ShigaM,MamitsukaH.Efficientsemi-supervisedlearningonlocallyinformativemultiplegraphs[J].PatternRecognition,2012,45(3):1035–1049.[57]NarayananM,KarpRM.Comparingproteininteractionnetworksviaagraphmatch-and-Splitalgorithm[J].JournalofComputationalBiology,2007,14(7):892-907.[58]AshburnerM,BallCA,BlakeJA,etal.GeneOntology:Toolfortheunificationofbiology[J].NatGenet,2000,25:25-29.[59]M.Chitale,T.Hawkuns,C.ParkandD.Kihara.ESG:extendedsimilaritygroupmethodforautomatedproteinfunctionprediction[J].NucleicAcidsRes,2006,34:D504-506.[60]T.Hawkins,M.Chitale,S.Luban,D.Kihara.PFP:automatedpredictionofgeneontologyfunctionalannotationswithconfidencescoresusingproteinsequencedata[J].Proteins,2009,74:556-582.[61]ChadMyers,DrewRobson,AdamWible,etal.Discoveryofbiologicalnetworksfromdiversefunctionalgenomicdata[J].GenomeBiol,2055,6:R144.[62]DomenicoCozzetto,DanielWABunchan,KevinBryson.Proteinfunctionpredictionbymassiveintegrationofevolutionaryanalysesandmultipledatasources[J].Bioinformatics,2013,14:1186-1471.[63]ClarkWT,RadivojacP.Analysisofproteinfunctionanditspredictionfromacidsequence[J].Proteins,2011,79(7):2086-2096.[64]SegalE,WangH,KollerD.Discoveringmolecularpathwaysfromproteininteractionandgeneexpressiondata[J].Bioinformatics,2003,19(1):264-271.[65]EngelhardtBE,JordanMI,SroujiJR,BrennerSE.Genome-scalephylogeneticfunctionannotationoflargeanddiverseproteinfamilies[J].GenomeRes,2011,21(11):1969–1980.[66]MartinDM,BerrimanM,BartonGJ.GOtcha:anewmethodforpredictionofproteinfunctionassessedbytheannotationofsevengenomes[J].BMCBioinformatics,2004,5:178.60 南京航空航天大学硕士学位论文[67]GAOJ.Agraph-basedconsensusmaximizationapproachforcombingmultiplesupervisedandunsupervisedmodels[J].IEEETransactionsonKnowledgeandDataEngineering,2013,25(1):15-28.[68]GuoxianYu,HailongZhu,CarlottaDomeniconi,atal.Integratingmultiplenetworksforproteinfunctionprediction[J].BMCSystBiol,2015,10:1186-1752.[69]xingliGuo,LinGao,QiLiao,etal.Longnon-codingRNAsfunctionannotation:aglobalpredictionmethodbasedonbi-colorednetworks[J].2013,NucleicAcidsRes,41(2):e35.[70]LanL,DjuricN,GuoY,etal.MS-KNNproteinfunctionpredictionbyintegratingmultipledatasources[J].BMCBioinformatics,2013,14(Suppl3):S8.[71]JoshiT,ChenY,BeckerJM.Genome-scalegenefunctionpredictionusingmultiplesourcesofhigh-throughputdatainyeastSaccharomycescerevisiae[J].Omics,2004,8:322-333.[72]XiaoG,PanW.Genefunctionpredictionbyacombinedanalysisofgeneexpressiondataandprotein-proteininteractiondata[J].JBioinformComputBiol,2005,3:1371-1389.[73]MeghanaChitale,LshitaKKhan,DaisukeKihara.In-depthperformanceevaluationofPFPandESGsequence-basedfunctionpredictionmethodsinCAFA2011experiment[J].BioMedCentral,2013,14:S2.[74]FrankeL,VanBakelH,FokkensL,atal.Reconstructionofafunctionalhumangenenetwork,withanapplicationforprioritizingpositionalcandidategenes[J].AmJHumGenet,2006,78(6):1011-1025.[75]AndreasSchlicker,ThomasLengauerandMarioAlbrecht.ImprovingdiseasegeneprioritizationusingthesemanticsimilarityofGeneOntologyterm[J].Bioinformatics,2010,26(18):i561-i567.[76]ZhaoXM,ChenL,AiharaK.Proteinfunctionpredictionwiththeshortestpathinfunctionallinkagegraphandboosting[J].IntJBioinformResAppl,2008,4(4):375-384.[77]RichardA.George,JasonY.Liu,LinaL.Feng,etal.Analysisofproteinsequenceandinteractiondataforcandidatediseasegeneprediction[J].NucleicAcidsRes,2006,34:e130.[78]AmbergerJS,BocchiniCA,SchiettecatteF,etal.OMIM.org:OnlineMendelianInheritanceinMan,anonlinecatalogofhumangenesandgeneticdisorders[J].NucleicAcidsRes,2015,43:789-798.[79]WangX,GulbahceN,YuH.Network-basedmethodsforhumandiseasegeneprediction[J].BriefFunctGenomics,2011,10(5):280-293.[80]GamageUpeksha,JianXinWang,Fang-XiangWu,etal.Predictionofdiseasegenesusingtissue-specifiedgene-genenetwork[J].BMCSystemsBiology,2014,8:S3.[81]TurnerFS,ClutterbuckD,SempleC.POCUS:mininggenomicsequenceannotationtopredictdisease[J].GnomeBiology,2003,4(11):R75.[82]Prez-IratxetaC,WjstMathias,BorkPetal.G2D:atoolformininggenesassociatewithdisease[J].BMCGenetics,2005,6L45.61 结合蛋白水平的多组学数据整合识别基因功能及致病基因[83]SmithB,KumarA.Controlledvocabulariesinbioinformatics:acasestudyinthegeneontology[J].DrugDiscoveryToday:BIOSILICO,2004,2(6):246-252.[84]ArnoldJ.LevineandMosheOren.Thefirst30yearsofp53:growingevermorecomplex[J].NatureReviewsCancer,2009,9:749-757.[85]BarabasiAL.GulbahceNandLoscalzoJ.Networkmedicine:anetwork-basedapproachtohumandisease[J].Nature,2011,12(1):56-68.[86]PhilipJ,PatrickS.Tarpey,HelenDavies,etal.Thelandscapeofcancergenesandmutationalprocessesinbreastcancer[J].Nature,2012,486:400-404.[87]WilliamLee,ZhaoshiJiang,JinfengLiu,etal.Themutationspectrumrevealedbypairedgenomesequencefromalungcancerpatient[J].Nature,2010,466:388-392.[88]AntonellaPapa,LixinWan,MassinoBonora,etal.Cancer-AssociatedPTENMutantsActinaDominant-NegativeMannertoSuppressPTENProteinFunction[J].Cell,2014,3:595-610.[89]HomH,ZiepertM,BecherC,etal.MYCstatusinconcertwithBCL2andBCL6expressionpredictsoutcomeindiffuselargeB-celllymphoma[J].Blood,2013,121(12):2253-2263.[90]LiuC,MaJ,AmosCI.Bayesianvariableselectionforhierarchicalgene-environmentandgene-geneinteractions[J].HumGenet,2015,134(1):23-36.[91]JADuncan,JRReeves,TGCooke.BRCA1andBRCA2proteins:rolesinhealthanddisease[J].MolPathol,1998,51(5):237-247.[92]XZhou,MSang,WLiu.LM04inhibitsp53-mediatedproliferativeinhibitionofbreastcancercellsthroughinteractingp53[J].LifeScience,2012,91(9):358-363.[93]LiYL,TianZ,ZhangJB,etal.CDH1promoterpolymorphismandstomachcancersusceptibility[J].MolBiolRep,2012,39(2):1283-1286.[94]EmreH,TekinSB,DoganH,etal.InvestigationofErbB-2overexpressiononpatientswithgastricinEasternAnatoliaofTurkey[J].TurkJGastroenterol,2013,24(3):211-217.[95]YamaguchiF,KugawaS,TatenoH,etal.AnalysisofEGFR,KRASandP53mutationsinlungcancerusingcellsinthecurettelavagefluidobtainedbybronchoscopy[J].2012,78(3):201-206.[96]EmaA,WarayaM,YamashitaK,etal.IdentificationofEGFRexpressionstatusassociationwithmetastaticlymphnodedensity(ND)byexpressionmicroarrayanalysisofadvancedgastriccancer[J].CancerMethod,2015,4(1):90-100.[97]SoysalSD,KilicIB,RegenbrechtCR,etal.Statusofestrogenreceptor1(ESR1)geneinmastopathypredictssubsequentdevelopmentofbreastcancer[J].BreastCancerResTreat,2015,151(3):709-715.62 南京航空航天大学硕士学位论文致谢研究生生涯就要过去了,在近三年的的时间里,我学习到了很多知识,也学到了做事的方法,做人的道理,收获满满。所以我要谢谢老师的指导和同学朋友的帮助。先要感谢我的指导老师陶玲副教授和宋晓峰教授,,本文的工作是在陶玲副教授和宋晓峰教授的指导下完成的。陶老师因材施教,工作严谨,善于引导我们朝正确的方向努力,并锻炼我们发现新问题的能力,表达自己想法的能力,关心我们的生活,我感到非常幸运和感激。然后我很感谢生物医学工程系的老师们和研究生期间的任课老师们,谢谢他们的教导。还要感谢本实验室的其他成员,每当我在科研上遇到问题都有人一起讨论,每次都受益匪浅,这给我的科研提供了很大的帮助。感谢赵健、吴静、杨骐昌、徐添翼、周广杰、何俊豪、陶然、魏金川和林佳伟,在课题研究中给予的帮助。最后,我要特别感谢我的家人,他们在我学习和生活上给我无私的关心。杨华冬2016年12月于南京航空航天大学63 结合蛋白水平的多组学数据整合识别基因功能及致病基因在学期间的研究成果及学术论文情况攻读硕士学位期间发表(录用)论文情况1.杨华冬,陶玲,宋晓峰.基于生物网络与表达谱信息的基因功能预测与分析综述[J].计算机与应用化学(已录用).2.HuadongYang,LingTao,XiaofengSong.ProteinExpressionDataImprovesGeneFunctionPrediction.Theproceedingsofinternationalconferenceofbioinformaticsandbiomedicine.2016,Shenzhen,China.研究生期间参与的科研项目1.国家自然科学基金(No.61171191)2.国家自然科学基金(No.81571223)64

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭