基于基因网络的致病基因预测算法研究

基于基因网络的致病基因预测算法研究

ID:77691364

大小:1.93 MB

页数:62页

时间:2024-02-04

上传者:笑似︶ㄣ無奈
基于基因网络的致病基因预测算法研究_第1页
基于基因网络的致病基因预测算法研究_第2页
基于基因网络的致病基因预测算法研究_第3页
基于基因网络的致病基因预测算法研究_第4页
基于基因网络的致病基因预测算法研究_第5页
基于基因网络的致病基因预测算法研究_第6页
基于基因网络的致病基因预测算法研究_第7页
基于基因网络的致病基因预测算法研究_第8页
基于基因网络的致病基因预测算法研究_第9页
基于基因网络的致病基因预测算法研究_第10页
资源描述:

《基于基因网络的致病基因预测算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

硕士学位论文基于基因网络的致病基因预测算法研究RESEARCHONDISEASEGENEPREDICTIONALGORITHMBASEDONGENENETWORK韦贞乐2016年7月 国内图书分类号:TP391学校代码:10213国际图书分类号:004密级:公开工学硕士学位论文基于基因网络的致病基因预测算法研究硕士研究生:韦贞乐导师:徐勇教授申请学位:工学硕士学科:计算机科学与技术所在单位:深圳研究生院答辩日期:2016年6月授予学位单位:哈尔滨工业大学 ClassifiedIndex:TP391U.D.C:004DissertationfortheMasterDegreeinEngineeringRESEARCHONDISEASEGENEPREDICTIONALGORITHMBASEDONGENENETWORKCandidate:ZhenleWeiSupervisor:Prof.YongXuAcademicDegreeAppliedfor:MasterDegreeinEngineeringSpeciality:ComputerScienceandTechnologyAffiliation:ShenzhenGraduateSchoolDateofDefence:June,2016Degree-Conferring-Institution:HarbinInstituteofTechnology 哈尔滨工业大学工学硕士学位论文摘要致病基因的研究是对遗传疾病的治疗具有重要的意义。近年来,高通量测序技术的高速发展为致病基因的研究带来了新的机遇,并涌向出大量的致病基因研究方法。这些方法基于已有的疾病或表型与基因之间的因果关系,使用网络构建方法对致病基因进行排序,从而达到致病基因筛选的目的。它们大多基于一个前提,即致使相同或相似疾病发病的基因在基因生物网络中邻近,存在着模块特性。但现有的方法对生物实体网络的邻接矩阵的构建较为粗糙,即存在关联关系的为1,否则为0,无法对基因之间的关联关系进行更合理的量化。此外,高通量测序技术产生了大量生物数据,使得集成数据分析方法成为目前致病基因研究的主要手段,但大多数方法都是基于生物实体的局部信息进行特征的构建,没有更好的扩展利用生物实体网络的拓扑特性。本课题研究的工作主要包括:第一,从另一种角度引入了研究生物实体间关系的方法,通过考察生物数据分布规律,来量化生物实体间的相对重要程度。基于此本课题引入两种统计特征量化数据间的关系。一种是计算基因表达数据的相关系数,用于分析基因间在功能上或者调控上对整个基因网络的重要程度;另一种是计算基因表达数据的信息散度,将基因的表达值作为基因表达的概率来量化基因间的表达分布,以此得到基因间的相互重要关系;与蛋白质交互网络数据的比对实验表明这两种统计特征的AUC、Top1和Top50在致病基因预测问题上优于后者,验证了所引入的两种统计特征对致病相关基因筛选的有效性。第二,提出一种随机游走算法的二元逻辑回归模型用于致病相关基因的预测。利用随机游走模型,对每一个基因进行关联基因的筛选,从得到与这个基因关联性强的基因中,分别从个数和权重这两个方面统计这些基因的全局信息,并用来构建基因的特征向量,得到了特征F1、特征F2和特征F3。第三,在特征F1下,三个不同的生物数据网络:蛋白质交互网络、基因共表达网络和基因通路网络中本章方法得到的AUC明显优于BChen等人提出的特征“PCF1”、MRF算法和RWR算法得到的结果。在F2特征下,三个不同的生物数据网络中,本课题提出的算法的AUC结果高于BChen等人提出的特征“PCF2”得到的结果。在特征F3下集成三种网络,本章提出的方法的AUC结果显著优于MRF算法、RWR算法、DIR算法和BChen等人提出的特征“PCF3”的结果。此外还从时间效率上对这几种不同算法进行了比对,验证了本章算法更具有竞争力。关键词:致病基因预测;信息散度;相关系数;随机游走算法;逻辑回归模型I 哈尔滨工业大学工学硕士学位论文AbstractDiseasegenepredictionandidentificationareofgreatsignificanceforthetreatmentofgeneticdisorders.Inrecentyears,withthedevelopmentofhigh-throughputsequencingtechnologiesforgeneresearchhasbroughtnewopportunitiesandemergedplentyofdisease-causinggenesmethods.Thesemethodsarebasedonexistingdiseaseorcausalrelationshipbetweenphenotypeandgene,usingthenetworkmethodtosortthegenes,soastoachievethegoalofdisease-causinggenes.Existingmethodsarebasedonapremisethatcausingthesamediseaseorsimilardiseasesinbiologicalnetworksofgenesinthebiologicalnetworkarecloseorinteractswitheachother,inotherwords,thereisamoduleattribute.Buttheadjacencymatrixofthebiologicalentity’snetworkestablishedbytheexistingmethodsisamorerough,whichhaveacorrelationrelationshipbetweengenesandthevalueis1,otherwiseis0.Relationshipbetweengenescannotbereasonablyquantified.Inaddition,high-throughputsequencingtechnologyhasproducedalargenumberofbiologicaldata,makingtheintegrateddataanalysisbecomethemainmeansofdiseasegenepredictionandidentification.However,mostofthesemethodsarebasedonbiologicalcharacteristicconstructionoflocalinformationforanentity,thereisnobetterexpandinguseofphysicalnetworktopology.Inthispaper,theworkofthispaperisthefollowing:Firstly,thisarticlepresentsmethodstostudytherelationshipbetweendifferentbiologicalentitiesfromthepointofviewofstatistics,byanalyzingthedistributionofbiologicaldata,toquantifytherelativeimportanceofbiologicalentities.Sothissubjectintroducedtwostatisticsfeaturestoquantifytherelationshipbetweengenes.Oneisbasedonthecorrelationcoefficientforgeneexpressiondata,analyzingthegenefunctionorregulationontheimportanceoftheentiregenenetworks;anotherwasbasedondivergenceinformationofgeneexpressiondatafeaturevector,usingthegeneexpressionvaluesasaprobabilityofgeneexpressiontoquantifygeneexpressionstatus,tomeasuretherelativeimportancebetweengenes;comparethesetwostatisticalcharacteristicswithproteininteractionnetworkdata,andexperimentsshowthattheAUC(AreaUnderCurve)andtop1andtop50ofbothstatisticalcharacteristicsinthepredictionofpotentialdisease-genesbetterthanthepredictionoftheproteininteractionnetworkdata,verifiedthatthesetwostatisticalcharacteristicsinpathogenicity-relatedgeneprioritizationarevalid.Secondly,wepresentarandomwalkalgorithmofthebinaryregressionmodeltopredictpathogenicity-relatedgene.UsingrandomwalkmodelstoconstructthefeaturevectorforeachgenebyprioritizingtheassociatedgenesandselectthetopkgeneforgenefeaturevectorofF1,F2,andF3construction.ThetopkgenesarestronglyII 哈尔滨工业大学工学硕士学位论文associatedwiththisgeneinaglobalperspective,andthencollectingtheglobalinformationofgenesbytheweightoflabel1andlabel0,orthenumbersoflabel1andlabel0toconstructagenevector.Thirdly,inthecharacteristicF1,theAUCresultsinthreedifferenttypesofbiologicaldatanetwork:proteininteractionnetworks,geneco-expressionnetworkandgenepathwaynetworkinthischaptersignificantlybetterthantheresultsofotherscharacteristics"PCF1",MRFandRWRalgorithms.UnderF2characteristics,threedifferentbiologicaldatanetworks,theAUCresultsofourmethodarehigherthanothercharacteristicsof"PCF2".InthecharacteristicF3,integratingthesethreenetworks,theAUCresultofthemethodpresentedinthischaptersignificantlyoutperformstheresultofMRFalgorithm,RWRalgorithm,DIRalgorithmandotherscharacteristics"PCF3".Inaddition,thecomparisonofthedifferentalgorithmsiscarriedoutfromthetimeefficiency,whichprovesthatthealgorithmismorecompetitive.Keywords:disease-geneprediction,divergenceinformation,correlationcoefficient,randomwalkalgorithm,logisticregressionmodelIII 哈尔滨工业大学工学硕士学位论文目录摘要.......................................................................................................................IABSTRACT.............................................................................................................II目录.....................................................................................................................IV第1章绪论........................................................................................................11.1课题研究的背景和意义................................................................................11.2国内外研究现状............................................................................................21.3主要研究内容和论文组织结构....................................................................51.3.1主要研究内容........................................................................................51.3.2本文组织结构........................................................................................6第2章基于基因表达数据的致病基因排序........................................................82.1引言................................................................................................................82.2基于基因表达数据的统计特征....................................................................92.2.1构建相关系数特征向量........................................................................92.2.2构建信息散度特征向量........................................................................92.2.3评价指标..............................................................................................102.3基于统计特征的致病基因排序算法...........................................................112.4实验验证及分析..........................................................................................122.4.1开发环境..............................................................................................122.4.2实验数据..............................................................................................132.4.3统计特征的有效性验证及分析..........................................................142.5本章小结......................................................................................................20第3章基于逻辑回归的致病基因预测算法......................................................213.1引言..............................................................................................................213.2二元逻辑回归模型概述..............................................................................213.3基于逻辑回归的致病基因预测算法..........................................................223.3.1基于二元逻辑回归预测模型..............................................................223.3.2基于两步二元逻辑回归预测模型......................................................243.4随机游走的二元逻辑回归预测模型..........................................................253.4.1基本原理..............................................................................................253.4.2算法步骤..............................................................................................273.5本章小结......................................................................................................28IV 哈尔滨工业大学工学硕士学位论文第4章实验仿真及结果分析..............................................................................304.1实验环境......................................................................................................304.2实验数据......................................................................................................304.3实验结果及分析..........................................................................................314.3.1留一交叉验证......................................................................................314.3.2算法性能分析......................................................................................314.3.3算法效率分析......................................................................................404.4本章小结......................................................................................................42结论....................................................................................................................43参考文献................................................................................................................45攻读硕士期间发表的论文及其它成果................................................................52哈尔滨工业大学学位论文原创性声明和使用权限............................................53致谢....................................................................................................................54V 哈尔滨工业大学工学硕士学位论文第1章绪论1.1课题研究的背景和意义人类基因组计划(HumanGenomeProject)的完成是人类历史一次里程碑式的飞跃,对基因的研究也上升到了一个更高的层次,越来越多的开始关注基因对人体生命活动中所起到的作用。人类常见的癌症等疾病大多都是多基因相互作用导致的结果,诸如乳腺癌、糖尿病、小儿痴呆症等都属于多基[1]因导致的复杂疾病;而近年来高通量测序技术的发展为研究多种潜在基因对这些复杂疾病的产生机理提供了有效的手段。早期的致病基因预测都是通过生物实验手段来进行,这种方法不论是从时间和成本上来说都是消耗非常[2]大,而且实验的过程以及结果都是不可复制的。在疾病基因预测研究上采用计算机技术能够极大的加速了对疾病致病机理的理解和分析以及推动了制药治疗的进展,对人类疾病治疗史起到了非常大的作用。另一方面,随着高通量测序技术的发展,产生了大量的生物数据,而这些数据往往来自于不同的研究者和医学组织机构。高通量技术在给很多生物信息领域的研究者们带来发展机遇的同时,也给他们带来了巨大的挑战。其产生的数据量庞大,数据的大小、格式、维度,还有数据的复杂性、信息量等的不同,给研究者们设置了一个很大的障碍;目前为止,生物信息领域的研究者们也只是利用了冰山一角的信息进行致病基因的研究。而联合多种数据,对其进行网络建模,进行实验数据的挖掘为揭示生物系统和生命过程提供了很好的理论依据,帮助研究者们发现疾病和遗传基因之间的关系,预测疾病相关的基因,并解释发病机理,辅助基因诊断和帮助遗传类疾病诊疗都具有非常重要的意义。此外,还可以通过对这些数据的统计发现相关的调控基因,并进行定向抑制其调控功能或者激活其相关功能为复杂疾病的药物研制提供了研制手段。高通量测序技术产生大量不同类型的生物数据,对新的致病基因的发现,新药物研发也能起到推动作用,有较高的经济效益。致病基因预测也被称为致病基因筛选或者致病基因排序。在早期研究致病基因筛选的阶段,排序方法成为了主要的挖掘生物实体数据的一种手段;不同的生物实体间存在着不同的相互交互关系,而这种复杂关系可以通过复杂网络来进行表征,因此基于复杂网络的致病基因排序方法一度成为了众多研究者们致力研究的方向。此外,复杂网络与不同的生物实体间存在的交互关系,从本质上具有相似性,因此,致力于基于复杂网络的致病基因筛选方-1- 哈尔滨工业大学工学硕士学位论文法去挖掘生物实体间存在的非直接关联关系,对于药物研制、理解生物系统的进化过程以及癌症等多复杂因子疾病的治疗都具有非常重要的实用意义。目前,大多数疾病具有少量的已知的关联基因,且发现新的疾病致病基因的方法非常昂贵和耗时,利用现有的生物数据进行整合,集成多种数据源提高对致病基因的检验效率是当前生物信息学研究的热门方向。例如研究蛋白质相互作用网络,依据基因和蛋白质之间的生物关系,以及在不同表型下(phenotype)或者疾病网络中发掘其中所存在的关联关系,然后依据这个关联关系的置信度,对候选基因进行排序,作为疾病的潜在致病基因。由于标准的网络数据分析方法处理这些异构网络数据的能力有限而且存在数据源不充分、有噪声、可解释性差、可重复性差等诸多不足,如何从海量数据中挖掘出潜在的规律性,整合数据,并且能够合理的利用生物学知识进行解释和分析,是当前疾病-基因预测领域的难点所在。此外,如何根据现有的生物数据特性,对数据进行深入分析,找到海量基因数据中存在的潜在规律,找出某些疾病与特定基因的关联性,这对于包括乳腺癌等多复杂疾病[3]因子在内的疾病预防与治疗具有重大的医学意义。1.2国内外研究现状目前仍然致力于发掘与特定表型,尤其是疾病的相关致病基因。很多常见疾病都是多基因疾病,且其致病机理非常复杂,涉及几十种易感或致病的[4,5]基因。疾病基因型和表型之间错综复杂的相互影响使得对所有相关疾病基[6,7]因的鉴定变得困难重重。此外,到目前为止仍然没有一套统一的基准方法用于评估这些候选基因排序算法,使得不同算法间性能的比对变得更加复杂。近年来,高通量测序技术产生了大量不同的生物数据,即组学层数据。例如,[8-10][11,12]酵母双杂交实验和亲和纯化的质谱分析方法标识出蛋白质间物理交[13,14][15-17]互的组层数据;微阵列方法和RNA-测序技术方法,产生的基因表达数据和mRNA序列等。不同的组层学数据包含的成分分别有:基因组中的基因,转录组中的mRNA,蛋白质组的蛋白质,代谢组中的代谢产物和表型组的表型,在候选基因排序方法中这些组层学是非常重要的数据源。用于候选基因排序方法的其他生物信息源还包括基因功能注释,基因和蛋白质序列[18-20]特性、生物通路、同源基因和相关的生物文献。绝大多数的计算方法在处理候选基因排序问题上的工作原理都非常类似,即利用疾病表型、已知的疾病致病基因和候选的基因的生物医学知识来进行排序。近年来,依据生物数据及其表现形式的不同可以将各种不同致病基因排序方法进行分类,主要考虑候选疾病基因的基因和蛋白的特性、网络的-2- 哈尔滨工业大学工学硕士学位论文拓扑信息,异构网络的排序算法。(1)基于基因和蛋白质特性的排序算法首个筛选疾病基因的计算方法主要是采用疾病基因的分子特性,如单个[21,22]基因和蛋白质序列特性以及基因产物的功能注释,该特性区分开疾病基[23-25]因和非疾病基因。原则上如果一个候选基因满足已知疾病基因或者蛋白质的某种属性,那么这个基因的疾病相关性被认为要高于其他基因的相关性。[21]Ouzouni等从疾病基因产物的氨基酸序列中推导出疾病基因的几种重要特性。与人类基因组上其他的编码蛋白相比,疾病蛋白往往更长,表现出更广泛的系统发育程度,在脊椎动物和无脊椎动物中有更多的同系物,具有[26]较少的密切的旁系同源,进化的更保守。Jimenez-Sanchez等提出采用已知[27]疾病基因的功能注释来进行筛选候选基因。而Perez-Iratxeta等使用文本挖掘方法对生物医学文献涉及的疾病表型与功能注释进行关联,并且依据与疾[28]病的共有的特征功能注释对候选基因进行排名。Freudenberg和Propping也采用类似的方式,依据与相似表型关联的致病基因共有的GO术语对候选[23]基因进行排序。Schlicker等提出利用疾病基因和候选基因之间的功能注释[24]的相似性对候选基因进行排序。此外,Ramírez等采用BioSim方法来挖掘基因或者蛋白质之间的生物关系。BioSim方法依据多种数据源的功能注释对功能基因和蛋白质之间的相似性进行定量分析,将功能基因和蛋白质与疾病基因之间的功能相似性对候选基因进行排名。大量的研究成功地表明,表型相似的疾病往往涉及共同的分子机制和功能相关的基因。(2)基于网络信息的排序算法早期的基于网络的排序算法主要集中在局部网络信息,如候选基因结点或蛋白质结点的网络直接邻居结点。这可以通过观察疾病的蛋白质聚集的倾[29-31]向和相互作用来解释。分子的三角剖分(Moleculartriangulation)方法是首次采用蛋白质相互作用网络以及结点的最短路径对候选基因进行排名的[32][33]方法。为了尽可能多的挖掘局部网络度量法的潜在信息,Xu和Li等计算了由文本标注、实验推导和蛋白质交互作用构建的三种网络的多种拓扑特征。然而有相关文献表明局部网络信息忽略了相距较远节点在网络中潜在的介导影响,利用全局网络度量能够很大程度提高候选致病基因的排序性能[34-36]别是在多基因导致的疾病研究中,网络拓扑分析能够从多条路径提供更加全面的信息来揭示远程蛋白质的交互作用以及它们对致病基因在功能和交互作用上的影响。[34]Köhler等提出的RWR算法证明了对蛋白质交互作用网络进行随机游-3- 哈尔滨工业大学工学硕士学位论文走分析所能达到的预测性能比基于局部网络的方法要高,例如最短路径和直接邻居方法。在这些方法中,研究者依据随机游走的收敛得到的稳态概率对基因产物进行排序。从当前已知的疾病蛋白出发进行随机游走,或者以一定的返回概率返回疾病蛋白进行随机游走。虽然排序的评估方法是依据候选蛋白质到疾病蛋白质之间的邻近性,但是这种方法考虑了网络的全局拓扑特征,[36]因此性能要比局部信息的排序效果更好。此外Navlakha和Kingsford比较了不同的基于网络的候选基因排序方法,观察到基于随机游走度量性能要优于基于局部网络邻居或者聚类的度量。[35]Chen等提出了三种全局网络的复杂算法用于致病基因排序,这三种[37]算法都是随机游走算法的改进版本,分别为PageRank、KSMM(K-Step[38][39]Markovmethod)和HITS(Hyperlink-InducedTopicSearch)。利用网络的全局拓扑信息,并计算网络中所有结点到疾病蛋白质集的相关性,这三种算法都取得了相当的性能。[40]除了利用局部网络的信息外,Lage等还增添疾病表型信息用于致病基因的排序。每一个候选基因及其关联一同视为候选蛋白质复合物。候选蛋白质复合物中的所有致病蛋白质被分配一个表现型相似度分数,这个分数将作为贝叶斯预测分类器的输入。因此,如果复合物中其他蛋白质涉及的表型与目标疾病非常相似,那么这个候选基因将获得一个较高的分数。使用Lage[40]和Berchtold等的方法成功的筛选与1型糖尿病(T1D)相关的蛋白质。(3)异构网络的排序算法为了对生物系统有一个更为全面的理解,弥补单一的网络数据分析的不足,将这些高通量测序技术产生的生物数据进行数据集成,形成一个异构网[41,42]络,是目前普遍采用的方法。不断增长的数据主要包括蛋白质和基因组[43][44]序列数据、全基因组关联研究的疾病数据、癌症基因组图谱的变异数据[45][46][47](TCGA)、功能注释和本体数据,如GO基因本体和DO疾病本体、[48][49]蛋白质结构数据、药物化学结构和药物-目标相互作用数据(DTI)、基[50][51]因通路数据和基因表达数据(GEO)。这些数据补充了分子网络的信息,常被纳入多种不同的数据集成框架中增强对生物的新发现的可靠性。数据集成是尽可能多的收集所有的生物数据进行分析,不同类型的生物数据,相互交互,错综复杂。因此,可将不同组学层的数据用网络来进行表示。将图论的知识应用于生物网络,成为了挖掘生物数据间的存在的关系的[53][54,55]一种有效手段,例如将图论知识应用于蛋白质交互网络(PPI),基[56-58][59-61]因交互网络(GI),代谢交互网络(MI),和基因共表达网络(Co-Ex)[62,63]研究。对于数据集成构建的异构网络,大多数基于单一网络的算法如-4- 哈尔滨工业大学工学硕士学位论文[34]RWR算法,可将这些生物数据进行简单的融合同样也适用于异构网络中。[64]Wu等于2008年提出CIPher算法,采用回归模型,通过计算异构网络中结点的直接邻居和最短路径得到了两种变体:CIPHER_DN和CIPHER_SP,从本质上来看还是利用了局部网络的信息,忽略了较远距离结点对整个网络[65]的影响。2010年Vanunu等提出PRINCE算法,该算法是一种随机游走算法,同样采用全局网络信息,但该算法没有利用疾病表型网络。与RWR算法不同之处在于邻接矩阵归一化从处理方式不同,对于节点度分布出现较大的网络,PRINCE算法采用正规化的拉普拉斯进行归一化,保证了算法能够[66]较快得到稳态,且提高致病基因的预测效果。2014年Cano等提出PROPHNET算法,该算法也是随机游走算法中的一种,对集成数据的处理方式上与之前的方法不同。对于多种数据源,该算法采用信息流传播方式,因此多种网络数据的处理方式可分为网络内部和网络间处理。由于联合多种生物数据网络,因此在预测效率上比RWR算法的简单融合多种数据的效率要低。研究表明,从预测性能和预测效率上,随机游走算法在致病基因预测问题上是一种不错的选择。除了采用随机游走算法以外,研究者们还尝试着从[67,68]机器学习角度来进行预测。Chen等分别采用马尔科夫模型和逻辑回归模型对致病基因预测进行了尝试,从效率或者预测性能上都得到了不错的结果。研究者们希望能够通过对这些生物网络进行集成分析,构建异构网络,从而[67]对生物系统得到一个更为全面的理解。如Chen等集成了基因表达数据、[42]蛋白质交互数据和基因通路数据,Jiang等也是集成了多种基因型和表型数据。如何有效的集成多种生物数据构建异构网络,并用于研究挖掘生物实体数据间的关系,得到更为精确的基因-基因关联关系是目前数据集成面临的[69,70]主要挑战。1.3主要研究内容和论文组织结构1.3.1主要研究内容现有方法主要依赖于蛋白质相互作用网络和表型相似性网络来计算候选基因和致病基因的功能相似性,或者计算疾病同候选基因在网络中的可达概率。但是现有的方法对生物实体网络的邻接矩阵的构建较为粗糙,即存在关联关系的为1,否则为0,无法对基因之间的关联关系进行更合理的量化。研[71]究表明,基因表达数据和基因本体对致病基因预测同样有重要作用。此外,高通量测序技术产生了大量生物数据,使得集成数据分析方法成为目前致病基因研究的主要手段,但大多数方法都是基于生物实体的局部信息进行特征-5- 哈尔滨工业大学工学硕士学位论文的构建,没有更好的扩展利用生物实体网络的拓扑特性。本文的主要研究内容如下:(1)在疾病本体,基因集表达数据和基因本体的基础上,利用公开的数据库提供的疾病和基因,对基因集表达数据进行对应的ID映射,对基因集表达数据,从统计学角度进行分析得到基因集表达数据的两种统计特征,相关系数特征和JS信息散度特征。为了验证这两种特征的有效性,将它们与蛋白质交互数据的邻接矩阵在RWR算法和PROPHNET算法下进行实验验证。(2)提出了一种随机游走算法的二元逻辑回归预测模型,模型主要从全局的角度进行考虑,采用随机游走模型统计每一个基因的全局信息,这个全局信息主要包括两个方面:(a)统计每一个基因的关联基因中标签为“1”的权重和标签为“0”的权重,构建得到基因的特征向量;(b)统计每一个基因的关联基因中标签为“1”和标签为“0”的个数;然后给出了所提算法的实现过程;(3)对提出的算法构建得到的三种特征F1、F2和F3分别在三种不同的生物网络中进行实验,并于其他几种目前的集成数据分析方法进行比对验证了所提出算法在致病相关基因的预测问题上的有效性。1.3.2本文组织结构第1章中简单介绍了课题研究的背景和意义,对生物致病基因研究进行了简要介绍,以及对致病基因筛选和预测等国内外现状进行分析,总结了基因筛选和预测的作用和原理,以及在现实应用中致病基因筛选和预测的存在的价值和意义。第2章首先介绍目前广泛应用于致病相关基因筛选的两种方法,其次从统计学角度出发,基于致病基因筛选常用的假设,量化基因间所存在的关联关系,得到基因集表达数据的两种统计特征。最后对这两种量化的统计特征进行实验有效性验证。此外,为了更进一步验证这两种统计特征的有效性,分别在RWR算法和PROPHNET算法上进行了实验验证,采用留一交叉验证方法,依据三种评价指标分别进行实验比对和分析,验证引入的两种量化统计特征在致病相关基因的筛选中的有效性。第3章首先介绍两种用于致病基因预测的二元逻辑回归模型,给出了这两种模型的原理和方法,并在此基础上提出一种随机游走算法构建的基因特征的二元逻辑回归模型,将随机游走算法应用于基因特征向量的构建,得到了基因的全局信息。基因的全局信息主要包含两个方面:(a)关联基因的权重;(b)关联基因的个数;最后给出了提出算法的算法实现过程。第4章针对第3章提出的一种随机游走算法构建的基因特征向量,分别-6- 哈尔滨工业大学工学硕士学位论文从性能上和时间效率上对算法进行评估以及验证。首先采用随机游走算法统计每一个基因的关联基因的全局信息,即基因的关联基因中标签为“1”的权重和个数,标签为“0”的权重和个数,构建得到每一个基因的特征向量F1、F2和F3。在特征向量F1、F2和F3下,采用逻辑回归算法进行参数训练,将模型训练得到的参数用于致病相关基因的预测。最后将MRF算法、RWR算法、DIR算法和二元逻辑回归模型与本文提出的算法进行实验比对,验证了本文提出的算法的有效性。此外,还在单一网络和三种集成网络中对不同的算法所耗费的时间效率进行比较,得出提出的算法在某种特定情况下还是可以达到不错的效果。-7- 哈尔滨工业大学工学硕士学位论文第2章基于基因表达数据的致病基因排序2.1引言基因、蛋白质等生物实体都是生命系统不同阶段的不同产物,通过一系列的生命过程,最终的表现形态受环境和遗传效应共同决定。基因是具有遗传效应的基本单位,其本质是一小段DNA,其表达的信息反应了细胞当前的生理状态,如细胞是处于正常的状态还是恶化的状态,转录反应过程中细胞是否发生了突变,在有药物作用的情况下,药物是否对细胞产生了效应等。对基因表达数据的深入分析可以获取基因表达调控和基因功能等方面的信息,而这些信息在理解疾病机理及药物治疗效果研究中得到了广泛应用。[13,14]基因表达数据主要是通过微阵列技术实验得到。测量基因在不同的样本,不同的时间点以及各种不同的测验设置得到的基因在特定限制条件下的表达程度,可通过设置特定限制条件,以反映多基因、多因素、和不同环境情况下的基因集的表达量。基因表达数据可应用于多方面的研究,如致病基因的病理机制研究,基因调控网络构建,预测复杂疾病的相关致病基因等;目前大部分的相关文献研究对基因间、蛋白质间的数据或者疾病间的关系的衡量依据其来源的手段不同,给出不同的评分,没有一套统一的标准。有些生物实体(如基因,蛋白质,疾病)的评分准则对具有相互交互关系的基因赋予1的分值,反之则赋予0的分值;对于生物实体间的评分大多依据其研究领域来人为设定,如对生物家族上的功能进行推断,或者依据相关的文献引用等。对来源于这类手段的生物实体间的关系,认为它们存在着一定的相关关系,而又不是通过实验手段得到的,则赋予低于1的分值。在构建这类生物实体间的网络时,为了更好的挖掘具有生物意义的特征向量,需要对其内部之间的关系进行衡量。而本章从统计学角度出发,对这些生物实体间的相互关系进行了设定,相比随机设定而言,用统计学手段能够更好的量化生物实体的复杂网络关系,更具有说服力,也更能从整个网络的构建中更好的挖掘这些生物实体间的关系。本章在基于基因表达数据的表达水平量分析方面,引入两种方法量化基因间的表达量关系,通过挖掘基因间的统计特征,将其应用于多复杂疾病的致病相关基因预测研究。疾病基因预测方法主要基于统计手段和网络建模方法完成。单个数据源的疾病-基因分[34][64][65]析方法已较为成熟,例如RWR算法,CIPher算法,PRINCE算法PROPHNET[66]算法等方法应用已经比较广泛。-8- 哈尔滨工业大学工学硕士学位论文2.2基于基因表达数据的统计特征2.2.1构建相关系数特征向量基因的转录产物mRNA在细胞中的富集程度可直接或者间接的通过测量基因的表达数据获得,深入分析这些数据值,可得到基因的活动在不同的条件下是如何相互影响的。此外,还可以获知基因间是否存在着显著的相关性,哪些基因在转录的过程中表达水平出现了改变等。而目前对于复杂疾病的研究大多基于一种假设,即与疾病表型相似的其他表型,其相关联的基因在功能上或者调控上都存在着一定的群集现象。换句话说,已知疾病的致病基因,与这个致病基因在功能上相似的基因在概率上会比其他的基因有更大的概率成为导致这个疾病产生的基因。统计学中的相关系数可以用来反映两个基因间的相关关系,从宏观的角度对基因的表达水平进行抽象,两个基因可以看作两个随机变量,如果两个随机变量(基因)之间的相关系数越大,则表示两个随机变量(基因)间的关系越强。具体可采用Pearson相关系数公式进行量化,公式如下所示:n(xiixy)(y)i1rnn(2-1)22(xiix)(yy)ii11因此基于基因表达数据模拟基因对疾病的相关程度是致病基因优化不可或缺的一种手段。此特征向量可以用来计算疾病与基因间的关联程度,用来对复杂疾病的致病基因进行筛选。2.2.2构建信息散度特征向量对基因间的相关关系进行量化,除了计算基因集间的相关系数得到的关联特征向量之外,还可以通过测量基因表达量之间的相对熵,即信息散度或者KL散度得到。信息散度表述的是两个概率分布之间的差异。在此,本文直接将基因表达值作为基因的表达概率,表达值越大,说明基因的表达概率越大,直接利用信息散度求基因间的概率分布差异。这里可利用两种信息熵的计算方法:KL散度计算[74][75]和JS散度计算;KL散度计算如公式(2-2)所示,JS散度计算如公式(2-3)所示,其中M可通过公式(2-4)计算得到;DKL(||)PQPi()log(()/())PiQi(2-2)11D(||)PQDPM(||)DQM(||)(2-3)JS22-9- 哈尔滨工业大学工学硕士学位论文1M()PQ(2-4)2如图2-2所示,给出了基因集微阵列芯片数据的预处理之后得到的基因集表达数据示例图。其中p表示基因的表达水平值,N为样本个数,G为基因个数。每ijT一列向量[]pp,,,p表示所有基因的第i个样本的表达水平值。每一行向量12iiGi[]p,p,,p表示第j个基因所有样本的表达水平值。在公式(2-2)中P和Q分j12jjN别代表一行向量。Pi()和Qi()代表第i个样本的第P和第Q个基因的基因表达水平值。利用信息散度计算不同基因表达数据间的分布差异,此差异可以很好地反应基因间的相互关系,差异越小则关系越强,差异越大则关系越小。通过统计基因间的信息熵,可以此得到基因间的关系,可将其作为基因关系网络构建的邻接矩阵,对疾病-基因间的关联关系进行预测。后面将会给出实验比对结果说明这种关系的构建同样有利于对疾病-基因关联关系的预测。2.2.3评价指标基于复杂网络联合数据的疾病基因预测算法能够检测出来与疾病相关联的致病基因,因此我们需要对疾病基因的预测效果依据一定的指标来进行评价。本文主要通过以下几个评价标准来衡量算法的优劣。(1)AUC面积(AreaUnderCurve)用于正确的评判实验性能中灵敏度和1-特异度的比例,为ROC绘制的曲线下面积(ReceiverOperatingCharacteristic)。灵敏度在试验中表示正确预测为致病基因中覆盖的正例比例,而特异度则表示对已知的致病-基因关联关系中,预测结果中能够准确的重构回疾病-基因之间的联系的比例;(2)平均排名为了更好的评估算法的性能,仅从AUC面积来评估,某种程度上来说过于片面,为了更好的从全局的角度来评判,对实验进行多次交叉验证,并取这些实验的结果均值作为实验的平均排名。排名越小的,则说明了这种算法的实验效果越好。(3)前k%排名为了更精准的权衡实验结果,统计真正的致病基因预测的结果排在前k%的比例。k是设定的一次预测结果中的前k个最优结果,通过交叉验证获得k次不同值时,实验预测结果中,真正的致病基因预测在一次实验中的被预测为前k%的比例(尤其前1%的比例,即top1的个数)。准确率仅体现出正确预测为正实例和负实例占总类别数的比例大小,而对于出现假阳性和假阴性的错误判断的情况,仅依据正确百分率对算法的性能做出评判缺乏一定的说服力。例如两个样本数据得到的检测准确率相同,利用准确率检测的假阳性结果和假阴性结果不一定相同。通常情况下,采用灵敏度和特异性这-10- 哈尔滨工业大学工学硕士学位论文两个指标对分类性能进行衡量,这两个值越高,表明分类性能越好。此外,相关[76]文献指出仅有AUC得分对结果评价有失公平性,因此还综合了其他两种评价指标,平均排名和前k%的比例来更全面对实验结果做出精准的评判。2.3基于统计特征的致病基因排序算法基于基因表达数据的统计特征分析方法充分考虑到了仅利用蛋白质交互作用进行致病基因筛选的局限性,针对具体的基因集表达数据在不同样本下的表达水平值,给出了两种量化基因间关联关系的分析方法。本节利用JSD信息散度计算方法和皮尔森相关系数计算方法,用统计学手段,基于基因表达水平值分布模拟基因间关联程度来筛选显著与疾病相关的基因。该分析方法的主要分析流程由4个步骤组成:(1)输入实验所得的基因集数据;(2)统计每个基因在不同样本下的概率分布密度,并进行行归一化;(3)分别采用公式(2-1)和公式(2-3)计算得到相关系数统计特征和JSD信息散度统计特征;(4)构建得到一个基因-疾病的异构网络,并进行致病基因筛选;采用两种统计特征进行致病基因筛选的流程如图2-1所示。Step1:InputthegenesetStep2:Rownormalizationastheprobabilitydensitysample1sample2sample30.7g10.60.50.4g2probability0.3density0.2g30.10g1g2g3g4Step4:Predictthepotentialdisease-causinggenesStep3:ComputethecorrelationrelationshipandJSDforgenesetg1corrg1JSDGeneDiseasedatadata图2-1基于统计特征的致病基因排序发掘基因表达数据与疾病数据之间存在的潜在关系以得到更全面、系统的生物新知识,是目前致病基因研究的主要目的。本文提出将两种基于基因表达数据-11- 哈尔滨工业大学工学硕士学位论文的两种统计特征应用于致病基因筛选中,具体的应用过程如算法2.1所示:算法2.1致病基因筛选算法Input:疾病实体数据集相似性矩阵:D(diseasedisease,);疾病-基因间关联邻接矩阵:QGD=(,);基因集表达数据矩阵:GEDgenesample=(,);Output:每一种关联疾病对所有基因的排序1、对基因产物数据集邻接矩阵G(proteinprotein,)的Gene_id与基因集表达数据矩阵GED的GeneExpressionData_id求交集,得到GED数据集;[65]2、对D进行预处理,即ifDThreshold,D0,Threshold=0.3ijij3、对基因集表达数据GED采用公式(2-1)计算每一个基因在不同样本下基因之间的’相关关系,得到样本的统计特征向量P,并对其进行列归一化,得到P;4、对基因集表达数据GED采用公式(2-3)和公式(2-4)计算得到基因在不同样本情况‘下的信息散度,得到样本的统计特征向量J,并对其进行列归一化,得到J;5、对疾病-基因间关联邻接矩阵QGD=(,)的Gene_id与基因集表达数据矩阵GED的‘GeneExpressionData_id求交集,得到Q;’6、fori=1tolengthofPdo'’7、UP=,theithcolumnofP;i‘8、VQ=;9、SUV=*;10、forj=1tolengthofDdo11、F=corr(D,S),DisthejthcolumnofD;jj12、end13、end14、sortF;sortthegenelistinadescendway;2.4实验验证及分析2.4.1开发环境本文所有的实验测试工作都是在Windows1064位操作系统上基于Matlab2013a,Matlab语言上实现的。所使用的计算机硬件为:Inter(R)Xeon(R)2.00GHzCPU,8GB内存。-12- 哈尔滨工业大学工学硕士学位论文2.4.2实验数据[51]本文实验的第一部分数据是采用NCBIGEO公共数据库上下载得到的6组基因集表达原始芯片数据,NCBI存储着大量的通过高通量微阵列技术实验获得的数据。对下载得到的原始GEO芯片数据采用基因芯片预处理方法,用R包程序[77]Bioconductor中提供的预处理方法,先采用ReadAffy函数读取芯片数据,即计算机扫描得到的图像,然后对芯片数据进行背景矫正,噪声处理等过程,最终提取得到基因集数据表达的文本文件。预处理的大致流程如图2-2所示,其中p表ijT示基因的表达水平值,N为样本个数,G为基因个数。每一列向量[]pp,,,p12iiGi表示第i个样本的所有基因的表达水平值。背景矫正ppp11121N噪声处理p21Np22p2数据清洗pppG1G2GN数据标准化探针水平数据基因集表达数据图2-2基因集微阵列芯片数据的预处理过程第二部分实验数据需要先对从公开数据库中获得的三种生物实体关系进行抽取,这三种生物实体分别为:疾病实体,基因实体,蛋白质实体。生物实体之间的交互关系可从在线人类孟德尔遗传(OMIM)的MorbidMap上获得(如疾病与其相关基因之间的关联关系)。此基因库到目前为止共有23034种生物实体的描述,由美国国立生物信息技术中心(NCBI)提供;基因-基因产物间的关系抽取从HPRD[78]数据库获得。经过数据预处理过程之后得到了6组正常的人类结直肠组织和肺组织样本的基因集表达数据,这6组基因表达数据集分别为:GSE20164,GSE21354,GSE20153,GSE16515,GSE8671,GSE4107。为了进行实验比对,需要对得到的基因集表达数据进行基因ID号的映射。映射过程如图2-3所示:-13- 哈尔滨工业大学工学硕士学位论文GENETIC_DISEASESHGNCGeneOMIMDisease_idDiseaseMIMIDsymbolHPRDGene_idHGNCGenesymbolHPRD_IDGeneExpressHPRD_ID_MAPPINGSGEOEntrezGeneIDionData_id图2-3基因集表达数据基因ID号映射过程其中疾病实体数据从OMIM中获得,OMIM数据库上的表型和基因数据都采用MIMID号进行标识;HPRD数据库(HPRDRelease9)中抽取的数据提供了HGNCGeneSymbol和基因产物(如蛋白质)的HPRDID的对应关系,可以通过图2-2中的HPRD_ID_MAPPING文件进行对应,并找到HGNC的EntrezGeneID。[79]HGNC数据库(HGNCgeneNomenclatureCommittee)是国际统一标准对人类基因命名的标识符数据库,其为多个公开数据源中的数据进行统一提供了便利性,可从HGNC数据库中获得蛋白质ID和基因ID的映射关系。图2-3中的HPRD_ID_MAPPING文件将NCBI数据库中的GeneOMIMID和HPRD数据库中的HPRD_ID对应到HGNC中的EntrezGeneID,从而使得与第一部分的基因表达数据的EntrezGeneID号相互对应,从而得到了本论文的基因集表达水平数据。2.4.3统计特征的有效性验证及分析2.4.2小节数据实体抽取中得到了实验过程需要的三种生物实体数据:(1)5080种疾病实体数据;(2)8919种基因产物(即蛋白质交互数据);(3)1426种疾病-基因关联数据,其中疾病有1126种,基因有937种;此外,还有通过GEO数据库中抽取得到的6组真实基因集表达数据的8831种基因;为了将三种生物实体数据集与基因集表达数据对应起来,将原始的8919种基因产物数据进行了初步筛选过程,依据图2-3的ID映射过程,将基因产物的HPRD_ID和GEO中基因表达数据的EntrezGeneID进行映射,得到了8831种基因实体数据,为了简便起见,可以称之为数据集“PPI”。疾病实体间的相似性可通过文本挖掘技术,统计各疾病词汇在专业文献中出现的频数,构建特征向量并计算特征向量的夹角余弦值得到[80]的疾病实体间的相似性,DrHanGBrunner等人已经计算得到了疾病的相似性矩阵。本文基于基因集表达数据采用公式(2-1)和公式(2-3)计算得到基因集表达数据的两种统计特征,然后将这两个统计特征应用于疾病基因筛选中。本文实验采用的6组真实基因集数据分别为:GSE20164,GSE21354,GSE20153,GSE16515,GSE8671,GSE4107,对这6组基因数据分别采用公式(2-1)-14- 哈尔滨工业大学工学硕士学位论文和公式(2-3)计算基因的相关系数和JSD信息散度,得到了两种样本的统计特征。蛋白质交互数据信息也反应了蛋白质之前的拓扑属性,也可视作样本的一种特征。总的来说,实验的三种样本特征分别是:(1)蛋白质交互数据集得到的邻接矩阵;(2)基因集间数据的相关系数计算得到的统计特征;(3)基因集间数据的JSD信息散度计算得到的统计特征。本文实验验证得到的AUC结果如图2-4下所示:(a)1000(左)和2000(右)个疾病的6组基因集数据的AUC比对(b)3000(左)和4000(右)个疾病的6组基因集数据的AUC比对图2-4(a)-(b)基因集数据不同特征向量的致病基因优化结果比对从图2-4中可以看出,基因集间的得到的两种特征向量对疾病致病基因的排序结果在整体趋势上呈现着一致的趋势,随着疾病数量的增加,对致病基因的预测结果也呈现了增加的趋势。在实验中,分别采用不同的疾病数量来进行实验,如图2-4所示,横坐标为疾病的个数,疾病个数分别为1000、2000、3000和4000时三种不同特征得到的疾病基因的排序结果。纵坐标为不同疾病数量集下的ROC-15- 哈尔滨工业大学工学硕士学位论文’曲线面积AUC结果的均值。图中的蓝色柱状图表示“DataPPI”特征矩阵A的预测结果。在“DataPPI”特征矩阵中,相互交互的蛋白质给与权值为1的分值,表示这两个蛋白质之间在结构上或者功能上存在关联的概率。实验过程对存在的疾‘’‘病-基因关联关系Q进行AQ*运算,将计算得到的结果与疾病数据集的相似性分数进行一致性判断。得到的一致性分值作为决策分数,根据每个基因的决策分数进行排名,名次越靠前(如排名为1)说明这个基因在所有的基因当中,成为这个疾病的致病基因的可能性是最大的。图2-4中绿色和红棕色分别表示“DataCorr”和“DataJS”特征矩阵的预测结果。整体上来看,相对系数构建的特征向量得到的结果更优,而信息散度构建的特征向量的预测结果次之。为了更进一步验证基于基因表达数据构建的两种特征有利于致病基因的筛选,将6组基因集数据的两种统计特征和蛋白质交互数据的样本特征,分别在RWR算法和PROPHNET算法上进行实验。在RWR算法中,为了评估各个基因集得到的相关系数统计特征“DataCorr”和信息散度统计特征“DataJS”得到的实验结果更有利于预测疾病-基因间的关系,将其与蛋白质交互数据“DataPPI”进行了实验比对。在实验过程中,对抽取得到的8831个蛋白质交互数据和8831个基因集表达数据的两种统计特征进行参数alpha值调整,得到性能最好的时候,“DataPPI”数据的alpha值为0.1,而“DataJS”和“DataCorr”的alpha值为0.9,如图2-5所示。实验的三种数据的最佳迭代次数为100。图2-5GSE8671的alpha值对AUC的影响对基于基因表达数据分析得到的两种统计特征进行实验验证,实验中采用留-16- 哈尔滨工业大学工学硕士学位论文一交叉验证方法,在每一次实验中,对每一对疾病-基因的关联关系去除,观察已知的疾病基因在所有基因的排名,Top1表明这个已知的疾病基因在预测疾病的基因排名中位于第一,即成功的预测了致病基因;Top50表明这个已知的疾病基因在这次预测中位于疾病的前50个潜在的致病基因中。AUC值是实验得到的ROC曲线下的面积,即AreaUnderCurve。AUC得分衡量了与某种特定表型关联的基因的排名在所有基因中的分布情况。MeanRank值为留一交叉验证试验中,所有关联关系得到的预测结果的平均排名,预测结果越靠前,即排名越小,则说明了预测结果越好。表2-1“DataPPI”和“DataCorr”在RWR上的实验结果DatasetAUCMeanRankTop1Top50DataPPI0.769111730.00910.2737GSE213540.86426900.00910.2801GSE210640.85977130.00910.2784GSE201530.86436900.00910.2813GSE165150.86386920.00910.2808GSE86710.86466880.00910.2805GSE41070.86476880.00910.2804均值0.86366930.00910.2803表2-1是对6组基因集数据的相关系数统计特征和蛋白质交互数据分别进行实验得到的结果,其中AUC、平均排名和Top50都高于采用蛋白质交互数据得到的预测结果,对6组“DataCorr”数据进行实验得到的AUC取均值为0.8636,比“DataPPI”数据得到的AUC结果提高了9.69%。这6组基因集表达数的“DataCorr”的Top50均值为0.2803,比“DataPPI”数据得到的Top50值提高了0.66%。表2-2“DataPPI”和“DataJS”在RWR上的实验结果DatasetAUCMeanRankTop1Top50DataPPI0.769111730.00910.2737GSE213540.86456890.00910.2803GSE210640.86426900.00880.2774GSE201530.86456890.00910.2802GSE165150.86456890.00910.2803GSE86710.86456890.00910.2803GSE41070.86456890.00910.2803均值0.86456890.00910.2798表2-2对6组基因集数据的信息散度统计特征和蛋白质交互数据分别进行试验得到了的实验结果。由于6组基因集数据的信息散度值差别很小几乎相同,因此得到的实验结果基本相同。从表2-2中可以看出虽然GSE21064的Top1得分比-17- 哈尔滨工业大学工学硕士学位论文“DataPPI”数据要低一些,这有可能在处理GSE21064芯片数据时存在噪声的影响,但是6组的Top1的整体平均得分与“DataPPI”数据几乎是相同的。其次,这6组基因集数据得到的AUC均值和Top50均值比“DataPPI”数据得到的AUC值和Top50要高,分别提高了9.54%和0.61%。实验数据表明采用基因集间的JS信息散度得到的统计特征比蛋白质交互数据关系得到权重邻接矩阵的预测结果要好。由于这6组基因表达数据得到的实验结果非常相近,因此采用GSE8671的基因表达数据对这种特征进行比对,得到了图2-6的AUC结果。实验采用留一交叉验证法,实验数据集中大部分疾病仅关联一到两个基因,因此采用统计不同的假阳性FP基因来衡量实验的结果,FP的取值分别为:0、5、20、100、500、2000、4000、6000和8918。图2-6的柱状图中不同的颜色代表不同的特征得到的结果,深蓝色的是采用“DataPPI”得到的结果,绿色为“DataCorr”得到的实验结果,黄色为“DataJS”得到的结果。从图2-6的柱状图可以看出相关系数得到的统计特征和信息散度得到的统计特征差别不大,但是都优于蛋白质交互数据预测的结果。图2-6GSE8671基因表达数据集在不同的FP下的AUC从表2-2和表2-3中可以看出这6组基因集数据得到的实验结果之间的差别不大,因此在6组基因集数据中可采用一组基因集数据的实验结果作为这6组基因集实验结果的均值,在接下来的算法中,本章方法采用基因集GSE20164进行实验。-18- 哈尔滨工业大学工学硕士学位论文在PROPHNET算法中,同样的采用这三种特征进行实验。PROPHNET算法是在随机游走算法的基础上进行扩展的模型,主要是为了能够对不同的生物数据进行数据集成,并用于致病基因的筛选中。为了考察PROPHNET算法上alpha值对这两种权重矩阵的预测结果的影响,抽取了100种疾病-基因关联关系。此外,为了使其在迭代过程中更快的收敛,本文先对其进行了整体的列归一化处理,对alpha值进行不断的调整,从图2-7中可以看出在alpha值为0.6时,“DataPPI”和“DataJS”得到的结果最好,“DataCorr”在alpha值为0.5时得到的结果最好。整个实验过程的迭代次数为1000次。图2-7GSE20164的alpha值对AUC的影响对疾病集中的1126种疾病进行留一交叉实验验证。由表2-3中的实验结果可以看出,基因集GSE20164的两种统计特征的AUC得分相对蛋白质交互数据的得[76]分相对要低一些。但是有相关文献表明,AUC得分是一种保守的评价指标,因为每一实验仅有一个真阳性(靶基因),因此还需要考虑其他评价靶基因排名的标准。从表2-3中的Top1和Top50的排名看出利用基因集计算得到的JS信息散度可以更有效的将与特定表型相关的基因排名提前,基因集GSE20164的两种统计特征在Top1排名与原始数据相比,分别提高了3.12%和3.38%。在Top50排名中,基因集GSE20164的两种统计特征与原始数据相比,分别提高了6.0%和6.46%。对于单基因疾病预测问题,因某种特定疾病仅有一个致病基因,这种方法能够更加精确的找到与疾病相关的致病基因,在医学上具有一定的参考价值。-19- 哈尔滨工业大学工学硕士学位论文表2-3三种特征在PROPHNET上的实验结果DatasetAUCMeanRankTop1Top50DataPPI0.93503310.12160.5711Corr201640.92303920.15280.6311JS201640.92134000.15540.6357[65]为了更进一步验证,将这两种统计特征在PRINCE算法上进行实验验证。PRINCE算法将疾病的信息融入先验知识中,因此增加了疾病基因检索的信息,从表2-4中可以看出Top1和Top50的排名明显比RWR算法和PROPHNET算法得到的排名提高了很多。PRINCE算法中,三种特征的alpha在0.1时得到的结果最好,迭代次数为100。从表2-4中可以看出“DataJS”得到的AUC结果最好,比“DataPPI”提高了0.61%,“DataCorr”次之,提高了0.17%。此外,其他的Top1和Top50指标也明显的高于“DataPPI”得到的结果。表2-4三种特征在PRINCE上的实验结果DatasetAUCMeanRankTop1Top50DataPPI0.9826890.59850.8038Corr201640.9843720.61020.8104JS201640.9887580.64610.83702.5本章小结本章在疾病的潜在基因的预测应用中,引入了两种有利于预测潜在疾病或者潜在基因的特征向量。如图2-1所示,这两种特征向量均利用了基因集间基因表达水平的信息,计算基因间的相关系数,相关系数越大,这两个基因存在关联的概率也越大。而疾病关联基因筛选的前提是,相似疾病在疾病实体网络中存在拓扑上的相近性,导致疾病发生的基因在基因拓扑网络上也存在着相同的特性。因此,基于这种假设,可以得到导致相似疾病或者相同疾病发生的基因,在基因实体网络中存在的关联程度越高,即发生关联的概率越大。信息散度表明的是两个基因间表达水平概率分布之间存在的差异,差异越明显,则表明两种基因存在关联程度越低,两者呈现出反比例关系。因此,采用这两种统计手段从不同的角度来量化基因间的表达量关系,得到基因间不同统计特征,实验验证了这两种统计特征构建得到的矩阵有利于疾病致病基因的筛选。-20- 哈尔滨工业大学工学硕士学位论文第3章基于逻辑回归的致病基因预测算法3.1引言疾病致病基因的预测是医学上的一个重点研究方向。该问题涉及到处理特定疾病中的致病基因的识别,并需对基因畸变和疾病形成过程具有较为全面的理解。然而,大多数疾病具有少量的已知的关联基因,且发现新的疾病致病基因的方法非常昂贵和耗时。因此,研究者们提出了预测疾病的致病基因的计算研究方法。在众多的方法中,基于机器学习的方法在系统生物方面有很大范围的应用,且能够整合广泛的数据类型,尤其是在系统生物学应用上具有突出的优势。基于机器[81]学习的疾病基因预测方法主要有:基于核密度(Kernel-based,KB)的方法,基[70,82,83]于贝叶斯(Bayesiannetworks,BNs)方法和基于逻辑回归(LogisticRegression,[67,68,84,85]LR)方法等。3.2二元逻辑回归模型概述假定人类基因组由N个基因组成{,,gg12,gN},在N个基因当中,一些已经被大量的研究文献公认为与人类遗传疾病相关,而另一些则与人类遗传疾病相关的关系还是未知的,需要加以确定。让{gn1,gn2,,gn+m}表示已知的人类遗传疾病的致病基因,而{,,gg12,}gn表示与人类遗传疾病关系未知的基因,其中N=n+m。{,DD12,,Dr}为疾病集,其中第i个疾病Di有一些已知的致病基因,因此整个疾病集的致病基因为mDDD,*表示集合的基数。12r对于一个特定的疾病Di,{,,xx12,}xN表示由所有人类基因组的标签构建得到的向量,值为0和1。假若基因gi和特定疾病Di存在已知的关联关系,那么这个基因的标签向量xi设置为1,否则设置为0。已知基因的标签向量{,,xx12,}xN,那么疾病基因的鉴定问题相当于找出所有未知基因的标签类的问题。在逻辑分类问题中包括多分类和二分类问题。对于二分类问题,Y的取值为1或者为0,随机变量X为实数。二元逻辑回归模型就是一个二分类问题,一般都具有以下的条件概率分布:exp(wx)Px(Y=1|)(3-1)1exp(wx)-21- 哈尔滨工业大学工学硕士学位论文1Px(Y=0|)(3-2)1exp(wx)其中参数w为权重向量,wx为w和x的内积。二元逻辑回归模型在学习时,对于给定的训练数据集的情况下,通常采用最大似然估计法来估计模型的参数,从而得到二元逻辑回归模型,其中,。假设P(Y=1|)x()x,P(Y=0|)1-()xx,则似然函数如公式(3-3)所示:N[()][1xxyyii()]1ii(3-3)i1极大化似然函数,就是最大化对数函数Lw()如公式(3-4),可以得到参数w的估计值w如公式(3-5)。NLw()[log()(1yixiyi)log(1())]xii1N()xi[logyxiilog(1())](3-4)i11()xiN[(ywxii)log(1exp(wxi))]i1wargmax()Lw(3-5)w假设w的极大似然估计值为w,那么学习到的二元逻辑回归模型为:exp(wx)Px(Y=1|)(3-6)1exp(wx)1Px(Y=0|)(3-7)1exp(wx)3.3基于逻辑回归的致病基因预测算法3.3.1基于二元逻辑回归预测模型对遗传疾病机制的理解的第一步就是鉴别出致病基因。鉴于目前大多数方法[84]计算时间耗费高或者得到的识别精度不佳,BolinChen等人于2014年提出了基于逻辑回归算法来完成鉴别致病相关基因的研究。致病基因的鉴别问题,可看作一个二分类问题,其中一类表示致病基因,另一类则表示与非致病基因。逻辑回归分析可用于预测相关基因的后验概率,以先验标签为分类变量,标签相关的特[84]征向量作为预测变量。BolinChen等人提出的算法其基本思路如下:-22- 哈尔滨工业大学工学硕士学位论文(1)估计每个未知基因的先验概率文中给出了两种确定未知基因先验概率的方法。(a)当没有额外的先验知识可用时,将所有的未知基因的先验概率初始为0。(b)当存在蛋白质复合物的信息时,[86]在同一个蛋白质复合物中,它们的编码基因倾向于与相似疾病存在关联性。因此利用蛋白质复合物来估计每个未知基因的先验概率。如果由基因编码的蛋白质在蛋白质复合物当中,可采用公式(3-8)来进行计算,若存在于多个蛋白质复合物当中,那么选取一个概率最大的作为这个基因的先验概率;如果这个基因不属于任何一个蛋白质复合物,那么它的先验概率可采用公式(3-9)来进行计算。Ap=(3-8)iBCp=(3-9)iDA是特定疾病在蛋白质复合物中的致病基因的个数,B是蛋白质复合物中所有疾病的致病基因的总数;C是特定疾病整个人类基因组中的所有致病基因的总数;D是所有人类基因组中基因的总数。(2)特征向量的构建在逻辑回归分析算法中,构造特征向量是最关键的一步。它直接影响到该算[87]法的预测性能,与MRF算法类似,采用与基因关联的直接邻居基因的标签为“1”和标签为“0”的个数来构造特征向量。如公式(3-10)所示,xxii10,分别是基因gi的直接邻居中标签为“1”和标签为“0”的个数。Tx(1,xx,)(3-10)ii10i(3)逻辑回归分析评估参数逻辑回归分析用来表示基因成为致病基因的后验概率。一个特定基因的后验概率可以用公式(3-1)和(3-2)表示,其中Twwww=(,,)为参数向量,x是一个类标012签相关的向量。参数向量w的极大似然估计值为w可以通过训练数据最大化估计以下条件概率得到,见公式(3-11)。Nwargmaxpyxw(ii|,)(3-11)wi1其中,N是人类基因组的基因总数,yi是基因gi的标签,xi为特征向量。最大化条件概率等价于最大化对数函数lnLwyy(;,,,y),见公式(3-13)。12NNLwyy(;,12,,yN)pyxf(i|,)i(3-12)i1NTTlnLwyy(;,12,,yN)[ywxiiln(1expwx(i))](3-13)i1(4)采用决策分数进行预测-23- 哈尔滨工业大学工学硕士学位论文由公式(3-1)具体应用到疾病基因预测类为得到的后验概率值可通过以下公式(3-14)、(3-15)和(3-16)进行计算得到。将得到的后验概率值可作为决策分数,具体可通过设定一个阈值,选择后验概率大于阈值的基因。这个决策分数设定如下所示:tpyCpC(|)()e11pCy(|)(3-14)1tpyCpC(|)()pyCpC(|)()e11100pyCpC(|)()100pC(|)y(3-15)0tpyCpC(|)()pyCpC(|)()e11100pyCpC(|)()11t=ln(3-16)'pyCpC(|)()00ppijq,i1,2,,n(3-17)jn其中{,pp12,,pn}特定疾病的所有未知基因的后验概率,pj表示第j个已知基因的后验概率,q是所有未知基因的后验概率的占比。一个基因的决策分数越大,j则表明更有可能是与特定疾病相关的基因。3.3.2基于两步二元逻辑回归预测模型[85]BChen等人在2015年提出了两步逻辑回归模型的识别癌症相关基因预测算法,其基本原理同常规的逻辑回归模型类似。区别在于针对癌症等疾病基因数量个数少,容易出现分类不平衡的问题,提出了两步逻辑回归算法,将有癌症基因相关的基因集进行集成抽取,得到了更有利于预测与癌症等疾病相关的基因。具体的两步逻辑回归的基本思路如下:(a)第一步:鉴别与疾病类相关的基因对于一个遗传疾病,所有人类的基因可以分为三组:(1)Gd()={,,gg,g}:与任何已知遗传疾病不关联的未知基因;(2)1jn12Gd()={g,g,,g}N()d:除了d之外,关联其他遗传疾病的已知疾病相2jn+1n2nmHjj关基因;(3)Gd()=N()d:与疾病d关联的已知的疾病相关基因。其中Nd()3jHjjHj表示二分图H中d的所有邻居集,N=n+m是所有人类基因的总数。j疾病相关基因鉴别问题就是在疾病d与Gd()以及Gd()中找到新的关联关j1j2j系。由于Gd()中基因的数目远小于Gd()以及Gd()的基因的数目,不能够作3j1j2j为机器学习算法中的正实例集。因此,需要合并相似疾病类;假如有k个疾病类{,DD12,,Dk},每一个疾病类Di{,ddi12i,,dij},1jN-24- 哈尔滨工业大学工学硕士学位论文由一组遗传疾病组成。因此,所有的人类基因集可分成三组:(1)GD()={,,gg,g}是n个未知基因;(2)GD()={g,g,,g}GD()是除1in122in+1n2nm3i疾病类D之外的关联其他疾病类的基因集,而疾病类D中所有疾病的基因的集合ii为GD()={Nd()Nd()Nd()}。3iHi1Hi2Hij特征向量的构造对于疾病致病基因的预测结果至关重要。在两步逻辑回归算[85]法中,BChen等人提出了多个生物分子网络的特征向量构造方法。ll假定有l个生物分子网络,xxii10,分别为基因gi的直接邻居标签为“1”和标签为“0”的数目。因此,l个生物分子网络得到的特征向量为:11llTx(1,xx,,,xx,)(3-18)ii1i0i1i0T对应的参数向量w(www,,,,w,w)是一个2l+1维的向量,N为所有01221ll2人类基因的总数。(b)第二步:确定个人疾病相关的基因经过第一步得到一组与疾病类具有很大可能性相关的基因集。接下来从这些基因中进行选择,并从该疾病类中的二分图中移除大多数不相关的基因。选出与疾病D{,dd,,d},1jN有很大可能性相关的未知基因ii12iij{gg,,,g}。因此,总的基因集为{gg,,,g}GD()。i12iisi1i2is3i同样地,对特定的疾病dD可以得到三组基因集:(1)iiGd()={gg,,,g},s个未知的基因;(2)Gd()=GD()N(d)是关联其他1iji1i2is23ijiHij疾病的已知基因;(3)Gd()=N(d)为已知的关联疾病d的致病基因。在这个新3ijHijij的数据集上再一次进行LR算法来鉴别单个疾病的相关的基因。对于不平衡的分类问题,好的先验知识能够减少随机噪声的影响,从而得到更有的预测结果。3.4随机游走的二元逻辑回归预测模型3.4.1基本原理[34]最早的KöhlerS等人提出RWR算法,将生物分子网络中的节点表示为特定的生物实体(如基因或者疾病),节点的边表示生物实体间存在着关联,边的权值表示关联程度的大小。从全局的角度出发,计算生物分子网络中的基因间的距离,在网络中对每一个具有重启概率的基因结点进行随机游走分析,并对游走到的基因结点进行得分排序从而得到了相关的基因列表。采用随机游走算法,如公式(3-19)所示,利用生物网络具备的拓扑特性,可以-25- 哈尔滨工业大学工学硕士学位论文得到与每一个基因存在关联性的基因排序。tt1F(1)WFaY(3-19)其中W为生物分子网络的邻接矩阵,Y为先验知识。a表示随机游走过程中0有返回的概率。初始状态下,FY。当随机游走达到稳定状态收敛时,得到了t最终结点的标签信息值F。如图3-1所示。0.9a图3-1生物网络的局部示例图3-1中结点a表示基因或者蛋白质,设结点a在基因网络中存在4条交互作用关系,对这4条交互作用结点,都以一个重启概率0.9进行随机游走。显然结点a在基因网络中游走到4个结点的概率是等同的,基因网络中其他结点的情况类似。在基因网络中,结点相连表示存在关联关系,用1值表示。不存在关联关系,用0值表示,因此得到一个[0,1]的邻接矩阵。对于基因网络中距离较远的结点,结点a在随机游走的过程中存在一定的可达概率,而仅利用局部直接邻居或者最短路径的信息则忽略了较远结点对整个基因网络的影响。本文提出了一种随机游走算法的特征向量构建方法,得到基因的全局特征信息,全局特征信息主要包含两个方面的内容,关联基因的权重和关联基因的个数。在生物网络中,生物大分子在网络中常常在拓扑结构上呈现出邻近性或者功能上[72]存在模块特性,因此,关联性强的基因会在概率上比关联性弱的基因存在关系的可能性要大。这两种算法都是从全局的角度挖掘生物分子网络的拓扑特征,但是在节点度变化不大的生物分子网络中存在的区别不太显著,因此本文采用RWR算法进行网络中结点的全局信息的统计。统计每一个结点的全局信息主要包含两个方面的内容:(1)统计每一个结点的关联基因标签为“1”的个数和标签为“0”的个数;(2)统计每一个结点的关联基因标签为“1”的权重和标签为“0”的权重。假定基因网络中基因总数为n,先采用RWR进行游走,达到收敛时,每一个基因都得到一个基因得分列表L{ww,,,w}(1in),并对这个列表进行排iji12iin序,然后从基因列表中选出前MM(n)个基因,得到基因的全局信息。其中wij是第i个基因经过RWR算法游走到第j个基因得到的得分,在本章算法中称其为基-26- 哈尔滨工业大学工学硕士学位论文i因的权重。D为第i个基因的前M个基因组成的基因集。公式(3-20)、(3-21)、M(3-22)、(3-23)和公式(3-24)给出了统计每一个结点的全局信息两个方面内容的计算方法。1i1orwifgDijijMxg11i(3-20)ij0ifgDijM0i1orwifgDijijMxg00i(3-21)ij0ifgDijMi1=g1Dixg1,1ij,n(3-22)ijMiji0=g0Dixg0,1ij,n(3-23)ijMiji(1,i10,i),in1,,(3-24)其中i1为关联基因中标签为“1”的个数(或权重),i0为关联基因中标签为1“0”的个数(或权重)。公式(3-20)指出了如果基因g在第i个基因的前M个基因ij组成的基因集中,且它的标签为1,那么在关联基因集中找到了一个标签为“1”的基因,此时可以分别得到全局信息的两个方面的内容,即个数或者权重,用x1gij来表示。公式(3-22)则是对公式(3-20)找到的基因进行加和,得到最终的关联基因的全局信息,个数或者权重。同理,统计标签为“0”的基因的全局信息,可参照公式(3-21)和公式(3-23)得到。公式(3-20)、(3-21)、(3-22)、(3-23)简略的给出了本章算法提出的全局信息的两个方面内容的计算方法,后续章节将会进行大量的实验验证所提出算法的有效性,并用结果来验证这四个公式概括的正确性。3.4.2算法步骤相比BChen等人在文献[67]中提出的采用生物数据网络统计直接邻居中标签为“1”的个数和标签为“0”的个数得到的特征,本文算法从全局角度来进行统计,采用随机游走算法得到这个基因的拓扑信息。采用随机游走算法得到的基因拓扑信息构造特征向量的过程包含三个步骤:(1)采用随机游走算法对每一个基因进行随机游走分析,当算法达到收敛时,得到每一个基因的基因得分列表;(2)对得到的基因得分列表进行从高到低的方式进行排序;(3)选择排在前k名的基因,统计这k个基因当中标签为“1”的个数(或者权重)和标签为“0”的个数(或者权重),构造得到基因的特征向量i,如公式(3-24)所示。全局信息具体的特征向量构建过程如算法3.1所示。该算法统计每个基因的全-27- 哈尔滨工业大学工学硕士学位论文局信息得到了特征向量F1,为了可以扩展使用生物分子网络的拓扑特征信息,在统计每个基因得到全局信息的基础上,与局部信息进行结合,即在统计直接邻居的局部信息得到特征向量F1的基础上结合本文提出的全局信息得出特征向量F2。特征向量F1的形式如公式(3-24)所示,而特征向量F2的形式如公式(3-25)所示。(1,,,,),in1,,(3-25)ii1i0i1i0其中和是统计直接邻居中标签为“1”和标签为“0”的个数得到的局部i1i0信息。将得到的特征向量F1和特征向量F2,应用二元逻辑回归模型中进行参数的训练,最终采用留一交叉验证法进行实验,对致病基因进行预测。如图3-2所示,首先,先确定先验标签。先验标签为“1”表明这个基因是某个特定疾病的致病基因,先验标签为“0”的表明这个基因与这个特定的疾病没有任何的关联性。目前还存在大量的基因与疾病的关联性处于未知的状态,对于这部分基因如果给与标签为“0”的简单设定,对致病基因预测的结果会导致的给出了本章算法得到的特征向量进行致病基因预测的流程。1、先验标签的确定2、特征向量的构建采用RWR算法对每一个基对所有的基因,计算因计算特征向量i,所先验标签概率,得到有的基因的特征向量形成一个排列特征矩阵(y,y,,y)T12N(1,,)ii10i4、对未知基因进行预测3、参数训练根据公式(3-14)、(3-15)和(3-17)根据先验排列对每一个未知基因计(yy12,,,yN)、算标签为“1”的后验特征矩阵n3概率,并依据决策分和式(3-13)的数对每一个未知基因log似然函数,训练参数w;进行预测图3-2随机游走的二元逻辑回归预测模型3.5本章小结本章节主要介绍用于疾病基因预测的二元逻辑回归算法和两步逻辑回归算法的基本原理,并给出了采用二元逻辑回归和两步逻辑回归算法进行致病基因预测的步骤。在此基础上,根据生物大分子网络的拓扑特性,分析二元逻辑回归算法特征向量的构建对于算法的预测性能的影响,提出了采用随机游走算法利用生物分子网络中全局的拓扑特性进行特征向量的构建,改进了二元逻辑回归预测模型中特征向量的构建方式,并详细的介绍了提出算法的基本原理,算法步骤和实现-28- 哈尔滨工业大学工学硕士学位论文致病基因预测的整体算法流程。算法3.1一种随机游走算法的特征向量构建方法Input:蛋白质交互网络:P(genegene,)蛋白质交互网络的基因邻接关系矩阵:A(g,,g),i1,,nnni1in重启概率值:r迭代次数:T关联基因个数:MOutput:关联基因的权重矩阵:Ann(g,,g),i1,,ni1in基因的特征矩阵:n31、fori=1toLengthofAdoi2、u=thelabelvectorofgenegi,setui()to1,otherwise0;3、vuold;vnew0;DiffT()=0;4、whileT0andDiff(T)1E6do5、vnew(1r)Annvoldru;6、DiffT()=normv(v);newold7、TT=-1;8、end9、Avinew10、end11、SortA;以降序的方式对基因进行排序12、选择前M个基因形成一个大小为M的基因集13、forjtoM14、setthetopjgeneto1inAiij(1,,)n,afterMgenesis0;15、orremainthetopjgenevalueinAiij(1,,)n,afterMgenesis0;16、end17、fori=1toLengthofAdoi18、i1=thenumberoflabel“1”ortheweightofthelabel“1”;19、i0=thenumberoflabel“0”ortheweightofthelabel“0”;T20、i(1,i10,i);21、end22、return;isan3dimensionalfeaturematrix;-29- 哈尔滨工业大学工学硕士学位论文第4章实验仿真及结果分析4.1实验环境本章所有的实验测试工作都是在Windows1064位操作系统上基于Matlab2013a,Matlab语言上实现的。所使用的计算机硬件为:Inter(R)Xeon(R)2.00GHzCPU,8GB内存。4.2实验数据[67]本章采用了BChen等人提出的验证方法,并采用了该论文的实验数据,此实验数据主要包括:蛋白质交互数据集、基因通路数据集和基因表达数据集。其[78][88]中蛋白质交互数据集主要包括HPRD数据库、BioGrid数据库和IntAct数据[89][90]库中的蛋白质交互数据集;基因通路数据集主要包括KEGG数据库、Reactome[91][92][93]数据库、PharmGKB数据库和PID数据库的基因通路;基因表达数据集来[94][95]自BioGPS数据库中的基因表达数据GSE1133。蛋白质交互数据,表明这一对交互的蛋白质在功能上具有模块性或者蛋白质网络拓扑结构上是相近的。实验数据集中的蛋白质交互数据,去除了HPRD蛋白质数据库中存在的重复的边和自循环的边,得到了一个蛋白质交互网络,该网络包含了9465个结点和37039条边;而其他两种蛋白质交互网络主要用于补充HPRD蛋白质交互网络的生物信息。基因通路数据的四个数据库分别包含了280,1469,99,2679个基因通路,总共8614个蛋白质(或基因)。如果一对基因都存在一个通路中,那么这一对基因存在着一条边,可以根据通路数据集得到以蛋白质或基因作为结点构建的基因通路网络。采用微阵列技术进行芯片分析得到的基因表达数据,可用于量化基因间的关系。基因表达数据采用了皮尔森相关系数对相关性大于0.5的基因进行筛选,得到了基因共表达网络。[96]此外,为了更精确、全面的获取细胞的功能,实验数据还包含了CORUM[45]和PCDq数据库的蛋白质复合物,得到了总共3881个蛋白质复合物。实验数据集对这五种生物数据进行统计,依据各个数据集中基因ID和GeneSymbol的对应关系,如图2-3中的基因集表达数据基因ID号映射过程,筛选出了出现至少四次的基因,最终得到了7311个基因,其中815个基因是已知的12个疾病类的致病[97]基因。由于从在线人类孟德尔遗传(OMIM)数据库的MorbidMap上提取的疾病生物实体之间的交互关系中,每一种疾病关联的致病基因个数非常少,因此,[98]论文数据集采用了Goh等人手动分类的12个疾病类的数据。-30- 哈尔滨工业大学工学硕士学位论文4.3实验结果及分析4.3.1留一交叉验证为了验证本章提出的随机游走算法的基因特征向量构建方法,本节采用留一[67][34]交叉验证方法比对了BChen等人的方法、KöhlerS等人提出的RWR算法、B[68][81]Chen等人提出的MRF方法和YChen等人提出的DIR方法。留一交叉验证是被广泛使用的并且是公认的测试方法,主要用来测试该方法在未知数据集上所能达到的性能表现。在每一轮实验中,将致病基因中的一个即所谓的目标致病基因从训练集中剔除,作为测试样本。而剩下的致病基因作为训练样本被用来确定该测试基因是否与某个疾病相关,这个步骤一直持续到所有的样本都作为一次测试样本为止。在最好的情况下,最高的排名应该会被分配给目标致病基因,而其他的测试基因则得到较低的排名。为了更好的评估该算法,需要一些预测能力的评估标准如灵敏度、特异度、ROC响应曲线(ReceiverOperatingCurve)、正确率、召回率、平均排序比(meanrankratio)等。在本章实验中,采用了ROC曲线作为评估标准。此外,对于正负例样本的选取,本实验同样采用B[67]Chen等人的设计。正例样本表示为某种特定疾病类的已知的致病基因,负例是[67]与疾病不存在关联性的候选基因。在BChen等人的设计方法中,负例样本为正例样本数的一半。分别对正例样本集和负例样本集进行留一交叉验证,每一次所有的正例都能够作为一次测试样本,尽可能的保证了接近样本的分布,去除了随机因素的影响。在数据集非常大的情况下,留一交叉验证的不足之处就是时间耗费非常大。由于本实验采用的数据集为12类疾病类,每一个疾病类包含的已知的致病基因样本并不太多,因此选择使用留一交叉验证方法来评价本章算法的性能。4.3.2算法性能分析[68]BChen等人提出的MRF方法,采用了生物数据网络的直接邻居进行基因特征向量的构建。在文献[67]中,采用了与文献[68]中相同的基因特征向量,并引入了二元逻辑回归模型对疾病的致病基因进行预测。直接邻居是基因网络的局部特征,如果直接采用直接邻居构建得到的基因特征向量将限制该方法在生物网络中使用其他拓扑特征的能力。因此,BChen等人在文献[67]中提出采用二阶邻居的拓扑特征信息进行致病基因关联分析。此外作者还融合了多个生物实体数据,并进行多网络数据的基因特征向量构建。这在一定程度上补充了生物网络的预测能力。而本章提出的方法,同样除了利用直接邻居的局部信息外,还采用网络的全局信息。通过随机游走算法,对每一个基因进行随机游走,统计与当前基因关联基因的权重,并以此构建得到了基因的特征向量.为了便于叙述,将本章算法构-31- 哈尔滨工业大学工学硕士学位论文建得到的特征F1记为“RPCF1”,特征F2记为“RPCF2”,特征F3记为“RPCF3”。4.3.2.1特征F1下的实验验证及分析本章提出的采用随机游走算法进行基因的全局特征向量构建方法,主要从两个方面进行生物信息网络的信息统计:(1)关联基因的权重;(2)关联基因的个数。分别将这两种全局信息在单个HPRD数据库中的蛋白质交互数据“PPI”上进行实验,得到了表4-1的实验结果。其中“AUC_WEIGHT”列是统计每一个基因的前k个关联基因中标签为“1”和标签为“0”的权重构建基因的特征向量得到的实验结果。“AUC_NUM”列是统计每一个基因的前k个关联基因中标签为“1”和标签为“0”的邻居个数得到的实验结果。“AUC_WEIGHT”和“AUC_NUM”统计全局信息的具体计算过程如公式(3-20)、(3-21)、(3-22)、(3-23)和(3-24)所示。其中k值的范围分别为30,50,90,150,200,300,500。从表4-1中可以看出,实验中得到的最佳AUC为0.7599,它是统计每一个基因的前200个关联基因中标签为“1”的权重和标签为“0”的权重进行基因特征向量构建得到的结果。其中随机游走的有返回概率为0.1。比较“AUC_WEIGHT”和“AUC_NUM”这两列中的AUC分值可以看出“AUC_WEIGHT”列得到的AUC分值明显高于“AUC_NUM”列的分值,得分越高表明预测的结果越好。采用随机游走算法得到的基因列表,基因的权重值的大小反映了基因间的关联性强弱程度,而采用统计个数的手段仅能初步的判定基因与基因间存在关联,不能够明确的反映出基因集关联强弱的特性。因此,可采用统计前k个基因权重的手段作为特征F1的构造方法。表4-1PPI网络中前k个关联基因的权重和个数的AUC(F)1kAUC_WEIGHTAUC_NUM300.73510.7142500.74340.7081900.75400.69081500.74910.70102000.75990.68873000.75510.68585000.75450.6783本章算法和其他三种算法得到的AUC比对结果如表4-2所示,其中统计前200个关联基因的权重结果是最优的。表4-2中的结果是采用单个HPRD数据库中的蛋白质交互网络(PPI)数据得到的实验结果,其中“PCF1”是采用BChen等人在文献[67]中提出的方法得到的结果。文献[67]中采用了直接邻居,以及蛋白质复合物信息构建的特征向量,然后采用二元逻辑回归方法进行疾病关联预测,得到了0.7513的结果。BChen等人在文献[68]中提出的MRF模型的马尔科夫链特性,限制了其扩展其他的生物网络拓扑特征,仅能够采用直接邻居的信息进行致病基-32- 哈尔滨工业大学工学硕士学位论文因预测,在该方法中得到的0.7199的预测结果。RWR算法是采用随机游走方法进行致病基因预测的模型,在相同的数据集下得到了0.7324的结果。相比于采用局部特征,本章算法采用了随机游走得到了生物网络的权重全局信息,并以此构建基因的特征向量,得到了0.7599的分值。与“PCF1”相比,高出了0.86%;与RWR算法相比,高出了2.75%;与MRF算法相比,高出了4.0%。表4-2PPI网络中不同方法的曲线下面积(F)1MethodAUCMRF0.7199RWR0.7324PCF10.7513OurMethod0.7599AUC是ROC曲线下的面积,“PCF1”、MRF算法、RWR算法和本章算法的ROC结果如图4-1所示。构建得到的特征形式为:T(1,,),为了方便起见,ii10i将此特征形式称为F1特征。“PCF1”和MRF算法中的i1和i0分别为直接邻居基因的标签为“1”和为0的个数,而本章算法的i1和i0为前200个关联基因的标签为“1”和标签为“0”的权重。图4-1PPI网络中不同方法的ROC曲线(F)1为了验证本章算法能够适用于多种不同的生物数据,将提出的算法应用在单个BioGPS数据库中的基因表达数据集构建得到的基因共表达网络Co-Exp上。统计得到了前k个关联基因的权重和个数的AUC结果,其中k的取值范围分别为:-33- 哈尔滨工业大学工学硕士学位论文100、300、500、700、900和1000。从表4-3中可以看出,在这个基因共表达网络中得到最佳的AUC结果0.6775,是统计每一个基因的100个关联基因中标签为“1”的权重和标签为“0”的权重进行基因特征向量构建得到的结果。其中随机游走的有返回概率为0.1。表4-3Co-Exp网络中前k个关联基因的权重和个数的AUC(F)1kAUC_WEIGHTAUC_NUM1000.67750.66333000.66970.64205000.67310.64967000.66710.62889000.66680.625710000.64770.6092表4-4是在BioGPS数据库中的基因表达数据集上分别采用“PCF1”、RWR算法、MRF算法和本章算法得到的致病基因预测结果。表4-4中本章算法是统计了前100个关联基因的标签为“1”和标签为“0”的基因的权重得到的结果。表4-4Co-Exp网络中不同方法的曲线下面积(F)1MethodAUCMRF0.5838RWR0.6279PCF10.6443OurMethod0.6775其中“PCF1”是BChen等人在文献[67]中提出的方法,在基因表达数据集上得到了0.6443的结果,RWR算法和MRF算法在相同的基因表达数据集上分别得到了0.6279和0.5838的结果。与“PCF1”、RWR算法和MRF算法相比,本章算法得到的结果分别提高了3.32%、4.96%和9.37%;这四种算法得到的ROC曲线如图4-2所示。-34- 哈尔滨工业大学工学硕士学位论文图4-2Co-Exp网络中不同方法的ROC曲线(F)1在基因通路数据集(Pathway)上进行实验得到的结果如表4-5所示。表4-5Pathway网络中前k个关联基因的权重和个数的AUC(F)1kAUC_WEIGHTAUC_NUM1000.75470.58383000.75520.68945000.77410.68337000.76980.67849000.75850.657910000.77280.6723其中k的取值范围分别为:100、300、500、700、900和1000。从表4-5中看出统计前500个关联基因中标签为“1”和标签为“0”的权重进行实验得到的结果是最佳的。表4-6给出本章方法和其他三种算法在Pathway上的AUC结果比对,其中本章方法得到的结果0.7741是统计前500个关联基因中标签为“1”和标签为“0”的权重得到的结果。表4-6Pathway网络中不同方法的曲线下面积(F)1MethodAUCMRF0.6175RWR0.6968PCF10.7253OurMethod0.7741-35- 哈尔滨工业大学工学硕士学位论文与“PCF1”、RWR算法和MRF算法相比,本章方法得到的实验结果分别提高了4.88%、7.73%和15.66%。这四种算法的ROC曲线如图4-3所示。图4-3Pathway网络中不同方法的ROC曲线(F)14.3.2.2特征F2下的实验验证及分析BChen等人在文献[67]中提出的在直接邻居的基础上,增加二阶邻居的信息进行特征向量构建,然后采用二元逻辑回归预测模型进行致病基因的预测。因此为了更进一步验证本章的算法,将局部信息和全局信息进行结合,在直接邻居的局部信息基础上,增加了随机游走得到的全局信息,对每一个基因筛选出前k个关联基因,统计标签为“1”的个数和标签为“0”的全局信息进行基因特征向量构建,并进行实验验证,得到的实验结果如表4-7所示。表4-7PPI网络中前k个关联基因的权重和个数的AUC(F)2kAUC_WEIGHTAUC_NUM100.75820.7588300.74430.7847500.72340.7422900.73120.74481000.75070.75571500.75160.75753000.74910.73845000.75330.7387-36- 哈尔滨工业大学工学硕士学位论文从表4-7中可以看出,F2特征下,基于随机游走算法计算得到的全局信息中,关联基因的个数得到的分值整体上较权重得到的结果要高,其中统计前30个关联基因标签为“1”和标签为“0”的个数构建特征向量得到的实验结果是最优的。将本章的局部信息和全局信息结合得到的特征向量与其他四种方法进行比对,得到了图4-4的ROC曲线。其中“PCF2”是采用BChen等人在文献[67]中提出的在直接邻居的基础上,增加二阶邻居的信息进行特征向量构建,得到了0.7687的结果。而本章提出的局部信息和全局信息进行结合的方法得到了0.7847的结果,比“PCF2”算法高了1.8%。这两个算法得到的AUC结果都是在单个HPRD蛋白质网络PPI数据下进行的。图4-4PPI网络中不同方法的ROC曲线(F)2在BioGPS数据库中的基因共表达网络Co-Exp上,本章算法在F2特征下,同样能够得到较好的结果,如表4-8所示。表4-8Co-Exp网络中前k个关联基因的权重和个数的AUC(F)2kAUC_WEIGHTAUC_NUM100.63840.6770300.65290.6606500.62150.6550900.63920.65481000.65090.65721500.63740.65573000.64480.6506-37- 哈尔滨工业大学工学硕士学位论文从表4-8中可以得出,在k=10时,得到的特征F2的结果最优。即统计关联基因标签为“1”和为“0”的个数得到特征F2的预测结果为0.6770,预测结果分值AUC越大,则表明得到的结果越好。图4-5是在BioGPS数据库中特征F2下,本章方法与“P0F2”的ROC曲线。从图4-5中可以看出,本章方法得到AUC结果值为0.6770,而“PCF2”得到的AUC结果为0.6443。与“P0F2”相比,本章方法提高了2.09%。图4-5Co-Exp网络中不同方法的ROC曲线(F)2为了更进一步验证本章算法,在基因通路数据集的pathway网络上进行实验,统计前k个关联基因的权重和个数的AUC结果,如表4-9所示。表4-9Pathway网络中前k个关联基因的权重和个数的AUC(F)2kAUC_WEIGHTAUC_NUM100.72130.7249300.71410.7829500.70990.7310900.71500.77681000.71580.77941500.73150.76373000.71350.73695000.73370.7388其中k=30时得到的0.7829的AUC结果是最优的。图4-6是在基因通路数据集中特征F2下,本章方法与“P0F2”的ROC曲线。从图4-6中可以看出,本章-38- 哈尔滨工业大学工学硕士学位论文方法得到AUC结果值为0.7829,而“PCF2”得到的AUC结果为0.7031。与“P0F2”相比,本章方法提高了7.98%。图4-6Pathway网络中不同方法的ROC曲线(F)24.3.2.3特征F3下的实验验证及分析BChen等人在文献[67]中除了在构建基因的特征向量的基础上扩展了二阶邻居的信息得到特征F2以外,还将多个数据集进行了结合,分别采用HPRD数据集的蛋白质交互数据,BioGPS的基因表达数据还有基因通路数据进行结合,得到矩阵的特征F3,特征向量F3的形式如公式(3-18)所示。此外,在先验标签的确定阶段,还加入了蛋白质复合物的信息。采用蛋白质复合物确定先验标签的计算公式如(3-8)和(3-9)所示。BChen等人文献[67]中提出的特征向量F3的构建过程是分别统计基因的直接邻居中标签为“1”的个数和标签为“0”的个数。根据本章4.3.1节特征F1实验得出的结果表明本章算法在进行特征向量F1的构建过程中,采用统计关联基因的标签为“1”和标签为“0”的权重得到的实验结果要比统计个数得到的实验结果要好。因此,在构建特征向量F3时,采用相同的方法,分别在多个网络中,统计关联基因的标签为“1”和标签为“0”的权重,得到特征向量F3。此外,本章算法同样采用文献[67]中的蛋白质复合物进行先验标签的确定,得到了本章的F3特征下的结果。表4-10中本章方法得到的实验结果在PPI、Co-Exp和Pathway这三个网络上进行实验得到的结果,结果最优时,k的取值分别为500,800和900。其中RWR-39- 哈尔滨工业大学工学硕士学位论文算法中是将这三个网络中的数据进行融合,在其他算法上也是采用了三种网络数据融合的方法进行实验。表4-10三种数据集网络中不同方法的曲线下面积(F)3MethodAUCRWR0.7008DIR0.7160MRF0.7309PCF30.8295OurMethod0.8335图4-7中的ROC曲线表明在特征F3下,本章算法提出的统计关联基因的权重全局信息得到的实验结果优于其他四种算法得到的实验结果。与“PCF3”、RWR算法、MRF算法和DIR算法相比,本章算法得到的AUC结果分别提高了0.4%、13.27%、10.26%和11.75%。图4-7三种集成网络中不同方法的ROC曲线(F)34.3.3算法效率分析本章首先采用随机游走对基因特征向量进行构建,分别得到了特征向量F1,F2和F3。为了便于描述,将构建得到的特征分别分别称为“RPCF1”、“RPCF2”和“RPCF3”。然后分别在单一网络和多数据源网络上进行致病基因预测,我们统计在留一交叉验证中每一轮验证不同算法所需要的时间。从图4-8中可以看出,B-40- 哈尔滨工业大学工学硕士学位论文[67]Chen等提出的算法得到的特征PCF1和PCF2所耗费的时间是最少的,RWR算法次之。本章提出的两种特征在HPRD中的PPI网络上得到的特征F1和F2所耗费的时间分别为18.04s和19.13s,由于是先采用随机游走算法进行特征向量的构[67]建,与RWR算法和BChen等提出的算法相比,时间效率要低一些。但是,本章算法不需要对每一个结点维护马尔科夫特性,因此时间效率比MRF算法要高。图4-8PPI网络上不同方法所需的时间图4-9三种数据集中网络上不同方法所需的时间-41- 哈尔滨工业大学工学硕士学位论文如图4-9所示,黄色表示在三个数据集网络中,本章方法构建得到的F3特征RPCF3在一轮交叉验证中耗费的时间。由于本章算法需要分别对每一种数据集的网络进行随机游走,此外还需要筛选出前k个不同的关联基因进行特征向量的构建,因此在时间耗费上会比RWR算法以及Chen等提出的算法耗费时间要长一些。但与MRF算法相比,节省了将近一半的时间。4.4本章小结本章主要是对文中所提出的实验方法进行验证,通过具体的实验对提出的三种特征F1、F2和F3在不同的数据库上分别进行实验验证。首先,在HPRD数据库中的单个蛋白质交互数据集中采用留一交叉验证,对不同的k值进行在不同的特征下分别进行实验,得到了特征F1和特征F2下的最优的AUC值;然后分别在三个不同的数据集,特征F1下,比对其他的三种算法:MRF算法,“PCF1”算法和“RWR”算法,本章算法的ROC曲线图下的面积明显大于其他的三种方法。在特征F2下,仅比对了“PCF2”方法,由于RWR算法、MRF算法都有其自身的限制,只能采用特征F1进行实验,因此特征F2仅比对了本章方法和“PCF2”方法。本章在三种不同的数据集下,特征F2得到的结果同样优于“PCF2”方法,尤其是在基因通路数据集下的特征F2的实验结果显著优于“PCF2”的实验结果。在三个不同的数据集下分开进行实验,都验证了本章提出的方法的有效性。为了更进一步的验证所提出的两种构建特征的方法,将这三种数据构建得到的网络进行了实验,得到了特征F3,并在特征F3下进行验证。在特征F3下,本章方法采用了统计前k个关联基因中标签为“1”和标签为“0”的个数的全局信息,将本章与其他四种算法:RWR算法、MRF算法、DIR算法和“PCF3”进行比对。进一步的验证了提出算法对致病基因的预测能够取得不错的效果。本章提出的算法不仅仅适用于单个生物分子网络,在多个集成的分子集成网络中,采用本章算法构建得到的特征F3也同样取得了不错的效果。除了在性能上对不同算法进行比对之外,还从时间效率上对本章算法进行比较。分别从单一的PPI网络和三种数据集的网络对每一轮交叉验证进行时间耗费统计,实验表明了本章算法在时间效率上较其他几种算法稍微差一些。但是比MRF算法的耗费时间要少。综上可知,本章算法在对时间耗费要求不高的情况下,可以取得不错的效果。-42- 哈尔滨工业大学工学硕士学位论文结论各种疾病一直是威胁人类健康的重要症结,因此关于疾病治疗和致病机理的研究一直是科学工作的关键课题。随着高通量技术的快速发展,能够获取得到的大量不同类型的生物分子数据,研究者们可以利用不同类型的生物分子数据进行网络的构建,采用图论知识或者采用机器学习手段来开展不同层面的分析,从而达到理解疾病机制,预测药物治疗靶标与提高治疗效果的目的。到目前为止,虽然涌现出大量的计算方法用于鉴别致病相关基因,但是这些方法,大多是基于局部信息并且得到的识别精度不佳。如何采用统计学方法更好的挖掘基因间的关系以及如何采用计算方法来改进目前大多数算法存在的问题,提高预测致病基因的性能是本文要解决的主要问题。本文的主要研究及成果如下:(1)基于基因水平表达数据,从统计学角度出发,采用相关系数和JS信息散度这两个方面来量化基因间的关系。由于基因集中的基因并非是独立存在的个体,在各种生命进程当中参与了多项功能的作用。因此,在基因实体网络中存在的关联程度越高,即成为疾病的相关基因的概率越大。信息散度表明的是两个基因间表达水平概率分布之间存在的差异,差异越明显,则表明两种基因存在关联程度越低,两者呈现出反比例关系。从两个角度进行分析得到了两种统计特征,本文采用留一交叉验证法,研究了6组基因集数据。经实验发现,这两种量化基因间关系的最终结果一致,说明了两种统计方法得到的基因间的关联性是有效的。(2)从全局的角度出发,计算生物分子网络中的距离,对基因采用有返回概率进行随机游走分析,并对游走到的基因进行得分排序从而得到了相关的基因列表。基于RWR算法统计全局信息进行基因特征向量的构建,包含了相关基因的权重和个数信息最终得到了特征F1。针对不同类型的生物分子网络具有不同的特性,如有的分子网络较为稀疏,则信息的传播大多散布在分子结点的周围,因此提出了将局部信息和全局信息进行结合的方法对基因的特征向量进行构建,得到了特征向量F2。实验表明,提出的算法能够在同样的特征下获得了较好的效果。虽然采用了随机游走算法得到的全局信息用于二元逻辑回归模型进行疾病的预测取得了预测效果的提升,但是基于二元逻辑回归模型的算法仍然存在很多需要完善的方面:a)本文仅从全局与局部的角度考虑出发来构造特征向量,挖掘生物分子网络中可利用的信息,没有更进一步的深入扩展挖掘生物分子网络的特征。b)基于二元逻辑回归模型在决策分数阶段可以根据后验概率设计不同的正实例确定的方法;本文的一种随机游走算法的二元逻辑回归分析算法在正负实例的-43- 哈尔滨工业大学工学硕士学位论文设计上参照了BChen等人的验证方法,没有深入的研究正实例与负实例的数目在实验设计中对实验效果的影响。综上本文提出的基于随机游走算法的二元逻辑回归预测模型的致病基因预测无论是从预测性能上还是从实验的整体耗费时间上考虑都是一种能够获得较好结果的算法。随着高通量技术的不断提高,生物分子网络数据也不断的增长,将随机游走算法与其他算法进行结合,或者基于随机游走算法进行算法改进,可以作为研究人员研究致病基因预测算法的一种方向。-44- 哈尔滨工业大学工学硕士学位论文参考文献[1]AGMotulsky.GeneticsofComplexDiseases[J].JournalofZhejiangUniversity.Science.B,2006,7(2):167-168.[2]YBromberg.Chapter15:DiseaseGenePrioritization[J].PlosComputationalBiology,2013,9(4):1-16.[3]RMShai.MicroarrayToolsforDecipheringComplexDiseases[J].FrontiersinBioscience,2006,11(10):1414-1424.[4]SSchreiber,PRosenstiel,MAlbrecht,etal.GeneticsofCrohnDisease,anArchetypalInflammatoryBarrierDisease[J].NatureReviewsGenetics,2005,6(5):376-388.[5]NHirschhorn,ZKGajdos.Genome-WideAssociationStudies:ResultsfromtheFirstFewYearsandPotentialImplicationsforClinicalMedicine[J].AnnualReviewofMedicine,2011,62(1):11-24.[6]TFMackay,EAStone,JFAyroles.TheGeneticsofQuantitativeTraits:ChallengesandProspects[J].NatureReviewsGenetics,2009,10(8):565-577.[7]KFrazer,SMurray,Nj,ETopol.HumanGeneticVariationandItsContributiontoComplexTraits[J].NatureReviewsGenetics,2009,10(4):241-251.[8]UStelzl,UWorm,MLalowski,etal.AHumanProtein-ProteinInteractionNetwork:AResourceforAnnotatingtheProteome[J].Cell,2005,122(6):957-968.[9]NSimonis,JRual,ACarvunis,etal.EmpiricallyControlledMappingoftheCaenorhabditisElegansProtein-ProteinInteractomeNetwork[J].NatureMethods,2009,6(1):47-54.[10]MDreze,ARCarvunis,BCharloteaux,etal.EvidenceforNetworkEvolutioninanArabidopsisInteractomeMap[J].Science,2011,333(6042):601-607.[11]ACGavin,PAloy,PGrandi,etal.ProteomeSurveyRevealsModularityoftheYeastCellMachinery[J].Nature,2006,440(7084):631-636.[12]NJKrogan,GCagney,HYu,etal.GlobalLandscapeofProteinComplexesintheYeastSaccharomycesCerevisiae[J].Nature,2006,440(7084):637-643.[13]JQuackenbush.ComputationalAnalysisofMicroarrayData[J].NatureReviewsGenetics,2001,2(6):418-427.[14]KDDahlquist,NSalomonis,KVranizan,etal.Genmapp,aNewToolforViewingandAnalyzingMicroarrayDataonBiologicalPathways[J].NatureGenetics,2002,31(1):19-20.[15]JCMarioni,CEMason,SMMane,etal.Rna-Seq:AnAssessmentofTechnicalReproducibilityandComparisonwithGeneExpressionArrays[J].Genome-45- 哈尔滨工业大学工学硕士学位论文Research,2008,18(9):1509-1517.[16]AMortazavi,BAWilliams,KMccue,etal.MappingandQuantifyingMammalianTranscriptomesbyRna-Seq[J].NatureMethods,2008,5(7):621-628.[17]ZWang,MGerstein,Snyder,etal.Rna-Seq:ARevolutionaryToolforTranscriptomics[J].NatureReviewsGenetics,2008,10(1):57-63.[18]MGKann.AdvancesinTranslationalBioinformatics:ComputationalApproachesfortheHuntingofDiseaseGenes[J].BriefingsinBioinformatics,2010,11(1):96-110.[19]LCTranchevent,FBCapdevila,DNitsch,etal.AGuidetoWebToolstoPrioritizeCandidateGenes[J].BriefingsinBioinformatics,2011,12(1):22-32.[20]RMPiro,FDCunto.ComputationalApproachestoDisease-GenePrediction:Rationale,ClassificationandSuccesses[J].FebsJournal,2012,279(5):678-696.[21]López-BigasN,CAOuzounis.Genome-WideIdentificationofGenesLikelytoBeInvolvedinHumanGeneticDisease[J].NucleicAcidsResearch,2004,32(32):3108-3114.[22]EAAdie,RRAdams,KLEvans,etal.SpeedingDiseaseGeneDiscoverybySequenceBasedCandidatePrioritization[J].BmcBioinformatics,2005,6(1):1-13.[23]ASchlicker,TLengauer,MAlbrecht.ImprovingDiseaseGenePrioritizationUsingtheSemanticSimilarityofGeneOntologyTerms[J].Bioinformatics,2010,26(18):561-567.[24]RamírezF,GLawyer,MAlbrecht.NovelSearchMethodfortheDiscoveryofFunctionalRelationships[J].Bioinformatics,2012,28(2):269-276.[25]MECKwang-IlGoh,DavidValle,et.al.TheHumanDiseaseNetwork[J].ProceedingsoftheNationalAcademyofSciences,2007,104(21):8685-8690.[26]GJimenez-Sanchez,BChilds,DValle.HumanDiseaseGenes[J].Nature,2001,409(6822):853-855.[27]CPerez-Iratxeta,PBork,MAAndrade.AssociationofGenestoGeneticallyInheritedDiseasesUsingDataMining[J].NatureGenetics,2002,31(31):316-319.[28]JFreudenberg,PPropping.ASimilarity-BasedMethodforGenome-WidePredictionofDisease-RelevantHumanGenes[J].Bioinformatics,2002,18Suppl2(Suppl2):110-115.[29]XYao,HHan,YLi,etal.Modularity-BasedCrediblePredictionofDiseaseGenesandDetectionofDiseaseSubtypesonthePhenotype-GeneHeterogeneousNetwork[J].BmcSystemsBiology,2011,5(1):4176-4200.[30]IFeldman,ARzhetsky,DVitkup.NetworkPropertiesofGenesHarboringInheritedDiseaseMutations[J].ProceedingsoftheNationalAcademyofSciencesoftheUnitedStatesofAmerica,2008,105(11):4323-4328.-46- 哈尔滨工业大学工学硕士学位论文[31]MGKann.ProteinInteractionsandDisease:ComputationalApproachestoUncovertheEtiologyofDiseases[J].BriefingsinBioinformatics,2007,8(5):333-346.[32]MKrauthammer,CAKaufmann,TCGilliam,etal.MolecularTriangulation:BridgingLinkageandMolecular-NetworkInformationforIdentifyingCandidateGenesinAlzheimer'sDisease[J].JournalofClinicalImmunology,2004,24(2):177-184.[33]JXu,YLi.DiscoveringDisease-GenesbyTopologicalFeaturesinHumanProtein-ProteinInteractionNetwork[J].Bioinformatics,2006,22(22):2800-2805.[34]SKöhler,SBauer,DHorn,etal.WalkingtheInteractomeforPrioritizationofCandidateDiseaseGenes[J].AidsResearch&HumanRetroviruses,2008,82(4):949-958.[35]JChen,BJAronow,AGJegga.DiseaseCandidateGeneIdentificationandPrioritizationUsingProteinInteractionNetworks[J].BmcBioinformatics,2009,10(1):1-14.[36]SNavlakha,CKingsford.ThePowerofProteinInteractionNetworksforAssociatingGeneswithDiseases[J].Bioinformatics,2010,26(8):1057-1063.[37]LPage.ThePagerankCitationRanking:BringingOrdertotheWeb[C].StanfordInfoLab,1998,9(1):1-14.[38]SWhite,PSmyth.AlgorithmsforEstimatingRelativeImportanceinNetworks[C].ACMSIGKDDInternationalConferenceonKnowledgeDiscovery&DataMining,2003:266-275.[39]JKleinberg.AuthoritativeSourcesinaHyperlinkedEnvironment[J].JournaloftheAcm,1999,46(5):604-632.[40]KLage,EOKarlberg,ZMStorling,etal.AHumanPhenome-InteractomeNetworkofProteinComplexesImplicatedinGeneticDisorders[J].NatureBiotechnology,2007,25(3):309-316.[41]DGomez-Cabrero,IAbugessaisa,DMaier,etal."DataIntegrationintheEraofOmics:CurrentandFutureChallenges."[J].BmcSystemsBiology,2014,8(Suppl2):673-680.[42]RJiang.WalkingonMultipleDisease-geneNetworkstoPrioritizeCandidateGenes.[J].JournalofMolecularCellBiology,2015,7(3):214-230.[43]KDPruitt,TTatusova,GRBrown,etal.NcbiReferenceSequences(Refseq):CurrentStatus,NewFeaturesandGenomeAnnotationPolicy[J].NucleicAcidsResearch,2012,40(DatabaseIssue):130-135.[44]JNHirschhorn,MJDaly.Genome-WideAssociationStudiesforCommonDiseasesandComplexTraits[J].NatureReviewsGenetics,2005,6(2):95-108.[45]CGaRNetwork,WJn,CEa,etal.TheCancerGenomeAtlasPan-CancerAnalysisProject[J].NatureGenetics,2013,45(10):1113-1120.-47- 哈尔滨工业大学工学硕士学位论文[46]MAshburner,CABall,JABlake,etal.GeneOntology:ToolfortheUnificationofBiology.TheGeneOntologyConsortium[J].NatureGenetics,2000,25(1):25-29.[47]SLm,AC,NS,etal.DiseaseOntology:ABackboneforDiseaseSemanticIntegration[J].NucleicAcidsResearch,2012,40(DatabaseIssue):940-946.[48]HMBerman,JWestbrook,GGilliland,etal.Bourne:TheProteinDataBank[J].RcsbOrg,2000,28(1):235-242.[49]APDavis,CGMurphy,RJohnson,etal.TheComparativeToxicogenomicsDatabase:Update2013[J].NucleicAcidsResearch,2011,39(DatabaseIssue):1067-1072.[50]EGCerami,BEGross,EDemir,etal.PathwayCommons,aWebResourceforBiologicalPathwayData[J].NucleicAcidsResearch,2011,39(DatabaseIssue):685-690.[51]TBarrett,DBTroup,SEWilhite,etal.NcbiGeo:MiningTensofMillionsofExpressionProfiles--DatabaseandToolsUpdate[J].NucleicAcidsResearch,2007,35(DatabaseIssue):760-765.[52]MVidal,MECusick,ALBarabási.InteractomeNetworksandHumanDisease:Cell[J].Cell,2011,144(6):986–998.[53]TAittokallio,BSchwikowski.Graph-BasedMethodsforAnalysingNetworksinCellBiology[J].BriefingsinBioinformatics,2006,7(3):243-255.[54]NPržulj.Protein-ProteinInteractions:MakingSenseofNetworksViaGraph-TheoreticModeling[J].BioessaysNews&ReviewsinMolecularCellular&DevelopmentalBiology,2011,33(2):115-123.[55]LHakes,JWPinney,DLRobertson,etal.Protein-ProteinInteractionNetworksandBiology--What'stheConnection?[J].NatureBiotechnology,2008,26(1):69-72.[56]AHTong,GLesage,GDBader,etal.GlobalMappingoftheYeastGeneticInteractionNetwork[J].Science,2004,303(5659):808-813.[57]SJDixon,MCostanzo,ABaryshnikova,etal.SystematicMappingofGeneticInteractionNetworks[J].AnnualReviewofGenetics,2009,43(1):601-625.[58]MCostanzo,CBoone.TheGeneticLandscapeofaCell[J].Science,2010,327(5964):425-431.[59]RTanaka.Scale-RichMetabolicNetworks[J].PhysicalReviewLetters,2005,94(16):1-4.[60]ERavasz,ALSomera,DAMongru,etal.HierarchicalOrganizationofModularityinMetabolicNetworks[J].Science,2002,297(5586):1551-1555.[61]HMa,APZeng.ReconstructionofMetabolicNetworksfromGenomeDataandAnalysisofTheirGlobalStructureforVariousOrganisms[J].Bioinformatics,2003,19(2):270-277.-48- 哈尔滨工业大学工学硕士学位论文[62]CPrieto,ARisueno,CFontanillo,etal.HumanGeneCo-expressionLandscape:ConfidentNetworkDerivedfromTissueTranscriptomicProfiles[J].PlosOne,2008,3(12):1-14.[63]JMStuart,ESegal,DKoller,etal.AGene-CoexpressionNetworkforGlobalDiscoveryofConservedGeneticModules[J].Science,2003,302(5643):249-255.[64]XWu,RJiang,MQZhang,etal.Network-BasedGlobalInferenceofHumanDiseaseGenes[J].MolecularSystemsBiology,2008,4(1):1-11.[65]OVanunu,OMagger,ERuppin,etal.AssociatingGenesandProteinComplexeswithDiseaseViaNetworkPropagation[J].PlosComputationalBiology,2010,6(1):1-9.[66]MV,CCano,ABlanco.Prophnet:AGenericPrioritizationMethodthroughPropagationofInformation[J].BmcBioinformatics,2014,15(1):1506-1526.[67]BChen,MLi,JWang,etal.AFastandHighPerformanceMultipleDataIntegrationAlgorithmforIdentifyingHumanDiseaseGenes[J].BmcMedicalGenomics,2015,8(Suppl3):1-11.[68]BChen,JWang,MLi,etal.IdentifyingDiseaseGenesbyIntegratingMultipleDataSources[J].BmcMedicalGenomics,2014,7(Suppl2):1-12.[69]SMostafavi,DRay,DWardefarley,etal.Genemania:AReal-TimeMultipleAssociationNetworkIntegrationAlgorithmforPredictingGeneFunction[J].GenomeBiology,2008,9(Suppl1):1-15.[70]BLinghu,ESSnitkin,ZHu,etal.Genome-WidePrioritizationofDiseaseGenesandIdentificationofDisease-DiseaseAssociationsfromanIntegratedHumanFunctionalLinkageNetwork[J].GenomeBiology,2008,10(9):100-105.[71]YWang,HFang,TYang,etal.Degree-AdjustedAlgorithmforPrioritisationofCandidateDiseaseGenesfromGeneExpressionandProteinInteractome[J].IetSystemsBiology,2014,8(2):41-46.[72]WWang,WZhang,RJiang,etal.PrioritisationofAssociationsbetweenProteinDomainsandComplexDiseasesUsingDomain-DomainInteractionNetworks[J].IetSystemsBiology,2010,4(3):212-222.[73]OVanunu,RSharan.APropagation-BasedAlgorithmforInferringGene-DiseaseAssociations[C].GermanConferenceonBioinformatics,Gcb2008,September9-12,2008,Dresden,Germany,2008:54-52.[74]RSteuer,LMolgedey,WEbeling,etal.EntropyandOptimalPartitionforDataAnalysis[J].TheEuropeanPhysicalJournalB-CondensedMatterandComplexSystems,2001,19(2):265-269.[75]G-LJuanFrancisco,M-AJosé,MAureliano.AnAnalysisofEdgeDetectionbyUsingtheJensen-ShannonDivergence[J].JournalofMathematicalImagingandVision,2000,13(1):35-56.[76]ESinan,BebekG,EwingRM,etal.DADA:Degree-AwareAlgorithmsfor-49- 哈尔滨工业大学工学硕士学位论文Network-BasedDiseaseGenePrioritization[J].BiodataMining,2011,4(1):19-39.[77]MReimers,VJCarey.Bioconductor:AnOpenSourceFrameworkforBioinformaticsandComputationalBiology[J].MethodsinEnzymology,2006,411(411):119-134.[78]TSKeshavaPrasad,RGoel,KKandasamy,etal.HumanProteinReferenceDatabase--2009Update[J].NucleicAcidsResearch,2009,37(Suppl1):767-772.[79]KAGray,LCDaugherty,SMGordon,etal.Genenames.Org:TheHgncResourcesin2013[J].NucleicAcidsResearch,2013,41(DatabaseIssue):545-552.[80]MAVanDriel,JBruggeman,GVriend,etal.AText-MiningAnalysisoftheHumanPhenome[J].EuropeanJournalofHumanGenetics,2006,14(5):535-542.[81]YChen,WWang,YZhou,etal.InSilicoGenePrioritizationbyIntegratingMultipleDataSources[J].PlosOne,2011,6(6):1-13.[82]RJansen,HYu,DGreenbaum,etal.ABayesianNetworksApproachforPredictingProtein-ProteinInteractionsfromGenomicData[J].Science,2003,302(5644):449-453.[83]AFranceschini,DSzklarczyk,SFrankild,etal.StringV9.1:Protein-ProteinInteractionNetworks,withIncreasedCoverageandIntegration[J].NucleicAcidsResearch,2013,41(DatabaseIssue):808-815.[84]BChen,MLi,JWang,etal.ALogisticRegressionBasedAlgorithmforIdentifyingHumanDiseaseGenes[C].IEEEInternationalConferenceonBioinformaticsandBiomedicine,2014:197-200.[85]BChen,XShang,MLi,etal.ATwo-StepLogisticRegressionAlgorithmforIdentifyingIndividual-Cancer-RelatedGenes[C].IEEEInternationalConferenceonBioinformaticsandBiomedicine,2015:195-200.[86]KLage,EOKarlberg,ZMStørling,etal.AHumanPhenome-InteractomeNetworkofProteinComplexesImplicatedinGeneticDisorders[J].NatureBiotechnology,2007,25(3):309-316.[87]SNavlakha,CKingsford.ThePowerofProteinInteractionNetworksforAssociatingGeneswithDiseases[J].Bioinformatics,2010,26(8):1057-1063.[88]CStark,BJBreitkreutz,TReguly,etal.Biogrid:AGeneralRepositoryforInteractionDatasets[J].NucleicAcidsResearch,2006,34(12):535-539.[89]SKerrien,YAlam-Faruque,BAranda,etal.Intact--OpenSourceResourceforMolecularInteractionData[J].NucleicAcidsResearch,2007,35(DatabaseIssue):561-565.[90]MKanehisa,SGoto.Kegg:KyotoEncyclopediaofGenesandGenomes[J].NucleicAcidsResearch,1999,27(1):29-34.[91]IVastrik,PD'eustachio,ESchmidt,etal.Reactome:AKnowledgeBaseofBiologicPathwaysandProcesses[J].GenomeBiology,2007,8(3):1-13.-50- 哈尔滨工业大学工学硕士学位论文[92]MWhirlварcarrillo,EMMcdonagh,JMHebert,etal.PharmacogenomicsKnowledgeforPersonalizedMedicine[J].ClinicalPharmacology&Therapeutics,2012,92(4):414-417.[93]CFSchaefer,KAnthony,SKrupa,etal.Pid:ThePathwayInteractionDatabase[J].NucleicAcidsResearch,2009,37(DatabaseIssue):674-679.[94]CWu,COrozco,JBoyer,etal.Biogps:AnExtensibleandCustomizablePortalforQueryingandOrganizingGeneAnnotationResources[J].GenomeBiology,2008,10(11):1-8.[95]AISu,TWiltshire,SBatalov,etal.AGeneAtlasoftheMouseandHumanProtein-EncodingTranscriptomes[J].ProceedingsoftheNationalAcademyofSciencesoftheUnitedStatesofAmerica,2004,101(16):6062-6067.[96]PRBurton,DGClayton,LRCardon,etal.Genome-WideAssociationStudyof14,000CasesofSevenCommonDiseasesand3,000SharedControls[J].Nature,2007,447(7145):661-678.[97]VAMckusick.MendelianInheritanceinManandItsOnlineVersion,Omim[J].AmericanJournalofHumanGenetics,2007,80(4):588-604.[98]FEmmertstreib,STripathi,RDMSimoes,etal.TheHumanDiseaseNetwork[J].ProceedingsoftheNationalAcademyofSciences,2014,1(1):20-28.-51- 哈尔滨工业大学工学硕士学位论文攻读硕士期间发表的论文及其它成果(一)已发表的学术论文[1]ZLWei.RecentProgressofStructuralVariationsDetectionAlgorithmsBasedonNext-GenerationSequencing:ASurvey[M]//ImageandGraphics.SpringerInternationalPublishing,2015:148-159.(EI收录号:20154201381923)-52- 哈尔滨工业大学学位论文原创性声明和使用权限学位论文原创性声明本人郑重声明:此处所提交的学位论文《基于基因网络的致病基因预测算法研究》,是本人在导师指导下,在哈尔滨工业大学攻读学位期间独立进行研究工作所取得的成果,且学位论文中除已标注引用文献的部分外不包含他人完成或已发表的研究成果。对本学位论文的研究工作做出重要贡献的个人和集体,均己在文中1^|明确方式注明。\\\7《作者签名日期;年月曰学位论文使用权限学位论文是研究生在哈尔滨工业大学攻读学位期间完成的成果,知识产权归属哈尔演工业大学。学位论文的使用权限如下;(1)学校可1^^采用影印、缩印或其他复制手段保存研巧生上交的学位论文,并向国家图书馆报送学位论文;(2)学校可臥将学位论文部分或全部肉容编入有关数据库进行检索和提供相应阅览服务(3);研巧生毕业后发表与此学位论文研一究成果相关的学术论文和其他成果时,喧征得导师同意,且第署名单位为哈尔滨工业大学。■保密论文在保密期内遵守有关保密规定,解密后适用于此使用权限规定。。本人知悉学位论文的使用权限,并将遵守有关规定作者签名日期年月S日7:导师签名:日期年7月^-53- 哈尔滨工业大学工学硕士学位论文致谢时光荏苒,岁月如梭,转眼间在哈工大的研究生生活马上就要结束了。依稀记得初到哈工大时的稚嫩和不安,感谢这三年哈工大让我在曾经的迷茫与困顿中逐渐成长,感谢哈工大赐予我虽短暂,却最宝贵的年华。回首这三年美好的时光,有太多需要感谢的人。在完成论文之际,请容许我对帮助我的老师,朋友与家人表达诚挚的谢意。首先感谢我的导师徐勇教授,感谢徐老师提供我在他指导下学习的机会。徐老师严谨细致的科研态度,强烈的责任感,在工作岗位上的兢兢业业,尽职尽责,对于做事做人的谆谆教诲,使我受益匪浅,终将是我一生中难得的宝贵的财富。感谢各位生物计算实验室的老师,在科研工作中,每次遇到困难都是他们给予我最无私的帮助。感谢生物计算实验室研究中心给我提供了一个积极向上,学术氛围浓烈的学习环境,以及实验室羽毛球活动,给我带来了欢乐和健康的体魄。感谢实验室同组的合作伙伴,在他们的通力的协助下,才使得我的工作更顺利的开展。感谢实验室师兄师姐师弟师妹们,是他们的陪伴,才使得这三年的时光充满快乐。感谢华大实习的同事们,他们无私的帮助使得我的科研工作取得了一定的成果。感谢我的朋友和同学,感谢他们的陪伴我度过了生命中最懵懂和纯真的时光,非常感谢能够和他们在科研学术上进行探讨和共同进步。感谢我的舍友,陪伴了我学生生涯的最后尾三年,感谢他们在生活和精神上给与我无微不至的关怀、帮助和鼓励。每当我身心疲惫时,是他们的话语让我倍感精神,重新振作起来;是他们对待生活的态度让我学会了认真的生活,慢慢意识到自身存在的缺点并改正。感谢我的爸爸和妈妈,是你们给了我生命,养育之恩,无以回报。感谢我的哥哥,给予我的关心、爱护和支持。离开家乡在外求学的日子里,你们无微不至的关怀,教导和支持一直是我坚强的后盾,使我能够勇敢的面对各种困难,并努力的战胜困难。你们的健康和快乐是我最大的心愿,在这里祝福你们身体健康,万事如意!感谢哈工大三年珍贵的岁月,让我学会成长,懂得珍惜,我将心存感激,再次启程。最后,向所有关心我的亲人、同学和老师表示衷心的感谢!-54-

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭