基于生物网络的复杂疾病关联miRNA预测方法研究

基于生物网络的复杂疾病关联miRNA预测方法研究

ID:77696855

大小:2.76 MB

页数:145页

时间:2023-11-13

上传者:笑似︶ㄣ無奈
基于生物网络的复杂疾病关联miRNA预测方法研究_第1页
基于生物网络的复杂疾病关联miRNA预测方法研究_第2页
基于生物网络的复杂疾病关联miRNA预测方法研究_第3页
基于生物网络的复杂疾病关联miRNA预测方法研究_第4页
基于生物网络的复杂疾病关联miRNA预测方法研究_第5页
基于生物网络的复杂疾病关联miRNA预测方法研究_第6页
基于生物网络的复杂疾病关联miRNA预测方法研究_第7页
基于生物网络的复杂疾病关联miRNA预测方法研究_第8页
基于生物网络的复杂疾病关联miRNA预测方法研究_第9页
基于生物网络的复杂疾病关联miRNA预测方法研究_第10页
资源描述:

《基于生物网络的复杂疾病关联miRNA预测方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

学校代号10532学号B141000242分类号TP301密级博士学位论文基于生物网络的复杂疾病关联miRNA预测方法研究学位申请人姓名陈敏培养单位信息科学与工程学院导师姓名及职称廖波教授学科专业计算机科学与技术研究方向生物信息处理论文提交日期2018年4月26日 学校代号:10532学号:B14100042密级:湖南大学博士学位论文基于生物网络的复杂疾病关联miRNA预测方法研究学位申请人姓名:陈敏导师姓名及职称:廖波教授培养单位:信息科学与工程学院专业名称:计算机科学与技术论文提交日期:2018年4月26日论文答辩日期:2018年5月16日答辩委员会主席:林亚平教授 StudyonMethodsbasedonBiologicalNetworkforpredictingmiRNAassociatedwithcomplexDiseasebyMinChenM.S.(CentralSouthUniversity)2007AthesissubmittedinpartialsatisfactionoftheRequirementsforthedegreeofDoctorofEngineeringinComputerScienceandTechnologyintheGraduateSchoolofHunanUniversitySupervisorProfessorBoLiaoMay,2018 湖南大学学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研宄成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均己在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。日期jt作者签名:年:^月a日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于1、保密口,在年解密后适用于本授权书2、不保密包。’(请在以上相应方框内打V)I日期J月M曰作者签名::年:日期导师签名:山押JT月以日f 基于生物网络的复杂疾病关联miRNA预测方法研究摘要miRNA是一种广泛存在于真核生物中长度约为20到25个核苷酸的进化保守的单链内源性非编码RNA,它们虽不能编码蛋白质,但却参与靶基因的调控,在细胞增殖、生长、凋亡等生物过程中都起着关键作用,能够帮助我们从分子角度了解疾病的发生发展。探测miRNA及其功能将助于了解miRNA的调控机制,有助于深刻认识疾病的发生发展的机制,对人类疾病预防和治疗具有十分重要的意义。近年来,大量miRNA生物数据不断形成,大部分miRNA的功能仍然未知,探索miRNA功能是目前生命科学领域的热点,研究者们通过精细的生物实验的方法能够准确鉴别出miRNA和疾病之间的关联,但这类方法对实验条件要求高且周期漫长。计算方法是生物实验的最佳补充,这类方法通过整合已知的生物数据来推断miRNA和疾病之间的关联,利用预测结果可以指导生物实验,能够减少后续生物实验的盲目性、缩小生物实验的范围,帮助理解miRNA功能及致病机理。目前大多数计算方法存在预测准确度不高、需要负样本、不能预测孤立疾病和新miRNA、泛化能力不强等缺点,本文针对这些问题,提出了三种方法,主要研究工作如下:1)基于共同邻居的异构二分网络链路预测方法推断miRNA-疾病关联。受单分网络共同邻居的启发,提出了二分网络共同邻居的概念并给出了8种共同邻居指标的定义,通过这些指标可以计算疾病和miRNA结点的初次关联得分,用初次得分即可预测疾病-miRNA关联。为了得到更准确的预测结果,在初次得分的基础上,引入疾病和疾病之间的相似性及miRNA之间的相似性得到基于疾病空间相似性的共同邻居二次预测得分和基于miRNA相似性的共同邻居二次预测得分,利用基于miRNA功能相似性的共同邻居预测得分大幅提升了预测准确度、可以预测新miRNA,但却不能用于孤立疾病的预测,基于疾病功能相似性的共同邻居得分能够应用于孤立疾病预测,但对新miRNA没有预测能力。最后我们综合这两个得分加权形成一个整合的预测得分作为最终的疾病-miRNA关联预测得分,该方法集中了以上预测方法的优点,LOOCV评估表现出良好的预测能力。在黄金基准数据集和预测数据集这两个不同数据集上实施的留一交叉验证显示出了该算法良好的预测能力,在实例研究中,我们对乳腺肿瘤和结肠肿瘤进行了预测研究,在推断潜在的疾病-miRNA关联分析和孤立疾病-miRNA关联的预测中均表现出良好的预测能力,大部分预测结果都得到了数据库证实。2)基于双层网络随机游走的全局相似性miRNA-疾病关联预测方法研究。考虑到使用全局性信息能够提高预测准确度,我们尝试使用拉普拉斯算子来计算全局相似性,利用已知的通过生物实验确认的miRNA-疾病关系对疾病种子进行优II 博士学位论文化,然后在miRNA网络中随机游走,得到一个稳定的分布向量,接着求稳定向量和疾病间全局相似性矩阵的各向量的皮尔森系数,获得疾病在miRNA全局相似性网络中的疾病-miRNA预测得分;与此同时,利用实验验证的疾病-miRNA关联对miRNA种子进行优化,然后在疾病网络中随机游走,得到一个稳定的分布向量,接着求稳定向量和miRNA间全局相似性矩阵的各向量的皮尔森系数作为miRNA在疾病全局相似性网络中疾病-miRNA预测得分;最后把两个网络中得到的预测得分加权作为最终的疾病-miRNA关联预测得分。该方法在没有负样本的情况下能够进行预测,预测结果优于现有前沿计算预测方法,在新miRNA特别是孤立疾病的预测方面优势明显,实例研究中预测得到的排名前50名疾病-miRNA关联大多得到实验验证,充分说明此种研究方法行之有效。3)基于网络一致性的信息扩散方法推断疾病-miRNA关联。合理的构建疾病及miRNA相似性关系能够提高计算方法的预测准确度,我们首先整合实验验证的疾病和miRNA已知关联、疾病语义性得分、拉普拉斯算子构建了疾病全局相似性网络,利用miRNA功能相似性得分、家族信息、拉普拉斯算子构建出miRNA全局相似性网络,然后利用实验验证的疾病-miRNA关系、miRNA结点间的全局相似性构建基于miRNA全局相似性信息的疾病-miRNA关联网络ASm,利用实验验证的疾病-miRNA关联信息及疾病结点间的全局相似性构建基于疾病全局相似性信息的疾病和miRNA关联网络ASd,接着分别结合全局相似性网络和ASm、ASd获取网络一致性扩散种子,利用一致性扩散种子分别在疾病全局相似性网络、miRNA全局相似性网络中扩散后获得稳定的扩散谱作为预测得分,最后对这两个预测得分做加权得到最终的疾病-miRNA关联预测得分。该方法不需要负样本、能够用于新miRNA和孤立疾病的预测,算法设计简单,在黄金基准数据集和预测数据集上的LOOCV评估结果显示我们的方法优于我们前面提出的两种方法和他人的前沿方法。在实例研究中排名前50位的预测结果大都被数据库证实,其余的关联在最新文献中找到了支持证据,展现了我们提出的方法良好的预测能力。关键词:共同邻居;异构二分网络;随机游走算法;拉普拉斯算子;网络一致性III 基于生物网络的复杂疾病关联miRNA预测方法研究AbstractMiRNAisanevolutionarilyconserved,single-stranded,endogenousnon-codingRNAofapproximately20nucleotidesinlengthineukaryotes.Althoughitdoesnotencodeproteins,itisinvolvedintheregulationoftargetgenesincells.Itplaysakeyroleinbiologicalprocessessuchasproliferation,growth,andapoptosis,whichcanhelpusunderstandthedevelopmentofthediseasefromthemolecularperspective.ThedetectionmiRNAanditsfunctionwillhelptounderstandtheregulationandcontrolmechanismofmiRNA,whichishelpfulforunderstandingthemechanismofdiseasedevelopmentandisveryimportantforthepreventionandtreatmentofhumandiseases.Inrecentyears,alargenumberofmiRNAbiologicaldatahavebeencontinuouslyformed,andthefunctionsofmostmiRNAsarestillunknown.ThecorrelationbetweentherecognitionofmiRNAsanddiseasesisahottopicinbiologicalresearch.ResearcherscanaccuratelyidentifytheassociationbetweenmiRNAsanddiseasesthroughsophisticatedbiologicalexperiments.However,theyrequirehighexperimentalconditionsandhavealongcycle.Computationalmethodsinfertheassociationbasedonknownbiologicaldataisabestsupplementtobiologicalexperiment.However,mostcurrentmethodshavethedisadvantagesoflowpredictionaccuracy,negativesampleacquisition,inabilitytopredictisolateddiseasesandnewmiRNAs,andpoorgeneralizationability.ThispaperproposesthreemiRNA-relateddiseasepredictionmethodstoaddresstheseproblems.Themainresearchworkisasfollows:1)HeterogeneousbipartitenetworklinkpredictionmethodsbasedoncommonneighborswereusedtoinfermiRNA-diseaseassociations.Inspiredbythecommonneighborsofthesingle-divisionnetwork,theconceptofthecommonneighborhoodofthebipartitenetworkisdefinedandthedefinitionsofeightcommonneighborsaregiven.Throughtheseindicators,theinitialassociationscoresofdiseasesandmiRNAnodescanbecalculated,andtheinitialscorecanbeusedtopredictDisease-miRNAassociations.Inordertoobtainmoreaccuratepredictionresults,thesimilaritybetweendiseaseanddiseaseandthesimilaritybetweenmiRNAsareintroduced.Basedontheinitialscores,thesecondarypredictionscoresbasedonthespatialsimilarityofdiseaseandthecommonneighborsbasedonmiRNAsimilarityareobtained.ThecommonneighborlinkpredictionalgorithmbasedonmiRNAfunctionalsimilaritygreatlyimprovesthepredictionaccuracyandcanpredictnewmiRNAs,butitcannotbeusedforthepredictionofisolateddiseases.ThecommonneighborlinkpredictionalgorithmIV 博士学位论文basedonthefunctionalsimilarityofthediseasecanbeappliedtoisolateddiseasepredictionbutnopredictionabilityfornewmiRNAs.Finally,weweightedthesetwoalgorithmstoformanintegrationalgorithm.Thismethodconcentratestheadvantagesoftheabovealgorithms,hashighpredictionaccuracy,andcanbeusedforthepredictionofisolateddiseasesandnewmiRNAs.Theleave-one-outcross-validationperformedonthetwodifferentdatasetsofthegoldbaselinedatasetandthepredictivedatasetshowsthatthealgorithmhasgoodpredictivepower.Inthecasestudy,weconductedapredictivestudyofbreastandcoloncancers.BothassociatedmiRNAandisolateddiseasepredictionsshowedgoodpredictivepower,andmostofthepredictionresultswereconfirmedbythedatabase.2)GlobalSimilarityMethodBasedonaTwo-tierRandomWalkforthePredictionofmiRNA–DiseaseAssociation.Consideringthatusingglobalinformationcanimprovepredictionaccuracy,wetrytousetheLaplacianscoreofthegraphtocalculatetheglobalsimilarityofthenetworkbyusingtheoptimizeddiseaseseedsandmiRNAseedsinthemiRNAnetworkandthediseasenetwork,respectively.Randomwalk,thePearsoncoefficientofeachvectoroftheglobalsimilaritymatrixbetweenthestablevectorandthemiRNA,thestablevectorobtainedfromthemiRNAnetwork,andthePearsoncoefficientofeachvectoroftheglobalsimilaritymatrixbetweendiseasesaretakenasthepredictionscoreofmiRNAs-disease.Finally,thepredictedscoresobtainedfromthetwonetworksareweightedasthefinalmiRNA-diseaseassociationpredictionscore.Thismethodcanpredictwithoutnegativesamples.Ourmethodissuperiortotheexistingmethodsinthepredictionaccuracy,andthereisaclearadvantageinthepredictionofnewmiRNAs,particularlysolitarydiseases.MostofthemiRNA-diseaseassociationspredictedinthetop50ofthecasestudiescanbeexperimentallyverified,fullydemonstratingthatthismethodisfeasibleandeffective.3)Information-diffusiondisease-associatedmiRNApredictionbasedonnetworkconsistency.ReasonableconstructionofdiseaseandmiRNAsimilarityrelationshipcanimprovethepredictionaccuracyofthecalculationmethod.WefirstintegrateexperimentallyvalidateddiseaseandmiRNAassociationinformation,diseasesemanticscores,andmapsofLaplacianscorestobuildaglobalnetworkofdiseasesimilarities.UsemiRNAfamilyinformation,miRNAfunctionalsimilarity,LaplacianscoreofmapstoconstructmiRNAglobalsimilaritynetwork,andthenusetheknowndiseaseandmiRNAassociationinformationandglobalsimilaritybetweenmiRNAnodestobuildmiRNA-basedglobalsimilarityinformationdisease-miRNAassociationnetworkASm;Thedisease-miRNAassociationnetworkASdbasedonthediseaseV 基于生物网络的复杂疾病关联miRNA预测方法研究globalsimilarityinformationwasconstructedbyusingtheknownsimilaritiesbetweendiseaseandmiRNArelatedinformationdiseasenodes,andthenthenetworkhomogeneitydiffusionseedwasobtainedbycombiningtheglobalsimilaritynetworkandASmandASd,respectively.InthediseaseglobalsimilaritynetworkandthemiRNAglobalsimilaritynetwork,thestablediffusionspectrumwasrandomlywalkedtoobtainthepredictionscore.Finally,thesetwopredictionscoreswereweightedtoobtainthefinalmiRNA-disease-associatedmiRNApredictionscore.ThemethoddoesnotrequirenegativesamplesandcanbeusedforthepredictionofnewmiRNAsandisolateddiseases,andthealgorithmissimpleindesign.TheLOOCVevaluationresultsonthegoldbaselinedatasetandthepredictiondatasetshowthatourmethodissuperiortothetwomethodsweproposedearlierandmethodsofothers.Mostofthetop50predictionsinthecasestudieswereconfirmedbythedatabase.Therestoftheassociationsfoundevidenceofsupportinthelatestliterature,demonstratingthegoodpredictivepowerofourproposedmethod.KeyWords:commonneighbors;heterogeneousbipartitenetwork;randomwalk;laplacianscoreofthegraph;network-consistencyVI 博士学位论文目录学位论文原创性声明和学位论文版权使用授权书....................................................I摘要....................................................................................................................IIAbstract....................................................................................................................IV插图索引....................................................................................................................X附表索引.................................................................................................................XII第1章绪论.............................................................................................................11.1研究背景与意义...............................................................................................11.2国内外研究现状.............................................................................................31.2.1基于机器学习的方法.............................................................................31.2.2基于网络的预测方法.............................................................................61.3论文的主要工作.............................................................................................101.4论文的组织结构.............................................................................................11第2章相关理论及数据资源介绍...........................................................................132.1miRNA的发现、作用机制及与疾病的关联..................................................132.1.1miRNA的发现......................................................................................132.1.2miRNA的产生及其作用机制...............................................................142.1.3miRNA与疾病的关联..........................................................................152.2常用的数据库资源.........................................................................................172.2.1疾病与miRNA关联数据资源............................................................172.2.2疾病相关数据资源...............................................................................202.2.3miRNA相互作用数据资源..................................................................212.2.4其他数据库..........................................................................................232.3疾病相似性网络的构建方法..........................................................................232.4miRNA相似性网络的构建方法...................................................................272.5预测评价方法与指标.....................................................................................302.5.1预测评价方法......................................................................................302.5.2预测评价指标......................................................................................312.6小结..............................................................................................................32第3章基于共同邻居的异构二分网络链路预测方法推断疾病-miRNA关联......333.1问题描述.........................................................................................................333.2基于共同邻居的异构二分网络链接预测算法的框架结构............................353.3数据集及与处理.............................................................................................363.3.1疾病语义相似性数据...........................................................................36VII 基于生物网络的复杂疾病关联miRNA预测方法研究3.3.2miRNA功能相似性数据......................................................................363.3.3miRNA的家族信息数据......................................................................363.3.4已知实验验证的miRNA和疾病的关联数据......................................373.4相似性网络构建.............................................................................................393.4.1miRNA相似性网络重构......................................................................393.4.2疾病相似性网络重构...........................................................................403.5基于共同邻居的异构二分网络链接预测方法...............................................403.5.1基于共同邻居的的异构二分网络链接预测思路................................403.5.2局部结构相似性指标...........................................................................433.5.3基于相似性的二次得分计算...............................................................453.5.4基于miRNA功能相似性和疾病功能相似性共同邻居的加权算法...463.6实验结果及分析.............................................................................................473.6.1模型的留一交叉验证算法描述...........................................................473.6.2模型自身性能比较评估.......................................................................473.6.3相关方法比较......................................................................................543.6.4孤立疾病和新miRNA预测.................................................................563.7实例研究.........................................................................................................583.8小结................................................................................................................64第4章基于双层网络随机游走的全局相似性疾病关联miRNA预测..................664.1问题描述.........................................................................................................664.2GSTRW的基本流程.....................................................................................674.3数据集处理.....................................................................................................694.4miRNA相似性网络重构..............................................................................704.5基于拉普拉斯算子的全局相似性计算..........................................................704.6疾病种子和miRNA种子优化.....................................................................714.7基于双层网络随机游走的全局相似性疾病-miRNA关联得分计算方法......724.7.1GSTRW模型构建.................................................................................724.7.2算法描述..............................................................................................734.8实验结果与分析.............................................................................................754.8.1参数选择及性能评估...........................................................................754.8.2孤立疾病和新miRNA的关联信息预测............................................794.8.3实例研究..............................................................................................804.9小结................................................................................................................88第5章基于网络一致性的信息扩散疾病关联miRNA预测方法研究..................905.1问题描述.........................................................................................................90VIII 博士学位论文5.2算法流程.........................................................................................................915.3数据预处理及相似性网络构建......................................................................925.3.1数据预处理..........................................................................................925.3.2相似性网络构建..................................................................................925.4疾病-miRNA关联网络重构...........................................................................945.4.1构建基于miRNA全局相似性信息的疾病-miRNA关联网络ASm...945.4.2构建基于疾病全局相似性信息的疾病-miRNA关联网络ASd..........945.5基于网络一致性的信息扩散疾病关联预测方法研究...................................955.5.1本章模型构建......................................................................................955.5.2算法描述..............................................................................................975.6实验结果分析.................................................................................................985.6.1参数选择..............................................................................................985.6.2模型性能比较评估.............................................................................1005.7实例研究.......................................................................................................1035.8小结..............................................................................................................109结论.....................................................................................................................111参考文献.................................................................................................................114致谢.....................................................................................................................128附录A攻读学位期间所发表的学术论文目录......................................................129附录B攻读博士学位期间主要参与的课题.........................................................130IX 基于生物网络的复杂疾病关联miRNA预测方法研究插图索引[67]图2.1哺乳动物的miRNA产生途径和机制.......................................................15图2.2肝部肿瘤和胰腺肿瘤树状结构图..................................................................24图2.3肝部肿瘤和胰腺肿瘤的DAG图...................................................................26图2.4miRNA功能相似度度量过程图....................................................................28图3.1异构二分网络预测潜在疾病相关的miRNA的基本框架.............................34图3.2基于共同邻居的异构二分网络链路预测流程图...........................................35图3.3单分网络共同邻居示意图..............................................................................41图3.4二分网络共同邻居示意图.............................................................................42图3.5预测计算过程图............................................................................................43图3.6前五种情况下利用二分网络共同邻居指标计算得到的ROC曲线和AUC值...................................................................................................................................49图3.7前五种情况下利用二分网络Salton指标计算得到的ROC曲线和AUC值50图3.8前五种情况下利用二分网络Sørensen指标计算得到的ROC曲线和AUC值...................................................................................................................................50图3.9前五种情况下利用二分网络HPI指标计算得到的ROC曲线和AUC值....51图3.10前五种情况下利用二分网络HDI指标计算得到的ROC曲线和AUC值.51图3.11前五种情况下利用二分网络LHN1指标计算得到的ROC曲线和AUC值...................................................................................................................................52图3.12前五种情况下利用二分网络PA指标计算得到的ROC曲线和AUC值...52图3.13我们的方法和RWRMDA在黄金基准数据集上的ROC曲线和AUC值..55图3.14我们的方法和RWRMDA在预测数据集上的ROC曲线和AUC值..........56图3.15黄金数据集中对新miRNA的预测的ROC曲线和AUC值.......................57图3.16黄金数据集中对孤立疾病的预测的ROC曲线和AUC值.........................58图4.1关联预测基本框架.........................................................................................67图4.2GSTRW模型流程图.......................................................................................68图4.3参数变化对GSTRW预测性能影响图...........................................................75图4.4不同情况下基于LOOCV的GSTRW的ROC曲线和AUC值....................77图4.5黄金基准数据集中GSTRW、RLSMDA和NetCBI的ROC曲线和AUC值...................................................................................................................................78图4.6预测数据集中GSTRW、RLSMDA和NetCBI的ROC曲线和AUC值.....78图4.7预测数据集中GSTRW、RLSMDA和NetCBI的PR曲线..........................79图4.8黄金基准数据集中GSTRW对孤立疾病和新miRNA预测的ROC曲线....80X 博士学位论文图5.1基于网络一致性的信息扩散方法模型流程图...............................................91图5.2参数变化对模型的预测准确度影响.............................................................99图5.3三类九种情况中留一交叉验证时的ROC曲线和AUC值........................101图5.4黄金基准数据集上我们的方法和其他方法比较的ROC曲线和AUC值..101图5.5预测数据集上我们的方法和其他方法比较的情况.....................................102图5.6黄金基准数据集上我们的方法对新miRNA和孤立疾病预测的结果图....103XI 基于生物网络的复杂疾病关联miRNA预测方法研究附表索引表2.1预测评价指标.................................................................................................31表3.1数据集特征汇总............................................................................................37表3.2黄金标准数据集miRNA度结点数分布情况...............................................38表3.3黄金标准数据集疾病结点度数分布情况汇总..............................................38表3.4预测数据集miRNA结点度数分布情况汇总...............................................38表3.5预测数据集疾病结点度数分布情况汇总......................................................39表3.6基于共同邻居的异构二分网络模型LOOCV算法.......................................48表3.7基于疾病相似性和miRNA相似性预测AUC值.........................................54表3.8黄金基准数据集中加权之后的AUC值.......................................................54表3.9本章方法推断的前50个和乳腺肿瘤有关的miRNA...................................59表3.10本章方法推断的前50个与结肠肿瘤关联的miRNA及验证证据..............61表3.11孤立疾病推断时本章算法得到的前50个与乳腺肿瘤相关的miRNA及验证证据...........................................................................................................................62表3.12孤立疾病预测时GSTRW预测得到的前50个与结肠癌相关的miRNA及验证证据.......................................................................................................................63表4.1基于双层网络随机游走的全局相似性预测模型的LOOCV算法................74表4.2GSTRW预测得到的前50个与乳腺肿瘤相关的miRNA及验证证据.........81表4.3GSTRW预测得到的前50个与结肠肿瘤相关的miRNA及验证证据.........83表4.4孤立疾病预测时GSTRW预测得到的前50个与乳腺肿瘤相关的miRNA及验证证据...................................................................................................................84表4.5孤立疾病预测时GSTRW预测得到的前50个与结肠肿瘤相关的miRNA及验证证据...................................................................................................................85表4.6GSTRW综合预测得到的前40对miRNA与疾病关联及验证证据.............87表5.1基于网络一致性的信息扩散方法模型的LOOCV算法................................97表5.2本章方法推断的前50个与乳腺肿瘤关联的miRNA及验证证据.............103表5.3本章方法推断的前50个与结肠肿瘤关联的miRNA及验证证据.............105表5.4孤立疾病中我们的方法推断出的前50个与乳腺肿瘤相关的miRNA及验证证据.........................................................................................................................106表5.5孤立疾病预测时本章方法预测得到的前50个与结肠癌相关的miRNA及验证证据.....................................................................................................................107表5.6本章预测得到的前50个与hsa-mir-21相关的疾病及验证证据...............108XII 博士学位论文第1章绪论近年来,生物信息学发展迅猛,非编码RNA是新发现的一族RNA,发现之初被认为是“垃圾”,不受到人们的重视,随着其各种生物功能的逐渐发现,越来越受到科学家的关注,miRNA的变异和失调和多种疾病密切相关,识别和预测miRNA和疾病之间的关联关系有利于miRNA功能及致病机理的理解,是当前生命科学的热点问题,现有的生物实验方法鉴别miRNA和疾病的关联耗时耗力,计算预测方法能够降低生物实验次数成本,可以作为生物实验验证的有效补充,开发强大的计算方法来预测潜在的疾病和miRNA的关联的需求越来越迫切。本章叙述了论文的研究背景与意义,然后从机器学习的方法和生物网络的方法两个不同角度阐述了疾病-miRNA预测方法的国内外研究现状,并分析其优缺点,接着介绍论文的要工作,最后对文章的组织框架做了介绍。1.1研究背景与意义[1]RNA核糖核酸)是DNA脱氧核糖核酸)与编码蛋白质之间的中间信息,具有多种重要功能,在生物体中普遍存在。生物体内既有信使RNA、转运RNA和核糖体RNA等编码RNA,也有微小RNA(miRNA)、干涉小RNA(siRNA)、核小RNA(snRNA)、核仁小RNA(snoRNA)、长非编码RNA(lncRNA)等非编码[2]RNA。人类基因组中约98%的序列都是非编码区域,不到2%的序列编码蛋白质,科学家们把这类不参与编码蛋白质的RNA定义为非编码RNA(non-coding[1]RNA,ncRNA),近年来人们发现非编码区域虽然不能够编码蛋白质,但却在很多生物过程中扮演了重要角色,了解非编码RNA有助于解密生命奥秘。在非编码RNA中,miRNA作为2002年十大科技突破的第一名,尤为引起科学家的关注,成为了生物学研究的一大焦点。关于miRNA的研究越来越得到科学家的注意,5年来,PubMed中关于miRNA的论文达到了67654篇(截止2018年1月27日),研究领域涉及生物、数学、化学、计算机科学及统计学等诸多领域。miRNA(microRNA)是一种数量众多的进化保守的单链内源性非编码RNA,其长度约为20到25个核苷酸,广泛存在于真核生物中,人类基因中,miRNA的[3]数量可以占到1%-4%。最近的研究发现在特定情况下,miRNA能够调控靶基因,它们能在转录后通过碱基配对方式识别并解靶mRNA,调控基因表达,研究发现单个miRNA可能参与数百个靶基因的调控,这意味miRNA可能和所有的信号通路有不同程度的关联。科学家们发现miRNA在很多生命过程,如:细胞生长、组1 基于生物网络的复杂疾病关联miRNA预测方法研究织分化、细胞增殖、胚胎发育、细胞凋亡、代谢等中都起着关键作用。近来,人们发现miRNA与人类肿瘤联系紧密,生命个体是一个有机整体,细胞在生命体发育中不断产生、分裂、分化和死亡,调控因子在细胞增殖中扮演着信使角色,罹患肿瘤的个体会出现肿瘤抑制基因及癌基因表达失调现象,人体内细胞如果不受控制的迅速分裂增殖,进而使得细胞非正常死亡就会导致肿瘤。大部分癌基因和肿瘤抑制基因要行使其生物学作用都需要经历从DNA转录RNA再翻译成蛋白质的过程。近来研究发现miRNA突变或者异位表达与多种人类癌症密[4]切相关,例如miR-21的表达和前列腺癌密切相关,miR-122有利于丙型乙肝病[5]毒的复制,Toffanin发现肝癌具有增殖相关、干扰素和Wnt信号三种肿瘤亚型,而miR-517a在增殖相关的肿瘤亚型中具有致癌作用,能够促进亚型肿瘤的形成和[6][7]发展,Shi等人发现mir-145的靶基因是胰岛素受体substrate-1并能抑制结肠癌细胞的生长。目前对miRNA的认识还刚刚起步,迄今所认识到miRNA只是其中很小一部分,因此,探测miRNA及其功能将助于了解miRNA的调控机制,有助于深刻地认识疾病或肿瘤发生发展的机制,可在人类疾病预防和治疗中发挥重要作用。随着大量的关于miRNA生物数据的发现,大部分miRNA功能仍然是未知的,由于miRNA和人类癌症密切相关,识别和疾病相关的miRNA可对人类健康事业发挥重要作用,鉴别miRNA和疾病之间的相互作用成为了一个关键问题,很多研究者为此付出了巨大的努力miRNA,通过精细的生物实验的方法虽然可以准确的挖掘出miRNA和疾病之间的相互作用,但却受到费用昂贵、实验周期漫长、对设备要求高等条件的限制,近年来,随着大量miRNA的出现,研究者开发了各类数据库用来存储miRNA的相关信息,以这些数据作为背景,出现了越来越多的生物信息学计算方法来预测他们之间的关系,研究发现,功能类似的miRNA和表型相似的疾病发生相互作用的可能性更大,通过整合疾病之间的相关性、miRNA之间的相关性、已知的实验验证miRNA和疾病的关系等不同的分子数据来预测潜在的与疾病相关的候选miRNA的多种有效的计算模型方法不断被开发出来,这类计算方法是生物实验的最佳补充,可以大大减少生物学家生物实验的盲目性、缩小生物实验的范围、节约生物实验的人力物力。虽然计算方法能够在短时间内推断出miRNA和疾病之间的潜在关系,可大大缩短生物实验的工作量,但还是存在着很多问题,如预测准确度不高、负样本难以获取、孤立疾病和新miRNA关联预测困难等。针对这些挑战,本文利用生物信息数据开发高效的计算方法来预测miRNA和疾病之间关联,帮助我们了解miRNA在疾病发生、发展中的病理机制,增强对人类复杂疾病的预后、诊断和治疗的生物标记检测的研究,为新型药物的研制提供新思路。2 博士学位论文1.2国内外研究现状近年来,大量的miRNA在植物、病毒和动物中的被发现。作为细胞中最重要的组成部分之一,miRNA在各种重要的生物过程中扮演着越来越重要的角色,越来越多的研究发现,miRNA和疾病密切关联,在最近的几十年里,不断涌现出一大批生物实验方法和计算预测方法来识别miRNA和疾病之间的关联关系。用生物实验方法揭示miRNA和疾病关联耗时耗力,计算预测方式大体上以miRNA类似性网络、疾病相似性关系和已知的实验验证的疾病-miRNA关联这些信息构造高效的计算模型来预测miRNA和疾病之间的潜在关系,该类方法是生物实验的有效[8]补充,目前该类方法主要分为基于机器学习的方法和基于生物网络的方法,下面从这两个方面对预测潜在的与疾病相关的候选miRNA的方法的国内外研究现状进行阐述。1.2.1基于机器学习的方法[9]2010年,Jiang等人利用支持向量机从负样本数据中提出正样本数据,该方法从miRNA-靶标数据和表型相似性数据中提取特征,取得了不错的预测效果。[10]2011年,Xu等人以前列腺癌为例给出了一种利用miRNA靶标拓扑结构失调网络来推测与前列腺癌关联的miRNA计算模型MTDN,该方法首先利用与疾病相关表达谱信息构建miRNA和mRNA的调控网络,然后建立了正负样本标准集,[11]接着对建立的标准集进行分类训练,最后进行预测。2016年Zeng等采用两种多路径方法来预测潜在的与疾病相关的候选miRNA。第一个方法是HeteSim多路径方法(HSMP),它使用HeteSim来度量来计算研究对象之间的相似性,并将不同路径路径得分都设定为常数,然后将不同路径的HeteSim分数组合在一起得到最终得分,第二个称为HeteSimsvm(HSSVM),它使用了HeteSim测量方法和机器学习方法结合的方法来得到HeteSim分数取代前面的常量方法。不幸的是,以上这类基于机器学习的方法面临着一个共同的缺点:需要已知的病相关的miRNA负样本信息,但是我们知道,负的miRNA–疾病的关联是很难获取的,此外,他们[12]的效果受SVM等分类器的限制。2013年Qabaja等提出了基于Lasso回归模型的蛋白质网络来挖掘疾病-miRNA的关联,他们首先使用了Lasso回归模型来识别与疾病标记相关的miRNA,然后整合从微阵列实验和文本挖掘得到的疾病-基因关联、从蛋白质-蛋白质网络中得到的miRNA-基因关联来构建miRNA和疾病之间的功能关联网络,通过整合生物网络和多源数据来定义miRNA和疾病基因特征,取得了很好的预测性能。3 基于生物网络的复杂疾病关联miRNA预测方法研究2014年,Chen等人提出一种基于正则化的最小二乘法RLSMDA半监督算法[13]来预测潜在的疾病-miRNA关联关系,他们利用miRNA的功能性相似性网络、疾病语义相似性网络和实验验证的的疾病-miRNA关联信息构建一个连续的分类器,通过该分类器计算miRNA与疾病关联值,该方法是基于半监督学习框架来预测潜在的疾病-miRNA联,不需要负的疾病-miRNA相关的信息、能够应用于孤立疾病的预测,此外,该方法是一种全局性的方法,它可以同时预测所有疾病的缺失关联,该方法的局限性在于参数值选择时如何权衡疾病空间和miRNA空间权重[14]组合。基于多核学习的克罗内克尔正则化最小二乘法的思想,2017年Chen等建立了MKRMDA模型能够,该模型能够自动优化疾病与miRNA多源数据组合方式,高效利用多核数据来预测潜在的与疾病相关的候选miRNA,由于该方法将疾病的多源数据信息以及miRNA的多源数据信息进行最优组合,形成单核的疾病类似性信息和miRNA类似性信息,使得模型能够适用于大规模数据,能够预测所有[15]疾病相关的候选miRNA。2017年Luo等基于异构组学数据也将克罗内克尔最小二乘法用于疾病-miRNA的预测,取得了很好的预测效果。[16]2017年,Chen等人提出了基于拉普拉斯正则化稀疏子空间学习的miRNA与疾病关系预测模型LRSSLMDA,将miRNA/疾病的统计特征资料和图论特征资料投影到一个公共子空间中,消除了数据间的共线性,利用拉普拉斯的正则化来保存训练数据的局部信息,并利用l1范数来选择重要的miRNA/疾病特征来预测,[17]进一步提高了算法的精度。2017年Peng人基于正则化框架下提出了一种新的信息融合策略RLSSLP,案例分析时表现出良好的预测推广能力。[18]矩阵因子分解法也用于预测疾病和miRNA的关联,2016年,Lan等人基于疾病和miRNA的相似性提出了一个名为kbmf-md计算框架来预测miRNA和疾病之间的关联,他们利用miRNA的序列和功能信息来测定miRNA的相似度,同时利用疾病的语义和功能信息分别测定疾病的相似性,然后采用核化贝叶斯矩阵[19]因子分解法来推断疾病和miRNA的关联得分。2016年Lan等人Lan等人提出了一个名为KBMFMDI的计算框架,通过整合多个数据资源来测量疾病相似性和miRNA相似性,然后利用核化贝叶斯矩阵分解方法来推断潜在的疾病-miRNA关[20]联预测。2018年,Xiao等人将疾病的语义信息和miRNA的功能信息整合起来得到异构组学数据,然后将异构的组学数据进行图正则化非负矩阵因子分解来预[21]测miRNA和疾病之间的潜在关联,该方法称为GRNMF。2018年,Zhong等人构建了一个双层网络表示miRNA、疾病之间以及miRNA和疾病之间的复杂关系,然后利用非负的矩阵因子分解方法来进行排序,以此来推测潜在的疾病与miRNA[22]关系。Pasquier等利用奇异值分解向量空间来揭示miRNA和疾病关联信息的方法MiRAI。此外,神经网络等算法也用于预测疾病和miRNA的关联。2017年,Chen等4 博士学位论文[23]人基于极限梯度提升机的miRNA与疾病关系预测模型EGBMMDA,该模型在miRNA功能类似性数据中和疾病语义类似性数据中分别进行特征提取,得到统计特征、图论特征和矩阵分解结果特征,再这三类特征资料综合形成一个特征向量,然后基于梯度提升算法训练一个回归树,该回归树会首先自上而下地成长到最大深度,然后再自下而上地修剪对预测结果有负面影响的树叶,最终得到一个高精度的回归树,长成的每一片树叶都是一个最佳的操作,能够最小化总体的损失函[24]数。2017年,Chen等开发了基于深度表示的疾病-miRNA关联预测模型DRMDA,通过数据提取和深度表示后将栈式自编码器的无监督逐层贪婪预训练和[25]支持向量机来进行预测,2017年,Fu等提出了一种深度集成模型DeepMDA,它利用栈式自动编码器从相似信息中提取高级特征,然后通过采用一个三层神经[26]网络来预测疾病-miRNA关联。2015年,Chen等人一种利用受限的曼尔斯曼机(RBM)来预测不同类型的疾病-miRNA关联关系的方法RBMMMDA,基于已知的实验验证的疾病-miRNA关系对,受限的曼尔斯曼机由可见和隐藏单元的两层的无向图组成,通过逆反发散算法(ContrastiveDivergence(CD))来进行构造和训练,跟以前的方法相比,RBMMMDA不仅可以预测miRNA和疾病的关联,并且可以获得该关联的类型,分类的方法是依据遗传学、表观遗传学、循环miRNA和[27]miRNA-靶标相互作用而不同,但是,该方法的参数很难学习。2017年,Luo等开发了一种基于转导学习的预测方法CPTL,他们利用生物实验确认的关联信息等构建了疾病-miRNA网络,利用CPTL计算相关性分数,不断迭代更新网络直至收敛。针对miRNA相似性数据缺乏、已知实验验证的miRNA和疾病间的关系稀少[28]并且几乎没有负样本这些缺点,Zeng等于2016年基于miRNA-miRNA网络和疾病-疾病网络提出了一种利用矩阵补全算法(matrixcompletion)来预测疾病-miRNA关联的方法,该方法为解决疾病-miRNA关联数据不够这类问题提供了新[29]的思路,可应用于预测新的疾病和新的致病miRNA。2017年Li等也利用矩阵补全算法来提出了预测疾病-miRNA关联方法MCMDA,该算法基于实验验证的疾病-miRNA的关联结合矩阵补全算法来预测疾病-miRNA的关联,和以前的方法相比,该算法对低等级的疾病-miRNA矩阵补全是非常有效的,实验结果表明,MCMDA只需要实验验证的疾病-miRNA的关联,就可以取得很好的预测效果。[30]2017年Peng等用改进的低秩矩阵恢复(ILRMR)算法来求疾病-miRNA的关联预测,低秩矩阵恢复算法(LRMR)是一种非常有效的预测缺失值的算法,通过使用不同的数学或机器学习方法来分解原始矩阵的潜在特征来解释和预测缺失的值,他们采用了鲁棒主成分分析算法(rPCA)来进行矩阵恢复,通过将miRNA及其相似性信息、疾病-疾病相似性信息和miRNA家族信息与矩阵恢复算法相结合,该方法可以预知于没有任何已知相关miRNA的疾病。5 基于生物网络的复杂疾病关联miRNA预测方法研究[31]推荐系统也进入了生物信息研究者的视野,2014年Li等用推荐系统开发了一个计算系统毒理学框架,通过整合环境因素结构相似性和疾病表型相似性来[32]预测环境因素、miRNA和疾病之间的新联系。2017年Gu等人将协同滤波推荐[33]算法用于miRNA与疾病关联预测。2017年,Peng等将基于评级的推荐算法和[34]负感知算法结合用于预测潜在的与疾病相关的候选miRNA,2017年,Chen等将实验验证的疾病-miRNA关联、疾病语义相似性、miRNA的功能相似性、高斯交核谱相似性整合,通过混合基于图的推荐算法来揭示新的疾病-miRNA相互作用的计算模型HAMDA,HAMDA不仅考虑了网络结构和信息传播,还考虑了节点归属问题,得出了一个令人满意的预测结果。[35]受社会网络分析方法的启发,2015年Zou等提出了用基于社会网络分析方法来预测疾病-miRNA的关联关系,整合了实验验证的疾病-miRNA的关联、疾病和疾病的关联、miRNA-miRNA的关联的异构网络和社会网络很相似,他们使用了两种社会网络分析方法KATZ和CATAPULT方法对异构网络进行了分析,当使用KATZ时,他们使用了功能相似度来表示关联,KATZ计算了基于不同长度的miRNA和疾病节点之间的相似性分数,CATAPULT是一个使用SVM的有监督学习算法,虽然CATAPULT是一个有监督的学习算法,但CATAPULT一种有监督的学习算法的变形,该算法能够克服在对miRNA疾病关联中只有正样本和无标记的样本这一缺点。1.2.2基于网络的预测方法基于功能相关的miRNA倾向与和表型相似的疾病关联这一假设,许多计算方法已经被提出用于预测潜在的疾病-miRNA的关联,2009年,Jiang等人首次给出超几何分布计算模型预测潜在的与疾病相关的候选miRNA的方法,利用人类疾病[36]表型相似性-miRNA组网络上挖掘特定疾病相关的miRNA,他们利用miRNA调控靶基因之间的关系来构建miRNA类似性关联,利用疾病表型相似性来表示疾病相似性,在此基础上,整合实验验证的疾病-miRNA网络成一个完整的异构网络,利用功能相关的miRNA失调导致表型相似或相同的疾病这一假设,对任意给定的疾病,通过对异构网络中全部miRNA进行排序,得分越高的miRNA则认为[37]其与考查疾病的关联程度越大。2010年,Jiang等人提出了一种基于基因组数据集成的新方法,用朴素贝叶斯模型来整合多种数据资源,并建立了基因之间的功能预测模型,疾病和基因之间的关联被表示为向量Vd,而miRNA和靶基因之间的关联则被表示为向量Vm,对于某一种疾病,他们计算了每个miRNA的与该疾病的相似度得分,并将得分从高到低排列,排名最高的miRNA则视为最可能疾病相关的miRNA。2011年,Li等人提出了基因功能一致性的方法来预测致癌6 博士学位论文[38]miRNA,他们利用与癌症相关的基因集和miRNA靶标集的功能一致性得分来度量疾病和miRNA之间的相似性程度。考虑到miRNA利用靶基因来调控疾病,因而若疾病的致病基因和miRNA的靶基因关联程度高,则疾病和miRNA也高度关联,2013年Shi等人进一步提出利用miRNA和疾病之间的功能关联的计算模[39]型,他们整合了疾病-靶标关联,实验验证的疾病-基因关联、蛋白质相互关联建立了一个复杂网络,然后在网络上使用了随机游走算法,取得了不错的预测效[40]果。2014年,Xu等人提出一种整合疾病表型相似性miRNA和mRNA表达谱的方法来预测潜在的与疾病相关的候选miRNA,该方法不需要实验验证的疾病-miRNA关联,他们用疾病相关基因和miRNA靶基因之间的相似性来衡量疾病和miRNA之间的关联程度,然后利用该分值进行排序预测。以上方法都存在一个共同的缺点:他们都依赖于miRNA-靶关联的预测,而靶基因的假阳性较高,因此这些方法预测性能不佳。[41]2011年Rossi等人提出一种名为OMiR的方法来预测miRNA和OMIM中疾病的关联,他们通过计算miRNA基因座和OMIM中疾病基因座之间的重叠度作为miRNA和疾病的关联程度,此方法不需要利用实验验证的疾病-miRNA关系、miRNA靶标信息、疾病致病原因等额外信息就能计算疾病和miRNA的关联。Xuan等人根据相同miRNA家族或分簇中的miRNA可能导致相似的疾病这一[42][43]假设,提出基于K近邻算法的预测方法HDMP,该方法通过整合类似性网络、miRNA疾病表型相似性网络、miRNA家族信息和生物实验确认的疾病-miRNA的关系来构建相似性网络,用k个邻居和miRNA相似性信息来预测潜在的疾病-miRNA关联,HDMP的缺点之一其预测效果强烈依赖于miRNA的邻居,邻居数量的个数对预测结果是一个巨大的影响因素,该方法的另一缺点是不能应用于没[44]有一些已知的相关miRNA的疾病的关联预测。2017年Chen等设计了新的基于KNN的疾病关联排序算法(RKNNMDA),首先把miRNA的功能相似性、疾病语义相似性、高斯核谱相互作用以及实验验证的疾病-miRNA关系整合到一起,然后用K最近邻算法(KNN)来搜索miRNA和疾病的K个最近的邻居。K个最近邻居是根据其他miRNA(疾病)和中心miRNA(疾病)的相似性得分来获得并按降序排列,然后,根据SVM排名模型对K个最近邻居进行了重新排序,最后,通过对排序结果进行加权处理获得了所有可能的疾病-miRNA关联的最终排序。[45]2015年Le等人把链接分析中网页排名经典算法PageRank和k步马尔可夫算法用于预测疾病和miRNA的关联分析。[43]HDMP是基于一个局部的相似性度量而不是一个全局性的度量,而很多研究表明全局网络相似性可以有效地促进了预测性能的提高,近年来,很多研究和疾病的关联的RWRMDA计算模型,他们把miRNA-miRNA功能类似性网络、实验验证的疾病和miRNA关联网络融合成一个网络,利用随机游走算法把miRNA7 基于生物网络的复杂疾病关联miRNA预测方法研究在网络上扩散,用算法收敛时稳定概率作为打分标准,结果表明全局相似性网络比局部相似性网络更能提高预测精度。但是该方法不能预测没有任何已知关联的[39][46]新疾病。Shi等人在2013年和2016年整合蛋白质-蛋白质、基因本体数据[47]等数据建立的异构网络上也使用随机游走算法来预测。Xuan等在2015年基于随机游走算法设计了一个名为MIDP的计算模型,此算法根据疾病和miRNA相关性,将网络节点划分为标记节点和未标记节点,并为这两类节点建立了转换矩阵并对不同类别的节点赋于不同的转换权重,将标记节点分配了更高的转换权值,远远超过未标记的节点的权值,这样在预测时就可以充分利用节点的先验信息,和RWRMDA不同的是,MIDP是在由疾病的相似性、miRNA的相似性、实验确认的疾病-miRNA关联组成的双层网络中游走,在预测过程中,疾病的相似性、miRNA的相似性、实验确认的疾病-miRNA关联组成的双层网络的拓扑信息都被利用,值得一提的是MIDP有效地消除了噪声数据的负面影响,MIDP可以在疾病-miRNA双向网络中随机游走,因而可以对没有已知关联miRNA的疾病进行预[48]测。2015年,Liao等设计一种基于信息扩散的全局相似性预测模型NDBM,首先整合不同的信息源构建了一个miRNA功能网络和一个疾病相似网络,然后用随机游走算法得到稳定的扩散谱,最后利用皮尔逊相关系数度量扩散谱之间的相[49]似性作为预测得分。2016年,Liu等利用病语义相似性和疾病功能相似性来构建疾病相似性,用miRNA-靶基因和miRNA-lncrna关联信息来计算miRNA相似性,结合实验验证的疾病-miRNA关联形成一个异构网络,然后实施带重启的随[50]机游走算法来进行预测。2017年,Luo等用疾病相似网络、miRNA功能相似网络和实验验证的疾病-miRNA联合网络构建了一个异构网络,然后在异构网络上实施非平衡双随机行走算法(BRWH)搜索二部图子图来发现潜在的疾病-miRNA[51]关联。2017年,Mugunga等结合基于路径特征和随机游走算法对miRNA和疾病的关联进行了预测,取得了不错的预测效果。2013年,Chen等人提出了利用疾病网络一致性来预测miRNA和疾病间关系[52]方法NetCBI。他们利用功能相近的miRNA趋于和表型相似的疾病相关联这一理论,联合疾病表型类似性和miRNA功能类似性网络进行预测。考虑到全局网络相似性能够提高预测精度,他们首先算出使用拉普拉斯算子得到待查miRNA与其余的miRNA间的全局相似性,然后用同样方法计算出待查疾病与其余疾病间的全局相似性,最后通过求他们之间的皮尔森系数来作为疾病和miRNA的预测打分,[53]打分越高,则意味着他们之间的相似性越高。2016年Gu等设计一个网络一致性方法来预测疾病-miRNA关联(NCPMDA),他们整合了miRNA的功能相似性、miRNA家族信息以及实验验证的疾病-miRNA关系网络构建了miRNA-miRNA相似性网络,利用疾病的语义相似性和实验验证的疾病-miRNA关联信息构建了疾病的相似性网络,然后把两个网络结合,利用网络一致性来得到疾病-miRNA关8 博士学位论文联信息,NCPMDA是一种非参数通用的基于网络的方法,它可以同时预测所有疾病中的疾病-miRNA关联,不需要负样本,并且能够应用与孤立疾病和新miRNA[54]的预测。2017年Li等人提出了一种集成网络相似性方法NSIM,预测结果展示了良好的效果。[55]2015年,Nalluri等从图论角度设计了两种科学的方法,方法一是通过求解一个方程来选择占优的疾病的最大加权匹配模型,方法二是基于动机分析的模型。[56]2016年Chen等构建了一个异构图方法来预测疾病-miRNA关联方法HGIMDA,他们通过将miRNA的功能类似性网络、疾病语义类似性网络、高斯核谱相似性以及实验验证的疾病-miRNA关联构建了一个异构图来揭示潜在的疾病-miRNA联系,在HGIMDA中,他们结合miRNA的高斯核谱相似性和miRNA的功能相似性网络来建立新的miRNA功能相似性网络,用类似方法构建了疾病相似性网络,然后结合实验验证的的疾病和miRNA关联,整合三者形成了一个异构网络,最后通过在异构网络上进行迭代来揭示潜在的疾病-miRNA联系,实验结[57]果表明该方法取得了很好的效果。2017年You等提出了一个新的基于路径的疾病-miRNA关联预测方法PBMDA,该方法整合miRNA-miRNA相似性网络,疾病-疾病相似网络和实验验证的疾病-miRNA关联网络形成了一个异构网络,然后在异构图中采用一种特殊的深度优先搜索算法进行搜索,该方法可以用于预测新的没有已知miRNA关联的疾病和新的没有已知疾病关联的miRNA,此外,该方[58]法可同时对所有研究疾病的未知miRNA进行优先排序。2016年,Sun等提出了利用疾病-miRNA关系网络的网络拓扑相似性来预测他们之间的关联方法NTSMDA,案例分析结果验证了该方法的有效性。[59]2017年,chen等利用miRNA(疾病)的Graphlet相互作用来表示任意两个miRNA(疾病)的复杂关系,通过计算不同类型的相互作用数目来建立预测潜在疾病-miRNA关联的GIMDA模型。该模型构建和结合了实验验证的疾病-miRNA关联信息、miRNA功能类似性、疾病语义类似性、miRNA高斯类似性以及疾病高斯类似性,并在此基础上构造了带权重的miRNA类似性网络和疾病类似性网络,并分别在两个网络上计算了miRNA或疾病之间的Graphlet相互作用。该方法不但考虑了直接相连的节点,同时也考虑了间接相连的节点间的关系。考虑到实验验证的miRNA–疾病关联少并且很多已知关系在已知的训练数据集中“丢失”[60]这些因素,2017年Chen等引入了“超级miRNA”和“超级疾病”的概念来加强疾病和miRNA的相似性测量,整合实验验证的疾病-miRNA关联、疾病语义相似性、miRNA的功能相似性和高斯核谱相互作用于一体提出了SDMMDA模型考虑到蛋白质-蛋白质相互作用网络等其他生物数据有助于提高预测准确性[12][61],Mork等在2013年提出了miRPD方法,该模型整合蛋白质-疾病关联、miRNA-蛋白质相互作用来进一步预测新的疾病-miRNA关联,该方法不仅分析了9 基于生物网络的复杂疾病关联miRNA预测方法研究[39]与疾病有关的miRNA,还预测了与疾病相关的蛋白质。Shi在2013年利用蛋白质关联关系建立了一个复杂网络,然后使用随机游走算法来预测,2016年Shi等[46]人进一步整合蛋白质-蛋白质相互作用数据、基因本体数据、生物实验确认的miRNA-靶点关系、疾病表型信息和实验验证的疾病-miRNA关联信息构建了疾病-miRNA关联预测模型CHNmiRD。总而言之,目前在疾病-miRNA关联预测领域存在着以下问题和挑战:(1)预测准确度问题虽然很多学者致力于疾病-miRNA的关联预测研究,但由于miRNA的发现只有短短的二十几年,已知实验验证的疾病-miRNA关系不多,目前的预测准确度大多不高,迫切需要开发准确有效的计算预测方法作为生物实验的辅助研究。(2)孤立疾病和新miRNA预测问题很多预测方法完全依赖已知的实验验证的疾病-miRNA关联,很多算法对没有已知关联的情况下孤立疾病和新miRNA预测,表现出无能为力。而实际上大多新发现的miRNA和很多疾病都没有相关的已知实验支持的关联证据,孤立疾病和新miRNA预测是两个亟待解决的问题。(3)相似度构建问题疾病相似性和miRNA相似性关系构建的优劣直接关系到疾病关联miRNA预测准确度,目前的大多数相似性构建方法不够合理,从多个角度出发融合多种分子数据来构建更准确的疾病相似性关系及miRNA相似性关系是疾病关联miRNA预测关键问题。(4)模型缺陷问题目前很多机器学习的方法要么存在需要负样本,要么存在模型训练困难的问题,一些基于生物网络的方法使用局部信息而不是全局信息,导致预测准确度不高,很多方法存在数据依赖,泛化推广能力不强,对某个数据集有较好的预测能力,而对另外的数据集效果却不尽人意。亟需开发简单有效普适性强的模型进行疾病关联miRNA预测。1.3论文的主要工作miRNA和人类疾病的发生、发展和预后密切相关,通过生物实验方法能够准确的识别miRNA和疾病的相互作用,但该方法耗时耗力,利用计算方法预测特定疾病关联候选miRNA是生物实验的有效补充,能够为生物实验提供指导,提高预测潜在的与疾病相关的候选miRNA的效率,帮助人类疾病的预防、诊断和治疗。针对上一节中总结的在疾病-miRNA关联预测领域存在的问题和挑战,我们提出三种新的计算预测方来揭示潜在的疾病-miRNA联系。10 博士学位论文(1)基于共同邻居的异构二分网络链路预测方法推断疾病-miRNA关联。该模型首先定义二分网络共同邻居概念,设计了8种不同的共同邻居指标,然后利用生物实验确认的疾病和miRNA关系来计算疾病和miRNA结点初次关联得分,接着依据疾病相似性网络和初次关联得分得到疾病空间二次关联得分,根据miRNA相似性网络和初次关联得分得到miRNA空间二次关联得分,最后整合疾病空间二次得分和miRNA空间二次关联得分得到最终预测得分。该算法不需要负样本,能够用于孤立疾病和新miRNA预测,可解释性强,虽然利用的是网络局部信息,但在不同的数据集上留一交叉验证都显示该方法优于经典的利用全局信息的方法。(2)基于双层网络随机游走的全局相似性方法预测潜在的疾病-miRNA联系。此方法利用拉普拉斯算子获取所miRNA之间的全局相似性及全部疾病之间的全局相似性,利用优化后的miRNA种子在疾病网络中游走得到一稳定向量,求该稳定向量和miRNA间全局相似性矩阵的各向量的皮尔森系数,把求得的结果作为疾病和miRNA的预测得分,然后利用优化后的疾病种子在miRNA网络中游走得到一稳定向量,求该稳定向量和疾病间全局相似性矩阵的各向量的皮尔森系数,把求得的结果作为miRNA和疾病的预测得分,最后把前面两个预测得分进行加权作为最终的疾病-miRNA关系预测得分。该方法是一种全局性方法,在没有负样本的情况下能够进行预测,实验结果表明,该方法预测准确度比现有方法好,特别是在孤立疾病和新miRNA的预测方面亮点特别显著。(3)基于网络一致性的信息扩散方法推断疾病-miRNA关联方法。该方法利用家族信息对miRNA相似性关系进行了重构,利用已知的实验验证的疾病-miRNA关联信息和疾病语义相似性对疾病相似性关系进行重构,然后利用拉普拉斯算子构建疾病全局相似性网络和miRNA全局相似性网络,接着重新构建了两个疾病-miRNA关联网络,最后通过网络一致性来捕获向量的综合信息后采用信息扩散方法进行预测。该方法不需要负样本、可对孤立疾病和新miRNA预测、算法设计简单。与目前最先进的计算方法相比,该方法在不同的数据集上都优于其他方法,病例研究中更显示了算法良好的预测能力,可以作为生物实验有力的辅助工具。1.4论文的组织结构全文共分为5个章节,具体安排如下:第1章绪论。这一章首先介绍了课题的背景与意义,然后基于机器学习的方法和基于生物网络的方法两个不同角度简单介绍课题的研究现状,接着介绍论文的主要工作,最后是本文的章节安排。11 基于生物网络的复杂疾病关联miRNA预测方法研究第2章相关理论及数据资源介绍。这一章主要是介绍疾病-miRNA关联预测中的相关理论知识,首先简述了miRNA的发现、作用机制及与疾病的关联,接着介绍了常用的数据库资源,然后分析了目前疾病相似性网络的构建方法和miRNA相似性网络的构建方法的优缺点,最后介绍了后面章节中使用的预测评价方法与指标。第3章基于共同邻居的异构二分网络链路预测方法推断疾病-miRNA关联。该模型通过共同邻居来表示疾病和miRNA之间的关联概率,本章首先给出了二分网络共同邻居及共同邻居指标的定义,然后引入异构网络中疾病结点之间的相似性和miRNA结点之间的相似性信息来表示疾病和miRNA之间的关联概率。在不同数据集上实施留一交叉验证评估该模型的预测性能,优于其他的算法,在实例研究中表明预测准确率较高。第4章基于双层网络随机游走的全局相似性方法推断疾病-miRNA关联。考虑到使用全局性信息能够提高预测准确度,我们利用拉普拉斯算子获得网络的全局相似性,提出了一种双层网络随机游走的全局相似性方法来揭示潜在miRNA和疾病之间的关联,该方法是一种全局性的方法,可以同时对所有疾病和miRNA进行关联预测,并且可用于孤立疾病和新的miRNA的预测,不需要负样本。LOOCV表明该方法预测准确度较高,较现有的方法有明显改进,特别是在孤立疾病的预测上有着十分明显的优势,案例研究显示了令人信服的结果。第5章基于网络一致性的信息扩散疾病方法推断疾病-miRNA关联。合理的构建疾病及miRNA相似性关系能够提高计算方法的预测准确度,本章整合生物实验确认的疾病与miRNA信息关系、疾病之语义得分、拉普拉斯算子构建疾病全局相似性网络,利用miRNA家族信息、功能相似性、拉普拉斯算子构建miRNA全局相似性网络,综合加入全局相似性关系重构疾病-miRNA关系网络,结合全局相似性网络和重构的疾病-miRNA关系网络获取网络一致性扩散种子,利用随机游走算法获得稳定的扩散谱作为预测得分。LOOCV表明在不同的数据集上本章方法优于前面两章提出的方法和他人的前沿方法。在实例研究中展现了本章方法良好的预测能力。12 博士学位论文第2章相关理论及数据资源介绍miRNA是一类长度约为20到25个核苷酸的小分子,研究发现miRNA与动植物胚胎发育、器官形成、细胞增殖等生命过程密切相关,它的非正常表达与人类疾病的发生发展有着直接的关联,预测潜在的与疾病相关的候选miRNA可以为人类复杂疾病的检测、诊断、治疗和预防提供有力的帮助,有效的推断miRNA和疾病关联关系的计算方法是生物实验的有效补充,对于复杂疾病的预防、治疗和预后都有重要帮助。本章首先介绍miRNA的发现、作用机制及部分已知的miRNA与疾病的关联,再分别介绍疾病与miRNA关联数据资源、疾病相关数据资源、miRNA相互作用数据资源及其他相关的部分数据库,为后续的疾病相互作用和miRNA相互作用构建提供数据基础,最后重点对构建疾病相互作用和miRNA相互作用的常用方法进行了介绍,分析了各类方法的优缺点,为后面潜在的疾病-miRNA关系预测提供帮助。2.1miRNA的发现、作用机制及与疾病的关联2.1.1miRNA的发现1993年,人类首次发现miRNA,发现之初尚未引起人们的重视,直到2001年,研究人员逐渐重视miRNA相关问题,研究人员发现在许多的生命过程中miRNA都具有调控内源基因表达的功能,miRNA参与靶基因的调控,它们能在转录后通过碱基配对方式识别并解靶mRNA,调控基因表达,miRNA可以调控数百个信使RNA(MessengerRNA,简称mRNA),这意味着miRNA可能影响所有的信号途径。科学家们发现miRNA是细胞中重要的成分,它们可以在多个重要的生物过程中起到关键作用,如:细胞生长、组织分化、细胞增殖、胚胎发育、细胞凋亡、代谢、信号转导、病毒感染都起着关键作用。因此,毫无疑问,miRNA许多人的疾病的发展、进展和预后都是有着密切的联系。由于miRNA本身不编码任何蛋白质,又加上miRNA很小且一般只在特殊的组织中和时间内表达,因此在相当长的一段时间内,科学家都认为这类非编码RNA是没有用的,也没有引起科学家的注意,直到1993年,第一个miRNA才被[62]Lee等人发现,Lee等人在研究秀丽隐杆线虫(Caenorhabditiselegans)时发现与发育相关的特殊基因lin4,它能够编码产生长度为22个核苷酸的RNA小分13 基于生物网络的复杂疾病关联miRNA预测方法研究子,该小分子和靶基因lin-14的3’非翻译区(untranslatedregions,简称UTR)进行碱基互补配对,从而抑制lin-14的表达,影响lin-14编码核内蛋白,导致lin-14合成蛋白质减少,影响线虫发育过程。七年后,第二个miRNA分子let7被[63]Reinhart等人发现,它与lin-4一样,也是一个负调控因子,参与调控线虫的发育时序,长度和作用时间都很短。从此以后,研究人员发现了大量的类似RNA,他们都是长度约为20到25个核苷酸的小分子,都通过与靶基因的3’非翻译区特异互补点配对,转录后抑制基因表达,从而抑制蛋白质的合成。2001年,[64][65]《Science》报道了来自美国和德国科学家发表的miRNA成果。自此,miRNA得到人们关注,其研究领域发展突飞猛进,在过去的几年里,随着生物实验技术特别是下一代测序技术(nextgenerationsequencing,简称NGS)的飞速发展,从线虫到人类的真核生物中发现了成千上万的miRNA,目前,最新版本的mirBase数[66]据库中包含了28645个前体序列,在人类中发现了超过2588个miRNA,其数量还在快速不断的增长,miRNA是当今生命科学领域研究的热点。2.1.2miRNA的产生及其作用机制自从首次在线虫中发现miRNA以后,从哺乳动物、苍蝇、植物等真核生物中都发现了miRNA,其生物合成途径也被科学家所破译。虽然miRNA是一种非编码RNA中心法则,从DNA转录加工而成,它们绝大多数在基因间聚集成簇,共享一样的启动子,可以被同时转录。miRNA的生物合成是一个多步骤的过程,下[67]面以哺乳动物miRNA为例,简要介绍一下miRNA的合成过程。图2.1给出了描述过程。初始时非编码区的DNA在RNA聚合酶(RNAPOLII)作用下,产生初始miRNA(pri-miRNA),这些初始RNA有单个或多个“发夹”结构,每个“发夹”结构又包含成熟的miRNA,它们的长度通常是几百到几万个碱基不等,都具有3’端和5’端结构,随后,pri-miRNA在细胞核中被双链RNA合蛋白Pasha(也称为DGCR8)和RNaseIII内切酶Drosha加工剪切掉茎环结构的两端,产生长度约为60-70个核苷酸的miRNA前体(pre-miRNA),然后,在相关酶的作用下将前体miRNA移至细胞质中在细胞质中,pre-miRNA经Drosha酶和Dicer酶的联合加工,产生一个长度约为22个碱基的miRNA:miRNA*双链复合体。双链复合体中的相对不太稳定的一条链会被作为成熟miRNA和目标信使RNA的3’非翻译区互补配对,形成沉默复合体(RNA-inducedsilencingcomplex,简称RISC),而另一条被释放和降解。实验证明,miRNA通过和目标mRNA对应的成熟转录抄本的3UTR目标位点绑定,可以直接降解目标mRNA或者抑制其到蛋白质的翻译水平。由于在植物14 博士学位论文中miRNA和目标mRNA一般能够完全匹配,所以植物中miRNA大多是将目标mRNA降解来抑制基因表达水平从而行使其生物功能。而动物中,miRNA与目标mRNA之间的匹配程度不高,其作用过程更为复杂,除个别miRNA通过直接降解方式来调控外,其余大部分miRNA都与靶基因UTR区互补配对来抑制mRNA的翻译过程进而降低基因表达作用。在动物基因组中,大约有1/3的基因受到miRNA的调控,miRNA与目标miRNA有多种配对模式,即使在同一信使RNA作用位点也有一个都几十个不等。一般来说,在互补配对时,种子区域的碱基与目标mRNA的3’UTR位点能够完全匹配,在调控过程中起到决定性作用,非种子区域位点由于不能够与目标mRNA的3’UTR位点完全匹配,从而降低RISC的抑制水平,会影响mRNA翻译抑制。[67]图2.1哺乳动物的miRNA产生途径和机制2.1.3miRNA与疾病的关联miRNA是细胞中重要的成分,它们可以在多个重要的生物过程中起到关键作用,包括造血,细胞增殖、发展、分化和细胞凋亡,代谢,信号转导,病毒感染,胚胎发育,器官形成等。最早发现的lin-4和let-7都影响线虫的时序发育过程,后来人们发现生物的15 基于生物网络的复杂疾病关联miRNA预测方法研究发育也和miRNA关联紧密。Nature、Science和Cell等顶级杂志报道了miRNA参与了生物体内胚胎的发育、器官形成等一系列生命活动过程,如lys-6编码的[68]miRNA涉及到秀丽隐杆线虫的神经系统,mir-290和let-7等都参与胚胎干细胞[69][70]的调节,mir-181出现在哺乳动物造血细胞分化为B细胞过程中,mir-375出[71]现在哺乳动物胰腺细胞发育和胰岛素分泌的调节过程中,mir-143出现在哺乳动[72][73]物脂肪细胞分化期间,mir-196出现在哺乳动物四肢形成过程中,mir-1基因[74]出现在哺乳动物的心脏发育过程中,mir-133对人的肌细胞发育有较大影响等等。已经证实,单个miRNA可以与多个信使RNA结合,而靶基因可以被多个[75]miRNA靶向。除了miRNA和信使RNA之间的复杂碱基配对之外,多个miRNA还可以协同调控一个或多个路径。人们已经注意到,与miRNA相关的调控是复杂的,而且在进化上是保守的,积累证据表明,基因改变(例如,SNP或删除)和表观遗传变化(如启动子时的CpG甲基化,以及异常的组蛋白修饰)可能会影响到miRNA的转录,导致miRNA的异常表达水平,并导致疾病。越来越多的研究发现,对miRNA的失调与一系列广泛的人类疾病有关,如癌症、神经障碍、心血管疾病等。特别的是miRNA表达的改变涉及到各种类型的人类癌症的发生、进展和转移,如乳腺癌、肺癌、前列腺癌、结肠癌、白血病、肝癌、胃癌等等。[76][77]Yang等人发现mir-1失调导致心脏病发生,zhao等人发现mir-12和心脏[78]发育调控有关,Long等人发现对血浆中循环的mir-1及mir-126的表达水平检测可以监控急性心肌梗塞(AMI)的发展情况,对急性心肌梗死(AMI)患者中早期诊[79]断及预后评估的有一定的价值,Bang等人发现mir-23/27/24集群参与血管生成和内皮细胞凋亡,在血管性疾病和缺血性心脏病中都有潜在的治疗应用。[80]Calin等人证明13q14位点上的mir-15a、mir-16-1能够抑制慢性淋巴性白血病癌细胞的生长,这个发现也是第一个发现miRNA与癌症有关形成的实例。[81]Li等人发现胃癌患者中mir-221和mir-223高表达,而mir-218低表达,Inoue[82]等人基于实时聚合酶链反应(PCR),通过对从五个胃癌患者miRNA阵列进行分析,结果表明mir-107、mir-21、mir-196a、mir-26b、mir-9、mir-142-3-p、mir-30b、mir-150、mir-191和mir-17上调。[83]Gao等人通过PCR实验发现肺癌患者血清中mir-155表达远高于正常样本,[84]此外,Takamizawa等人已证明let-7的同源性物在肺癌中被明显地降低。Chin[85][86]等人发现let-7和其靶基因KRAS失调会导致肺癌,Hirota等人在肺肿瘤中发现mir-27b和mir-134的水平比正常水平低得多,这表明它们与肺癌有关,Zhu等[87]人发现mir-137通过靶向Cdc42和Cdk6来抑制肺癌细胞的增殖。[7]Shi等人发现mir-145的靶基因是胰岛素受体substrate-1并抑制结肠癌细胞[88][89]的生长,Wan等人发现mir-199a-3p高表达的结肠癌患者存活率较低,Li等人16 博士学位论文[5]发现mir-143和mir-145在结肠直肠癌中中表达下调,Young等人发现mir-122对丙型肝炎病毒的复制有利,通过对mir-122的抑制可以切断丙型肝炎病毒的复[6]制,Toffanin等人发现肝癌具有增殖相关、干扰素和Wnt三种肿瘤亚型,而mir-517a能够促进增殖相关这一亚型肿瘤的发展。[4]科学家发现mir-21的表达和前列腺癌密切相关,进一步实验表明,通过mir-122对Ad6的调控通过系统的治疗,能够明显改善全身的安全性,它允许增加[90]治疗剂量,因此提高了前列腺癌的抗癌效果。[91]Wang等人发现乳腺癌患者的mir-103的血清水平表达明显高于健康对照[92][93]组,Wang等人发现mir-101与人类乳腺癌有关,O'Day等人发现mir-155在[93][94]乳腺癌患者中高表达,Huang发现mir-373和mir-520c上调导致乳腺癌转移,[95]Wang等人发现mir-122在一些乳腺癌中通过靶向IGF1R可以抑制细胞增殖和肿[96][97]瘤发生,Png等人认为mir-335和mir-31是乳腺癌的有力抑制剂,Wee等人发现mir-200b启动子的甲基化则降低了它的表达,并与晚期乳腺癌的转移或激素受体状态有关。此外,科学家们发现黑色素瘤患者mir-193a高表达和mir-191低表达存活率[98][99][100]较低,mir-17和恶性淋巴瘤相关,mir-375可以调节胰岛素的分泌,阿[101]尔茨海默氏症和mir-103、mir-107高度相关,患有克罗恩病的患者血液中含有[102]的mir-126表达的水平与健康对照组相比要高得多,晚期肾病患者的mir-15b[103]的循环水平显著降低,mir-129、mir-142-5p、mir-25在所有的儿科脑肿瘤类型[104]中都有不同的表达方式,mir-143、mir-145在乳腺肿瘤、颈部肿瘤、前列腺肿[105]瘤、淋巴肿瘤中表达下调等等。即便科学家发现通过生物实验发现了很多miRNA和疾病相互影响证据,但这些发现仅是冰山一角,我们对miRNA功生物学功能的了解任重而道远,还有大量的miRNA和疾病关联有待科学家去挖掘,开发快速高效的计算方法预测疾病-miRNA关联来指导生物实验迫在眉睫。2.2常用的数据库资源本节介绍用于疾病关联miRNA预测方法中的数据资源,不同的计算方法利用数据类型各不相同,按期类别大致可分为如下几类:疾病与miRNA关联数据资源、疾病相关数据资源、miRNA相互作用数据资源。这三类数据资源简介如下。2.2.1疾病与miRNA关联数据资源由于采用计算方法来预测疾病和miRNA的关联预测方法大多需要利用已有17 基于生物网络的复杂疾病关联miRNA预测方法研究的miRNA和疾病关联来进行训练,进而进行预测分析,因此miRNA与疾病的关联数据库在计算预测方法非常重要。随着潜在的疾病-miRNA联系研究方法的深入,他们之间联系的相关数据库陆续建立,其中最常用的miRNA和疾病的关联数[106][107][108][109][110]据库有:HMDD、miR2Disease、dbDEMC、miRCancer、PhenimiR、[111][112]OncomiRDB等,以及一些针对某些疾病的专门数据库OncomiRdbB、[113]MiREC等,这些数据库收集的关系都是由经实验验证的已知的miRNA和疾病关联的组成。HMDD是theHumanmiRNADiseaseDatabase(人类miRNA疾病关联数据库)[106]的英文简写,这是一个通过人工搜索文献得到的开源数据库,由Li和Lu等人于2007年建立的,用于记录存储miRNA和人类疾病之间关系。登录网址可以检索到最新的疾病-miRNA关联数据。为了构建该数据库,将关键词输入PuMed中检索,检索出的结果再进行文件验证。目前该数据库中共包含10368个条目,包含括572个miRNA和378种人类疾病,文献支撑证据涉及3511篇论文。数据库中每一个miRNA--疾病条目都由四个部分组成,分别为:疾病名、miRNA名、相应的PubMedID以及通过原始论文而取得的支撑证据。从2008年至今,HMDD多次更新,并且已经把疾病-miRNA关系根据不同的支撑证据分为四类,分别为:遗传学、表观遗传学、循环miRNA及miRNA调控作用四大类疾病-miRNA关联数据。[107]MiR2Disease也是一个开源数据库。是由Jiang等人在2007年12月开始构建的,最开始阅读了1100多篇文献,抽取了346个miRNA到132种疾病之间的2884个疾病与miRNA关系对而建立的一个数据库,首次发表时间为2009年1月,该数据主要记录了miRNA失调和人类疾病的关系,为了便于用户检索,miR2Disease中疾病的名称使用的是专业的医学词汇,该数据库中除了疾病-miRNA关联外,还包括miRNA的标识、疾病-miRNA关联源自的文献(提供参考文献在NCBIPubMed中的ID引文介绍及超链接)、相关文献中疾病的名字、测定miRNA表达的方法(微阵列、墨点分析法、qPCR等)、miRNA相关靶基因的信息等等。此数据库可以方便的使用miRNA标识,疾病名称及靶基因这三种检索信息进行查询操作,并且可以和其他外部miRNA数据库互联,如miRNA序列注释信息数据库miRBase、miRNA功能计算预测数据库PicTar、TaegetScan和miRanda等等。当研究者不知道疾病确切名称时,miR2Disease数据库可提供模糊查找,该数据库还提供了用户提交接口上传疾病-miRNA相互作用对,研究者可以上传新的miRNA与疾病的关联关系,数据库管理者每个月根据提交信息等会更新一次。目前,这个数据库中共有3273个疾病-miRNA关联条目,涉及349个miRNA和163种疾病。dbDEMC是英文databaseofDifferentiallyExpressedmiRNAsin18 博士学位论文humanCancers(人类癌症中差异表达的miRNA的公用数据库)的简写,它也是一个利用人工搜索文献专门提供miRNA与人类癌症发病相关信息的数据库。是由[108]Yang等人在2010年建立,目前最新版本是2017年更新的,在这个最新版本的dbDEMC中,从GEO和TCGA中收集209个新发布的数据集,筛选了不同类型的实验中不同表达的miRNA,其中包括癌症与正常比较、癌症亚型比较、癌症等级比较、癌症结果比较、血液样本比较等,该数据集提供了436个实验中精选出来的包含36种癌症,73个癌症亚型,2224个差异表达的miRNA。该数据库网址为http://www.picb.ac.cn/dbDEMC/。该数据库界面使用方便,用户可以通过miRNAID或miRBase查询关于每个miRNA的注释,或能够通过不同癌症类型进行浏览下载,并且对于任何一组miRNA和多种癌症类型,可以在热图中看到不同的表达谱图,以探究癌症的不同和相似之处,该数据库的构建促进人类癌症的检测与分类的进程。miRCancer是一个通过文本挖掘技术得到的公开数据库,由Xie等人于2013[109]年建立的,用于记录存储miRNA和人类疾病之间关系,其网址为http://mircancer.ecu.edu/,登录网址能够进行查询最新的疾病miRNA关系数据。为了构建该数据库,研究者对通常用于癌症中的miRNA表达的常见句子进行了总结,构建了75条规则,然后利用这些规则,通过对PubMed中的文章标题和摘要中应用文本挖掘来进行数据提取,最后再进行人工验证。最开始的时候该数据库中共包含878个疾病-miRNA关系,包括236个miRNA和79个人类癌症,文献挖掘范围涉及573出版机构的26000篇论文。该数据库使用方便,可以通过miRNA的名字或者癌症名称进行单独的搜索,也可以对miRNA和癌症名称组合进行搜索。PhenomiR数据库也是一个利用人工搜索文献得到的开源数据库,是由Ruepp[110]等人建立的,他们从365多篇文献抽取了675个miRNA到98种疾病之间的12192个疾病-miRNA关联信息而建立的一个数据库,其网址为:http://mips.helmholtz-muenchen.de/phenomir/,其设计原则是使用已有的本体注释资源来提供miRNA在疾病和其他生物进程中的差异表达信息,对于疾病的注释使用的是OMIM图谱信息,用基因本体的术语来描述生物进程,用组织本体来对组织或者细胞培养信息进行注释。OncomiRDB数据库也是一个利用人工搜索文献得到的开源数据库,是由[111]Wang等人建立的,基于miRNA通过靶向大量的致癌基因和肿瘤抑制基因来调节不同的癌症相关的过程这一现象,Wang等人探索了9000篇文章,手工整理了2259个与癌症相关的miRNA相关的信息,涵盖了超过300个miRNA基因,覆盖了25种不同的肿瘤组织类型。然后开发了一个基于web的门户网站http://bioinfo.au.tsinghua.edu.cn/oncomirdb/来提供了图形化的操作界面,用于方便19 基于生物网络的复杂疾病关联miRNA预测方法研究地浏览和搜索所有的文献挖掘出来的条目。此外,还有一些专门针对某些疾病而设的专门数据库,如OncomiRdbB数据库(http://tdb.ccmb.res.in/OncomiRdbB/index.htm)收集miRNA与乳腺癌以及靶标[112]基因之间的关联。OncomiRdbB是由Khurana等人建立的,这是一个关于乳腺癌的综合数据库,关于乳腺癌的起始、进展和转移的很多数据都囊括期内,在OncomiRdbB数据库中人类和老鼠乳腺癌相关的miRNA的数量达到782和246,[113]比其他数据库要大得多。再如MiREC(http://www.mirecdb.org)是一个专门提供miRNA和子宫内膜癌关联信息的数据库,该数据库包含228个miRNA和920个靶基因信息。2.2.2疾病相关数据资源OMIM数据库是OnlineMendlianInheritanceinman(人类在线孟德尔遗传数据库)的英文简写,这是由科学家通过阅读相关文献并手动搜索于1987年建立的[114]一个数据库,该数据库收集了疾病描述信息、基因描述信息、序列记录等相关信息,还包含详细的相关参考文献,并且可以和其他外部数据库互联。该数据库的网址为http://www.omim.org/,最近更新日期是2017年7月21日,目前收录了多种疾病以及基因信息。[115]MimMiner是Van等人创建的一个疾病表型相似性的一个数据库,由于疾病表型相似性可以表反映了蛋白质序列、功能注释相关基因功能的交互情况,表型分组能够表达人类疾病基因的模块化情况,使用者登录:http://www.cmbi.ru.nl/MimMiner/cgi-bin/main.pl后,然后通过输入一个确定的疾病,MimMiner则会反馈查询结果,使用者可以要求系统以基于表格/排序的形式或者基于树形/聚类的方式输出查询结果。表格形式以分值方式返回待查询疾病和其他相关疾病的表型相似性,打分越高表示疾病间的相似度越高,而树形结构则给出的是疾病间的定性分析,疾病之间的相似关系以树形的方法直观展示出来。DGA数据库是DiseaseandGeneAnnotationsdatabase(疾病和基因注释数据[116]库)的英文简写,该数据库通过使用语义映射整合人类疾病的语义本体论(DiseaseOntology,DO)、NCBI基因参考函数(GeneReferenceIntoFunction,GeneRIF)、分子相互作用网络(molecularinteractionnetwork,MIN)等资源集形成了一个全面、综合的诠释人类疾病到基因和基因到基因关系的网络环境的数据库。数据库中所有的GeneRIF条目都能找到相应的PubMedID,便于研究者查询描述相应基因的生物学依据,并且通过设计自动电子标注程序来管理储存GeneRIF和DO的映射关系,该映射关系可以根据实际情况随时更新,从而通过更新DO和GeneRIF条目而及时更新疾病到基因之间的关联关系,此外,DGA数20 博士学位论文据库还通过整合分子相互作用网络来构建和推断疾病之间的相似关系和基因之间的关系。该数据库的网址是:http://dga.nubic.northwestern.edu,研究者通过登录该网址能够方便高效的查询使用,用户可通过过输入单个或多个疾病名称搜索基因,也可以通过输入单个或多个基因符号搜索疾病,进入系统之后可以看到一个疾病条件树形图(网络图标或表格列),十分清晰的显示出查找的基因对应的疾病的各项信息,并且研究这还可以通过DGA提供的网络服务应用程序接口(API)与外部分析工具进行集成,目前共收集了8千余种人类疾病信息,包含了2万多个基因。2.2.3miRNA相互作用数据资源随着对miRNA功能研究的不断推进,科学家们获得了数万个miRNA序列,目前,研究者开发了很多miRNA-靶基因数据库,我们根据其关系来源,我们粗略地划分了这些数据库分为三类。第一类数据库miRNA序列数据和注释等数据[66][117][118]库,如miRBase、miRGator、miRGen等,第二类是包含实验验证或计算预测的miRNA及其靶基因,如miRNAMap、TarBase和miRNA.org、miRTarBase[119][120][121][122][123]、miRWalk、miRNAMap、TarBase、miRNA.org等。还有就是[124][125][126]一些算法和程序用来靶标预测的资源,如PITA、PicTar、TargetScan、[127][128][129]DIANA-microT、RNAhybrid、RNA22等,通过这些数据库可以获取miRNA和它的靶基因之间的关系,现对部分数据库做简单介绍。miRBase数据库是由英国桑格研究院(SangerInstitute)于2002年建立的,是目前关于miRNA最全面的公共数据库,能够查询miRNA序列注释和预测基因靶标多种信息,其网址为:http://www.mirbase.org/index.shtml。分为miRBaseRegistry、miRBaseDatabase和miRBaseTargets三个部分内容,miRBaseRegistry主要用于研究者提交新发现的miRNA数据信息至数据库,miRBaseTargets主要存放了己知miRNA的靶基因信息,以方便查询、比对相关miRNA信息的靶基因。在miRBaseDatabase中可以搜索、比对目前己知的miRNA相关信息。目前最新版本是2014年7月3日发布的21.0版本。包括:223个物种的28645条miRNA发夹前体序列,相比20.0版本新增4196条,成熟miRNA有35828条,新增5441条。miRGator(http://mirgator.kobic.re.kr/)的最新版本包含了从GEO、SRA和[117]TCGA收集的73个深度测序数据集,其数据分为38个疾病和71个解剖类别,研究者可以通过miR-seq浏览器方便的查询miRNA前体的结构、序列和最终产物之间的关系,从而促进对miRNA起源和调控的研究。研究者还可以通过深度测序数据查询不同疾病、器官、组织中miRNA类别和表达谱,可以提供1856条成21 基于生物网络的复杂疾病关联miRNA预测方法研究熟miRNA和6424ncRNA的数据信息。研究者通过miRGator还可以查询miRNA–mRNA靶标相互作用等信息,该数据库提供了从三个验证的靶标数据库及六个预测靶标数据中得到的miRNA–mRNA靶标相互作用数据,并且通过热图和网络图的方式为使用者提供了miRNA与其靶mRNA之间的共表达分析。[118]miRGen是Megraw等人建立的,目前版本是DIANA-miRGenv3.0,其网址是http://www.miRNA.gr/mirgen/,该数据库旨在研究miRNA功能与miRNA基因组组织之间的关联该数据库可以为研究基因组组织、共转录和靶向提供有用的工具,用户通过miRGen可以得到miRNA和基因组注释之间的信息。[119]miRTarBase是Chou等人从相关文献中手工检索提取的miRNA–靶标作用的个的开源数据库,最新版本是2017年9月15日更新的miRTarBase7.0,该版本是从8510篇涉及报道基因检测、蛋白质印迹、微阵列和下一代测序实验的文章的数据收集了422517个miRNA-靶标相互作用得到的,涵盖了来自23个物种的4076个miRNA和23054个靶基因。其网址是http://mirtarbase.mbc.nctu.edu.tw/,该数据库支持浏览、搜索和数据下载,可以通过miRNA、gene、disease、pathway等不同方式查询。[120]miRWalk是Dweep等人建立的一个综合性数据库,其网址为http://www.ma.uni-heidelberg.de/apps/zmf/mirwalk/,存储了最大量的预测和实验验证的miRNA-靶标相互作用数据,miRWalk2.0收集了18394个基因本体和2035个疾病本体的miRNA-靶标相互作用,6727个人类表型本体和4980个OMIM中的miRNA结合位点相互作用,它还记录通过自动文本挖掘搜索收集的实验验证的miRNA-靶标相互作用信息以及来自现有资源的数据。[121]miRNAMap是Hsu等人建立的动物miRNA及其靶基因数据库,该数据集中收集了经过实验验证的人类、小鼠、老鼠以及其他多细胞动物的miRNA和miRNA靶基因,除已知miRNA靶标资源外,他们还用miRanda、RNAhybrid和TargetScan这三种计算工具来识别3'UTR基因中的miRNA靶标,为了以减少miRNA靶标预测的假阳性,研究者设定了几个标准被用来过滤假定的miRNA靶标,他们还考虑了miRNA表达谱的信息,如肿瘤/正常细胞的组织特异性和差异表达,并且研究者进行了Q-PCR实验,监测了224个人类的18个主要正常组织中的miRNA的表达谱。目前该数据库中miRNA为2464个,成熟miRNA平均长度为21.95nt,pre-miRNA平均长度为88.38nt,包括人类等12个物种。其网址是:http://mirnamap.mbc.nctu.edu.tw/。[124]PITA是Segal实验室Kertesz和Segal等人开发创建的一个数据库。其网址是:https://genie.weizmann.ac.il/pubs/mir07/mir07_data.html。主要包含人类、老鼠、蠕虫等信息,使用者可以通过miRNA预测靶基因,也可以通过mRNA预测miRNA信息,并且miRNA和mRNA均可通过其名称或者编号查询分析。22 博士学位论文[126]TargetScan(targetscan.org)由Bartel实验室Lewis等人开发的基于靶mRNA序列进化保守特性寻找动物miRNA靶基因的软件,其网址是:http://www.targetscan.org/。它通过搜索与每个miRNA的种子区匹配的保守位点而预测miRNA的靶基因。作为一个选项,非保守位点也可预测,与其他的目标预测工具不同,TargetScan提供每个miRNA预测靶点的准确排名,这些排名是基于进化上保守的靶定概率或抑制的预测效果。TargetScan目前包括TargetScanHuman、TargetScanMouse、TargetScanFish、TargetScanFly和TargetScanWorm,分别围绕人、小鼠、斑马鱼、果蝇和线虫的基因提供预测,目前最新的版本是7.1。2.2.4其他数据库一般而言,在疾病和miRNA预测中,利用上述疾病表型数据库、疾病-miRNA数据库,miRNA及其靶标数据库就能够通过计算方法预测潜在的与疾病相关的候选miRNA。但是整合更多的数据源能够使得预测精度再次提升,如蛋白质相互作[130]用数据的数据库,该类数据库主要有由Goel等人建立的HPRD数据库,网址[131]为:http://www.hprd.org/,Rédei等人建立的BIND数据库,网址为:http:[132]//binddb.org,Xenarios等人建立的DIP,网址为:[133]http://dip.doe-mbi.ucla.edu/dip/Main.cgi,Mewes等人建立的MIPS,网址:[134]http://mips.gsf.de,Isseltarver等人建立的SGD网址:[135]https://www.yeastgenome.org/,Snel等人建立的STRING,网址:[136]https://string-db.org/cgi/input.pl,Stark等人建立的,网址:BioGRIDhttps://thebiogrid.org/等数据库,限于篇幅,不一一介绍。2.3疾病相似性网络的构建方法了解疾病之间关系有助于我们了解疾病的全貌,对于复杂疾病的病因、诊断和资料等具有重要的意义,疾病相似度就是疾病间表型、病因等属性的重复程度,疾病相似性的准确与否直接影响到我们的miRNA与疾病关联预测性能,本节对与本研究密切相关的疾病相似性计算方法做简单介绍,探讨其存在的问题和挑战,为后续研究提供有益的参考。最开始研究人员采用本体概念相似度来衡量疾病之间关系,本体在很多领域都有应用,特别是在生物医学和计算机学科领域里尤为盛行。如MeSH(Medical[137]subjectHeadings)、SNOMEDCT(SystematizedNomenclatureofMedicine[138][139]ClinicalTerms)、DO(diseaseontology)等很多本体库相继出现,从23 基于生物网络的复杂疾病关联miRNA预测方法研究[140]Consortium开始应用基因本体以来,产生了很多医学本体,如疾病本体、人类表型本体、细胞体类型本体,小分子化合物本体等。从MeSH中能够得到疾病概念的层次信息,并以此为根据来计算疾病间的相似性。Mesh是美国国立医学院图书馆制定的权威医学主题词表,其地址是:https://www.nlm.nih.gov/mesh/。该数据库对疾病的分类信息进行了详细的描述,Mesh以树状形式结构对医学词汇进行了归类划分,越接近根结点,其概念越宽泛,越接近叶结点,其定义越具体。如我们在该数据库中查询肝部肿瘤(LiverNeoplasms),得到肝部肿瘤的结构编号情况是TreeNumber(s):C04.588.274.623,C06.301.623,C06.552.697其树形结构见图2.2。从树形结构我们可以知道,肝部肿瘤分属肿瘤(Neoplasms)和消化系统疾病(DigestiveSystemDiseases)这两个类之中,肝部肿瘤在消化系统疾病这个疾病类别中又分属肝脏疾病(LiverDiseases)和消化系统肿瘤(DigestiveSystemNeoplasms)这两个子类之中。同样方式查询胰腺肿瘤(PancreaticNeoplasms)的结构编号情况为TreeNumber(s):C04.588.274.761,C04.588.322.475,C06.301.761,C06.689.667,C19.344.421,树形结构图限于篇幅,不再列出,从两个疾病的树形结构可知,两个疾病存在共同的部分祖先结点,如C04.588(NeoplasmsbySite),C04.588.274(DigestiveSystemNeoplasms),C06(DigestiveSystemDiseases),C06.301(DigestiveSystemNeoplasms)等等。图2.2肝部肿瘤和胰腺肿瘤树状结构图24 博士学位论文[141][142]上世纪90年代,Resnik等人和Lin等人提出了通用的本体语义相似度[141]算法,Resnik等人是最早利用信息熵的概念应用到本体中来计算相似度的,其定义见公式2.1。SResnik(ti,tj)maxIC(tlcas)(2.1)公式2.1中ti和tj分别代表两个疾病表型,tlcas为离ti和tj距离最近的共同祖先疾病表型,该结点信息量最大。[142]Lin等人对Resnik的方法进行了改进,他们认为概念对的相似度和共性成正比,和差异性成反比,并且把两节点距离最近的共同祖先疾病表型信息量定义为共性,两结点信息量之和为差异性,公式定义如下:2IC(t)lcasS(t,t)LinijIC(t)IC(t)ij(2.2)[143]此外,陆续出现了许多利用信息熵的改进方法,如Relevace方法、[144][145]Jiang&Conrath方法、InformationCoefficientSimilaritu方法等,很多科学家[146][147]在疾病本体中利用Resnik和Lin的方法开发了相应的软件工具包、用来[147]度量疾病之间相似度,Li等人利用DO从语义相似性的角度考查了疾病概念相[115]关的信息来计算疾病之间的相关性。VanDriel等人依据疾病的语义相似性和表型相似性构建了疾病的相似性,他们首先使用文本挖掘技术从OMIM数据库中筛选出5000多种人类疾病表型记录,然后利用MeSH对每个疾病表型构造特征向量,并且根据MeSH数据库中概念的层次性对特征向量进行改造,接着考虑概念的信息量等信息,对某一概念与某表型的相关度进行了计算,最后通过余弦公式计算疾病间的相关性。[36]以上这些方法都是从疾病表型信息的基础上来进行研究,Wang等人根据如果两个疾病共享的疾病(共同祖先)条目越多,则这两个疾病的相似度就越大这一假设,利用疾病在Mesh数据库中的这些属性提出一种基于语义信息的疾病相似度计算方法,具体过程是首先根据疾病在Mesh中的树状属性,用有向无环图(directedacyclicgraph,DAG)来表示每个疾病,肝部肿瘤和胰腺肿瘤的DAG用图2.3表示,其中,蓝色部分表示两个疾病共同的疾病条目。然后根据从祖先结点遍历至目标疾病结点的遍历路径情况来计算疾病的语义值,各个结点的语义贡献值定义如下:DA(A)1D(t)maxD(ttchildrenoft)iftAAA(2.3)D)t(其中A为疾病DAG中疾病t对疾病A的语义贡献值,为语义贡献系数,取0.5时效果最好,疾病A的语义值根据公式2.4来计算。25 基于生物网络的复杂疾病关联miRNA预测方法研究DV(A)D(t)tTAA(2.4)通过以公式2.4计算出两个疾病的语义值之后,然后用公式2.5来计算两个疾病的语义相似度。tTATB(DA(t)DB(t))S(A,B)DV(A)DV(B)(2.5)图2.3肝部肿瘤和胰腺肿瘤的DAG图Resnik、Lin及Wang等人的方法利用疾病本体结构等信息利用语义关联来计算疾病的相似度,疾病的关联还可以从共同的致病基因这一角度来体现,近来又[148]出现了利用比较两个疾病相关的基因来计算疾病的相似性,Mathur等人从基[148][149]于重叠的基因方法和基于过程相似度两个方面出发分别提出了两类方法。基于基因重叠的方法是利用疾病本体获得蛋白质数据,然后建立疾病和基因之间的联系,最后通过比较两个疾病之间的基因重叠来计算疾病之间的相似度。计算方法如公式2.6所示。n(AB)/n(AB)S(A,B)(n(A)/N)(n(B)/N)(2.6)公式2.6中,N代表全体基因的数量,n(A)为和疾病A相关的基因数量,n(B)为和疾病B相关的基因数量。基于过程相似度的方法是首先建立疾病和基因的关联,并利用超几何分布寻找疾病术语和富集的术语,然后根据基因本体术语的相似度来建立疾病之间的相似度。[150]Li等人从基因协同完成生物学功能这一角度出发,通过文献挖掘技术系统的识别疾病相关基因,然后在此基础上,整合生物学通路知识,构建了疾病网络个由591个疾病和6931个疾病关系组成的疾病网络,该方法比简单的的文献搜索26 博士学位论文[151]或基因重叠分析来获得的疾病之间关系的方法更为可靠。Goh等人认为疾病之间的关联可以用其共同致病基因构成的网络的拓扑特性来衡量,把“疾病组”这一概念用于计算疾病之间的关联。与简单的基于语义的方法相比,基于疾病的致病基因计算疾病的相似度的方法为我们开辟了新的思路。但是人类基因的关联网络非常复杂,基因的功能关联包括很多方面,如蛋白质相互作用、信号通路关联和基因序列相似等,应该从多个角度出发来考虑疾病相关基因的功能关联来计算疾病的相似性。前面所提到的这些研究多以疾病基因、生物通路或疾病的结构(注释)信息为研究对象,但没有充分利用多种不同类型的生物数据,应该从多角度来计算疾[152]病的相似性,Cheng等人提出了一个整合的方法:SemFunSim,该方法整合了[153]疾病关联基因与语义关联来计算疾病之间的相关性。Sun等人整合全基因组关联数据、疾病化学关联、生物通路和基因本体这些不同类型的生物数据形成一个综合疾病网络(IDN),然后在此基础上,设计了一种新的疾病相似度测量方法来推[49]断疾病的相关性。Liu等人综合疾病语义相似性和疾病功能相似性来计算疾病[18]之间的相关性,Lan等人提出了利用疾病的语义和功能信息来测定疾病的相似[154]的方法KBMF-MDI。Liu等人认为遗传和环境因素都对人类疾病造成了影响,他们通过文献检索的方式发现3342种环境因素与3159种疾病相关,1100个基因和1034种复杂疾病的相关,863种疾病既受基因又受环境因素的影响,然后通过对基因和环境因素聚类得到疾病之间的关联,这些学者的研究结果也表明,融合多种生物数据的方法计算精度要高Resnik的方法等人的方法。融合分子网络、注释实体和本体结构多层面信息的方法的提出为我们探索疾病之间关联提供了有力帮助。2.4miRNA相似性网络的构建方法miRNA功能相似性网络的构建是预测疾病相关miRNA的关键一环,目前用计算方法来衡量miRNA之间的功能主要是两个方面来着手,一个方面是利用已知实验验证的疾病与miRNA关系和已知的疾病和疾病之间的相似性来度量,另一方面是通过生物分子相互作用来度量。[36]Wang等人基于功能相关的miRNA倾向与和表型相似的疾病关联这一假设,提出了采用和miRNA相关疾病间的的语义相似性来推断miRNA相似性的方法MISIM。其计算过程分三步走,首先他们用一个集合来表示与某miRNA相关DTdt1,dt2,,dtk的一组疾病集合计为,例如现有两个miRNAu和miRNAv,已知与miRNAu关联的的疾病为肝部肿瘤(LiverNeoplasms,简写为LN)和DTuLN,BN乳腺肿瘤breastneoplasms,简写为BN),用向量表示为:,与27 基于生物网络的复杂疾病关联miRNA预测方法研究miRNAv关联的疾病为胰腺肿瘤(PancreaticNeoplasms,简写为PN)和乳腺肿瘤DTvPN,BNbreastneoplasms,简写为BN),用向量组表示为:。计算miRNAu和miRNAv之间的相似性计算过程可用图2.4描述。图2.4miRNA功能相似度度量过程图第一步用上一节中的公式2.5计算单个疾病之间的语义相似性。第二步计算单个疾病和疾病向量组的相似性,计算公式为:S(dt,DT)max(S(dt,dt))i1ik(2.7)DT如肝部肿瘤与疾病向量组v之间的相关性为:S(LN,DT)max(S(LN,PN),S(LN,BN))V(2.8)第三步计算miRNA关联的疾病向量组之间的相关性作为两个miRNA之间的相关性,公式如下:S(di,DTv)S(dj,DTu)1iDTu1jDTvMIMSIM(u,v)DTDTuv(2.9)其中DTu和DTv为向量DTu和DTv元素的个数。很多学者都使用了MISIM数据集来推测miRNA与疾病的关联,如[155][30][52][53]RWRMDA、ILRMR、NetCBI、NCPMDA等。学者们对Wang的方法也[43]做了改进,如Xuan等人在基于k个最相似邻居的预测方法HDMP中miRNA之间的计算方法。功能类似的miRNA与表型相似疾病关联概率更大,很多研究人[156]员基于此给出了类似的方法来计算miRNA相关性,如Ding等人提出了MFSP,该方法的计算过程分五步走,第一步从MeSH中获得疾病的层次结构特征;第二步利用余弦相似性计算疾病对的语义相似性,建立了疾病相似网络;第三步计算疾病在网络中的路径长度之和;第四步建立miRNA和miRNA之间的通路矩阵;第五步基于miRNA通路矩阵计算miRNA之间的功能相似性。但这些使用已知的实验验证的疾病-miRNA的信息来构建miRNA网络在推断预测疾病-miRNA得分28 博士学位论文时会有高估的不良后果,在揭示潜在的疾病-miRNA联系的计算方法中,我们常常利用交叉验证(CrossValidation,CV)来评估预测方法的准确性。在交叉验证验证中当计算某个(某些)已知miRNA和疾病之间关联预测得分时,事先要把这个(这些)关联去掉,而前面我们提到的这类依靠生物实验确认的miRNA和疾病的关联来推断miRNA相似性的方法,在推断miRNA相似性时如果使用了这个(这[49]些)已知miRNA和疾病之间的关系,这样导致验证预测得分估计过高。研究发现一个miRNA可能调控多个靶基因,一个靶基因也可受到多个不同的[157]miRNA的调节,Shalgi等人用miRNA靶基因的信息来可算出衡量miRNA之间的功能性得分,计算公式如下:Targets(u)Targets(v)min(Targets(u),Targets(v))(2.10)其中Targets(u)代表miRNAu的靶基因,Targets(v)代表miRNAv的靶基因,但很显然,该方法只考虑了靶基因的个数这一单一因素,其计算精确度不高,Jiang[36][158]等人、利用靶基因的之间的关系构建了布尔型miRNA网络和权重型miRNA网络。主要从miRNA的靶基因重叠情况、靶基因在蛋白质互作网络上相互作用情况、靶基因共享的GO功能类情况这三个方面来推断miRNA之间的是否关联,并且用一个超几何分布来判断靶基因之间的关系是否显著:MNMm1inip1i0Nn(2.11)各个参数定义在个不同情况下有不同定义。当用靶基因重叠情况来判断miRNA是否相关时,N表示人类miRNA靶基因的总数,M和n分别代表两个miRNA靶基因的数量,m代表两个miRNA共有的靶基因数目;当用靶基因在蛋白质互作网络上相互作用情况来判断miRNA是否相关时,N代表理论上蛋白质互作总数,M表示蛋白质互作网络实际互作数量,n代表两miRNA的靶基因之间理论上的互作数量,m代表miRNA靶基因之间实际互作数量;当用靶基因共享的GO功能类情况来推断miRNA之间的是否关联时,N代表GO的所有功能类,M和n分别代表两个miRNA靶基因富集功能类数量,m代表共享功能类数量。如果两个miRNA靶基因的P值低于0.001,则判定这两个miRNA功能相关,依据此,[36]Jiang等人建立了布尔型miRNA网络。考虑到布尔型miRNA网络只能判断两[158]miRNA是否相关,但不能体现两个miRNA之间的相关程度,Jiang等人利用miRNA-靶基因对的互作得分来计算miRNA间的功能相似性得分,首先利用PITA得到miRNA与所有人类基因的互作得分,然后计算miRNA对应得分向量组之间29 基于生物网络的复杂疾病关联miRNA预测方法研究的Pearson相关系数作为miRNA间的功能相似性得分。近年来,涌现了很多基于miRNA靶基因来计算miRNA之间相似性得分的方[159]法,Lan等人提出了利用miRNA靶基因GO项的信息量来计算GO项的相似性,进而计算miRNA的相似性,信息量主要是依据GO的后代的大小、深度权重[160]和其节点到根之间边的关系来计算。Yu等人利用miRNA靶基因语义关系来[18]计算miRNA功能关系得分。Lan等人利用miRNA的序列和功能信息来测定miRNA的相似度,并开发了kbmf-mdi模型来计算miRNA之间相似性和疾病之间相似性。miRNA靶基因较高的假阳性和假阴性导致计算miRNA之间的功能相似[161]性不准确。Xu等人将功能基因网络中的靶基因的位点可访问性和交互语境结合起来,用靶基因的GO术语产生的语义相似性权重构建,以推断miRNA的功能相似性。考虑到使用实验验证的疾病-miRNA的信息来构建miRNA网络会高估预测得分和miRNA靶基因具有较高的假阳性和假阴性这些缺点,使用整合方法来构[49]建miRNA网络更为合理,Liu等人整合miRNA-靶标的关联、lncRNA-疾病的[162]关联和miRNA-lncRNA的关联来计算miRNA之间的相似性。Chen等人在Wang等人计算的miRNA相互作用网络MISIM的基础上,加入已知实验验证的疾病-miRNA关系信息和miRNA与环境因子的相互作用信息构建了一个综合的miRNA相似性网络。2.5预测评价方法与指标2.5.1预测评价方法为了评估预测模型经训练数据集上训练之后对于测试数据集的预测推广能力,一般使用交叉验证(CrossValidation,CV)来验证预测模型的泛化能力,交叉验证将数据分成训练集和测试集,使用训练样本构建模型,模型建构好之后在测试集上进行预测,进而评估模型性能,直到全部数据均被预测一次且仅一次,目前常用的有Holdout验证、K折交叉验证(K-foldcrossvalidation,KCV)、留一交叉验证(leaveoneoutcrossvalidation,LOOCV)这三种。(1)Holdout验证该方法简单的将数据集分成训练集和测试集两个集合,利用训练集训练模型,然后在测试集中验证、评估模型,一般而言训练集的数据量多,要求超过三分之二的原始数据,测试集的数据量少,少于原样本的三分之一。由于该方法实质上没有交叉利用原始数据,在严格意义上不能称为交叉验证,对模型的评估不具备说服力。30 博士学位论文(2)K折交叉验证(K-foldcrossvalidation)该方法首先将原始数据分成K个子集,每次取K-1个子集作为训练集训练模型,然后在剩下的子集中测试模型,如此重复K次,直至每个子集均验证一次,最后对K次的结果进行平均作为最后的评估结果。(3)留一交叉验证(leaveoneoutcrossvalidation,LOOCV)LOOCV是K折交叉验证的一种特殊形式,训练测试模型时,每次都是使用一个样本来作为验证集,其余的样本作为训练集,原始样本有N个数据,就要交叉验证N次。由于LOOCV在训练模型时几乎包含了全部样本,所以最接近原始数据,评估结果可靠,并且不会收到随机因素的干扰,评估的结果稳定可靠,具有可重复性,但由于每次都只测试一个样本,计算时间复杂度高。2.5.2预测评价指标本文疾病-miRNA关联预测问题是一个二分类预测问题,实验结果分为阴性和阳性,其结果用表2.1列出。表2.1预测评价指标实验结果病例组对照组阳性真阳(TruePositive,TP)假阳(FalsePositive,FP)阴性假阴(FalseNegative,FN)真阴(TrueNegative,TN)真阳性率(TruePositiveRate,TPR)在本文中表示被准确推断出的生物实验确认的miRNA和疾病关系的比例,假阳性率(FalsePositiveRate,FPR)示非疾病-miRNA关联被错误预测为的比例,具体定义用公式2.12和公式2.13列出。TPTPRTPFN(2.12)FPFPRTNFP(2.13)上式中以FPR为横坐标、以TPR为纵坐标绘制的曲线称为ROC曲线(receiveroperatingcharacteristiccurve),该评价指标在医学诊断领域应用很广泛,ROC曲线图的面积称为AUC(areaundertheROCcurve)值,一般而言,AUC值介于0.5和1之间,AUC值越高,表示算法的预测效果越好,若AUC值为1时,预测性能最佳,是一个完美的预测模型,而AUC值为0.5或者0.5以下时,表示预测能力极差。精确度(precision)是指预测模型中预测得到的正样本中真阳样本的比例,召回率(recall)是指正确预测的正样本占全本正样本的比例,具体定义如下:31 基于生物网络的复杂疾病关联miRNA预测方法研究TPprecisionTPFP(2.14)TPrecallTPFN(2.15)以召回率为横坐标、精确度为纵坐标绘制的曲线称为PR曲线(precisionrecallcurve),PR曲线下面的面积称为AUPR(areaunderthePRcurve)值,AUPR值越大,代表预测性能越好。2.6小结miRNA和多种人类复杂疾病密切相关,通过生物实验验证的方法发现miRNA与疾病关联费时费力,因此用计算方法来推测miRNA与疾病的关联成为是生物实验的有效补充。本章对计算预测方法的相关基础做简单的介绍,首先介绍了miRNA的发现过程、miRNA的产生的生物学背景及作用机制、目前所知的部分miRNA与疾病的相关信息,然后介绍了与疾病、miRNA相关的的生物学数据资源,接着对疾病的相似性和miRNA计算方法的常用方法做了重点介绍,分析了一些经典构建方法的优缺点,最后简述了预测评价的方法和指标,为之后的预测研究提供帮助。32 博士学位论文第3章基于共同邻居的异构二分网络链路预测方法推断疾病-miRNA关联本章提出一种基于共同邻居的异构二分网络链接预测方法来预测疾病-miRNA关联,该模型根据二分网络的结构特点提出了二分网络共同邻居概念,在共同邻居的基础上,定义了8种不同的共同邻居指标。该方法通过共同邻居来表示疾病和miRNA之间的关联概率,为了能够对孤立疾病和新miRNA预测,在共同邻居表示的关联概率基础之上,引入异构网络中疾病结点之间的相似性和miRNA结点之间的相似性信息来表示疾病和miRNA之间的关联概率。为了得到更准确的预测,用家族信息对miRNA相似性网络进行了重构,用已知的实验验证的疾病-miRNA关联关系对疾病相似性网络进行重构。在不同数据集上实施留一交叉验证评估该模型的预测性能,我们的算法在黄金基准数据集上的AUC值为0.7973,在预测数据集上取得的AUC达到了0.9349,优于经典的全局性算法。在实例研究中,我们对乳腺肿瘤和结肠肿瘤进行了预测研究,排名前50位的预测结果大多得到了更新的HMDD、miR2Diseas、dbDEMC三个数据库的证实,准确率分别为96%和82%。此外,我们的算法能够用于孤立疾病和新miRNA的预测,在孤立疾病病例研究中,对乳腺肿瘤和结肠肿瘤的前50名潜在关联miRNA预测准确度分别为100%和96%,展示了本章提出的算法对疾病潜在相关miRNA的良好预测能力。3.1问题描述在自然界中有许多各种各样的复杂系统,从生物神经系统到城市道路交通结构,从生态系统到人类社会关系,对于这些复杂系统,我们可以用网络来描述它们,一个典型的网络由表示个体的结点和表示个体之间的关联的边组成。复杂网络是复杂系统的近似表示,由于实验条件或者其他原因的限制,构建网络时难免会有错误或者冗余的关联,也有很多潜在的未知关联需要我们预测建立,根据已[163]知的网络关联信息对缺失的关联进行预测,就是网络链接链路预测问题。越来越多的研究表明疾病和miRNA之间存在关联,但用生物实验的方法确定疾病和miRNA之间隐而未现的关联需要耗费大量的时间和生物实验成本,于是用计算方法来预测疾病和miRNA之间的关联来辅助生物实验方法具有迫切需求。二分网络是复杂网络的一种特殊形式,一个典型的二分网络G(D,M,E)由Dd1,d2,,dnMm1,m2,,mm两个不同类型的结点集和组成,同类型结Ee1,e2,,ep点之间没有连接存在,所有的边均出现在不同类型的结点之间,33 基于生物网络的复杂疾病关联miRNA预测方法研究理论上二分网络共有nm条边。为了用计算方法来预测潜在的与疾病相关的候选miRNA,我们可以用用二分网络来描述疾病和miRNA之间的关联,设疾病结点个数为n个,miRNA个数为m个,如果已知的实验验证某疾病和某miRNA有关联,则该疾病结点和miRNA结点用边连接(图3.1中黑色的边),对尚未有实验验证的关联的疾病和miRNA,我们可用计算方法预测出疾病和miRNA之间可能存在RRij链接的概率(图3.1中红色虚线)。我们用一个nm的矩阵来表示疾病和miRNA之间的评分,Rij表示疾病di和miRNAmj之间的关联评分。为了准确的预测疾病di和miRNAmj是否有关联,我们可以通过整合已知的疾病和疾病之间的关系(图3.1中蓝色网络)、已知的miRNA和miRNA之间的关系(图3.1中红色网络)以及实验验证的miRNA和疾病之间的关联这三个不同的网络数据来推断所有的未知疾病di和miRNAmj关联得分(图3.1中黑色的边),进而预测疾病di和疾病数据资源疾病10.320.11疾病40.19疾病1疾病20.060.160.110.470.32疾病4疾病30.19疾病20.060.160.47疾病1疾病2疾病3疾病4疾病3?实验验证的miRNA-疾病关联?miRNA-1miRNA-2miRNA-3miRNA-4miRNA-5miRNA-6miRNA-10.33miRNA-20.130.05miRNA数据资源0.520.410.52miRNA-4miRNA-10.33miRNA-20.23miRNA-30.050.610.130.090.410.52miRNA-4miRNA-60.520.23miRNA-3miRNA-50.610.09miRNA-60.41miRNA-5图3.1异构二分网络预测潜在疾病相关的miRNA的基本框架mmiRNAj存在关联的概率。此时,疾病和疾病之间的关系网络、miRNA和miRNA之间关系网络以及miRNA和疾病之间的关系形成了一个异构二分网络,其邻接矩阵用下列公式表示:DRHTRM(3.1)n,nm,mDD(i,j)MM(i,j)其中i1,j1为疾病之间的相似性矩阵,i1,j1为n,mRR(i,j)miRNA之间的相似性矩阵,i1,j1为疾病和miRNA之间的关联评分34 博士学位论文T网络,R为R转置矩阵。疾病和miRNA的异构二分网络链接预测,就是用合理的n,nDD(i,j)方式来刻画疾病和疾病之间的相似性i1,j1(图3.1中蓝色网络中的m,mMM(i,j)数值)、miRNA和miRNA之间相似性i1,j1(图3.1中红色网络的数值),在此基础上,通过科学的计算方法,赋予疾病和miRNA结点对一个分数R值ij,然后将所有没有连接的结点对按照该评分值从到小排列,排在最前面的疾病和miRNA有关联的概率最大,他们之间最有可能存在关联。本章基于二分网络的特性,我们在二分网络上提出共同邻居的概念,利用共同邻居的个数来衡量疾病和miRNA之间的关联概率。3.2基于共同邻居的异构二分网络链接预测算法的框架结构基于共同邻居的异构二分网络链接预测算法推断疾病-miRNA关联的基本流程如图3.2所示,其主要过程是:(1)利用家族信息重构miRNA功能相似性网络;(2)利用已知的实验验证的疾病-miRNA信息和疾病语义相似性信息重构疾病相似性网络;(3)计算无关联疾病结点和miRNA结点之间的通路为3的简单路径条数;(4)依据简单路径条数计算疾病和miRNA结点的初次关联得分;(5)依据疾病相似性网络和初次关联得分得到疾病空间二次关联得分;(6)依据miRNA相似性网络和初次关联得分得到miRNA空间二次关联得分;(7)整合疾病空间二次得分和miRNA空间二次关联得分得到最终预测得分。MiRAN功能MiRAN家族已知的miRNA-疾病表型相似性得分相似性得分SM信息SMfam疾病信息ASSDmiRNA相似性得分重构疾病相似性网络通路长度为3的条数famSIMi,jSMi,j(1-)SMi,jSDDi,jSDASi,j(1)SD(i,j)初次关联得分PBR基于miRNA网络的二次预测得分基于疾病网络的二次预测得分mnFBMPBFBDPBR(i,j)R(i,k)SIM(k,j)R(i,j)Rk(,jk,j)SDD(k,i)k0k0FBFBMFBDR(i,j)(1)R(i,j)R(i,j)图3.2基于共同邻居的异构二分网络链路预测流程图35 基于生物网络的复杂疾病关联miRNA预测方法研究3.3数据集及与处理3.3.1疾病语义相似性数据根据疾病DAG可以计算疾病语义相似性,其基本假设是若两个疾病共享的条[36]目越多则这两个疾病就越相似,Wang等人利用疾病在Mesh数据库中的这些属性来计算疾病之间的语义相似性,很多研究者的疾病之间的相似性方法都是利用[53][13][13]该方法、,我们从文献的补充数据文件中得到该数据,我们用矩阵SD来表示疾病语义相似性的邻接矩阵,SD,i(j)表示疾病di和疾病dj之间的的语义相似性得分。3.3.2miRNA功能相似性数据第二章我们已经介绍,miRNA和miRNA之间的关系主要由和miRNA相关的疾病或miRNA调控的基因作为媒介来建立。研究者开发了很多miRNA-靶基因数据库,如miRBase、miRGator、miRGen、miRNAMap、TarBase、miRNA.org等,[36]各类数据库种类繁多,Wang等人基于功能相关的miRNA倾向与和表型相似的疾病关联这一假设,提出了使用和miRNA关联的疾病之间的语义类似性来推断miRNA类似性的策略,并且把计算得到的miRNA功能相似性数据做成了一个公开[155][30]的数据库MISIM。该数据集成功应用于多个方法,如RWRMDA、ILRMR、[52][53]NetCBI、NCPMDA等。我们从http://www.ncbi.nlm.nih.gov/下载获得该数据,用矩阵SM来表示miRNA的邻接矩阵,SMi,j表示miRNAmi与miRNAmj之间的的功能相似性得分。3.3.3miRNA的家族信息数据文献表明,在同一个miRNA家族共享的mRNA靶基因更多,他们之间的功[164]能更为相似。本章考虑利用家族信息来对miRNA网络重构,给位于相同家族[66]的一组miRNA赋予更高的数值,miRNA信息从miRBase数据库中获得,这里fam用矩阵SM表示miRNA的家族信息,若两miRNA是处于在同一家族,则对应famSMi,j设为1,否则置0。36 博士学位论文3.3.4已知实验验证的miRNA和疾病的关联数据由第二章知道,目最常用的miRNA和疾病的关联数据库有:HMDD、miR2Diseas、dbDEMC、PhenimiR、OncomiRDB等,miRNA和疾病关联关系通过这些数据库获得。[36]本章我们利用两个数据集来进行训练测试,第一个数据集是根据Jiang等人构建的miR2Diseas数据库结合HMDD两个数据库整理得到的270对高质量的经过实验验证的miRNA与疾病的关联数据基础上获得的,这些miRNA与疾病关系对都是由于miRNA失调而导致了疾病的产生,包含51种疾病和和118种[36]miRNA,我们从文献的补充数据资料中获得这些数据资料,由于其中19种[36]miRNA在Wang的功能性相似性数据集MISIM中无法找到,于是我们去除这些miRNA及其与疾病的关联,接着去除部分相似性很高的疾病-miRNA关系对,最终留下99个miRNA、51个疾病包含225个疾病-miRNA对的数据,我们把该数据集称为黄金标准数据集。[36]第二个疾病-miRNA关联数据集直接从Wang的文献中中获得,这是他们通过2009年9月发布的HMDD数据库整理得到的,其中有1616个生物实验确认的人类疾病-miRNA关系,在合并不同miRNA的记录并统一了miRNA和疾病的名称后,最终保留了1395个疾病-miRNA关联,包括271个miRNA和137个疾病,我们将这个数据集称为预测数据集。为了方便我们描述,我们用布尔矩阵AS表示疾病和miRNA之间的关联,AS(i,j)表示miRNAmi和疾病dj之间的关联,其值若为1,代表已知实验表明miRNAmi和疾病dj有关联,其值若为0,表示该数据集中没有已知实验表明miRNAmi和疾病dj有关联,我们的主要工作,就是通过计算方法来推断这些没有实验支持的miRNA和疾病之间是否有关联。两个数据集的疾病特征分布见表3.1。表3.1数据集特征汇总数据集疾病miRNA关系对疾病平疾病最疾病最miRNA最miRNA最miRNA平数量数量数量均度大度小度大度小度均度黄金基准数51992254.41261812.27据集预测数137271139510.1810214015.15据集黄金基准数据集的miRNA结点度数分布和疾病结点度数分布见表3.2和表3.3。37 基于生物网络的复杂疾病关联miRNA预测方法研究表3.2黄金标准数据集miRNA度结点数分布情况度大小数量度大小数量度大小数量度大小数量149375273223476781从表3.2可以看出,绝大部分miRNA度结点比较小,99个miRNA结点中,度为1和度为2的结点分别为49个和23个,占全部miRNA结点49.5%和23.2%。表3.3黄金标准数据集疾病结点度数分布情况汇总度大小数量度大小数量度大小数量度大小数量1175291191296212126137711314384171从表3.3可知,51个疾病结点中,度为1的结点为17个,占比33.3%,度为2的结点为9个,占比17.7%,度为3的结点为7个,占比13.7%。预测数据集的miRNA结点度数分布和疾病结点度数分布见表3.4和表3.5。表3.4预测数据集miRNA结点度数分布情况汇总度大小数量度大小数量度大小数量度大小数量1817171371922308814220233197153231426106161242516114172261612126183401从表3.4可知,绝大部分miRNA度结点比较小,271个miRNA结点中,度为1、度为2、度为3、度为4的结点分别为81个、30个、31个、26个,占全部miRNA结点29.9%、11.1%、11.4%、9.6%。度数最大的miRNA是hsa-mir-21,其度数为40,其次是hsa-mir-17,已知和26个疾病结点关联。从表3.5可以看出,绝大部分疾病结点度比较小,137个疾病结点中,度为1和度为2的结点分别为48个和17个,占全部miRNA结点35.0%和12.4%。极少数结点度数很大,如度数最大的疾病结点是心脏衰竭(HeartFailure),其关联102个miRNA,其次是乳腺肿瘤(BreastNeoplasms),其关联78个miRNA。38 博士学位论文表3.5预测数据集疾病结点度数分布情况汇总度大小数量度大小数量度大小数量度大小数量14810120148121711621350138125221511451322815615414131160166151342721771613737818217247110213.4相似性网络构建为了更加精准的刻画疾病之间的关系和miRNA之间的关系,我们利用已知的疾病和miRNA的关联信息结合疾病语义相似性数据来构建疾病相似性网络,采用miRNA家族信息和miRNA功能相似性数据来构建miRNA相似性网络。3.4.1miRNA相似性网络重构[164]Bandyopadhyay等人发现在同一家族的miRNA共享的mRNA靶目标更[164]多,他们之间的功能更为相似,为了充分利用miRNA的家族信息,我们在构建miRNA网络时,给属于同一家族的miRNA给予更高的权值。对于miRNA网络重构,很多学者提出了结合已知的实验验证的miRNA和疾病的关联网络信息和miRNA功能相似性信息来重构miRNA相似性网络,考虑到Wang等人构造miRNA功能相似性网络本身就是利用miRNA和关联疾病的DAG图的相似性计算得到的,我们这里不再重复使用实验验证的miRNA和疾病关联信息来重构miRNA相似网络。这里我们整合Wang等人计算的miRNA功能相似性得分和miRNA家族信息来构建miRNA相似性网络,公式如下:famSIMi,jSMi,j(1-)SMi,j(3.2)其中SIMi,j表示信息融合后miRNAmi与miRNAmj之间的相mmjSMfam为miRNA似得分,SMi,j为miRNAi与miRNA之间的功能相似得分,家族信息矩阵。为权重参数,为了简单起见,我们设其为0.5,这样当miRNAmfammi与miRNAj属于同一家族时,SMi,j等于1,两个miRNA的相似性得分越大,代表miRNA越相似。39 基于生物网络的复杂疾病关联miRNA预测方法研究3.4.2疾病相似性网络重构[36]基于表型相似的疾病倾向和功能相关的miRNA关联这一假设,我们认为导致两种疾病共同的miRNA越多,则这两种疾病越相似,在两个疾病共同miRNA一样多的条件下,若致使这两种疾病的miRNA越少,则这两种疾病更相似。下面给出利用实验验证的疾病-miRNA联来度量miRNA相似性的方法:(3.3)SDAS(i,j)表示疾病di和疾病dj之间的相似性计算得分,comm(di,dj)代表疾病di和疾病dj共同的miRNA数量,deg(di)和deg(dj)分别为疾病-miRNA二分网络中疾病di和疾病dj的度数(即疾病di和疾病dj关联的miRNA数量)。接着整合前面提到的疾病语义相关性信息和基于已知关联结构信息计算的疾病相似性信息来构建疾病相似性网络:SDDi,jSDASi,j1()SD,i(j)(3.4)SDAS(i,j)表示疾病di和疾病dj之间的相似性计算得分,SD,i(j)为疾病di和疾病dj的语义相似性得分,为权重参数,为了简单起见,我们设其为0.5。基于共同邻居的异构二分网络链接预测方法3.5基于共同邻居的异构二分网络链接预测方法3.5.1基于共同邻居的的异构二分网络链接预测思路[163]单分网络的链接预测常常通过结点之间的的结构相似性来进行预测,任意两个不同结点通过两结点之间的共同邻居作为桥梁来完成连接,而在二分网络中,同类别之间的结点无关联,产生连接的结点对分属不同类别,不存在同时连接两个类别结点的共同邻居,我们无法通过共同邻居来刻画结点之间的结构相似性,单分网络的链路预测算法无法实施于二分网络中,单分网络中基于共同邻居的算法常常基于这两种假设:(1)“三角形”(triangleclosing)假设:即在原来共同邻居的基础上,新产生的边和他们形成三角形。如图3.3a中:结点1和结点3存在连接(1,3),结点2和结点3存在连接(2,3),即结点1和2有共同邻居结点3,则我们推断结点140 博士学位论文和结点2之间可能存在连接(1,2)(虚线所示),同样道理,结点2和结点3存在连接(2,3),结点2和结点4存在连接(2,4),即结点3和4有共同邻居结点2,则我们推断结点3和结点4之间可能存在连接(3,4)(虚线所示);图b中,结点1和2没有共同邻居,则结点1和2之间存在连接的概率较少,而结点1和4有共同邻居3,结点1和4之间可能存在连接(虚线所示),结点2和3有共同邻居4,结点2和3之间可能存在连接结点(虚线所示)。以上所有连接中,两条实现和一条虚线均组成一个三角形,通过以上的分析可知,基于共同邻居的而推荐连接的假设,已知的两条边和预测的推荐连接边这三条边形成稳定的三角形。(2)“聚簇”假设:结点之间形成密切的簇,如图3.3c中,3和4均为结点1和2的共同邻居,结点3和4又有直接连线,结点1、3、4形成一“簇”,结点2、3、4形成一“簇”,图3.4c中的结点1和2之间可能存在连接的可能性比图3.3a、图3.3b中结点1和2之间存在连接的概率要大。343344121212abc图3.3单分网络共同邻居示意图基于功能相关的miRNA倾向与和表型相似的疾病关联这一假设,许多计算方法已经被提出用于预测潜在的疾病-miRNA的关联,基于这一假设,受单分网络共同邻居的启发,我们根据二分网络的特点,开发一种基于共同邻居的的异构二分网络链接预测方法,思路如下:d首先给出二分网络共同邻居的概念,在图3.4a中,已知疾病结点1和miRNAmdmm结点1之间存在关联,疾病结点2和miRNA结点1和miRNA结点2之间存在ddmdd关联。疾病1和2都和miRNA结点1相关,因此疾病1和2存在某种相似性,mmdmmiRNA结点1和miRNA结点2都和疾病2相关,因此miRNA结点1和miRNAm结点2存在某种相似性。根据功能相关的miRNA倾向与和表型相似的疾病关联dm这一假设,我们推测疾病1和miRNA2可能相关(图3.4a中红色虚线),而这两者之间的相关dmd是通过疾病2和miRNA1两个作为桥梁而形成的。实际上,加入疾病1和mmiRNA2连线之后,这四个结点之前有一条长度为3的通路,形成一个四边形(图3.4b,图3.4b为图3.4a的同构图)。如果某疾病和某miRNA之间这类桥梁数量越d多,我们认为这两者之间存在关联的可能性越大。如图3.4c中疾病结点1既通过mdmdmiRNA结点2、疾病结点2和miRNA结点3关联,病结点1又通过miRNA结mdm点1、疾病结点3和miRNA结点3关联,他们之间有两条通路长度为3的通路,41 基于生物网络的复杂疾病关联miRNA预测方法研究dm我们认为疾病结点1和miRNA结点3关联可能性较大。在这里,我把单分网络中共同邻居的概念引入到疾病-miRNA二分网络中,下面给出具体定义。d1m1d1m1m1d1d2m2???d2m2d2m2d3m3abc图3.4二分网络共同邻居示意图符号定义:在疾病-miRNA异构二分网络G(D,M,E)中,其中Dd1,d2,,dnMm1,m2,,mm为疾病结点集合、为miRNA结点集合,EEeiei(d,m),dD,mMdD为边集,。对于任意的疾病结点i和miRNA结点mjM,若在二分网络中,在疾病di和miRNAmj之间存在长度为3dmdmmMm的初级通路ij,dD且,则定义结点d和为疾病di和miRNAmj在该二分网络中的共同邻居,疾病di和miRNAmj所有的共同邻居集合记为CN(di,mj),疾病di和miRNAmj之间通路长度为3的条数代表共同邻居的个数,我们把疾病di和miRNAmj之间长度为3的通路条数记为NCN(di,mj)。dddeg(d)所有与疾病结点i关联的边的条数,称为结点i的度数,记作i,疾病结点miRNAmj的度记为deg(mj),疾病结点di和miRNA结点mj之间的关联得分记为Rij。基于共同邻居的异构二分网络链路预测模型主要有三个步骤。第一个步骤是d通过疾病-miRNA关联关系(图3.5中淡蓝色矩阵所示)计算所有疾病结点i和所m有miRNA结点j之间长度为3的通路条数(图3.5中浅橙色矩阵),然后运用在二分网络上的局部结构相似性得到任意疾病结点di到任意miRNA结点mj之间的初次关联得分(图3.5中灰色矩阵所示)。在第二阶段,首先引入miRNA相似性和miRNA结点到疾病结点的初次关联得分的乘积和得到miRNA结点mj到疾病di到之间的二次预测得分(图3.5中粉红色矩阵),然后引入疾病相似性和疾病结点到miRNA结点的初次关联得分的乘积和得到疾病di到miRNA结点mj之间的二次预测得分(图3.5中青绿色矩阵所示)。最后的步骤是对两个空间得分进行综合,得到最终预测得分(图3.5中黄色矩阵所示),该矩阵中权值越大,我们认为该疾病和miRNA存在相互作用的可能性越大。42 博士学位论文miRNA-疾病关联二分图关联矩阵长度为3通路计数矩阵miRNA疾病d1d2d3d1d2d3m1m1010131d1m2m2110342d2m3011243m3d3m4101323m4miRNA相似性矩阵m1m2m3m4m110.410.590.62基于miRNA相似性矩阵的预测得分m20.4110.580.5m30.590.5810.55d1d2d3m40.620.50.551m12.6353.412.725m23.0353.322.825最终预测性矩阵初次关联得分矩阵m32.993.623.2d1d2d3d1d2d3m43.113.173.135m11.7182.541.875m10.511.5m22.4932.612.325m21.51.33331m32.2952.82.688基于疾病相似性矩阵的预测得分m311.33331.5m42.5632.182.626d1d2d3m41.50.66671.5m10.81.671.025m21.951.91.825疾病相似性矩阵m31.61.982.175d1d2d3m42.0171.192.117d110.10.3d20.110.25d30.30.251图3.5预测计算过程图3.5.2局部结构相似性指标[165]基于结构相似性的单分网络链接预测算法常用的指标有共同邻居指标、[166][167][168][169][170]Salton指标、Jaccard指标、Sørensen指标、HPI指标、HDI指标、[171][172]LHN1指标、PA指标等。这些指标都是利用结点的度或者邻居等局部信息来衡量结点之间的相似程度,利用这些相似程度可以衡量结点之间的关系,我们d将单分网络结构相似性指标拓展至二分网络,用这些指标来计算疾病结点i和所m有miRNA结点j之间初次关联得分,下面给出具体定义如下。(1)二分网络共同邻居指标CN如果某疾病结点di和某miRNA结点mj共同邻居越多,即他们之间长度为3的通路越多,则我们认为疾病结点di和miRNA结点mj存在关联可能性越大,其定义为:BPCNRNCN(d,m)i,jij(3.5)(2)二分网络Salton指标在二分网络共同邻居指标的基础上,我们把疾病结点di和miRNA结点mj的43 基于生物网络的复杂疾病关联miRNA预测方法研究度数这些因素考虑进来,如果这结点的度数越小,共同邻居越多,则两个结点存在关联的可能性就越大,定义如下:NCN(d,m)saltonijRi,jdeg(d)deg(m)ij(3.6)该指数在单分网络中又名余弦相似性。(3)二分网络Jaccard指标单分网络Jaccard指标是Jaccard在100多年前提出来的,该指标在单分网络中是指用两个节点之间的共同邻居数目除以它们邻居的并集的数量,而由于二分网络的特点,疾病和miRNA邻居的并集就是疾病结点度数和miRNA结点度数之和,所以我们用两个节点之间的共同邻居数目除以它们的度之和。NCN(d,m)JaccardijRi,jdeg(d)+deg(m)ij(3.7)(4)二分网络Sørensen指标单分网络中Sørensen指标是指结点邻居集合交集的数量的2倍和结点度数和的比值,在二分网络中,我们也用两个结点共同邻居个数的2倍除以两个结点的度数之值来表示。2NCN(d,m)S?rensenijRi,jdeg(d)+deg(m)ij(3.8)所以,二分网络Jaccard指标大小是二分网络Sørensen指标大小的二分之一,在后续的讨论中,我们只讨论Sørensen指标。(5)二分网络HPI指标在有些单分网络中存在结点度数大的结点和其他结点相似的可能性更大,我们把单分网络的HPI指标(hubpromotedindex,大度节点有利)引入到二分网络中,其定义如下:NCN(d,m)HPIijRi,jmin(deg(d),deg(m))ij(3.9)(6)二分网络HDI指标在有些单分网络中小度结点更容易和其他结点相似,我们把单分网络的HDI指标(hubdepressedindex,大度节点不利)引入到二分网络中,其定义如下:44 博士学位论文NCN(d,m)HDIijRi,jmax(deg(d,)deg(m))ij(3.10)(7)二分网络LHN1指标单分网络LHN-1指标是指两个小度结点之间共同邻居数越多,两结点越相似,所这一假设的启发,我们定义二分网络的LHN1指标如下:NCN(d,m)LHN1ijRi,jdeg(d)deg(m)ij(3.11)在这里,分母越小(疾病结点和miRNA结点的度数越小),该指标的值越大。(8)二分网络PA指标单分网络的偏好连接指标PA指标(preferentialattachment)认为两个结点的度数越大,其连接的可能性就越大,我们定义二分网络的偏好连接指标如下:(3.12)以上指标都是在共同邻居的基础上做改进,只是归一方法有区别而已。通过以上任意指标,我们可以衡量疾病结点di和miRNA结点mj之间初次关联得分,如果疾病结点di和miRNA结点mj之间不存在连接或者他们之间不存在长度为3的通路的时候,不能判断他们之间的预测得分,这个时候,我们把两者之间的得分设为0,为了保证已知的实验验证的疾病和miRNA之间的关联得分较高,在求得全部初次关联得分后,在通过相似性求二次得分前,可把已存在关联的疾病结点和miRNA的得分设定为初次关联得分矩阵中的最大值。3.5.3基于相似性的二次得分计算基于功能相关的miRNA倾向与和表型相似的疾病关联这一假设,许多计算方法已经被提出用于预测潜在的疾病-miRNA的关联。在初次得分的基础上,我们引入疾病和疾病之间的相似性及miRNA之间的相似性得到基于疾病空间相似性和基于miRNA相似性的二次预测得分。(1)基于miRNA功能相似性的共同邻居预测得分计算基于miRNA功能相似性的共同邻居预测得分的基本思想是:如果某个miRNAmj与疾病di存在关联关系,其余与miRNAmj相似的miRNAmk与疾病di也会存在关联,我们用所有的miRNAmk与miRNAmj的功能相似性得分和miRNAmk跟疾病di的初次关联乘积之和作为miRNAmj与疾病di的二次预测关联得分。公式如下:45 基于生物网络的复杂疾病关联miRNA预测方法研究mFBMPBR(i,j)R(i,k)SIM(k,j)k0(3.13)FBM其中R(i,j)为基于miRNA功能相似性的疾病结点di和miRNA结点mj之PBR(i,k)dm间的二次预测得分,为疾病结点i和miRNA结点k之间的初次关联得分,SIM(k,j)为miRNA结点mk和miRNA结点mj之间的功能相似性得分。简单md而言,就是通过引入其余miRNA结点k和疾病i的关联得分来优化miRNA结点mj和疾病di的关联预测得分。(2)基于疾病功能相似性共同邻居预测得分d计算基于疾病功能相似性共同邻居预测得分的基本思想是:如果某个疾病i和miRNAmj与存在关联关系,其余与疾病di相似的疾病dk与miRNAmj也会存在关联,我们把其余所有疾病dk与疾病di的相似性得分和疾病dk跟miRNAmj的关联得分的乘积的和作为疾病di与miRNAmj的二次关联得分。nFBDPBR(i,j)Rk(,jk,j)SDD(k,i)k0(3.14)FBD其中R(i,j)为基于疾病功能相似性的疾病结点di和miRNA结点mj之间的PB二次预测得分,R(k,j)为疾病结点dk和miRNA结点mj之间的初次关联得分,SDD(k,i)为疾病dk和疾病di之间的相似性得分。简而言之,就是通过引入其余疾病结点dk和miRNA结点mj的初次关联得分来优化miRNA结点mj和疾病di的关联预测得分。3.5.4基于miRNA功能相似性和疾病功能相似性共同邻居的加权预测算法最后我们对基于疾病空间的二次预测得分和基于miRNA空间的二次预测FB得分的加权,把加权预测得分作为疾病di与miRNAmj的最终关联得分R(i,j)。FBFBMFBDR(i,j)(1)R(i,j)R(i,j)(3.15)FBM其中Ri,j为基于miRNA功能相似性的疾病结点di和miRNA结点mj之间的二FBD次预测得分,Ri,j为基于疾病功能相似性的疾病结点di和miRNA结点mj之间的二次预测得分,是权重系数,我们把定义为一个0到1之间的有理数。通过前面的介绍我们知道,如果疾病结点di和miRNA结点mj之间不存在连接或者他们之间没有共同邻居的时候,我们无法通过求两者之间通路长度为3的条数来得到他们之间的初次关联得分,也就是说如果我们直接用初次关联得分作为预测得分的话,对于孤立疾病(不和任何miRNA关联的疾病结点)和新miRNA46 博士学位论文(不和任何疾病关联的miRNA结点)是没有预测能力的。而我们通过引入疾病空间的相似性则解决了孤立疾病的预测问题,引入miRNA空间的相似性则解决了新miRNA预测问题,预测效果对比在下面两节做具体介绍。3.6实验结果及分析3.6.1模型的留一交叉验证算法描述我们通过留一交叉验证对我们提出的方法进行评估,算法基本流程图如算法3.1所示。我们的思想是遍历疾病结点和miRNA结点之间的所有关联,如果当前疾病结点di和当前miRNA结点mj之间无实验验证的关联,则利用已知的实验验证的疾病-miRNA关联矩阵AS信息计算所有疾病结点和所有miRNA结点之间的初次关联得分,利用家族信息和miRNA相似性重构miRNA相似性网络,利用AS和疾病表型相似性重构疾病相似性网络,接着通过miRNA相似性矩阵和疾病d相似性矩阵及初次关联得分计算二次关联得分和加权得分。如果当前疾病结点im和当前miRNA结点j之间存在实验验证的关联,则首先去除该关联,得到疾病结点和miRNA结点之间新的关联矩阵newAS,使用newAS信息计算所有疾病结点和所有miRNA结点之间的新的初次关联得分,利用newAS和疾病表型相似性重新计算疾病相似性网络,通过miRNA相似性矩阵和新的疾病相似性矩阵及新的初次关联得分计算疾病结点di和miRNA结点mj二次关联得分和加权得分。为了节省运算步骤,我们在留一验证最开始时利用AS等信息计算出所有疾病结点和所有miRNA结点的二次关联得分及加权得分,以便在后续的留一过程中调用。留一验证中得到的运算结果保存在预测得分矩阵Result中。3.6.2模型自身性能比较评估本节我们考虑六种情况时各类相似性指标的预测效果,六种情况分别为只利用已知关联信息的二分网络共同邻居情况下的预测性能(简称情况一)、利用基于miRNA功能相似性的共同邻居情况下的预测性能(没有对miRNA相似性网络重构)、利用基于miRNA功能相似性的共同邻居情况下的预测性能(利用miRNA家族信息对miRNA相似性网络进行重构)、基于疾病功能相似性的共同邻居情况下的预测性能(没有对疾病相似性网络重构)、基于疾病功能相似性的共同邻居情况下的预测性能(利用已知关联信息对疾病相似性网络进行重构)、基于miRNA功能相似性和疾病功能相似性共同邻居的加权情况下的预测性能。各种指标就是3.6节介绍的二分网络指标,即共同邻居指标、Salton指标、Jaccard指标、Sørensen47 基于生物网络的复杂疾病关联miRNA预测方法研究表3.6基于共同邻居的异构二分网络模型LOOCV算法算法3.1基于共同邻居的异构二分网络模型LOOCV算法输入:miRNA功能相似性矩阵MM,miRNA家族信息FAM,疾病表型相似性矩阵DD,已知的实验验证的疾病-miRNA关联矩阵AS。输出:疾病与miRNA关联预测得分值(1)for第i个miRNA(1≤i≤nm)(2)for第j疾病(1≤j≤nd)PBR(i,j)(3)利用AS信息计算第i个miRNA和第j个疾病之间的初次关联得分;(4)endfor(5)endfor(6)利用家族信息和miRNA功能相似性重构miRNA相似性网络;(7)利用已知关联AS及疾病表型相似性关系重构疾病相似性网络;(8)for第i个miRNA(1≤i≤nm)(9)for第j疾病(1≤j≤nd)(10)利用疾病相似性和初次关联得分计算第i个miRNA和第j个疾病之间的FBDR(i,j)二次预测得分;(11)利用miRNA相似性和初次关联得分计算第i个miRNA和第j个疾病之FBMR(i,j)间的二次预测得分;FBR(i,j)(12)计算加权预测得分;(13)endfor(14)endfor(15)for第i个miRNA(1≤i≤nm)(16)for第j疾病(1≤j≤nd)(17)if第i个miRNA和第j个疾病没有关联FBR(i,j)(18)第i个miRNA和第j个疾病关联得分为加权预测得分;(19)endif(20)if第i个miRNA和第j个疾病存在关联(21)在原来关联矩阵AS基础上去除第i个miRNA和第j个疾病之间的关联得到miRNA和疾病新关联矩阵newAS;(22)利用newAS及疾病相似性矩阵DD重新计算疾病相似性网络;PBFBDFBMFBMR(i,j)R(i,j)R(i,j)R(i,j)(23)重新计算、、、;(24)endif(25)保存结果预测结果至Result(i,j);(26)endfor(27)endfor48 博士学位论文指标、HPI指标、HDI指标、LHN1指标、PA指标。考虑到在二分网络中Jaccard指标和Sørensen指标基本一样,我们对这两个指标只讨论Sørensen指标。由于最后一种情况需要考虑到加权参数的影响,这种情况稍后我们再进行介绍,下面通过图3.6--图3.12这七张图来展示在黄金基准数据集中前面五种情况时利用7种指标计算得到的ROC曲线和AUC值。图3.6是利用二分网络共同邻居指标来计算的,其预测效果如下。二分网络共同邻居指标10.90.80.70.60.5truepositives0.40.3不加入相似结点信息(AUC=0.6734)利用miRNA相似性(无家族信息)(AUC=0.7438)0.2利用miRNA相似性(有家族信息)(AUC=0.7745)0.1基于疾病功能相似性预测(AUC=0.5822)基于疾病功能相似性预测(重构后)(AUC=0.6334)000.10.20.30.40.50.60.70.80.91falsepositives图3.6前五种情况下利用二分网络共同邻居指标计算得到的ROC曲线和AUC值从图3.6我们发现即使没有使用家族信息对miRNA重构,基于miRNA功能相似性的预测性能相比情况一也大幅提高,AUC从情况一的0.6734提高到0.7438,而利用家族信息重构miRNA网络后再次提升了预测准确度,AUC值达到了0.7745。但是基于疾病功能相似性的共同邻居情况下的预测性能却很不理想,其预测准确度相比情况一还降低了,AUC值分别为0.5822好0.6334,利用已知疾病-miRNA关联信息对疾病网络重构对预测准确度有一定的提升作用,使得AUC值从0.5822增大到0.6334。二分网络Salton指标预测性能变化情况和二分网络共同邻居指标类似,基于miRNA功能相似性可以大幅提高预测性能,而利用疾病功能相似性来预测则使得预测性能降低,利用家族信息重构可以提升预测性能,利用已知疾病-miRNA关联信息对疾病网络重构也能提升预测准确度,ROC曲线和AUC值用图3.7列出。二分网络指标Salton指标预测总体预测性能不佳,各种情况下均劣于二分网络共同邻居指标,最好情况是利用通过家族信息对网络重构,然后求基于重构miRNA49 基于生物网络的复杂疾病关联miRNA预测方法研究网络后的共同邻居情况下的预测性能,这时AUC值仅为0.7485。最坏情况下基于疾病功能相似性的共同邻居情况下的预测性能,AUC值只有0.5773。二分网络salton指标10.90.80.70.60.5truepositives0.40.3不加入相似结点信息(AUC=0.6488)利用miRNA相似性(无家族信息)(AUC=0.7231)0.2利用miRNA相似性(有家族信息)(AUC=0.7485)0.1基于疾病功能相似性预测(AUC=0.5773)基于疾病功能相似性预测(重构后)(AUC=0.6261)000.10.20.30.40.50.60.70.80.91falsepositives图3.7前五种情况下利用二分网络Salton指标计算得到的ROC曲线和AUC值第三个指标是Sørensen指标,这类指标的前五种情况的预测性能的总体趋势跟前面两类指标一样,图3.8给出了ROC曲线和AUC值,Sørensen指标的预测较Salton指标再次降低,AUC值最大只有0.7389,AUC值最小仅为0.5758。二分网络Sorensen指标10.90.80.70.60.5truepositives0.40.3不加入相似结点信息(AUC=0.6433)0.2利用miRNA相似性(无家族信息)(AUC=0.7154)利用miRNA相似性(有家族信息)(AUC=0.7389)0.1基于疾病功能相似性预测(AUC=0.5758)基于疾病功能相似性预测(重构后)(AUC=0.6250)000.10.20.30.40.50.60.70.80.91falsepositives图3.8前五种情况下利用二分网络Sørensen指标计算得到的ROC曲线和AUC值利用HPI指标的计算得到的ROC曲线和AUC值用图3.9给出,HPI指标有很好的预测性能,第一种情况时的AUC值达到了0.7289,利用家族信息重构miRNA50 博士学位论文网络后,基于miRNA功能相似性的共同邻居情况下的预测性得到的AUC值高达0.7934,最坏的情况下AUC值为0.6502。二分网络HPI指标10.90.80.70.60.5truepositives0.40.3不加入相似结点信息(AUC=0.7289)利用miRNA相似性(无家族信息)(AUC=0.7546)0.2利用miRNA相似性(有家族信息)(AUC=0.7934)基于疾病功能相似性预测(AUC=0.6502)0.1基于疾病功能相似性预测(重构后)(AUC=0.6760)000.10.20.30.40.50.60.70.80.91falsepositives图3.9前五种情况下利用二分网络HPI指标计算得到的ROC曲线和AUC值图3.10是利用HDI指标的计算得到的ROC曲线和AUC值情况,从图3.10可知,HDI指标也有很好的预测性能,第一种情况时的AUC值为0.7325,比HPI指标高近5%,而此时我们只使用了实验验证的疾病-miRNA关联信息进行预测,没有利用其余的任何信息。但基于miRNA功能相似性的共同邻居情况下的预测性能比HPI指标略低,最好情况时AUC值为0.7869,优于Sørensen、Salton及共同邻居指标。二分网络HDI指标10.90.80.70.60.5truepositives0.40.3不加入相似结点信息(AUC=0.7325)利用miRNA相似性(无家族信息)(AUC=0.7483)0.2利用miRNA相似性(有家族信息)(AUC=0.7869)基于疾病功能相似性预测(AUC=0.6484)0.1基于疾病功能相似性预测(重构后)(AUC=0.6818)000.10.20.30.40.50.60.70.80.91falsepositives图3.10前五种情况下利用二分网络HDI指标计算得到的ROC曲线和AUC值51 基于生物网络的复杂疾病关联miRNA预测方法研究第六个指标是LHN1指标,二分网络LHN1指标在情况一时AUC值也超过了0.7,为0.7127。重构miRNA网络后基于miRNA功能相似性的共同邻居情况下的AUC值低于HDI指标,为0.7736,比Sørensen、Salton标要好。二分网络LHN1指标10.90.80.70.60.5truepositives0.40.3不加入相似结点信息(AUC=0.7127)利用miRNA相似性(无家族信息)(AUC=0.7428)0.2利用miRNA相似性(有家族信息)(AUC=0.7736)基于疾病功能相似性预测(AUC=0.6544)0.1基于疾病功能相似性预测(重构后)(AUC=0.6777)000.10.20.30.40.50.60.70.80.91falsepositives图3.11前五种情况下利用二分网络LHN1指标计算得到的ROC曲线和AUC值最后来看二分网络PA计算得到ROC曲线和AUC值情况,二分网络PA指标也有较好的预测性能,最好情况时AUC值为0.7915,仅次于二分网络HPI指标的0.7936,但最坏情况下AUC值仅为0.5887。二分网络PA指标10.90.80.70.60.5truepositives0.40.3不加入相似结点信息(AUC=0.7163)利用miRNA相似性(无家族信息)(AUC=0.7542)0.2利用miRNA相似性(有家族信息)(AUC=0.7915)基于疾病功能相似性预测(AUC=0.5887)0.1基于疾病功能相似性预测(AUC=0.6477)000.10.20.30.40.50.60.70.80.91falsepositives图3.12前五种情况下利用二分网络PA指标计算得到的ROC曲线和AUC值52 博士学位论文从图3.6-图3.12可以看出,在只利用已知关联信息的二分网络共同邻居来预测时,利用共同邻居指标(CN)、Salton指标、Sørensen指标这三个指标作为衡量疾病-miRNA的预测得分的方法计算得到的AUC值均小于0.7,而大度结点有利(HPI)指标、大度结点不利(HDI)指标、LHN1指标和优先连接(PA)指标AUC值均大于0.7。在前面的分析我们知道,黄金基准数据集中有99种miRNA和51中疾病,理论上可能有5049种关联,我们仅利用已知的225个关联信息,不需要其余的任何额外信息,使用HDI指标计算的AUC值高达0.7325,预测效果令人满意。通过图3.6-图3.12还可以看出,利用miRNA功能相似性的共同邻居预测算法在黄金基准数据集上实施LOOCV的AUC值,在不利用家族信息的情况下,每一类指标的AUC值较只利用已知关联信息的二分网络共同邻居算法都有所提高,利用miRNA功能相似性共同邻居算法的预测AUC值均大于0.7,其中大度结点有利(HPI)指标预测AUC值达到0.7546,PA指标预测AUC值为0.7542。这些数据说明了我们引入miRNA之间功能相似性得分和初次关联得分之后作为二次预测得分的有效性。在前面分析知道,为了更准确的描述miRNA之间的相似性关系,我们通过引入家族相似性重构miRNA相似性,从图3.6-图3.12可知,任何一类指标的预测准确度较上一种情况均有提升,其中大度结点有利(HPI)指标和优先连接(PA)指标AUC值均超过0.79,这充分说明了用家族信息重构miRNA的有效性。第四种、第五种情况是我们在第一种情况的基础之上引入疾病功能相似性来进行预测。从图3.6-图3.12我们发现,这两种情况的AUC值较第一种情况的AUC值不升反降,究其原因,这主要是因为预测某个疾病di和miRNAmj之间的关联时,我们引入了其余全部疾病结点dk和miRNA结点mj的初次关联得分作为miRNA结点mj和疾病di的关联预测得分,由于疾病和疾病之间的相似性我们采用的是表型相似性,该相似性方法本身不能精准的刻画疾病之间的关系,又由于在计算时把全部疾病都引入了,这样带来了噪声,导致预测效果不够理想。第五种情况中我们利用已知关联信息对疾病相似性网络进行重构,7个指标的性能较第四种情况时没有网络重构时都有提升,预测准确度提升最多的是二分网络PA指标,AUC值从0.5887到0.6477,提高了10.79%,幅度最低的是HPI指标,AUC值从0.6502变化到0.6760,也提高了3.97%,这些数据再次验证了上面的原因分析,说明构建准确的网络有助于提升预测准确度。接下来验证基于miRNA功能相似性和疾病功能相似性共同邻居加权预测算法的预测效果,为了验证其加权后的效果,首先我们把只利用基于miRNA功能相似性(利用家族信息进行网络重构)和基于疾病功能相似性预测算法(利用已知关联进行疾病网络重构)在黄金基准数据集上采用各类指标预测得到的AUC值53 基于生物网络的复杂疾病关联miRNA预测方法研究用表3.7列出。表3.7基于疾病相似性和miRNA相似性预测AUC值方法CNSaltonSørensenHPIHDILHN1PAmiRNA相似性0.77450.74850.73890.79340.78690.77360.7915疾病相似性0.63340.62610.62500.67600.68180.67770.6477基于miRNA功能相似性和疾病功能相似性共同邻居的加权预测算法的AUC值用表3.8列出,第一列为公式3.15中的权重系数。通过表3.7和表3.8对比可以看出,当权重系数从0.1递增至0.6时,所有指标的的加权预测结果均比基于miRNA功能相似性共同邻居和疾病功能相似性共同邻居预测算法要好,大部分指标在权值取0.5时,AUC值达到最大,此时预测效果最佳。但权值从0.6递增至0.9时,预测效果受疾病功能相似性预测算法的拖累,AUC值逐渐降低。表3.7和表3.8的对比说明了综合两个网络的信息,有助于我们进行预测。表3.8黄金基准数据集中加权之后的AUC值权重系数CNSaltonSørensenHPIHDILHN1PA0.10.77550.74940.73970.79390.78760.77460.79230.20.77690.75060.74090.79470.78850.77560.79350.30.77860.75150.74190.79580.78920.77610.79470.40.77980.75210.74240.79670.78960.77610.79580.50.78030.75220.74220.79730.78920.77520.79590.60.77950.75150.74150.79710.78830.77330.79440.70.7770.74840.7380.79610.78540.77030.7910.80.76860.73960.72820.79110.77790.76310.78190.90.74010.70990.69970.77200.75640.74450.7541在预测数据集上实施LOOCV也是一样的效果,其预测的AUC值从小到大排序分别是:基于疾病功能相似性的共同邻居预测算法、基于重构后疾病相似性网络共同邻居预测算法、只利用已知关联信息的二分网络共同邻居算法、基于miRNA功能相似性(无家族信息)共同邻居预测算法、基于miRNA功能相似性(利用家族信息)共同邻居预测算法、基于miRNA功能相似性和疾病功能相似性共同邻居加权预测算法,由于篇幅所限,不列出其ROC曲线和AUC值。3.6.3相关方法比较在前面的讨论中,我们对算法模型自身性能比较进行了详细的分析,为了验54 博士学位论文[155]证我们的方法其他方法对比的优越性,接下来对RWRMDA算法和我们的方法分别在黄金基准数据集和预测数据集中实施LOOCV,RWRMDA算法重启参数如其文献所述,RWRMDA算法在黄金基准数据集中的AUC值为0.6732。我们的算法权值取0.5,RWRMDA和我们的算法预测效果的比较见图3.13。我们算法7种指标中预测性能最差的是Sørensen指标,AUC值为0.7422,而用HPI指标实验时AUC达0.7973,远大于RWR算法AUC值的0.6732。黄金基准数据集中和RWR算法对比10.90.80.70.60.5cn(AUC=0.7803)salton(AUC=0.7522)truepositives0.4sorenson(AUC=0.7422)hpi(AUC=0.7973)0.3hdi(AUC=0.7892)0.2lhn1(AUC=0.7752)pa(AUC=0.7959)0.1rwr(AUC=0.6732)000.10.20.30.40.50.60.70.80.91falsepositives图3.13我们的方法和RWRMDA在黄金基准数据集上的ROC曲线和AUC值为了验证我们的方法对数据集是否敏感,我们在预测数据集上进行对比实验,实验结果如图3.14所示,从图中可以看出,我们的算法和RWRMDA算法的预测准确度都大幅提升,RWRMDA的AUC值为0.8617,我们的算法在其7项指标中,LHN1指标的AUC值为0.8087,小于RWR算法,另外6项指标的AUC值均比RWR大,6项指标最小的AUC值是salton指标,为0.8815,比RWR的AUC值高2.3%,PA指标的AUC值为0.9349,远大于RWR,这些数据充分说明了我们提出的方法的优越性。当然,由于各项指标都是根据二分网络共同邻居个数产生的,其归一化方法根据疾病结点和miRNA结点的度数而不同,各项指标的预测性能自然会随着异构二分图的变化而产生不同的预测效果,即我们算法对数据集不敏感,有较好的预测效果,但部分指标还是对数据集有依赖,根据网络结点度数的不同分布而产生不同的预测效果。55 基于生物网络的复杂疾病关联miRNA预测方法研究预测数据集中miRNA和疾病相似性加权预测算法和RWR算法对比10.90.80.70.60.5cn(AUC=0.9222)salton(AUC=0.8815)truepositives0.4sorenson(AUC=0.8869)hpi(AUC=0.9202)0.3hdi(AUC=0.9084)lhn1(AUC=0.8087)0.2pa(AUC=0.9349)0.1rwr(AUC=0.8617)000.10.20.30.40.50.60.70.80.91falsepositives图3.14我们的方法和RWRMDA在预测数据集上的ROC曲线和AUC值3.6.4孤立疾病和新miRNA预测新miRNA是指和疾病关联信息未知的miRNA,随着miRNA识别技术的不断提高,越来越多的miRNA不断的被挖掘出来,他们大部分和疾病的关联关系未知,用生物实验方法鉴别miRNA和疾病的关联耗时耗力,如能通过计算的方法推断新miRNA和疾病的关联关系,可以减少对后续的生物实验方法的盲目性,帮助我们迅速确定其和疾病的关系,加速促进科学家对疾病分子机理的认知,有助于疾病的诊断和治疗。近年来,新miRNA和疾病的关联预测问题成为了疾病关联预测领域的热点。我们提出中,前面已经分析了只利用已知关联信息的二分网络共同邻居预测得分对于新miRNA没有预测能力,基于疾病功能相似性的共同邻居预测得分是利用疾病之间的相似性及疾病与miRNA之间的共同邻居信息来推断疾病和miRNA关联的概率大小,而新miRNA不和其它疾病相关联,所以这个得分对新miRNA也没有预测能力。对于新miRNA,基于miRNA功能相似性的共同邻居预测得分可以通过新miRNA和其他miRNA的关系以及其他miRNA和疾病之间的关联概率来推断新miRNA和疾病的关联概率,可用于新miRNA的预测,同理基于miRNA功能相似性和疾病功能相似性共同邻居的加权预测算法也可以用于新miRNA的预测,由于加权算法也是通过计算基于miRNA功能相似性的共同邻居预测得分来对新miRNA进行预测的,所以计算这两个得分来预测新miRNA的效果是一样的。我们通过LOOCV来验证加权算法对新miRNA的预测能力,为56 博士学位论文了模拟新miRNA,我们在对每个miRNA进行留一验证时,将其和其余所有疾病的关联关系均去掉,我们把算法在黄金数据集上的ROC曲线和AUC值用图3.15列出,从图中可以看出,对于新miRNA的预测,在各项二分网络共同邻居指标中,略低于图3.6-图3.12中的各项指标的AUC值,最高的AUC值为PA指标的0.7854,最低的是LHN1指标,也有0.7345,这充分说明了我们方法对于新miRNA有较好的有效性能。黄金基准数据中新miRNA预测10.90.80.70.60.5cn(AUC=0.7740)truepositives0.4salton(AUC=0.7413)sorenson(AUC=0.7415)0.3hpi(AUC=0.7775)hdi(AUC=0.7572)0.2lhn1(AUC=0.7345)pa(AUC=0.7854)0.1000.10.20.30.40.50.60.70.80.91falsepositives图3.15黄金数据集中对新miRNA的预测的ROC曲线和AUC值孤立疾病是指和miRNA关联信息的未知的疾病,孤立疾病的关联预测也有助于科学家对疾病分子机理的认知,有助于疾病的诊断和治疗。我们提出的方法中,只利用已知关联信息的二分网络共同邻居得分对于孤立疾病没有预测能力,基于miRNA功能相似性的共同邻居预测得分是利用miRNA之间的相似性及疾病与miRNA之间的共同邻居信息来推断疾病和miRNA关联的概率大小,而孤立疾病不和miRNA关联,所以计算该得分时对孤立疾病也没有预测能力。基于疾病功能相似性的共同邻居预测得分可以通过孤立疾病和其他疾病的关系以及其他疾病和miRNA之间的关联概率来推断孤立疾病和新miRNA的关联概率,可用于孤立疾病的预测,同理基于miRNA功能相似性和疾病功能相似性共同邻居的加权预测算法也可以用于孤立疾病的预测,并且计算这两个得分来对孤立疾病预测的效果是一样的。我们通过LOOCV来验证加权算法对孤立疾病的预测能力,为了模拟孤立疾病,我们在对每个疾病进行留一验证时,将该疾病与所有miRNA的关联均去掉,加权算法在黄金数据集上对孤立疾病预测的ROC曲线和AUC值用图3.16列出,从图中可以看出,本章提出的算法效果最好时AUC值只有0.6040,最差时AUC值仅为0.5623。我们在基于疾病功能相似性的共同邻居预测得分又引入疾病57 基于生物网络的复杂疾病关联miRNA预测方法研究关系重构和不引入关系重构均进行实验,发现预测结果均一样,这是因为我们对疾病网络的重构是利用已知疾病和miRNA的关联来进行重构的,而在模拟孤立疾病时,删除了已知关联,故这样的疾病网络重构方法对于孤立疾病的预测没有任何的帮助。这样的预测结果进一步验证了我们前面的分析,第一,我们对疾病之间的关系刻画不够精准,第二把全部疾病都引入,可能引入了噪声。黄金基准数据集中孤立疾病预测10.90.80.70.60.5cn(AUC=0.5664)truepositives0.4salton(AUC=0.5670)sorenson(AUC=0.5663)0.3hpi(AUC=0.6040)0.2hdi(AUC=0.5999)lhn1(AUC=0.5997)0.1pa(AUC=0.5623)000.10.20.30.40.50.60.70.80.91falsepositives图3.16黄金数据集中对孤立疾病的预测的ROC曲线和AUC值我们在预测数据集上对孤立疾病和新miRNA又进行同样的实验,结果也是一样:我们的算法对于新miRNA有较好的预测效果,但对于孤立疾病,虽然有一定的预测效果,但预测准确度还有待进一步提高。3.7实例研究为了验证我们的算法对已知疾病-miRNA关联的预测能力,我们采用疾病空间和miRNA空间加权算法(加权系数取0.5,相似性指标采用PA指标,疾病网络和miRNA都进行了重构)来对乳腺肿瘤(breastneoplasms)和结肠肿瘤(colonneoplasms)进行预测研究,首先利用实验验证的疾病-miRNA关联训练模型,然后用未知的关联作为测试验证集,最后所有的预测结果在更新的HDMM、mir2disease和dbDEMC三个数据库中验证,把两种疾病的预测排名前50的miRNA及验证证明用表3.9和表3.10分别列出。乳腺肿瘤是目前世界范围内一种危害女性健康的常见疾病,2015年美国约增加231840乳腺肿瘤病例,大约有40290个乳腺癌致死病例。据预测,到2050年美国每年将有近320万新乳腺肿瘤病例出现,约八分之一的美国女性可能会患上乳腺肿瘤,更多的乳腺癌患者的死亡都来自发展中国家,大多数妇女在在乳腺癌58 博士学位论文晚期才被诊断出来,因此迫切需要进一步的破解乳腺肿瘤的致病机理,以便在疾病早期进行治疗。最近越来越多的证据表明,miRNA和乳腺肿瘤密切相关,在其发生发展中起着重要的作用,例如let-7家族主要是抑制乳腺癌发展和迁移的肿瘤抑制因子,与良性乳腺病变相比,mir-10b在乳腺癌中上调,mir-122在乳腺癌细胞中下调,并通过靶向IGF1R来抑制肿瘤的发生。表3.9本章方法推断的前50个和乳腺肿瘤有关的miRNARankmiRNAnameevidencesRankmiRNAnameevidences1hsa-let-7bHMDD,dbDEMC26hsa-mir-195HMDD,dbDEMC2hsa-let-7eHMDD,dbDEMC27hsa-mir-192dbDEMC3hsa-let-7cHMDD,dbDEMC28hsa-mir-24HMDD,dbDEMC4hsa-let-7iHMDD,dbDEMC29hsa-mir-130adbDEMC5hsa-let-7gHMDD,dbDEMC30hsa-mir-372dbDEMC6hsa-mir-18bHMDD,dbDEMC31hsa-mir-135aHMDD7hsa-mir-106adbDEMC32hsa-mir-27aHMDD,mir2disease,dbDEMC8hsa-mir-98dbDEMC,miR2disease33hsa-mir-32dbDEMC9hsa-mir-30eUnconfirmed34hsa-mir-107HMDD,dbDEMC10hsa-mir-16HMDD,dbDEMC35hsa-mir-203HMDD,mir2disease,dbDEMC11hsa-mir-30aHMDD,dbDEMC36hsa-mir-182HMDD,mir2disease,dbDEMC12hsa-mir-92bdbDEMC37hsa-mir-150HMDD,dbDEMC13hsa-mir-92aHMDD,dbDEMC38hsa-mir-196bdbDEMC14hsa-mir-126HMDD,mir2disease,dbDEMC39hsa-mir-23bHMDD,dbDEMC15hsa-mir-29cHMDD,mir2disease,dbDEMC40hsa-mir-128bmiR2Disease16hsa-mir-223HMDD,dbDEMC41hsa-mir-335HMDD,mir2disease,dbDEMC17hsa-mir-181aHMDD,mir2disease,dbDEMC42hsa-mir-142Unconfirmed18hsa-mir-191HMDD,mir2disease,dbDEMC43hsa-mir-22HMDD,dbDEMC19hsa-mir-101HMDD,dbDEMC,miR2disease44hsa-mir-26amir2disease,dbDEMC20hsa-mir-99bdbDEMC45hsa-mir-130bdbDEMC21hsa-mir-373HMDD,mir2disease,dbDEMC46hsa-mir-95dbDEMC22hsa-mir-199bHMDD,dbDEMC47hsa-mir-28dbDEMC23hsa-mir-520bHMDD,dbDEMC48hsa-mir-181dmir2disease,dbDEMC24hsa-mir-15bdbDEMC49hsa-mir-148amir2disease,dbDEMC25hsa-mir-100HMDD,dbDEMC50hsa-mir-224HMDD,dbDEMC在预测数据集中有78个miRNA和乳腺肿瘤关联,我们利用这些已知关系采用基于共同邻居的异构网络链路预测模型进行预测,从表3.9可知,前50个59 基于生物网络的复杂疾病关联miRNA预测方法研究miRNA仅有2个没有被证实,第一个没有被证实的是hsa-mir-30e,排名第9位,第二个没有被上述数据库证实的是排名第42的hsa-mir-142。通过查询文献我们[173][174]发现lin等人证实了hsa-mir-30e在乳腺癌组织中下调,Isobe等人发现miR-142通过WNT信号通路调控人类乳腺癌癌干细胞的致瘤性,Schwickert等[175]人发现has-mir-142通过整合AlphaV,同步靶向WASL来抑制乳腺癌细胞侵袭。这些文献都是在上述三个数据库最后更新之后发表的,没有收集到数据库之中,这些证据进一步证实了我们方法对疾病关联miRNA预测推断的有效性。结肠肿瘤也被称为肠癌,是三种常见的癌症之一,占所有癌症病例的10%。结肠肿瘤是由结肠或直肠边界发展而来的癌症,早期检查的有效方法是乙状结肠镜或结肠镜检查,这是病人很少做的,因此很难发现,由于结肠肿瘤在早期阶段的检测率很低,对人们的生活造成了很大的威胁。新的生物标记物可能有助于提高结肠肿瘤的早期发现,最近研究发现在结肠肿瘤细胞中,miRNA的失调可以当做结肠肿瘤的诊断生物标记物,如miR-126和miR-145可以抑制结肠肿瘤细胞的生长,越来越多的和结肠肿瘤相关的miRNA被发现,对改善结肠肿瘤的检测也有帮助。在预测数据中,已知37个miRNA与结肠肿瘤的发生和发展关联,这里我们利用这些已知数据,使用基于共同邻居的异构二分网络miRNA与疾病关联链路预测模型针对结肠肿瘤进行实验。我们的方法预测的前50个与结肠肿瘤相关的miRNA中,有41个miRNA可以从更新的HMDD、miR2disease和dbDEMC等数据集中找到。第一没有被验证的是排序第6的hsa-mir-200a,第二个是排名第11的hsa-mir-92b,排名12和13的hsa-mir-34b和hsa-mir-34c也没有被验证,紧接着是排名16的hsa-mir-199a,排名30的hsa-mir-103,排名39的hsa-mir-373,排名45的hsa-mir-339和排名47的hsa-mir-219。对于这几个没有在上述三个数[176]据库中验证的miRNA,通过搜索相关文献得到了一些支持的证据。Pichler等人发现MiR-200a通过调节上皮细胞间质转移相关基因表达影响直肠癌患者预后。[177]Niu等人认为hsa-miR-92b可作为大肠癌循环miRNA中的参考基因。Hiyoshi[178]等人为了阐明miR-34家族在结肠癌发生的作用,用定量的RT-PCR测量了159名美国和113名中国结肠癌患者的肿瘤和邻近的非癌组织,发现所有的miR-34家族成员在结肠肿瘤中显著增加,并且增加了miR-34b、c的表达与癌症特定死亡率[179]相关。如Nonaka等人发现miR-199a可以作为大肠癌血清生物标志物,[180]Mussnich等人发现MiR-199a和miR-375通过靶向PHLPP1影响结肠癌细[181]胞对西妥昔单抗(cetuximab)的敏感性,Drusco等人发现hsa-miR-21、hsa-miR-103、hsa-miR-93、hsa-miR-31的上调和hsa-miR-566的下调是结肠癌转移[182]的标记,Tanaka等人发现miRNA-373的表观沉默在结肠癌细胞增殖中发挥了重要的调控作用。60 博士学位论文表3.10本章方法推断的前50个与结肠肿瘤关联的miRNA及验证证据RanmiRNAnameevidencesRanmiRNAnameevidenceskk1hsa-mir-98dbDEMC26hsa-mir-125adbDEMC,miR2Disease2hsa-mir-106bHMDD,mir2disease,dbDEMC27hsa-mir-181bdbDEMC,miR2Disease3hsa-mir-93dbDEMC28hsa-mir-15aHMDD,dbDEMC4hsa-mir-20bdbDEMC29hsa-mir-205HMDD,dbDEMC5hsa-mir-18bdbDEMC30hsa-mir-103HMDD6hsa-mir-200aUnconfirmed31hsa-mir-1dbDEMC7hsa-mir-429dbDEMC32hsa-mir-196adbDEMC,miR2Disease8hsa-mir-222dbDEMC33hsa-mir-135bHMDD,mir2disease,dbDEMC9hsa-mir-200cHMDD34hsa-mir-30adbDEMC10hsa-mir-29aHMDD,mir2disease,dbDEMC35hsa-mir-215dbDEMC11hsa-mir-92bUnconfirmed36hsa-mir-194dbDEMC12hsa-mir-34bUnconfirmed37hsa-mir-203dbDEMC13hsa-mir-34cUnconfirmed38hsa-mir-218dbDEMC14hsa-mir-25dbDEMC39hsa-mir-373Unconfirmed15hsa-mir-30ddbDEMC40hsa-mir-210dbDEMC16hsa-mir-199aHMDD41hsa-mir-302bHMDD,dbDEMC17hsa-mir-30bdbDEMC42hsa-mir-15bdbDEMC,miR2Disease18hsa-mir-16HMDD,dbDEMC43hsa-mir-181adbDEMC,miR2Disease19hsa-mir-146aHMDD,dbDEMC44hsa-mir-150dbDEMC20hsa-mir-29cdbDEMC45hsa-mir-339Unconfirmed21hsa-mir-125bdbDEMC46hsa-mir-451dbDEMC,miR2Disease22hsa-mir-30edbDEMC47hsa-mir-219Unconfirmed23hsa-mir-214dbDEMC48hsa-mir-133adbDEMC24hsa-mir-146bdbDEMC49hsa-mir-195dbDEMC25hsa-mir-9dbDEMC50hsa-mir-199bdbDEMC前人的计算预测方法也认为这些miRNA和结肠癌密切相关,如hsa-mir-92b,[183]hsa-mir-200a这两个miRNA在RLSMDA实例分析中均被预测到和结肠癌有关联,特别是hsa-mir-92b,其和结肠癌的关联位列RLSMDA预测的miRNA与疾病关联综合预测的第9位,位于和结肠癌相关的miRNA的第3位,位于用孤立疾病[24]预测时的第24位。DRMA在实例分析也预测到hsa-mir-199a和结肠肿瘤相关,[29][57][23]MCMDA、PBMDA、EGBMMDA在实例分析中均预测hsa-mir-199a、61 基于生物网络的复杂疾病关联miRNA预测方法研究[59]hsa-mir-200a和结肠肿瘤相关,GIMDA预测到hsa-mir-199a和结肠肿瘤相关。为了验证我们的算法对孤立疾病的预测能力,我们删除已知的与被验证疾病相关的miRNA关联,这一操作确保我们只利用了被验证疾病和其它疾病的相似性信息及和其它疾病有关联的miRNA信息。我们以乳腺癌和结肠癌作为病例研究,结果分别在表3.11和表3.12中列出。对于乳腺癌,我们删除了78个已知的乳腺癌与miRNA的关联,用我们的算法预测潜在的miRNA与乳腺癌的关联,在预测的前50个miRNA中全部可在HMDD、miR2disease和dbDEMC数据库中可以找到。表3.11孤立疾病推断时本章算法得到的前50个与乳腺肿瘤相关的miRNA及验证证据RankmiRNAnameevidencesRanmiRNAnameevidencesk1hsa-mir-21HMDD,mir2disease,dbDEMC26hsa-let-7gHMDD,dbDEMC2hsa-mir-17HMDD,dbDEMC27hsa-mir-181bHMDD,mir2disease,dbDEMC3hsa-mir-20aHMDD,dbDEMC28hsa-mir-141HMDD,mir2disease,dbDEMC4hsa-mir-155HMDD,mir2disease,dbDEMC29hsa-mir-127HMDD,mir2disease,dbDEMC5hsa-mir-18aHMDD,dbDEMC30hsa-mir-146bHMDD,miR2disease6hsa-let-7aHMDD,mir2disease,dbDEMC31hsa-mir-126HMDD,mir2disease,dbDEMC7hsa-mir-146aHMDD,mir2disease,dbDEMC32hsa-mir-143HMDD,mir2disease,dbDEMC8hsa-mir-19aHMDD,dbDEMC33hsa-mir-29bHMDD,mir2disease,dbDEMC9hsa-mir-16HMDD,dbDEMC34hsa-mir-106adbDEMC10hsa-mir-221HMDD,miR2disease35hsa-mir-9HMDD,dbDEMC11hsa-let-7eHMDD,dbDEMC36hsa-mir-199aHMDD,dbDEMC12hsa-mir-19bHMDD,dbDEMC37hsa-mir-106bHMDD,dbDEMC13hsa-mir-222HMDD,dbDEMC38hsa-mir-29cHMDD,dbDEMC14hsa-let-7bHMDD,dbDEMC39hsa-mir-132dbDEMC15hsa-mir-223HMDD,dbDEMC40hsa-mir-1dbDEMC16hsa-mir-125bHMDD,mir2disease,dbDEMC41hsa-mir-29aHMDD,dbDEMC17hsa-mir-92aHMDD,dbDEMC42hsa-mir-214dbDEMC18hsa-let-7dHMDD,mir2disease,dbDEMC43hsa-mir-205HMDD,mir2disease,dbDEMC19hsa-let-7cHMDD,dbDEMC44hsa-mir-101HMDD,dbDEMC,miR2disease20hsa-let-7iHMDD,mir2disease,dbDEMC45hsa-mir-191HMDD,mir2disease,dbDEMC21hsa-mir-145HMDD,mir2disease,dbDEMC46hsa-mir-181aHMDD,mir2disease,dbDEMC62 博士学位论文续表3.11孤立疾病推断时本章算法得到的前50个与乳腺肿瘤相关的miRNA及验证证据RankmiRNAnameevidencesRanmiRNAnameevidencesk22hsa-mir-34aHMDD,dbDEMC47hsa-mir-24HMDD,dbDEMC23hsa-mir-15aHMDD,dbDEMC48hsa-mir-203HMDD,mir2disease,dbDEMC24hsa-mir-200bHMDD,mir2disease,dbDEMC49hsa-mir-194dbDEMC25hsa-let-7fHMDD,mir2disease,dbDEMC50hsa-mir-150dbDEMC对于结肠癌,去除了37个已知的miRNA与结肠癌的关联,预测得到的前50个miRNA中,有48个miRNA在上述三个数据库中得到了确认,第一没有被验证的是排序第24的hsa-mir-199a,第二个是排名38的hsa-mir-200a。这两个miRNA均在前面结肠癌实例研究中被预测到,前文也介绍了很多文献表明这几个miRNA和结肠癌有关联,这里不在赘述。由于本文所使用的所有数据集都是在这些文献发表之前生成的,因此更加说明了我们提出的方法的可靠性能。因此,我们认为本章算法对孤立疾病的预测性能表现良好。表3.12孤立疾病预测时GSTRW预测得到的前50个与结肠癌相关的miRNA及验证证据RankmiRNAnameevidencesRankmiRNAnameevidences1hsa-mir-21HMDD,miR2Disease,dbDEMC26hsa-let-7iHMDD,dbDEMC2hsa-mir-17HMDD,dbDEMC27hsa-let-7fHMDD,dbDEMC3hsa-mir-20aHMDD,miR2Disease,dbDEMC28hsa-mir-143HMDD,miR2Disease,dbDEMC4hsa-mir-18aHMDD,miR2Disease,dbDEMC29hsa-let-7gHMDD,miR2Disease,dbDEMC5hsa-mir-155HMDD,miR2Disease,dbDEMC30hsa-mir-1dbDEMC6hsa-let-7aHMDD,miR2Disease,dbDEMC31hsa-mir-141HMDD,miR2Disease,dbDEMC7hsa-mir-19aHMDD,miR2Disease,dbDEMC32hsa-mir-146bdbDEMC8hsa-mir-16HMDD,dbDEMC33hsa-mir-127HMDD,miR2Disease,dbDEMC9hsa-mir-221HMDD,miR2Disease,dbDEMC34hsa-mir-9dbDEMC10hsa-mir-146aHMDD,dbDEMC35hsa-mir-106bHMDD,mir2disease,dbDEMC11hsa-mir-222dbDEMC36hsa-mir-126HMDD,dbDEMC12hsa-mir-15aHMDD,dbDEMC37hsa-mir-29bHMDD,miR2Disease,dbDEMC13hsa-mir-19bHMDD,miR2Disease,dbDEMC38hsa-mir-200aUnconfirmed14hsa-mir-145HMDD,miR2Disease,dbDEMC39hsa-mir-214HMDD15hsa-let-7eHMDD,dbDEMC40hsa-mir-25dbDEMC16hsa-mir-200bHMDD,dbDEMC41hsa-mir-29aHMDD,dbDEMC,miR2Disease17hsa-mir-125bdbDEMC42hsa-mir-205HMDD,dbDEMC18hsa-let-7bHMDD,miR2Disease,dbDEMC43hsa-mir-181adbDEMC,miR2Disease63 基于生物网络的复杂疾病关联miRNA预测方法研究续表3.12孤立疾病预测时GSTRW预测得到的前50个与结肠癌相关的miRNA及验证证据RankmiRNAnameevidencesRankmiRNAnameevidences19hsa-let-7dHMDD,dbDEMC44hsa-mir-132HMDD,dbDEMC20hsa-mir-181bdbDEMC,miR2Disease45hsa-mir-15bdbDEMC,miR2Disease21hsa-mir-92aHMDD,dbDEMC46hsa-mir-194dbDEMC22hsa-mir-34aHMDD,miR2Disease,dbDEMC47hsa-mir-106aHMDD,dbDEMC,miR2Disease23hsa-mir-223HMDD,miR2Disease,dbDEMC48hsa-mir-29cdbDEMC24hsa-mir-199aUnconfirmed49hsa-mir-30cHMDD,dbDEMC25hsa-let-7cHMDD,dbDEMC50hsa-mir-196adbDEMC,miR2Disease3.8小结本章受单分网络共同邻居的启发,结合二分网络的特点,给出了二分网络共同邻居的定义,在此基础上,定义了8个局部结构相似性指标来衡量结点之间的关联概率,即共同邻居指标、Salton指标、Jaccard指标、Sørensen指标、HPI指标、HDI指标、LHN1指标、PA指标。提出了几类计算疾病-miRNA预测得分计算方法,分别是:只利用已知关联信息的二分网络共同邻居链路预测得分、基于miRNA功能相似性的共同邻居链路预测得分、基于疾病功能相似性的共同邻居链路预测得分、基于miRNA功能相似性和疾病功能相似性共同邻居的加权链路预测算法。其中,只利用已知关联信息的二分网络共同邻居链路预测得分对孤立疾病和新miRNA没有预测能力,但该得分计算简单,仅利用实验验证的疾病-miRNA关联信息即可进行推断预测;基于miRNA功能相似性的共同邻居链路预测得分利用所有miRNA和特定疾病的关联概率来度量特定miRNA和特定疾病的关联程度,利用该得分能够大幅提升了预测准确度,但却不能用于孤立疾病的预测;基于疾病功能相似性的共同邻居链路预测得分利用所有疾病和特定miRNA的关联概率来度量特定疾病和特定miRNA的关联程度,由于疾病网络定义不够精准,引入所有疾病和特定miRNA之间的关联又带入了噪声,导致预测的AUC值较只利用已知关联信息的二分网络共同邻居链路预测得分不升反降,但该方法能够用与孤立疾病的预测;考虑到前面算法的优缺点,我们最后开发了基于miRNA功能相似性和疾病功能相似性共同邻居的加权链路预测算法,这个模型集中了以上方法的优点,预测准确度高。在实例研究中,我们对乳腺肿瘤和结肠肿瘤进行了预测,结果表明,我们的方法具有很好的预测推广能力。与目前最先进的计算方法相比,我们的方法实现简单、能够用在孤立疾病和新miRNA的预测、可解释性强,并且参数很少,仅利用很少的资源即可进行预测,因此,我们提出的计算方法可以作64 博士学位论文为生物实验有力的辅助工具。尽管我们的方法具有很多优点,但还是存在一些缺陷,首先,我们对疾病相似性网络和miRNA相似性网络的构建方法不够科学,如基于疾病功能相似性的共同邻居链路预测得分,预测准确度不升反降,第二,我们的方法是局部方法,只利用了局部的结构信息。在将来的研究中,为了避免噪声,我们打算只引入部分和待考查疾病密切相关的疾病的关联关系,使用更科学的度量方法来构建相似性网络。65 基于生物网络的复杂疾病关联miRNA预测方法研究第4章基于双层网络随机游走的全局相似性疾病关联miRNA预测miRNA的突变和失调和人类的疾病的产生与发展密切相关,预测潜在的与疾病相关的候选miRNA有助于疾病的预防、诊断和治疗。考虑到现有的推断潜在的疾病-miRNA联系方法存在预测准确度不高、对新miRNA及孤立疾病没有预测能力以及需要负样本等诸多缺点,我们用拉普拉斯算子获取网络的全局相似性,提出了一种双层网络随机游走的全局相似性疾病关联预测方法(aGlobalSimilaritymethodbasedonaTwo-tierRandomWalk,GSTRW)来揭示潜在miRNA和疾病之间的关联,GSTRW是一种全局性的方法,在没有负样本的情况下能够同时预测所有疾病和miRNA之间的关联关系,在黄金基准数据集上实施LOOCV实验的AUC值为0.8479,在预测数据集上取得的AUC高达0.9434,和前沿方法相比,GSTRW预测准确度高,对新miRNA及孤立疾病的预测优势尤为明显。案例分析中,我们将GSTRW用于乳腺肿瘤和结肠肿瘤进行实例研究,预测得到的miRNA和疾病关系大多得到了更新的HMDD、miR2disease和dbDEMC这三个数据集的验证,排名前50位准确率分别为92%和84%,孤立疾病的排名前50位准确率分别为98%和92%,最后我们将GSTRW用于潜在的miRNA和疾病关系的综合预测,得到未知关联排名前40只有3个关系对没有被数据库验证,所有未知关联通过搜索相关文献找到了支持证据,这些文献都是发表在数据库最后更新日期之后,这进一步说明了GSTRW是一种很有价值的计算工具,能够用于预测疾病-miRNA关联,也可进一步应用于揭示其他的生物学关联。4.1问题描述用计算的方法来揭示潜在的疾病-miRNA联系,一般从相似性网络构建来展开研究,其主流的方法是基于生物网络的方法,这类方法一般需要构建三种关系网络,分别是疾病结点和疾病结点的相似性关系、miRNA结点之间的相似性关系、已知的实验验证的疾病-miRNA结点的关系网络,预测潜在的与疾病相关的候选miRNA方法就是利用以上这三种已知的关系来推断未知的疾病结点和miRNA结点之间存在关联的概率的大小,其基本框架如图4.1。在前面几章已经介绍,目前有很多计算方法来推断疾病-miRNA的关系,但这些方法存在一些不足,第一个不足是有些方法预测过程中需要负样本数据,由66 博士学位论文于我们没有办法鉴定疾病和miRNA一定没有关联,所以疾病-miRNA关联的负样本是无法获取的;第二个不足是大部分方法预测准确度不高,第三是一些方法不能预测新miRNA和孤立疾病,第四是有些方法存在参数选择困难的问题,第五是有些方法对数据集敏感,没有好的泛化推广能力。我们上一章采用局部相似性预测取得了较好的预测效果,考虑到全局网络相似性较局部网络相似性可以更为有效的提高预测精度,本章我们提出一种双层网络随机游走的全局相似性疾病关联预测方法预测疾病-miRNA关联,该方法是一种利用全局相似性的方法,不需要负样本、能够用于孤立疾病和新的miRNA的预测,在不同的数据集上都表现出良好的预测性能,优于目前的前沿预测潜在的与疾病相关的候选miRNA方法。疾病5疾病相似性网络疾病1疾病4疾病2疾病3??miRNA相似性网络miRNA-1miRNA-2miRNA-4miRNA-3miRNA-6miRNA-5已证实关联待预测关联图4.1关联预测基本框架4.2GSTRW的基本流程GSTRW的基本工作流程分成五个步骤,分别是:1)数据获取与预处理,通过拉普拉斯算子获取所miRNA之间的全局相似性及全部疾病之间的全局相似性;2)分别利用已知的关系对疾病种子及miRNA种子优化处理;3)利用优化后的miRNA种子在疾病网络中游走得到一稳定向量,求该稳定向量和miRNA之间全局相似性矩阵的各向量的皮尔森系数,把求得的结果作为疾病和miRNA的预测得分;4)利用优化后的疾病种子在miRNA网络中游走得到一稳定向量,求该稳定67 基于生物网络的复杂疾病关联miRNA预测方法研究向量和疾病间全局相似性矩阵的各向量的皮尔森系数,把求得的结果作为miRNA和疾病的预测得分;5)对以上两个预测得分加权得到最终的疾病-miRNA关联预测得分,得分越高,则说明某miRNAmi越有可能导致某疾病dj,具体流程图见图4.2。miRNAfunctionalmiRNAfamilyTheknownmiRNA-diseasephenotypesimilaritySMinformationSMfamdiseaseassociationsASsimilaritySDmiRNA-miRNAsimilarityfamSIMi,jSMi,j1SMi,jtheinitialvectoroftheSIM:column-normalizedSD:column-normalizedtheinitialvectorofthequerymiRNAquerydiseasematrixofSIMmatrixofSDm={m1,m2,…,mn}d={d1,d2,…,dn}minSIM(m~m~)21(m~m2~~21~2m~i,jijii)mind~SDi,j(didj)(didi)i,ji,ji~1~1m1ISIMmd1ISDdsimM~:theglobalsimilarityofM:theoriginalinitialDi:theoriginalsimD~:theglobalsimilarityofjinitialvectorofmiRNAvectorofmiRNAmjdiseasediseaseditheoptimisedmmiRNAseedvectortheoptimisenddiseaseseedvector~~i~~jMMsimMm,mMDDsimDd,dDjjji0iiij0i1j1randomlywalkinthediseasenetworkrandomlywalkinthemiRNAnetwork~~~~~~Mt11SDMtM0Dt11SIMDtDirndM~:stablevectorobtainedrndD~:stablevectorobtainedthroughthediseasenetworkthroughthemiRNAnetworkFcorr(rndM~,simD~)~~dFmcorr(rndD,simM)TFw*F(1w)*Fmd图4.2GSTRW模型流程图68 博士学位论文4.3数据集处理(1)疾病语义相似性数据[36]Wang等人利用疾病在Mesh数据库中的属性来计算疾病之间的语义相似性,该方法应用很广,很多研究者利用该方法来计算疾病相似性后均取得了很好[53][13][13]的预测效果、,本章也将利用到该相似性数据,我们从文献的补充数据文件中得到该数据,用矩阵SD来表示疾病语义相似性的邻接矩阵,SD,i(j)表示疾病di和疾病dj之间的的语义相似性得分。(2)miRNA功能相似性数据miRNA相似的构造方法在第二章我们做了详细介绍,其中应用最成熟的方法[36]的是Wang等人提出了利用和miRNA相关疾病间的的语义相似性来推断miRNA相似性的方法,他们把计算得到的miRNA功能相似性数据做成了一个公开的数据库MISIM。我们从http://www.ncbi.nlm.nih.gov/下载获得该数据,矩阵SM来表示miRNA的邻接矩阵,SMi,j表示miRNAmi与miRNAmj之间的的功能相似性得分。(3)miRNA的家族信息数据[164]Bandyopadhyay等人认为同一家族的miRNA共同mRNA靶目标更多,同家[66]族内的miRNA具有更高的功能相似性。miRNA的家族信息从miRBase数据库fam中获得,矩阵SM记录了miRNA的家族信息,若两miRNA是处于同一家族,famSMi,j则对应设为1,否则置0。(4)已知实验验证的miRNA和疾病的关联数据miRNA和疾病关系对可以通过HMDD、miR2Diseas、dbDEMC、PhenimiR、[36]OncomiRDB这些数据库获得。Jiang等人构建了miR2Diseas数据库并且结合miR2Diseas和HMDD两个数据库整理了270对高质量的经过实验验证的miRNA[36]与疾病的关联数据,包含了51中疾病和和118种miRNA,于是我们首先从文献的补充数据资料中获得这些数据资料,由于其中19种miRNA在Wang的功能性[36]相似性数据集MISIM中无法找到,然后去除这些miRNA及其与疾病的关联,接去除部分相似性很高的疾病-miRNA关系对,最终留下99个miRNA、51个疾病包含225个疾病-miRNA对的数据,我们把该数据集称为黄金标准数据集。第[36]二个疾病-miRNA关联数据集直接从Wang的文献中中获得,经过数据处理后有1395个疾病-miRNA关联,包括271个miRNA和137个疾病,我们将这个数据集称为预测数据集。为了方便我们描述,我们用布尔矩阵AS表示疾病和miRNA之间的关联,AS(i,j)表示miRNAmi和疾病dj之间的关联,其值若为1,代表已知实验表明69 基于生物网络的复杂疾病关联miRNA预测方法研究miRNAmi和疾病dj有关联,其值若为0,表示该数据集中没有已知实验表明miRNAmi和疾病dj有关联,我们的主要工作,就是通过计算方法来推断这些没有实验支持的miRNA和疾病之间是否有关联。4.4miRNA相似性网络重构[164]Bandyopadhyay等人发现处于相同家族的miRNA共同mRNA靶目标越多,他们即具有更高的功能相似性,为了充分利用miRNA的家族信息,我们整合Wang等人计算的miRNA功能相似性得分和miRNA家族信息来构建miRNA相似性网络:famSIMi,jSMi,j1SMi,j(4.1)上式中SIMi,j表示信息融合后miRNAmi与miRNAmj之间的mmjSMfam为相似得分,SMi,j为miRNAi与miRNA之间的功能相似得分,mfammiRNA家族信息矩阵。当miRNAmi与miRNAj为同一家族时,SMi,j等于1,这时计算得到的两个miRNA的相似性得分为功能相似性得分的两倍,代表miRNA相似性越高。4.5基于拉普拉斯算子的全局相似性计算我们首先计算待查疾病与其它疾病的全局相似性、miRNA和其他miRNA的全局相关性。dd1,d2,,dnd这里用二进制向量代表考查疾病i的初始向量,对应疾d~病i对值设定为1,其余都为0。疾病之间的全局相似性通过拉普拉斯算子d来[184]获得,可通过公式4.2的优化问题来求解。221mindSDij,didjdidiij,i(4.2)在公式4.2中,前面一个为平滑惩罚项,SD是矩阵SD的列归一化矩阵,这一项保证了相似疾病的得分相似,第二个惩罚项获取了考查疾病与其他疾病之间的一致性,是一个平衡因子,其取值范围为0,1,该因子用来平衡公式4.2[184]中的两个惩罚项权重。公式4.2的近似解如下:1d~1ISDd(4.3)70 博士学位论文通过以上方法,可以求出疾病网络中所有疾病之间的全局相似性得分,用矩阵simD~表示。用同样方法可以获取查询miRNAm与其他miRNA的相似性:j1m~1ISIMm(4.4)SIM是矩阵SIM的列归一化矩阵,是一个平衡因子且)1,0(,miRNA网络中所有miRNA全局相似性矩阵记为simM~。4.6疾病种子和miRNA种子优化在miRNA与疾病相似网络中实施随机游走开始就要确定种子序列,我们考虑利用已知的疾病和miRNA的关联得到种子序列,对于孤立疾病和新miRNA,由于没有已知的关联,为了使得我们的算法能够运用于孤立疾病和新miRNA预测,我们需要将种子序列进行优化。(1)疾病种子优化d首先我们将已知的与查询疾病i和各miRNA的关联信息作为初始种子序Dim1,m2,,mmd列,这里用布尔向量表示查询疾病i与各miRNA的关联信息的初始向量,如果疾病di与miRNAmj有实验验证的关联,则对应元素的mj的值为1,否则为0。在初始状态时,孤立疾病的种子序列为{0,0,„,0},无法进行游走。考虑到相似疾病之间关联的miRNA也可能相似,这里引入与其相似疾病关联miRNA信息来解决孤立疾病-miRNA关联预测问题,疾病种子优化计算公式如公式4.5所示。njD~DsimD~d,dDiiij0j1(4.5)D~DdsimD~di,dji表示优化后种子初始向量,i是疾病i的原始种子初始向量。表示疾病di与其它疾病dj之间的全局相似性,此相似性可从在公式4.3算出d~中Djdd得到。0表疾病j的初始向量,即生物实验确认的疾病j和miRNA关系。N表示疾病个数,为权重平衡参数,用来平衡原疾病种子序列和相似疾病关联的miRNA信息之间的权重。简言之就是利用相似疾病和miRNA关系来改进疾病di的初始种子序列。(2)miRNA种子优化同样,为了我们的算法能够对新miRNA的疾病关联预测进行计算,我们采用类似方法对miRNA种子向量进行优化,公式如下:miM~MsimM~m,mMjjji0i1(4.6)71 基于生物网络的复杂疾病关联miRNA预测方法研究M~j表示求得的种子初始向量,Mj是miRNAmj的原始初始向量,用来记录初mm始状态miRNAj与各疾病的相互作用权值。若疾病与miRNAj存在实验验证的关联,则对应位置赋值为1,否则为0。simM~mj,mi表示miRNAmj与miRNAmiiMmm之间的全局相似性。0表示miRNAi的初始向量,也即已知的miRNAi的m疾病关联信息。为miRNA的总个数,是一个权重平衡参数,用来平衡原miRNA种子序列和相似miRNA关联的疾病信息之间的权重。4.7基于双层网络随机游走的全局相似性疾病-miRNA关联得分计算方法4.7.1GSTRW模型构建基于功能相似的miRNA通常与表型相似的疾病相关联这一假设,我们设计一种双层网络随机游走的全局相似性疾病关联预测方法GSTRW来揭示潜在miRNA和疾病之间的关联。我们希望:1)包含实验验证的疾病-miRNA关系;2)包含疾病之间的全局相似性;3)包含miRNA之间的全局相似性。4)包含miRNA家族信息。通过前面的分析,我们在整合miRNA家族信息来构建miRNA相似性网络的基础上,通过拉普拉斯算子获得miRNA、疾病的全局相似性,接着引入相似疾病(miRNA)的miRNA(疾病)关联信息对疾病(miRNA)种子结点序列进行优化,然后分别在miRNA全局相似性网络和疾病全局相似性网络中随机游走,获得两个稳定的分布后,分别用皮尔逊相关性计算疾病-miRNA关系的预测得分,最后对两个得分进行加权,得到最终的疾病-miRNA的关联得分。(1)优化后疾病种子在miRNA相似网络中随机漫游用公式4.5计算优化后疾病种子初始向量D~i在miRNA相似网络上进行随机漫游,直到信息分布向量趋于稳定,不再变化,计算公式如公式4.7所示。D~t11SIMD~tD~i(4.7)(0,1)D~上式中,SIM是相似矩阵SIM的列归一化矩阵,为重启概率,,tD~d为t次迭代时的信息分布值,i为优化后疾病i的种子序列。经过若干迭代之后,D~单个疾病概率空间达到稳定状态时向量用表示,停止迭代的条件是6D~D~10rndD~t1t,所有疾病在miRNA相似性网络中游走的结果用矩阵表示。最后求用稳定的分布向量和miRNA全局相似性之间的皮尔森系数,获得疾病72 博士学位论文在miRNA相似网络中获取的疾病-miRNA关联的预测得分,计算公式如下:Fcorr(rndD~,simM~)m(4.8)(2)优化后miRNA种子在疾病相似网络中随机漫游M~用优化后的miRNA种子序列j在疾病相似网络上进行随机漫游,游走公式如公式4.9所示。M~t11SDM~tM~j(4.9)SD是相似矩阵SD的列归一化矩阵,为重启概率,(0,1),M~j为优化后mM~的miRNAj种子序列,t代表t次迭代时的信息分布值。经过若干迭代之后,概6率空间达到稳定状态M~(M~t1M~t10)即可停止迭代。所有miRNA在疾病rndM~相似性网络中游走的结果用矩阵表示。最后求得稳定的分布向量和疾病全局相似性向量的皮尔森系数,获得miRNA在疾病全局相似网络中获取的疾病-miRNA关系的预测得分,计算公式见公式4.10。Fcorr(rndM~,simD~)d(4.10)(3)疾病关联miRNA得分计算为了使得预测结果更为准确,我们把疾病在miRNA全局相似网络中预测得分和miRNA在疾病全局相似网络中预测得分做加权得到最终的疾病-miRNA关联预测得分。TFw*F(1w)*Fmd(4.11)这里矩阵F中的第i行第j列F(i,j)代表miRNAmi和疾病dj的关联得分,得分越高,则表示他们的关联程度越高,w为权重系数,用来平衡两个网络中的预测得分值。4.7.2算法描述我们通过留一交叉验证对GSTRW进行评估,算法基本流程图如表4.1中算法4.1所示。首先利用家族信息重构miRNA矩阵,计算出疾病在miRNA全局相似网络中预测得分矩阵、miRNA在疾病全局相似网络中预测得分矩阵、加权预测d得分矩阵F。然后遍历所有的疾病和miRNA关联,如果当前疾病结点j和当前miRNA结点mi之间无实验验证的关联,则直接调用前面计算得到的F(i,j)作为最终的疾病-miRNA关联预测得分。如果当前疾病结点dj和当前miRNA结点mi之73 基于生物网络的复杂疾病关联miRNA预测方法研究间存在实验验证的关联,则去除该关联,重新利用新关联计算疾病-miRNA相互作用预测得分F(i,j)。留一验证中得到的运算结果保存在预测得分矩阵Result中。表4.1基于双层网络随机游走的全局相似性预测模型的LOOCV算法算法4.1基于双层网络随机游走的全局相似性预测模型的LOOCV算法输入:miRNA功能相似性矩阵MM,miRNA家族信息FAM,疾病表型相似性矩阵DD,已知的实验验证的疾病和miRNA关系矩阵AS。输出:疾病与miRNA关联预测得分值(1)利用家族信息和miRNA功能相似性重构miRNA相似性网络SIM;~;(2)利用图的普拉斯得分获取miRNA网络的全局相似性矩阵simM(3)利用图的普拉斯得分获取疾病网络的全局相似性矩阵simD~;(4)计算优化后的全部疾病种子;(5)计算优化后的全部miRNA种子;rndD~(6)计算全部疾病种子在SIM中随机游走的得分矩阵;Fcorr(rndD~,simM~)(7)计算向量间皮尔森系数m;rndM~(8)计算全部miRNA种子在DD中随机游走的得分矩阵;Fcorr(rndM~,simD~)(9)计算向量间皮尔森系数d;TFw*F(1w)*F(10)计算加权得分矩阵md;(11)for第i个miRNA(1≤i≤nm)(12)for第j疾病(1≤j≤nd)(13)if第i个miRNA和第j个疾病没有关联F(i,j)(14)第i个miRNA和第j个疾病关联得分为;(15)endif(16)if第i个miRNA和第j个疾病存在关联(17)在原来关联矩阵AS基础上去除第i个miRNA和第j个疾病之间的关联得到miRNA和疾病新关联矩阵newAS;(18)利用newAS等信息重新计算疾病种子D~i、miRNA种子M~j;(19)重新计算dj和mi的得分F(mi,j)、F(di,j)、F(i,j);F(i,j)(20)第i个miRNA和第j个疾病关联得分为;(21)endif(22)保存结果预测结果至Result(i,j);(23)endfor(24)endfor74 博士学位论文4.8实验结果与分析4.8.1参数选择及性能评估(1)参数选优本文提出的方法主要有四类参数,分别是:带重启的随机游走算法重启参数和,拉普拉斯算子平衡参数和,疾病种子和miRNA种子初始化权重平衡参数和,miRNA空间权重参数w。现对这四类参数的选择及及预测效果进行研究。在带重启的随机漫游算法中,和表示随机回调到源节点重新进行随机漫游的概率,和越大,则表示返回源点的概率越大。为了简便起见,我们把和设为一样大小。为验证和对预测结果的影响,将其他参数固定(==0.3,==0.9,w=0.5),改变和的值(以0.1为步长,从0.1到0.9进行变化)进实施LOOCV计算AUC值。计算得到的AUC值如图4.3中蓝色实线所示,从图中我们发现,当和从0.1增加到0.2时,AUC值增大,此时取得最大值,预测效果最佳,当和从0.2增加到0.9时,AUC值缓慢变小,我们认为和取0.2最佳。0.90.850.80.75Accuracy0.70.65therestartparametersequilibriumparameters0.6seedinitializationweightparametersmiRNAspaceweightparameter0.550.10.20.30.40.50.60.70.80.9Valuesofparameters图4.3参数变化对GSTRW预测性能影响图同样我们把miRNA网络中拉普拉斯算子平衡参数和疾病网络中拉普拉斯算子的平衡参数大小设为一样。为了验证拉普拉斯算子平衡参数对结果的作用,在前面的基础上使其它参数不变(==0.2,==0.9,w=0.5),然后逐渐增大75 基于生物网络的复杂疾病关联miRNA预测方法研究和的值(以0.1为步长)实施LOOCV,从图4.3中红色的实线可以看到,随着和的增大,AUC值缓慢变大,当==0.8时,AUC值达到最大,预测性能最为理想。为了对孤立疾病及新miRNA展开预测,以便提高预测准确度,我们对疾病种子和miRNA种子进行了初始化,初始化权重参数和为其余疾病-miRNA关系对疾病原始种子序列贡献率和其他miRNA和疾病的关系对miRNA种子序列的贡献率。为验证他们对模型预测效果的影响,同样把这两个值取一样大,然后在前面的基础上固定其他参数的值(==0.2,==0.8,w=0.5),逐渐增到和的值(以0.1为步长)进行交叉验证。从图4.3中可以看到,AUC值在和为0.2时最大,随着和的增大稍微有所降低,但变化不明显。为了得到最好的预测效果,要充分利用miRNA相似性信息和疾病相似性信息,我们采用了双层网络随机游走算法,利用疾病种子在miRNA网络中游走得到一稳定向量,求该稳定向量和miRNA全局相似性的皮尔森系数作为疾病在miRNA全局相似网络中的预测得分,用miRNA种子在疾病网络中游走得到一稳定向量,求该稳定向量和疾病全局相似性的皮尔森系数作为miRNA在疾病全局相似网络中预测得分,最后对这两个得分加权得到最终的疾病-miRNA关联预测得分。设miRNA网络权重参数为w(0w1),则1-w为疾病网络的权重,当w越大时代表miRNA网络的权重越大,表示我们希望预测结果更多的考虑miRNA信息,这时基于miRNA的功能相似性在疾病相关的miRNA预测中发挥了关键作用,而w越小时表示预测结果更多考虑疾病相关信息的预测结果。基于前面的讨论,我们固定其他参数的值(==0.2,==0.8,==0.2),然后改变w的值(从0变化到0.9)实施留一交叉验证。当w从0.1增大到0.6时,AUC值逐渐增大,当w从0.6增大到0.9时,AUC值逐渐变小,当w为0.4时,预测效果最好,这表明我们的预测结果更多的依赖于miRNA相似性。综上所述,在黄金基准数据集中我们参数的选择情况为:==0.2,==0.8,==0.2,w=0.6。(3)模型自身性能比较评估我们提出的方法GSTRW不仅在利用疾病种子在miRNA网络中游走,还利用miRNA种子在疾病网络中游走,我们在测试GSTRW自身预测性能时考虑了以下几种不同的情况:1)在miRNA网络和疾病双层网络中游走预测性能(简称:GSTRW);2)只在miRNA网络中游走预测性能;3)只在疾病网络中游走预测性能。采用了留一交叉验证在黄金基准数据集上进行验证,GSTRW参数取值为:==0.2,==0.8,==0.2,w=0.6,单网络游走参数计算方法如上所述,不再写出,根据上述三种不同情况绘制的ROC曲线和求得的AUC的值如图4.4所示。76 博士学位论文10.90.80.70.60.5truepositives0.40.3GSTRWintwospaces(AUC=0.8479)0.2GSTRWindiseasespace(AUC=0.7468)0.1GSTRWinmiRNAspace(AUC=0.7914)000.10.20.30.40.50.60.70.80.91falsepositives图4.4不同情况下基于LOOCV的GSTRW的ROC曲线和AUC值显然,GSTRW表现出非常好的预测性能,AUC的值为0.8479,而只在miRNA网络中游走AUC的值为0.7914,只在疾病网络中游走AUC的值为0.7468,这主要归功于GSTRW不仅在miRNA全局相似网络中游走,又在疾病全局相似性网络中游走,充分考虑了miRNA和疾病两种不同变量的全局相似性,而只在单一网络中游走则只考虑了miRNA或疾病的全局相似性。(4)相关方法比较[43]目前据我们所知,疾病-miRNA关联预测性能较好的方法有Xuan等人提出[13][52]的HDMP、Chen等人提出的RLSMDA、Chen等人提出的NetCBI。HDMP模型不可以测孤立疾病和潜在miRNA之间的关系,所以和本文的预测方法无可比性。RLSMDA和NetCBI这两个模型和GSTRW开发的背景、适用的数据对象基本一致,接下来我们在黄金基准数据集上对这三种算法来对比研究。基于上一节的考虑,我们把参数设为:==0.2,==0.8,==0.2,w=0.6,RLSMDA和NetCBI参数如其文中所述。实施LOOCV后实验结果如图4.5所示。从图中可以看出,GSTRW的AUC值为0.8479,RLSMDA留一交叉验证得到的AUC值为0.8059,NetCBI留一交叉验证得到的AUC值为0.8001,预测结果对比说明我们本章所提方法在预测性准确度上比RLSMDA和NetCBI更高。为了说明本章的算法有很好的泛化性能,接下来我们把三个算法在预测数据集上实施LOOCV,以比对三个算法的预测准确度。GSTRW、RLSMDA和NetCBI的ROC曲线和AUC值用图4.6列出。把图4.5和图4.6对比不难发现,GSTRW、RLSMDA和NetCBI三种算法在预测数据集上计算得到的AUC值较黄金基准数据集明显增大,从第三章表3.1知道,预测数据集的已知关联为1395个,而黄金基77 基于生物网络的复杂疾病关联miRNA预测方法研究准数据集的已知关联为225个,预测数据集中疾病平均度为10.18,而黄金基准数据集的平均度为4.41,预测数据集miRNA的平均度为5.15,而黄金基准数据集的平均度为2.27,显然预测集较黄金数据集的可利用的已知关联大幅增加,这样是的三种模型的预测准确度都有不同程度的提升。在预测数据集中,GSTRW的AUC值为0.9434比RLSMDA和NetCBI的AUC都要大,进一步说明了GSTRW优于RLSMDA和NetCBI。10.90.80.70.60.5truepositives0.40.30.2ourmethod(AUC=0.8479)RLSMDA(AUC=0.8059)0.1NetCBI(AUC=0.8001)000.10.20.30.40.50.60.70.80.91falsepositives图4.5黄金基准数据集中GSTRW、RLSMDA和NetCBI的ROC曲线和AUC值10.90.80.70.60.5truepositives0.40.3ourmethod(AUC=0.9434)0.2RLSMDA(AUC=0.9232)0.1NetCBI(AUC=0.9053)000.10.20.30.40.50.60.70.80.91falsepositives图4.6预测数据集中GSTRW、RLSMDA和NetCBI的ROC曲线和AUC值78 博士学位论文另外为了全方位对这三种算法进行比较,我们把RLSMDA、NetCBI及GSTRW实施留一交叉验证得到以召回率为横坐标、精确度为纵坐标绘制的PR曲线用图4.7列出,可以看出,GSTRW的AUPR比RLSMDA、NetCBI的AUPR要大,而AUPR值越大,代表预测性能越好。由此可见,本章提出的方法相比而言预测性能更好。1ourmethod0.9RLSMDANetCBI0.80.70.60.5Presicion0.40.30.20.1000.10.20.30.40.50.60.70.80.91Recall图4.7预测数据集中GSTRW、RLSMDA和NetCBI的PR曲线4.8.2孤立疾病和新miRNA的关联信息预测孤立疾病是指miRNA的关联信息完全未知的疾病,我们逐一删除待考查疾病和所有miRNA的关联信息来模拟孤立疾病,利用GSTRW对每种疾病均进行预测。采用了LOCV在黄金数据集进行了实验,预测得到的ROC曲线及AUC值如图4.8所示,GSTRW对孤立疾病预测的AUC值为0.7740,而上一章最大的AUC为HPI指标的0.6040,本章得分远大于上一章算法对孤立疾病的预测的AUC值,这说明了我们提出的方法用在孤立疾病的预测有着很好的效果。最近几年,与疾病之间关联关系不明的miRNA不断被发现,由于他们和疾病的相互关系完全未知,不可以利用已有的miRNA-疾病关系来进行预测,通过计算的方法推断新miRNA和疾病的关联关系难度很大。如同模拟孤立疾病一样,我们在预测过程中,把每个待考查的miRNA和全部疾病的关联信息一一删除,然后在没有任何已知关联的情况下利用GSTRW来进行预测潜在的与miRNA相关的疾病,同样采用留一交叉验证在黄金基准数据集上进行验证,预测得到ROC曲线如图4.8红色实线所示,其AUC值达到了0.7768,这说明了GSTRW对于推断新79 基于生物网络的复杂疾病关联miRNA预测方法研究miRNA潜在的疾病关系预测性能较好。图4.8黄金基准数据集中GSTRW对孤立疾病和新miRNA预测的ROC曲线4.8.3实例研究(1)具体疾病的相关miRNA预测前文已经验证了本文方法具有较好的预测性能,我们以预测数据集为基础对乳腺肿瘤和结肠肿瘤病例研究进行实例研究,以评估GSTRW的独立预测能力。首先采用GSTRW方法对这两种疾病进行预测,参数选择如前所述,然后在更新的HMDD、miR2disease和dbDEMC等数据集中查找预测结果,前人是否已经用生物实验证实疾病和miRNA间的关联,表4.2和表4.3分别列出了用我们的方法预测的前50位与乳腺肿瘤和结肠肿瘤相关的miRNA。乳腺肿瘤是目前威胁人类生命的疾病之一,2015年美国约增加231840乳腺肿瘤病例和40290个因乳腺肿瘤致死病例。更可怕的是,罹患乳腺肿瘤的人群数量仍然持续增加,据预测,到2050年,美国每年将有近320万新乳腺肿瘤病例出现,约八分之一的美国女性可能会患上乳腺肿瘤。miRNA和乳腺肿瘤有着高度相关,在乳腺肿瘤的形成中有miRNA的影响。例如,众所周知,let-7家族主要是抑制乳腺肿瘤发展和迁移的肿瘤抑制因子,与良性乳腺病变相比,mir-10b在乳腺肿瘤中上调,预测鉴别出和乳腺肿瘤相关的miRNA,对进一步帮助乳腺肿瘤的预防、治疗具有十分重要的意义。我们把GSTRW针对乳腺肿瘤进行病例分析,在预测数据集里,78个miRNA已经被证明与乳腺肿瘤有关,在我们通过GSTRW预测时,这些miRNA的预测值均排在前78位,关联未知的miRNA均排在78位之后,按推荐顺序用表4.2中列80 博士学位论文出,由GSTRW所推断的前50种与乳腺肿瘤有关的miRNA中有46种被更新的HMDD、miR2Disease及dbDEMC中个数据库所证实,其中前20个关联全部被证实,前40个miRNA仅有2个没有被证实,第一个没有被证实的是hsa-mir-30e,排名第23位,第二个是排名第40的hsa-mir-532,其余还有排名42和44的[173]hsa-mir-491、hsa-mir-142,然而lin等人证实了hsa-mir-30e在乳腺肿瘤组织中[185]下调。Ben-Hamo等人发现乳腺肿瘤患者通过hsa-miR-532靶向GATA3通路,[186]而GATA3调控对激素敏感的乳腺肿瘤表型的关键基因,Esposti等人于2017年发现mir-500a接近雌激素受体结合位点同has-mir-532、has-mir-188、has-mir-362、has-mir-501、has-mir-500b、has-mir-660和has-mir-502形成群集,除雌激素受体外,这一集群的表达受与乳腺肿瘤转移相关的细胞因子IL4的控[187]制。第三个没有被证实的是排名42的hsa-mir-491,但Shi等人发现hsa-mir-491在胃癌患者中下调,有抑制细胞增殖作用。第四个没有被证实的是排名44的[174]has-mir-142,Isobe等人发现miR-142通过WNT信号通路调控人类乳腺肿[175]瘤癌干细胞的致瘤性,Schwickert等人发现has-mir-142通过整合AlphaV,同步靶向WASL来抑制乳腺肿瘤细胞侵袭。前人用计算预测方法也认为这些miRNA[188]和结肠肿瘤有着密切的关联,如HDMP在实例分析预测到has-mir-142和乳腺肿瘤相关,由于这些研究证据都是在三个数据库的最后更新日期之后出现的,因此没有及时纳入数据库。在文献中发现的证据进一步证明了GSTRW预测新的疾病相关miRNA的可靠性。表4.2GSTRW预测得到的前50个与乳腺肿瘤相关的miRNA及验证证据RanmiRNAnameevidencesRanmiRNAnameevidenceskk1hsa-mir-16HMDD,dbDEMC26hsa-mir-32dbDEMC2hsa-let-7iHMDD,mir2disease,dbDEMC27hsa-mir-196bdbDEMC3hsa-let-7bHMDD,dbDEMC28hsa-mir-130adbDEMC4hsa-let-7eHMDD,dbDEMC29hsa-mir-98dbDEMC,miR2disease5hsa-let-7cHMDD,dbDEMC30hsa-mir-199bHMDD,dbDEMC6hsa-let-7gHMDD,dbDEMC31hsa-mir-335HMDD,mir2disease,dbDEMC7hsa-mir-373HMDD,mir2disease,dbDEMC32hsa-mir-137HMDD,dbDEMC8hsa-mir-92aHMDD33hsa-mir-224HMDD,dbDEMC9hsa-mir-92bdbDEMC34hsa-mir-192dbDEMC,10hsa-mir-223HMDD,dbDEMC35hsa-mir-182HMDD,mir2disease,dbDEMC11hsa-mir-126HMDD,mir2disease,dbDEMC36hsa-mir-27aHMDD,mir2disease,dbDEMC12hsa-mir-101HMDD,mir2disease,dbDEMC37hsa-mir-150HMDD,dbDEMC81 基于生物网络的复杂疾病关联miRNA预测方法研究续表4.2GSTRW预测得到的前50个与乳腺肿瘤相关的miRNA及验证证据RanmiRNAnameevidencesRanmiRNAnameevidenceskk13hsa-mir-191HMDD,mir2disease,dbDEMC38hsa-mir-124HMDD,mir2disease,dbDEMC14hsa-mir-29cHMDD,mir2disease,dbDEMC39hsa-mir-95dbDEMC15hsa-mir-18bHMDD,dbDEMC40hsa-mir-532Unconfirmed16hsa-mir-372dbDEMC41hsa-mir-520bHMDD,dbDEMC17hsa-mir-181aHMDD,mir2disease,dbDEMC42hsa-mir-491Unconfirmed18hsa-mir-203HMDD,mir2disease,dbDEMC43hsa-mir-183HMDD,dbDEMC19hsa-mir-106adbDEMC44hsa-mir-142Unconfirmed20hsa-mir-99bdbDEMC45hsa-mir-135aHMDD21hsa-mir-15bdbDEMC46hsa-mir-22HMDD,dbDEMC22hsa-mir-128bmiR2Disease47hsa-mir-23bHMDD,dbDEMC23hsa-mir-30eUnconfirmed48hsa-mir-449adbDEMC24hsa-mir-24HMDD,dbDEMC49hsa-mir-449bdbDEMC25hsa-mir-100HMDD,dbDEMC50hsa-mir-31HMDD,mir2disease,dbDEMC结肠肿瘤是美国因癌症相关死亡的第二大疾病,由于结肠肿瘤患者在患病初期只有轻微症状,所以很难在早期发现,近年来,罹患结肠肿瘤的病人越来越多,如果能够从分子角度对该疾病进行解释,在早期即对结肠肿瘤患者的诊断对提高生存率具有重要意义。现代医学发现,许多miRNA都被认为与结肠肿瘤有关,例如,hsa-mir-126和hsa-mir-145可以抑制了结肠肿瘤细胞的生长,研究人员通过使用原位杂交技术证实miR-21在结肠肿瘤细胞中具有较高的表达水平。我们利用GSTRW针对结肠肿瘤进行病例分析,在预测数据中有37个miRNA与结肠肿瘤的发生和发展有关。GSTRW预测的50个与结肠肿瘤相关的miRNA中,有42个miRNA可以从更新的HMDD、miR2disease和dbDEMC等数据集中找到。第一没有被验证的是排序第5的hsa-mir-199a,第二个是排名第8的hsa-mir-92b,第三个没有被验证的是排名12的hsa-mir-200a,第四个是排名19的hsa-mir-373。对于这几个没有在上述三个数据库中验证的miRNA,通过搜索相关[179]文献得到了一些支持的证据。如Nonaka等人发现miR-199a可以作为大肠癌[180]血清生物标志物,Mussnich等人发现MiR-199a和miR-375通过靶向[177]PHLPP1影响结肠肿瘤细胞对西妥昔单抗(cetuximab)的敏感性,Niu等人[176]认为hsa-miR-92b可作为大肠癌循环miRNA中的参考基因。Pichler等人发现MiR-200a通过调节上皮细胞间质转移相关基因表达影响直肠癌患者预后。Tanaka[182]等人发现miRNA-373的表观沉默在结肠肿瘤细胞增殖中发挥了重要的调控82 博士学位论文作用。表4.3GSTRW预测得到的前50个与结肠肿瘤相关的miRNA及验证证据RanmiRNAnameevidencesRanmiRNAnameevidenceskk1hsa-mir-125bdbDEMC26hsa-mir-429dbDEMC2hsa-mir-16HMDD,dbDEMC27hsa-mir-203dbDEMC,miR2Disease3hsa-mir-15aHMDD,dbDEMC28hsa-mir-106bHMDD,mir2disease,dbDEMC4hsa-mir-222dbDEMC29hsa-mir-194dbDEMC,miR2Disease5hsa-mir-199aUnconfirmed30hsa-mir-196adbDEMC,miR2Disease6hsa-mir-181bdbDEMC,miR2Disease31hsa-mir-302bHMDD,dbDEMC7hsa-mir-25dbDEMC,miR2Disease32hsa-mir-15bdbDEMC,miR2Disease8hsa-mir-92bUnconfirmed33hsa-mir-372dbDEMC,miR2Disease9hsa-mir-9dbDEMC34hsa-mir-181adbDEMC,miR2Disease10hsa-mir-29aHMDD,mir2disease,dbDEMC35hsa-mir-224dbDEMC,miR2Disease11hsa-mir-451dbDEMC,miR2Disease36hsa-mir-219Unconfirmed12hsa-mir-200aUnconfirmed37hsa-mir-183dbDEMC,miR2Disease13hsa-mir-34cmiR2Disease38hsa-mir-30ddbDEMC14hsa-mir-146aHMDD,dbDEMC39hsa-mir-218dbDEMC15hsa-mir-18bdbDEMC40hsa-mir-137HMDD,mir2disease,dbDEMC16hsa-mir-135bHMDD,mir2disease,dbDEMC41hsa-mir-30bdbDEMC17hsa-mir-205HMDD,dbDEMC42hsa-mir-339miR2Disease18hsa-mir-29cdbDEMC43hsa-mir-151dbDEMC19hsa-mir-373Unconfirmed44hsa-mir-30edbDEMC20hsa-mir-146bdbDEMC45hsa-mir-10adbDEMC,miR2Disease21hsa-mir-214dbDEMC46hsa-mir-31dbDEMC,miR2Disease22hsa-mir-34bdbDEMC,miR2Disease47hsa-mir-103Unconfirmed23hsa-mir-20bdbDEMC48hsa-mir-153Unconfirmed24hsa-mir-93dbDEMC,miR2Disease49hsa-mir-95dbDEMC,miR2Disease25hsa-mir-125adbDEMC,miR2Disease50hsa-mir-302dUnconfirmed前人用计算预测方法也认为这些miRNA和结肠肿瘤有着密切的关联,如[183]hsa-mir-92b、hsa-mir-200a这两个miRNA在RLSMDA的实例分析中均被预测[29]到和结肠肿瘤有关联,hsa-mir-199a、hsa-mir-200a这两个miRNA在MCMDA、[57][23]PBMDA、EGBMMDA中均被预测到和结肠肿瘤相关,hsa-mir-199a在[24][59]DRMDA和GIMDA中均被预测到和结肠肿瘤相关。由于本文所使用的所有83 基于生物网络的复杂疾病关联miRNA预测方法研究数据集都是在这些文献发表之前生成的,因此更加说明了我们提出的方法的可靠性能。(2)孤立疾病的预测为了验证GSTRW对孤立疾病的预测能力,我们删除已知的与被验证疾病相关的miRNA关联,这一操作确保我们只利用了被验证疾病和其它疾病的相似性信息及和其它疾病有关联的miRNA信息。我们以乳腺肿瘤和结肠肿瘤作为病例研究,结果分别显示在表4.4和表4.5中。对于乳腺肿瘤,我们删除了78个已知的乳腺肿瘤与miRNA的关联,用GSTRW预测潜在的miRNA与乳腺肿瘤的关联,在预测的前50个miRNA中,有49个在HMDD、miR2disease和dbDEMC数据库中可以找到。唯一一个没有得到数据库支持验证的是排名第46位的[189]hsa-mir-184,搜索相关文献发现Yang等人用免疫组化标记方法研究乳腺肿瘤亚型分类时,证明了现hsa-miR-365、hsa-miR-1238和hsa-miR-184表达存在差异。表4.4孤立疾病预测时GSTRW预测得到的前50个与乳腺肿瘤相关的miRNA及验证证据RanmiRNAnameevidencesRanmiRNAnameevidenceskk1hsa-mir-21HMDD,mir2disease,dbDEMC26hsa-mir-10aHMDD,mir2disease,dbDEMC2hsa-mir-146aHMDD,mir2disease,dbDEMC27hsa-mir-141HMDD,mir2disease,dbDEMC3hsa-mir-16HMDD,dbDEMC28hsa-let-7eHMDD,mir2disease,dbDEMC4hsa-mir-155HMDD,mir2disease,dbDEMC29hsa-mir-205HMDD,mir2disease,dbDEMC5hsa-mir-125bHMDD,mir2disease,dbDEMC30hsa-let-7dHMDD,mir2disease,dbDEMC6hsa-mir-17HMDD,dbDEMC31hsa-let-7bHMDD,dbDEMC7hsa-mir-34aHMDD,dbDEMC32hsa-let-7iHMDD,dbDEMC,miR2disease8hsa-mir-19aHMDD,dbDEMC33hsa-let-7cHMDD,dbDEMC9hsa-mir-15aHMDD,dbDEMC34hsa-let-7fHMDD,mir2disease,dbDEMC10hsa-mir-373HMDD,mir2disease,dbDEMC35hsa-mir-9HMDD,dbDEMC11hsa-mir-221HMDD,miR2disease36hsa-let-7gHMDD,dbDEMC12hsa-mir-20aHMDD,dbDEMC37hsa-mir-145HMDD,mir2disease,dbDEMC13hsa-mir-451HMDD,miR2disease38hsa-mir-146bHMDD,miR2disease14hsa-mir-18aHMDD,dbDEMC39hsa-mir-143HMDD,mir2disease,dbDEMC15hsa-mir-29cHMDD,dbDEMC40hsa-mir-181aHMDD,dbDEMC,miR2Disease16hsa-mir-29aHMDD,dbDEMC41hsa-mir-92bdbDEMC17hsa-mir-19bHMDD,dbDEMC42hsa-mir-127HMDD,mir2disease,dbDEMC18hsa-mir-222HMDD,dbDEMC43hsa-mir-29bHMDD,mir2disease,dbDEMC84 博士学位论文续表4.4孤立疾病预测时GSTRW预测得到的前50个与乳腺肿瘤相关的miRNA及验证证据RanmiRNAnameevidencesRanmiRNAnameevidenceskk19hsa-mir-302bHMDD,miR2disease44hsa-mir-137HMDD,dbDEMC20hsa-mir-92aHMDD,dbDEMC45hsa-mir-126HMDD,mir2disease,dbDEMC21hsa-mir-181bHMDD,mir2disease,dbDEMC46hsa-mir-184Unconfirmed22hsa-let-7aHMDD,mir2disease,dbDEMC47hsa-mir-15bdbDEMC23hsa-mir-372HMDD,dbDEMC48hsa-mir-101HMDD,dbDEMC,miR2disease24hsa-mir-200bHMDD,mir2disease,dbDEMC49hsa-mir-200aHMDD,mir2disease,dbDEMC25hsa-mir-223HMDD,dbDEMC50hsa-mir-150HMDD,dbDEMC对于结肠肿瘤,去除了37个已知的miRNA与结肠肿瘤的关联,用GSTRW预测得到的前50个miRNA中,有46个miRNA在上述三个数据库中得到了确认,第一个没有被验证的是排名第10的hsa-mir-373,第二个没有被验证的是排名第41的hsa-mir-92b,第三个是排名46的hsa-mir-199a,第四个是排名第48的hsa-mir-200a,这几个miRNA均在前面结肠肿瘤实例被预测到,前文也介绍了很多文献表明这几个miRNA和结肠肿瘤有关联,这里不在赘述。因此,我们认为GSTRW对孤立疾病的预测性能表现良好。表4.5孤立疾病预测时GSTRW预测得到的前50个与结肠肿瘤相关的miRNA及验证证据RanmiRNAnameevidencesRanmiRNAevidenceskkname1hsa-mir-21HMDD,miR2Disease,dbDEMC26hsa-mir-10adbDEMC,miR2Disease2hsa-mir-15aHMDD,dbDEMC27hsa-mir-141HMDD,miR2Disease,dbDEMC3hsa-mir-16HMDD,dbDEMC28hsa-let-7dHMDD,dbDEMC4hsa-mir-155HMDD,miR2Disease,dbDEMC29hsa-mir-205HMDD,dbDEMC5hsa-mir-17HMDD,dbDEMC30hsa-let-7bHMDD,miR2Disease,dbDEMC6hsa-mir-34aHMDD,miR2Disease,dbDEMC31hsa-let-7iHMDD,dbDEMC7hsa-mir-451dbDEMC,miR2Disease32hsa-mir-145HMDD,miR2Disease,dbDEMC8hsa-mir-19aHMDD,miR2Disease,dbDEMC33hsa-let-7fHMDD,dbDEMC9hsa-mir-125bdbDEMC34hsa-mir-223HMDD,miR2Disease,dbDEMC10hsa-mir-373Unconfirmed35hsa-let-7eHMDD,dbDEMC11hsa-mir-221HMDD,miR2Disease,dbDEMC36hsa-let-7cHMDD,dbDEMC12hsa-mir-20aHMDD,miR2Disease,dbDEMC37hsa-mir-9dbDEMC13hsa-mir-146aHMDD,dbDEMC38hsa-let-7gHMDD,miR2Disease,dbDEMC85 基于生物网络的复杂疾病关联miRNA预测方法研究续表4.5孤立疾病预测时GSTRW预测得到的前50个与结肠肿瘤相关的miRNA及验证证据RanmiRNAnameevidencesRanmiRNAevidenceskkname14hsa-mir-18aHMDD,miR2Disease,dbDEMC39hsa-mir-181adbDEMC,miR2Disease15hsa-mir-29cdbDEMC40hsa-mir-137HMDD,dbDEMC,miR2Disease16hsa-mir-29aHMDD,dbDEMC,miR2Disease41hsa-mir-92bUnconfirmed17hsa-mir-222dbDEMC42hsa-mir-127HMDD,miR2Disease,dbDEMC18hsa-mir-181bdbDEMC,miR2Disease43hsa-mir-126HMDD,dbDEMC19hsa-mir-19bHMDD,miR2Disease,dbDEMC44hsa-mir-29bHMDD,miR2Disease,dbDEMC20hsa-mir-302bHMDD,dbDEMC45hsa-mir-146bdbDEMC21hsa-mir-92aHMDD,dbDEMC46hsa-mir-199aUnconfirmed22hsa-let-7aHMDD,miR2Disease,dbDEMC47hsa-mir-15bdbDEMC,miR2Disease23hsa-mir-372dbDEMC,miR2Disease48hsa-mir-200aUnconfirmed24hsa-mir-143HMDD,miR2Disease,dbDEMC49hsa-mir-122dbDEMC25hsa-mir-200bHMDD,dbDEMC50hsa-mir-196adbDEMC,miR2Disease(3)疾病相关miRNA综合预测前面已经介绍在预测数据集中有已知的关系对1395对,我们利用GSTRW进行预测推荐排序后,除一个未知关系对的推荐排在某些已知关系对的推荐前面外,其余的未知关系对的推荐均排在已知关系对推荐的后面,该特殊未知关系对是排名第1392的hsa-mir-21和疾病黑色素瘤(Melanoma)关系对。造成这样的预测结果可能主要是因为已知关联中和hsa-mir-21关联的疾病最多,达到40种疾病,和黑色素瘤关联的miRNA也不少,达到50个miRNA,这些预测推荐结果也说明我们预测数据对已知关联的依赖性。我们把未知关联排名前40的通过表4.6列出,并且在更新的更新的HMDD、miR2disease和dbDEMC数据集中查询,发现只有3个关系对没有被验证,排名最靠前的是总体排序第1398位,未知关联推荐排序第3位的hsa-mir-659和精神分裂症(Schizophrenia)关系对,通过查阅资料我们[190]发现Wang等人预测到hsa-mir-659与CYMA5的A等位基因形成miRNA/SNP靶双链体,而CMYA5基因是汉族人群精神分裂症和重度抑郁症的风险因素。第二个没有得到验证的关系对是在未知关联推荐中排名第10位的hsa-mir-206和肌肉紊乱/萎缩症(MuscularDisorders,Atrophic)的关系对,但是Gambardella等人[191]发现和对照组比较,hsa-mir-206在肌张力营养障碍1型患者中的骨骼肌中过度[192]表达,Catapano等人发现miR-9、miR-206、miR-132等miRNA和神经肌肉疾病的发病机制有密切关系。第三个没有得到确认的关系对是has-miR-16和肺部肿[193]瘤这一关系对,Ma等人在非小细胞肺癌患者的血液中发现has-miR-16等1686 博士学位论文个miRNA差异表达,这些最新文献进一步证实了我们方法的有效性。表4.6GSTRW综合预测得到的前40对miRNA与疾病关联及验证证据推荐排miRNA疾病验证证据排名序13921hsa-mir-21MelanomaHMDD,dbDEMC13972hsa-mir-21AdrenocorticalCarcinomadbDEMC13983hsa-mir-659SchizophreniaUnconfirmed13994hsa-mir-34aOvarianNeoplasmsHMDD14005hsa-mir-21MedulloblastomaHMDD14016hsa-mir-155MelanomadbDEMCLeukemia,Lymphocytic,HMDD,mir2disease,dbDEMC14027hsa-mir-21Chronic,B-Cell14038hsa-mir-16BreastNeoplasmsdbDEMC14049hsa-let-7iBreastNeoplasmsHMDD,mir2disease,dbDEMCMuscularDisorders,140510hsa-mir-206AtrophicUnconfirmed140611hsa-mir-155EndometriosisdbDEMC140712hsa-mir-21AdenocarcinomaHMDD140813hsa-mir-21Lymphoma,B-CellHMDD,dbDEMC140914hsa-let-7bBreastNeoplasmsHMDD,dbDEMC141015hsa-let-7dOvarianNeoplasmsHMDD,dbDEMC141116hsa-mir-221NeoplasmsHMDD141217hsa-let-7eBreastNeoplasmsHMDD,dbDEMC141318hsa-mir-1RetinalNeovascularizationmir2disease141419hsa-mir-155ProstaticNeoplasmsdbDEMC141520hsa-mir-19aProstaticNeoplasmsdbDEMC141621hsa-mir-221OvarianNeoplasmsHMDD,mir2disease,dbDEMC141722hsa-mir-18aProstaticNeoplasmsdbDEMC141823hsa-let-7fOvarianNeoplasmsdbDEMC141924hsa-mir-125bNeoplasmsHMDD142025hsa-mir-18aPancreaticNeoplasmsHMDD,dbDEMC142126hsa-let-7cBreastNeoplasmsHMDD,dbDEMC142227hsa-mir-16LungNeoplasmsUnconfirmed142328hsa-mir-155Carcinoma,HepatocellularHMDD,mir2disease,dbDEMC87 基于生物网络的复杂疾病关联miRNA预测方法研究续表4.6GSTRW综合预测得到的前40对miRNA与疾病关联及验证证据推荐排miRNA疾病验证证据排名序142429hsa-mir-19aPancreaticNeoplasmsdbDEMC142530hsa-mir-34aPancreaticNeoplasmsHMDD142631hsa-mir-448HepatitisHMDDLymphoma,Primary142732hsa-mir-21Effusionmir2disease142833hsa-mir-16MelanomadbDEMC142934hsa-mir-141MelanomaHMDD,mir2disease,dbDEMC143035hsa-mir-127MelanomadbDEMC143136hsa-mir-125bMelanomadbDEMC143237hsa-mir-21LymphomaHMDD,dbDEMC143338hsa-let-7gBreastNeoplasmsHMDD,dbDEMC143439hsa-mir-221LungNeoplasmsHMDD,mir2disease,dbDEMC143540hsa-let-7cOvarianNeoplasmsHMDD,dbDEMC4.9小结miRNA与疾病的密切关系,越来越多的研究人员探索将miRNA用于疾病的诊断、分类和治疗,有效的识别疾病-miRNA的关联的计算方法能够为miRNA的实验研究提供帮助。在本章中,我们提出了一种基于双重网络全局相似性方法来预测预测潜在的与疾病相关的候选miRNA。在miRNA功能相似性、miRNA家族信息、疾病语义相似性的基础上,通过拉普拉斯算子获得miRNA、疾病的全局相似性,引入与其相似的疾病(miRNA)的miRNA(疾病)关联信息对疾病(miRNA)种子结点进行优化,然后分别在miRNA全局相似性网络和疾病全局相似性网络中随机游走,获得两个稳定的分布后,分别用皮尔逊相关性计算疾病-miRNA关系的预测得分,最后,对两个得分进行加权,得到最终的疾病-miRNA的关联值。通过交叉验证和实例研究发现,与其他最先进的计算方法相比,GSTRW可以同时对所有疾病和miRNA进行关联预测,预测性能较好,并且可进行孤立疾病和新miRNA的预测,对孤立疾病和新miRNA取得了很好的预测效果,对孤立疾病和新miRNA预测计算得到的AUC值分别为0.7768、0.7740。GSTRW卓越的性能主要归功于以下因素。首先,我们的算法综合了多种生物88 博士学位论文信息如miRNA功能相似性、miRNA家族信息、疾病相似性、疾病-miRNA等信息结合拉普拉斯算子来构建全局相似性网络,从而明显的提高了预测性能;其次是随机游走算法不仅在miRNA全局相似网络中游走,而且在疾病全局相似性网络中游走,充分考虑了miRNA和疾病的全局相似;第三是我们利用已知关联和相似性关系对疾病种子序列和miRNA种子序列进行了优化。GSTRW是一种很有价值的计算工具,用于预测疾病与疾病的关联,该方法也可进一步应用于揭示其他的生物学关联,如lncRNA-疾病、gene-疾病、drug-target关联等等。尽管我们的方法取得了良好的效果,但还存在一些局限性,首先是我们提出的方法参数较多,如何简单快速的确定GSTRW中的参数值还没有得到很好的解决,第二是相似性网络构建问题,更为合理的miRNA相似性和疾病相似性的构建方法能够帮助我们进一步提高预测性能,我们计划整合更多的生物相关信息来构建miRNA相似性关系和疾病相似性关系。89 基于生物网络的复杂疾病关联miRNA预测方法研究第5章基于网络一致性的信息扩散疾病关联miRNA预测方法研究miRNA和许多复杂疾病的发生发展相关,miRNA失调可以当作复杂疾病诊断生物标记物,用生物实验的方法预测预测潜在的与疾病相关的候选miRNA耗时耗力,通过计算方法推测潜在的miRNA和疾病关系是生物实验的有效补充,合理的构建疾病及miRNA相似性关系能够提高计算方法的预测准确度,为了构建合理的相似性关系,我们通过整合实验验证的疾病和miRNA关系、疾病之语义得分、拉普拉斯算子构建疾病全局相似性网络,利用miRNA家族信息、miRNA功能相似性、拉普拉斯算子构建miRNA全局相似性网络,综合加入全局相似性关系重构疾病和miRNA关系网络,结合全局相似性网络和重构的疾病-miRNA关联网络获取网络一致性扩散种子,利用随机游走算法获得稳定的扩散谱作为预测得分。通过LOOCV评估基于网络一致性的信息扩散方法潜在的疾病-miRNA关系的性能,在黄金基准数据集和预测数据集上得到的AUC值分别为0.8814和0.9512,优于我们前面两章提出的方法和他人的前沿方法。在实例研究中,我们同样选取乳腺肿瘤和结肠肿瘤来进行实验研究,在排名前50位的和相应疾病相关的miRNA预测中,被更新的HDMM、mir2disease和dbDEMC这数据库验证准确率分别为94%、90%,在孤立疾病病例预测中,排名前50位的miRNA中98%、94%被上述三个数据库证实,最后,我们把hsa-mir-21模拟成新miRNA进行预测,预测得到的前50位疾病中,有40位得到数据库的验证,其余的在最新文献中找到了支持证据,展现了我们提出的方法良好的预测能力。5.1问题描述用生物网络推测疾病-miRNA有关联的基本框在上一章已经做了介绍,这里不再赘述,为了取得良好的预测效果,我们希望算法具有不需要负样本、预测准确度高、能够用于孤立疾病和新miRNA预测和算法设计简单的优点,本章针对前面两章的优缺点,设计一种基于网络一致性的信息扩散疾病关联预测方法揭示潜在miRNA和疾病之间的关联。该模型综合了以下信息:1)实验验证的疾病-miRNA关系;2)疾病和其它疾病的全局相似性信息;3)miRNA和其它miRNA的全局相似性信息;4)利用向量间的一致性信息。我们在上一章使用全局网络相似性较局部网络相似性可以更为有效的提高预测精度的基础上,网络一致性是描述两个向量以同样的顺序与同一个对象的数据90 博士学位论文关系,可利用这两个向量的变化规律相似这一特点来获取两个向量的综合信息。综合这些信息,我们提出一种基于网络一致性的信息扩散方法来预测潜在的与疾病相关的候选miRNA,该方法在构建疾病、miRNA全局相似性网络的基础上,重新构建了两个疾病-miRNA关联网络,通过网络一致性来捕获向量的综合信息后采用信息扩散方法进行预测,实验结果表明本章提出的方法具有不需要负样本、可对孤立疾病和新的miRNA进行预测、算法设计简单等优点,在方法比较中,本章的算法在不同的数据集上优于其他方法,病例研究中更显示了算法良好的预测能力。5.2算法流程基于网络一致性的信息扩散法的基本工作流程分成五个步骤(见图5.1),分别是:1)利用实验验证的疾病和miRNA关系息、疾病之间的语义得分、拉普拉斯算子构建疾病全局相似性网络,利用miRNA家族信息、miRNA功能相似性、拉普拉斯算子构建miRNA全局相似性网络;2)利用生物实验确认的疾病和miRNA关系、miRNA结点间的全局相似性构建基于miRNA全局相似性信息的疾病-miRNA关联网络ASm,利用已知的疾病和miRNA关联信息疾病结点间的全局相MiRAN功能MiRAN家族已知的miRNA-疾病表型相似性得分SD相似性得分SM信息SMfam疾病信息ASmiRNA相似性得分疾病相似性得分SMi,jSMfam(i,j)SDASi,jSD(i,j)SIMi,jSDDi,j22miRNA全局相似性网络邻接矩阵疾病全局相似性网络邻接矩阵11SMLAPLACIAN1ISIMSDLAPLACIAN1ISDDASd(i,j)AS(i,j)ASm(j,i)AS(j,i)ndnmAS(i,k)SDLAPLACIANd,dSMLAPLACIANm,mAS(k,j)kjikk1k1SEEDMSDLAPLACIANASmSEEDDSMLAPLACIANASdMTDt1(i)1SDLAPLACIANDTMt1(j)1SMLAPLACIANMTDt(i)SEEDM(:,i)DTMt(j)SEEDD(:,j)MD(i,j)wMTD(i,j)(1w)DTM(i,j)图5.1基于网络一致性的信息扩散方法模型流程图91 基于生物网络的复杂疾病关联miRNA预测方法研究似性构建基于疾病全局相似性信息的疾病-miRNA关联网络ASd;3)利用疾病全局相似性网络和基于miRNA全局相似性信息的疾病-miRNA关联网络ASm获得miRNA一致性网络扩散种子,然后在疾病全局相似性网络中随机游走获得稳定的扩散谱作为基于miRNA的网络一致性信息扩散疾病-miRNA关联预测得分;4)利用miRNA全局相似性网络和基于疾病全局相似性信息的疾病-miRNA关联网络ASd获得疾病一致性网络扩散种子,然后在miRNA全局相似性网络中随机游走获得稳定的扩散谱作为基于疾病的网络一致性信息扩散疾病-miRNA关联预测算法;5)对以上两个预测得分加权得到最终的疾病-miRNA关联预测得分,得分越高,代表miRNA结点mi和疾病结点dj存在关联的概率越大。5.3数据预处理及相似性网络构建5.3.1数据预处理和前面一样,本章我们用到了两个数据集,首先从文献[36]下载了270个miRNA-disease关系对,去除19个在文献[36]中无法找到的miRNA,最终留下99个miRNA、51个疾病包含242个疾病-miRNA对,我们把该数据集称为黄金标准数据集。为了验证我们的方法对有较好的普适性,我们从文献[36]中下载了另一个疾病-miRNA关联数据集,这个数据集包含1616个经实验验证的人类miRNA-疾病关联,在合并不同miRNA的记录并统一了miRNA和疾病的名称后,最终保留了1395个疾病-miRNA关联,包括271个miRNA和137个疾病,我们将这个数据集称为预测数据集。miRNA-miRNA功能相似性得分从文献[36]下载,我们用矩阵SM来表示miRNA的邻接矩阵,SM(i,j)就是miRNAmi与miRNAmj之间的的功能相似性得分。疾病相似性数据从文献[115]中下载,我们用矩阵SD来表示疾病的邻接矩阵,SD(i,j)代表di和疾病dj间的相似性分值。miRNA的家族信息从miRBase数据库[66]SMfam表示miRNA的家族信息,若两miRNA是处于同一家中获得。用矩阵famSMi,j族,则对应设为1,否则置0。5.3.2相似性网络构建我们整合实验验证的疾病-miRNA的关系、疾病语义相似性得到疾病的相似性网络,然后利用拉普拉斯算子求得疾病全局相似来表示疾病之间的相似性,利用miRNA家族信息和miRNA功能相似性数据来构建miRNA相似性网络,通过求拉普拉斯算子获得miRNA全局相似来表示miRNA之间的相似性。(1)疾病全局相似性网络构建疾病全局相似性网络构建分三个步骤,首先通过已知的疾病和miRNA关联求得已知关联网络结构中的疾病相似性得分,然后把该得分和疾病之间的语义得分92 博士学位论文做加权,最后通过求加权后的网络的拉普拉斯得分求得疾病全局相似性网络。[36]基于表型相似的疾病倾向和功能相关的miRNA关联这一假设,我们认为导致两种疾病共同的miRNA越多,则疾病相似程度越高,在两个疾病共同miRNA一样多的条件下,如果导致这两种疾病的共有miRNA越少,则这两种疾病更相似,当疾病di和疾病dj之间没有相同的miRNA时,直接把已知关联网络得分设为0,公式如下:(5.1)SDAS(i,j)表示疾病di和疾病dj之间的相似性计算得分,comm(di,dj)代表两个疾病共同的miRNA数量,deg(di)和deg(dj)分别为疾病-miRNA二分网络中疾病di和疾病dj的度数(即疾病di和疾病dj关联的miRNA数量)。接着整合疾病语义相关性信息和基于已知关联网络结构得分来求得加权得分:(5.2)SDAS(i,j)表示疾病di和疾病dj之间的已知关联网络得分,SD,i(j)为疾病did和疾病j的语义相似性得分。从前面一章我们已经知道,通过求拉普拉斯算子可以获得网络结构中各个结点之间的全局相似性,我们把疾病结点之间的得分用全局相似性得分来表示,计算公式如下:1SDLAPLACIAN1ISDD(5.3)其中SDLAPLACIAN表示疾病全局相似性网络邻接矩阵,I为nd维单位矩阵,nd为疾病的总个数,SDD为加权得分矩阵SDD的归一化矩阵,为平衡因子其取值范围为)1,0(。(2)miRNA全局相似性网络构建miRNA全局相似性网络构建分两个步骤,首先利用Wang等人计算的miRNA相似性得分和miRNA家族信息来构建miRNA相似性网络,然后利用miRNA相似性网络的拉普拉斯得分求得miRNA全局相似性得分。我们在前面已经介绍Wang等人计算的miRNA相似性分值是通过已知疾病和miRNA的关联来求得的,为了给同一家族的miRNA之间赋予更高的得分值,我们采用如下公式来计算miRNA的相似性分值:93 基于生物网络的复杂疾病关联miRNA预测方法研究famSMi,jSM(i,j)SIMi,j2(5.4)其中SIMi,j代表融合两类信息后miRNA结点mi与miRNA结点mj之间mmjSMfam为的相似得分,SMi,j为miRNAi与miRNA间的功能相似得分,mfammiRNA家族信息矩阵。当miRNAmi与miRNAj处于相同家族时,SMi,j等于1,此时赋予两miRNA之间的得分更高。然后通过求拉普拉斯算子获得miRNA的全局相似性权值矩阵:1SMLAPLACIAN1ISIM(5.5)其中SMLAPLACIAN表示miRNA全局相似性网络得分矩阵,I为nm维单位矩阵,nm为miRNA的总个数,SIM为miRNA的相似性得分SIM的归一化矩阵,)1,0(是一个平衡因子且。5.4疾病-miRNA关联网络重构从前面分析我们知道,已知的实验验证的疾病-miRNA关联网络是一个布尔二分网络,不能完全表征疾病-miRNA关联的紧密程度,在这里我们利用疾病全局相似性和miRNA全局相似性分别对疾病-miRNA关联网络进行重构,分别记为基于miRNA全局相似性信息的疾病-miRNA关联网络ASm和基于疾病全局相似性信息的疾病-miRNA关联网络ASd。5.4.1构建基于miRNA全局相似性信息的疾病-miRNA关联网络ASm这里我们通过引入所有miRNA结点mk和疾病结点dj的关联信息及miRNA结点间的全局相似性来重构疾病结点dj和miRNA结点mi权值。计算公式如下:nmASm,j(i)AS(j,i)SMLAPLACIANm,mAS(k,j)ikk1(5.6)其中,ASm,j(i)为重构后疾病-miRNA二分网络中疾病结点dj到miRNA结点mi的权值,AS,i(j)为重构前疾病-miRNA二分网络中miRNA结点mi和疾病结点dj的权值(实验验证的疾病-miRNA布尔二分网络,若已知miRNA结点mi和疾d病结点j有关联,则记为1,反之为0),SA为AS的转置矩阵,mSMLAPLACIAN(mi,mk)为miRNA全局相似性网络中miRNA结点i和miRNA结m点k之间的权值。nm为miRNA的总个数,为平衡参数,用来平衡原疾病-miRNA关联矩阵和相似miRNA关联的疾病信息之间的权重。5.4.2构建基于疾病全局相似性信息的疾病-miRNA关联网络ASddm我们通过引入所有疾病结点k和miRNA结点i的关联信息及疾病结点间的94 博士学位论文全局相似性来重构miRNA结点mi和疾病结点dj的权值。计算公式如下:ndASd(i,j)AS(i,j)AS(i,k)SDLAPLACIANd,dkjk1(5.7)其中,ASd(i,j)为重构后疾病-miRNA二分网络中miRNA结点mi和疾病结点dj的权值,AS,i(j)为重构前疾病-miRNA二分网络中miRNA结点mi和疾病结点dj的权值(实验验证的疾病-miRNA布尔二分网络,若已知miRNA结点mi和疾d病结点j有关联,则记为1,反之为0),SDLAPLACIAN(dk,dj)为疾病全局相似性网络中疾病结点dk和疾病结点dj的权值。nd为疾病的总个数,为平衡参数。5.5基于网络一致性的信息扩散疾病关联预测方法研究5.5.1本章模型构建基于功能相似的miRNA通常与表型相似的疾病相关联这一假设,我们设计一种基于网络一致性的信息扩散疾病关联预测方法揭示潜在miRNA和疾病之间的关联。该模型综合了以下信息:1)实验验证的疾病-miRNA信息;2)疾病和其它疾病的全局相似性信息;3)miRNA和其它miRNA的全局相似性信息;4)利用网络一致性来描述两个向量以同样的顺序与同一个对象的数据关系,利用这两个向量的变化规律相似这一特点来获取两个异构网络的综合信息,用向量的投影来表示两向量的关联程度。(1)基于miRNA的网络一致性信息扩散疾病-miRNA关联预测算法首先,我们利用疾病全局相似性网络的邻接矩阵和基于miRNA全局相似性信息的疾病-miRNA关联网络ASm做矩阵乘法,得到miRNA一致性网络扩散种子。d在疾病全局相似性网络中,SDLAPLACIAN(j,:)表示的是疾病j与其余疾病结点之m间的全局相似性大小,ASM(:,i)表示的是miRNA结点i与其余所有疾病结点的关联大小,此时,我们用网络一致性来描述SDLAPLACIAN(j,:)和ASM(:,i)都是相关的疾病结点以同样的顺序与疾病dj及miRNA结点mi这两个不同的对象的数据关系,这两个向量的变化规律相似,SDLAPLACIAN(j,:)在ASM(:,i)上的投影的即表示了综合了疾病-miRNA信息关联网络和疾病全局相似性网络这两个异构网络的信息之后的miRNA结点mi和疾病结点dj的关联程度,全部miRNA结点和疾病结点的关联程度计算如下:SEEDMSDLAPLACIANASm(5.8)接下来,为了更为准确刻画miRNA结点和疾病结点的关联程度,我们通过随机游走算法在疾病全局相似性网络中行走,捕获得到稳定的信息分布量称为稳定的扩散谱,进而用稳定扩散谱时的数据来表示miRNA结点和疾病结点的关联大95 基于生物网络的复杂疾病关联miRNA预测方法研究m小。该矩阵归一化后每一列作为miRNA结点i和全部疾病结点关联的种子序列,依次用这些种子序列在疾病一致性网络的邻接矩阵中SDLAPLACIAN随机扩散,获得稳定的扩散谱,计算公式如下:MTDt1(i)1SDLAPLACIANMTDt(i)SEEDM(:,i)(5.9)公式5.9中SEEDM(:,i)为矩阵SEEDM列归一之后第i列信息,该列向量为mmiRNA结点i和全部疾病结点关联的种子序列,SDLAPLACIAN为疾病一致性网络MTD(i)的邻接矩阵SDLAPLACIAN的列归一化矩阵,为重启概率,t向量表示经MTD(i)过t次迭代后信息值,经过若干迭代之后,概率空间达到稳定状态用表示,6MTD(i)MTD(i)10t1t停止迭代的条件是,达到稳定状态时该向量的各个值为mmiRNA结点i和全部疾病的关联得分,所有miRNA结点和各个疾病结点的关联得分用矩阵MTD表示。(2)基于疾病的网络一致性信息扩散疾病-miRNA关联预测算法和上面类似,在miRNA全局相似性网络中,SMLAPLACIAN(i,:)表示的是mmiRNA结点i与其余miRNA结点之间的全局相似性大小,Asd(:,j)表示的是疾病d结点j与其余所有miRNA结点的关联大小,此时,我们用网络一致性来描述SMLAPLACIAN(i,:)和Asd(:,j)都是相关的miRNA结点以同样的顺序与miRNA结点mi及疾病dj这两个不同的对象的数据关系,这两个向量的变化规律相似,SMLAPLACIAN(i,:)在Asd(:,j)上的投影的即表示了综合了两个异构网络的信息之后miRNA结点mi和疾病结点dj的关联程度。我们利用miRNA全局相似网络邻接矩阵和基于疾病全局相似性信息的疾病-miRNA关联网络ASd做矩阵乘法,得到疾病一致性网络扩散种子,公式如下:SEEDDSMLAPLACIANASd(5.10)d通过上面公式求得疾病结点j种子矩阵,该矩阵归一化后每一列作为疾病结d点j和全部miRNA关联的种子序列,依次用这些种子序列在miRNA一致性网络的邻接矩阵中SMLAPLACIAN随机扩散,获得稳定的扩散谱。DTMt1(j)1SMLAPLACIANDTMt(j)SEEDD(:,j)(5.11)上式中SMLAPLACIAN为miRNA一致性网络的邻接矩阵SMLAPLACIAN的列DTM(j)归一化矩阵,为重启概率,t向量表示经过t次迭代后信息值,经过若干6迭代之后,概率空间达到稳定状态DTM(j)(DTMt1(j)DTMt(j)10)即可停d止迭代。该向量的各个值代表疾病j和全部miRNA的关联得分,所有疾病和各个miRNA的关联得分用矩阵DTM表示。(3)基于网络一致性的信息扩散的疾病关联预测方法最后,整合基于miRNA的网络一致性信息扩散的疾病-miRNA关联预测算法96 博士学位论文得分和基于疾病的网络一致性信息扩散疾病-miRNA关联预测算法得分形成最终的预测得分。MD(i,j)wMTD(i,j)(1w)DTM(i,j)(5.12)公式5.12中MD(i,j)就是miRNA结点mi和疾病结点dj的最后预测得分,该分值越大,代表miRNA结点mi和疾病结点dj存在关联的概率越大。5.5.2算法描述我们通过留一交叉验证对我们提出的方法进行评估,算法基本流程图如算法5.1所示。我们的思想是遍历疾病结点和miRNA结点之间的所有关联,如果当前疾病结点dj和当前miRNA结点mi之间无实验验证的关联,则分别计算出疾病全局相似性网络、miRNA全局相似性网络等信息,最后计算基于疾病的网络一致性信息扩散疾病-miRNA关联预测得分。如果当前疾病结点dj和当前miRNA结点mi之间存在实验验证的关联,则首先去除该关联,得到疾病结点和miRNA结点之间新的关联矩阵newAS,利用newAS和疾病表型相似性重新计算疾病全局相似性网络,重新计算基于miRNA全局相似性信息的疾病-miRNA关联网络ASm、基于疾病全局相似性信息的疾病-miRNA关联网络ASd、基于miRNA的网络一致性信息扩散的疾病结点dj-miRNA结点mi得分MTD(j,i)、基于疾病的网络一致性信息扩散的miRNA结点mi-疾病结点dj得分DTM(i,j),最后整合全局信息计算基于网络一致性的信息扩散的miRNA结点mi-疾病结点dj得分MD(i,j)。为了节省运算步骤,我们在留一验证最开始时利用AS等信息计算出所有疾病结点和所有miRNA结点的基于网络一致性的信息扩散的疾病关联预测得分矩阵MD,以便在后续的留一过程中调用。留一验证中得到的运算结果保存在预测得分矩阵Result中。表5.1基于网络一致性的信息扩散方法模型的LOOCV算法算法5.1基于网络一致性的信息扩散方法模型的LOOCV算法输入:miRNA功能相似性矩阵MM,miRNA家族信息FAM,疾病表型相似性矩阵DD,已知的实验验证的疾病-miRNA关联矩阵AS。输出:疾病与miRNA关联预测得分值(1)利用家族信息和miRNA功能相似性计算miRNA相似性得分;(2)计算miRNA全局相似性网络矩阵SMLAPLACIAN;(3)利用已知关联AS及疾病表型相似性关系重构疾病相似性得分;(4)计算疾病全局相似性网络邻接矩阵SDLAPLACIAN;(5)计算基于miRNA全局相似性信息的疾病-miRNA关联网络ASm;(6)计算基于疾病全局相似性信息的疾病-miRNA关联网络ASd;97 基于生物网络的复杂疾病关联miRNA预测方法研究续表5.1基于网络一致性的信息扩散方法模型的LOOCV算法算法5.1基于网络一致性的信息扩散方法模型的LOOCV算法(7)计算基于miRNA的网络一致性信息扩散疾病-miRNA关联预测得分矩阵MTD;(8)计算基于疾病的网络一致性信息扩散疾病-miRNA关联预测得分矩阵DTM;(9)计算基于网络一致性的信息扩散的疾病关联预测得分矩阵MD;(10)for第i个miRNA(1≤i≤nm)(11)for第j疾病(1≤j≤nd)(12)if第i个miRNA和第j个疾病没有关联(13)第i个miRNA和第j个疾病关联得分为MD(i,j);(14)endif(15)if第i个miRNA和第j个疾病存在关联(16)在原来关联矩阵AS基础上去除第i个miRNA和第j个疾病之间的关联得到miRNA和疾病新关联矩阵newAS;(17)利用newAS等信息重新计算疾病全局相似性网络SDLAPLACIAN;(18)重新计算ASm、ASd、MTD(j,i)、DTM(i,j)、MD(i,j);(19)第i个miRNA和第j个疾病关联得分为MD(i,j);(20)endif(21)保存结果预测结果至Result(i,j);(22)endfor(23)endfor5.6实验结果分析5.6.1参数选择本章提出的方法主要有四类参数,分别是:构建疾病全局相似性网络的平衡因子,构建miRNA全局相似性网络平衡因子;基于miRNA全局相似性网络信息的疾病-miRNA关联网络ASm重构平衡参数,基于疾病全局相似性信息的疾病-miRNA关联网络ASd重构平衡参数;信息扩散重启参数和;基于网络一致性的信息扩散疾病关联miRNA预测得分权重参数w。现对这四类参数展开讨论。在信息扩散过程中,和表示随机回调到源节点重新进行随机游走的概率,和越大,则返回源点几率越大,为了简便起见,我们把和设为一样大小。为验证和对预测效果的影响,首先将另外三类参数固定(====w=0.5),逐步增大改变和的值(以0.1为步长,从0.1到0.9进行变化)在黄金基准数据集上进行交叉验证并计算AUC值,其实验结果如98 博士学位论文图5.2所示,实验中我们发现,当和从0.1增加到0.9时,AUC值逐渐增大,从0.7656增大到0.8460,在0.9时取得最大值,取得了最好的预测性能。0.90.880.860.840.82Accuracy0.80.78信息扩散重启参数构建全局相似性网络平衡因子0.76疾病-miRNA关联网络重构平衡参数基于miRNA的网络一致性信息扩散权重参数0.740.10.20.30.40.50.60.70.80.9Valuesofparameters图5.2参数变化对模型的预测准确度影响接着我们把构建疾病全局相似性网络的平衡因子和构建miRNA一致性网络的平衡因子大小设为一样。为验证衡因子和对对预测结果的影响,在前面求得当==0.9的基础上,保持另外参数值不变(==0.9,==w=0.5),接着逐渐增大和的值(以0.1为步长,从0.1到0.9进行变化)。从图5.2中可以看到,随着和的增大,AUC值逐渐变小,当==0.1时,AUC值取得最高值,此时预测效果最佳。为了更为准确的衡量疾病-miRNA相互关系,我们用利用疾病全局相似性和miRNA全局相似性分别对疾病-miRNA关系网络进行重构,平衡参数和决定了其他疾病、其他miRNA对疾病-miRNA关系网络的贡献率。为验证平衡参数和对预测结果的影响,同样,在前面已经求得的参数基础上,我们保持其他参数的值不变(==0.9,==0.1,w=0.5),逐渐增大和的值(从0变化到0.9)来进行实验。交叉验证中发现AUC值从0.1时的0.8670变化至0.2时的0.8748,0.3时为0.8745,0.4时为0.8743,和取这三个值时求得的AUC值区别不大,从0.4时开始缓慢递减,随着和的增大AUC值越来越小,到0.9时递减至0.8618。为了得到最好的预测效果,我们通过对基于miRNA的网络一致性信息扩散疾病-miRNA关联预测算法得分和基于疾病的网络一致性信息扩散疾病-miRNA99 基于生物网络的复杂疾病关联miRNA预测方法研究关联预测算法得分加权得到最终的疾病-miRNA关联预测得分。设基于miRNA的网络一致性信息扩散疾病-miRNA关联预测得分权重参数为w(0w1),则1-w为基于疾病的网络一致性信息扩散疾病-miRNA关联预测得分的权重,当w越大时代表基于miRNA的网络一致性信息扩散疾病-miRNA关联预测得分的权重越大,表示我们希望预测结果更多的考虑基于miRNA的网络一致性信息扩散疾病-miRNA关联预测得分信息,而w越小时表示预测结果更多考虑基于疾病的网络一致性信息扩散疾病-miRNA关联得分的预测结果。基于前面的讨论,我们固定其他参数的值(==0.9,==0,1,==0.3),然后改变w的值(从0变化到0.9),当w从0.1增大到0.7时,AUC值逐渐增大,当w从0.7增大到0.9时,AUC值逐渐变小,当w为0.7时,预测效果最好,AUC取得最大值0.8814,当和取0.2和0.4时进行实验,也是类似结果,即当w为0.7时,预测效果最好。最终我们确定参数为:==0.9,==0,1,==0.3,w=0.7。5.6.2模型性能比较评估(1)模型自身性能比较评估本章我们提出了一种基于网络一致性的信息扩散疾病关联miRNA预测模型,该方法是整合基于miRNA的网络一致性信息扩散疾病-miRNA关联预测得分基于疾病的网络一致性信息扩散疾病-miRNA关联预测得而成。在相似性网络构建中,我们又采用不同的方法对疾病和miRNA进行了重构,用全局相似性得分作为相似性得分来衡量结点间的关系。我们测试模型时考虑了以下三类九种情况:1)不考虑miRNA网络重构基于miRNA的网络一致性信息扩散;2)不考虑疾病网络重构基于疾病的网络一致性信息扩散;3)不考虑网络重构基于网络一致性的信息扩散;4)利用家族信息重构miRNA网络后基于miRNA的网络一致性信息扩散;5)利用家族信息重构miRNA网络后基于疾病的网络一致性信息扩散;6)利用家族信息重构miRNA网络后基于网络一致性的信息扩散;7)对疾病和miRNA网络均重构后基于miRNA的网络一致性信息扩散;8)对疾病和miRNA网络均重构后基于疾病的网络一致性信息扩散;9)对疾病和miRNA网络均重构后基于网络一致性的信息扩散。根据上述不同情况在预测数据集上取上一节确定参数为:==0.9,==0,1,==0.3,w=0.7计算得到的ROC曲线和AUC值如图5.3。从图5.3可知,基于miRNA的网络一致性信息扩散方法、基于疾病的网络一致性信息扩散方法、基于网络一致性的信息扩散方法预测准确度逐渐提高,无网络重构、用家族信息重构miRNA网络、对疾病和miRNA网络均重构也是预测准确度逐渐提高。在使用全部信息时的AUC值达0.8814,而无网络重构基于miRNA的网络一致性信息扩散方法AUC值仅0.7171。这充分说明我们重构网络方法的有效性及用加权方法整合两种得分的可行性。100 博士学位论文不同情况下AUC值比较10.90.80.70.60.5truepositives0.4无网络重构在miRNA中扩散(AUC=0.7171)0.3无网络重构在疾病网络中扩散(AUC=0.7758)无网络重构两网络加权(AUC=0.8596)0.2利用家族信息重构在miRNA网络中扩散(AUC=0.7425)利用家族信息重构在疾病网络中扩散(AUC=0.7815)0.1利用家族信息重构两网络信息加权(AUC=0.8711)利用全部信息在miRNA网络中扩散(AUC=0.7463)0利用全部信息在疾病网络中扩散(AUC=0.7986)00.10.20.30.40.50.60.70.80.91利用全部信息两网络信息加权falsepositives(AUC=0.8814)图5.3三类九种情况中留一交叉验证时的ROC曲线和AUC值(2)相关方法比较[13][52]我们将本章提出的算法与RLSMDA,NetCBI这两种种经典计算方法及我们上一章提出的算法GSTRW进行比较。在LOOCV评估中,每个实验验证的疾病-miRNA关联被视为测试样本,而其他已知的关联被视为训练样本,无已知关联证据的疾病-miRNA关联被认为是候选样本。在黄金基准数据集中,NetCBI的AUC值为0.8001,RLSMDA的AUC值为0.8059,GSTRW的AUC值为0.8479,本章提出的算法的AUC值为0.8814,本章算法远优于其他三种方法,这四种方法在黄金基准数据集上的ROC曲线和AUC值见图5.4。基准数据集上和其他方法AUC值比较10.90.80.70.60.5truepositives0.40.3GSTRW(AUC=0.8479)0.2RLSMDA(AUC=0.8059)NetCBI(AUC=0.8001)0.1我们的方法(AUC=0.8814000.10.20.30.40.50.60.70.80.91falsepositives图5.4黄金基准数据集上我们的方法和其他方法比较的ROC曲线和AUC值101 基于生物网络的复杂疾病关联miRNA预测方法研究为了避免数据依赖,我们在预测数据集上进一步对这四种方法进行比较验证,预测数据集上这四种方法的AUC值都大幅提升,如图5.5所示,NetCBI的AUC值为0.9053,RLSMDA的AUC值为0.9232,GSTRW的AUC值为0.9434,而本章提出的算法的AUC值为0.9512,这主要是源于可利用的疾病-miRNA关联数量增多,构建的相似性网络更准确,从而使得预测准确率增高。无论是在黄金基准数据集,还是在预测数据集上,本章提出的方法都展现出了强大的预测能力,特别是在实验验证的疾病-miRNA关联数量较少时,由于本章提出的方法利用了网络全局相似性和网络一致性,本章提出的算法有更多的优势。预测数据集上和其他方法AUC值比较10.90.80.70.60.5truepositives0.40.3GSTRW(AUC=0.9434)RLSMDA(AUC=0.9232)0.2NetCBI(AUC=0.9053)我们的方法(AUC=0.9512)0.1000.10.20.30.40.50.60.70.80.91falsepositives图5.5预测数据集上我们的方法和其他方法比较的情况(3)新miRNA和孤立疾病预测新miRNA是指和疾病关联未知的miRNA,随着大量未知的miRNA被挖掘出来,新miRNA预测问题在疾病-miRNA关联预测中变得更为重要。本章同样采用LOOCV对新miRNA进行预测,我们逐一将被验证的miRNA与所有疾病的已知联系去除,把他们模拟成新miRNA,在黄金基准数据集上,本章方法的AUC值为0.8087,其ROC曲线见图5.6,比RLSMDA、NetCBI对普通疾病预测的AUC值还要高,这说明我们的方法对新miRNA有很好的预测能力。孤立疾病是指和miRNA关联未知的疾病,孤立疾病的预测也是疾病-miRNA关联预测一个亟待解决的难题,同样,为了测试本章对孤立疾病的预测性能,我们逐一把每个疾病和全部miRNA的关联都去掉,使用留一交叉验证得到的ROC曲线和AUC值用图5.6列出,从图中可以看出,本章提出的算法对孤立疾病预测的AUC值为0.7562,这说明我们的方法对孤立疾病也有一定的预测能力,但预测准确度还有待继续提高。我们也在预测数据集中对孤立疾病和新miRNA进行预测,也取得了较好的效果,限于篇幅,不再列出。102 博士学位论文在基准数据集中对新miRNA及孤立疾病预测10.90.80.70.60.5truepositives0.40.30.2新miRNA预测(AUC=0.8087)孤立疾病预测(AUC=0.7562)0.1000.10.20.30.40.50.60.70.80.91falsepositives图5.6黄金基准数据集上我们的方法对新miRNA和孤立疾病预测的结果图5.7实例研究乳腺肿瘤是每年女性癌症死亡的一个最主要原因,因此,很多科学家致力于研究揭示乳腺肿瘤的病理,而研究miRNA和乳腺肿瘤的关系可以帮助我们从分子角度理解疾病的发生发展。我们在对乳腺肿瘤的前50位未知关联推荐中,只有3个没有得到验证,分别为hsa-mir-518b、hsa-mir-612和hsa-mir-657,具体情况见表5.2。hsa-miR-21与很多疾病显著相关,在更新的HMDD、mir2disease、dbDEMC[194]都能找到其和乳腺肿瘤相关的支持证据,Persson等人认为hsa-miR-4656与乳腺癌有关,而hsa-miR-21,hsa-miR-612和hsa-miR-4656共享许多公共的靶基因[195],这表明这几个miRNA可能会有相似的生物过程,所以我们认为hsa-miR-612[60]和乳腺癌相关,另外我们发现这三个miRNA出现在SDMMDA预测和乳腺肿瘤相关的推荐miRNA集合中,其中hsa-mir-518b位于推荐第5位,hsa-mir-612和hsa-mir-657分列22位和23位。表5.2本章方法推断的前50个与乳腺肿瘤关联的miRNA及验证证据RankmiRNAnameevidencesRankmiRNAnameevidences1hsa-mir-518bUnconfirmed26hsa-mir-658dbDEMC2hsa-mir-518cdbDEMC27hsa-mir-575dbDEMC3hsa-mir-612Unconfirmed28hsa-mir-423HMDD,dbDEMC4hsa-mir-600dbDEMC29hsa-mir-500dbDEMC5hsa-mir-629HMDD,dbDEMC30hsa-mir-346HMDD,dbDEMC6hsa-mir-622dbDEMC31hsa-mir-99adbDEMC7hsa-mir-638HMDD,dbDEMC32hsa-mir-130bdbDEMC103 基于生物网络的复杂疾病关联miRNA预测方法研究续表5.2本章方法预测得到的前50个与乳腺肿瘤关联的miRNA及验证证据RankmiRNAnameevidencesRankmiRNAnameevidences8hsa-mir-486HMDD,dbDEMC33hsa-mir-208bdbDEMC9hsa-mir-596dbDEMC34hsa-mir-134dbDEMC10hsa-mir-557dbDEMC35hsa-mir-433dbDEMC11hsa-mir-642dbDEMC36hsa-mir-484dbDEMC12hsa-mir-769dbDEMC37hsa-mir-663dbDEMC13hsa-mir-602dbDEMC38hsa-mir-365HMDD,dbDEMC14hsa-mir-611dbDEMC39hsa-let-7eHMDD,dbDEMC15hsa-mir-185dbDEMC40hsa-mir-494dbDEMC16hsa-mir-583dbDEMC41hsa-let-7iHMDD,mir2disease,dbDEMC17hsa-mir-615dbDEMC42hsa-let-7bHMDD,dbDEMC18hsa-mir-654dbDEMC43hsa-mir-198dbDEMC19hsa-mir-662dbDEMC44hsa-mir-373HMDD,mir2disease,dbDEMC20hsa-mir-601dbDEMC45hsa-mir-203HMDD,mir2disease,dbDEMC21hsa-mir-324HMDD,dbDEMC46hsa-mir-223HMDD,dbDEMC22hsa-mir-608HMDD47hsa-let-7gHMDD,dbDEMC23hsa-mir-637dbDEMC48hsa-mir-101HMDD,dbDEMC24hsa-mir-657Unconfirmed49hsa-mir-92bdbDEMC25hsa-mir-197HMDD,dbDEMC50hsa-let-7cHMDD,dbDEMC结肠肿瘤是在发达国家中是最常见得疾病,在2017年,美国出现135430例新发现的结肠肿瘤病例,由结肠肿瘤造成死亡的病例有50260例。结肠肿瘤和许多miRNA相关,如miR-126可以抑制了结肠肿瘤细胞的生长,miR-21在结肠癌细胞中具有较高的表达水平等,用计算方法预测结肠肿瘤和miRNA的关联可以帮助我们在早期即对结肠肿瘤患者进行诊断,这对提高结肠肿瘤患者的生存率具有重要意义,因此,迫切需要开发出科学的计算方法对结肠肿瘤疾病相关的miRNA进行预测。在预测数据集中,实验验证的和结肠肿瘤相关的miRNA有37个,我们利用这37个已知的关联,使用本章提出的方法对结肠肿瘤进行实验,得到的前50个潜在的与结肠肿瘤相关的候选miRNA中,有45个miRNA在更新的HMDD、miR2disease和dbDEMC等数据集中找到了支持证据(见表5.3)。只有5个miRNA没有得到验证,前面四个分别是hsa-mir-199a、hsa-mir-92b、hsa-mir-200a和hsa-mir-373,这几个miRNA在上一章结肠肿瘤的案例分析中都有预测到,并且我们通过搜索最新文献都找到了支持证据,这里不再列出,前人的计算推断方法也[57][29]预测到这些miRNA和结肠肿瘤密切相关,在PBMDA、MCMDA、104 博士学位论文[23]EGBMMDA中均被预测和结肠肿瘤相关,hsa-mir-92b,hsa-mir-200a这两个miRNA在RLSMDA的实例分析中均被预测到和结肠癌有关联。这些文献都是发表在上述三个数据库最新的更新日期之后,这充分说明了我们方法强大的预测推广能力。表5.3本章方法推断的前50个与结肠肿瘤关联的miRNA及验证证据RankmiRNAnameevidencesRankmiRNAnameevidences1hsa-mir-196adbDEMC,miR2Disease26hsa-mir-421dbDEMC2hsa-mir-199aUnconfirmed27hsa-mir-15bdbDEMC,miR2Disease3hsa-mir-448dbDEMC28hsa-mir-30ddbDEMC4hsa-mir-25dbDEMC29hsa-mir-29aHMDD,mir2disease,dbDEMC5hsa-mir-122dbDEMC30hsa-mir-451dbDEMC,miR2Disease6hsa-mir-181bdbDEMC,miR2Disease31hsa-mir-203dbDEMC7hsa-mir-18bdbDEMC32hsa-mir-212dbDEMC8hsa-mir-224dbDEMC33hsa-mir-30bdbDEMC9hsa-mir-15aHMDD,dbDEMC34hsa-mir-106bHMDD,mir2disease,dbDEMC10hsa-mir-92bUnconfirmed35hsa-mir-214dbDEMC11hsa-mir-372dbDEMC,miR2Disease36hsa-mir-98dbDEMC12hsa-mir-34cdbDEMC37hsa-mir-220dbDEMC13hsa-mir-200aUnconfirmed38hsa-mir-137HMDD,mir2disease,dbDEMC14hsa-mir-190dbDEMC39hsa-mir-33adbDEMC15hsa-mir-217dbDEMC40hsa-mir-216bUnconfirmed16hsa-mir-222dbDEMC41hsa-mir-33bdbDEMC17hsa-mir-205HMDD,dbDEMC42hsa-mir-216adbDEMC18hsa-mir-93dbDEMC43hsa-mir-199bdbDEMC19hsa-mir-20bdbDEMC44hsa-mir-429dbDEMC20hsa-mir-135bHMDD,mir2disease,dbDEMC45hsa-mir-376cdbDEMC21hsa-mir-34bdbDEMC46hsa-mir-16HMDD,dbDEMC22hsa-mir-29cdbDEMC47hsa-mir-146bdbDEMC23hsa-mir-373Unconfirmed48hsa-mir-302bHMDD,dbDEMC24hsa-mir-125bdbDEMC49hsa-mir-125adbDEMC,miR2Disease25hsa-mir-9dbDEMC50hsa-mir-95dbDEMC为了验证我们的算法对孤立疾病的预测能力,我们删除已知的与被验证疾病相关的miRNA关联,这一操作确保我们只利用了被验证疾病和其它疾病的相似性信息及和其它疾病有关联的miRNA信息。我们以乳腺癌和结肠癌作为病例研究,105 基于生物网络的复杂疾病关联miRNA预测方法研究结果分别显示在表5.4和表5.5中。对于乳腺癌,我们删除了78个已知的乳腺癌与miRNA的关联,用本章方法预测潜在的miRNA与乳腺癌的关联,在预测得到的前50个miRNA中49个在更新的HMDD、miR2disease和dbDEMC数据库得[189]到了验证,只有hsa-mir-184没有找到支持证据验证,但是Yang等人用免疫组化标记方法研究乳腺肿瘤亚型分类时,发现hsa-miR-365,hsa-miR-1238和hsa-miR-184表达存在差异。表5.4孤立疾病中我们的方法推断出的前50个与乳腺肿瘤相关的miRNA及验证证据RanmiRNAnameevidencesRanmiRNAnameevidenceskk1hsa-mir-21HMDD,mir2disease,dbDEMC26hsa-mir-10aHMDD,mir2disease,dbDEMC2hsa-mir-146aHMDD,mir2disease,dbDEMC27hsa-mir-211dbDEMC3hsa-mir-125bHMDD,mir2disease,dbDEMChsa-mir-137HMDD,dbDEMC4hsa-mir-373HMDD,mir2disease,dbDEMChsa-mir-141HMDD,mir2disease,dbDEMC5hsa-mir-155HMDD,mir2disease,dbDEMChsa-mir-223HMDD,dbDEMC6hsa-mir-16HMDD,dbDEMChsa-let-7eHMDD,dbDEMC7hsa-mir-451HMDD,miR2diseasehsa-mir-200bHMDD,mir2disease,dbDEMC8hsa-mir-29cHMDD,dbDEMChsa-mir-146bHMDD,miR2disease9hsa-mir-34aHMDD,dbDEMC34hsa-let-7bHMDD,dbDEMC10hsa-mir-19aHMDD,dbDEMC35hsa-mir-181aHMDD,mir2disease,dbDEMC11hsa-mir-17HMDD,dbDEMC36hsa-let-7dHMDD,mir2disease,dbDEMC12hsa-mir-184Unconfirmed37hsa-let-7cHMDD,dbDEMC13hsa-mir-221HMDD,miR2disease38hsa-let-7iHMDD,mir2disease,dbDEMC14hsa-mir-15aHMDD,dbDEMC39hsa-mir-9HMDD,dbDEMC15hsa-mir-302bHMDD,miR2disease40hsa-let-7fHMDD,mir2disease,dbDEMC16hsa-mir-20aHMDD,dbDEMC41hsa-let-7gHMDD,dbDEMC17hsa-mir-29aHMDD,dbDEMC42hsa-mir-143HMDD,mir2disease,dbDEMC18hsa-mir-372HMDD,dbDEMC43hsa-mir-145HMDD,mir2disease,dbDEMC19hsa-mir-18aHMDD,dbDEMC44hsa-mir-92bdbDEMC20hsa-mir-222HMDD,dbDEMC45hsa-mir-30aHMDD,dbDEMC21hsa-mir-181bHMDD,mir2disease,dbDEMC46hsa-mir-150HMDD,dbDEMC22hsa-mir-19bHMDD,dbDEMC47hsa-mir-15bdbDEMC23hsa-mir-92aHMDD,dbDEMC48hsa-mir-127HMDD,mir2disease,dbDEMC24hsa-let-7aHMDD,mir2disease,dbDEMC49hsa-mir-203HMDD,mir2disease,dbDEMC25hsa-mir-205HMDD,mir2disease,dbDEMC50hsa-mir-126HMDD,mir2disease,dbDEMC106 博士学位论文对于结肠癌,去除了37个已知的miRNA与结肠癌的关联,预测得到的前50个miRNA中,有47个miRNA在上述三个数据库中得到了确认,三个没有找到支持证据的是hsa-mir-373、hsa-mir-211和hsa-mir-92b,具体情况见表5.5。然而[196]Cai等人发现hsa-miR-211通过靶向CHD5促进结肠直肠癌细胞生长,其余两个miRNA均在前面结肠肿瘤实例被预测到,前文也介绍了很多文献表明这几个miRNA和结肠肿瘤有关联,这里不再赘述。因此,我们认为我们的算法对孤立疾病的预测性能表现良好。表5.5孤立疾病预测时本章方法预测得到的前50个与结肠癌相关的miRNA及验证证据RankmiRNAnameevidencesRankmiRNAnameevidences1hsa-mir-21HMDD,miR2Disease,dbDEMC26hsa-mir-19bHMDD,miR2Disease,dbDEMC2hsa-mir-15aHMDD,dbDEMChsa-mir-92aHMDD,dbDEMC3hsa-mir-451dbDEMC,miR2Diseasehsa-let-7aHMDD,miR2Disease,dbDEMC4hsa-mir-373Unconfirmedhsa-mir-10adbDEMC,miR2Disease5hsa-mir-16HMDD,dbDEMChsa-mir-205HMDD,dbDEMC6hsa-mir-155HMDD,miR2Disease,dbDEMC31hsa-mir-211Unconfirmed7hsa-mir-29cdbDEMC32hsa-mir-200bHMDD,dbDEMC8hsa-mir-34aHMDD,miR2Disease,dbDEMC33hsa-mir-196adbDEMC,miR2Disease9hsa-mir-19aHMDD,miR2Disease,dbDEMC34hsa-mir-181adbDEMC,miR2Disease10hsa-mir-17HMDD,dbDEMC35hsa-mir-141HMDD,miR2Disease,dbDEMC11hsa-mir-221HMDD,miR2Disease,dbDEMC36hsa-let-7eHMDD,dbDEMC12hsa-mir-125bdbDEMC37hsa-mir-145HMDD,miR2Disease,dbDEMC13hsa-mir-302bHMDD,dbDEMC38hsa-mir-223HMDD,miR2Disease,dbDEMC14hsa-mir-372dbDEMC,miR2Disease39hsa-let-7dHMDD,dbDEMC15hsa-mir-143HMDD,miR2Disease,dbDEMC40hsa-let-7bHMDD,miR2Disease,dbDEMC16hsa-mir-20aHMDD,miR2Disease,dbDEMC41hsa-mir-9dbDEMC17hsa-mir-184dbDEMC42hsa-let-7cHMDD,dbDEMC18hsa-mir-181bdbDEMC,miR2Disease43hsa-let-7iHMDD,dbDEMC19hsa-mir-29aHMDD,dbDEMC,miR2Disease44hsa-let-7fHMDD,dbDEMC20hsa-mir-122dbDEMC45hsa-let-7gHMDD,miR2Disease,dbDEMC21hsa-mir-18aHMDD,miR2Disease,dbDEMC46hsa-mir-15bdbDEMC,miR2Disease22hsa-mir-146aHMDD,dbDEMC47hsa-mir-92bUnconfirmed23hsa-mir-222dbDEMC48hsa-mir-30aHMDD,dbDEMC24hsa-mir-212dbDEMC49hsa-mir-126HMDD,dbDEMC25hsa-mir-137HMDD,dbDEMC,miR2Disease50hsa-mir-19bHMDD,miR2Disease,dbDEMC107 基于生物网络的复杂疾病关联miRNA预测方法研究接下来研究新miRNA关联预测,考虑到Hsa-mir-21在致癌作用中起着至关重要的作用,可作为检测各种癌症的生物标志物。在本节我们去除预测数据集中所有和hsa-mir-21的40个疾病关联,预测得到的前50位和hsa-mir-21相关的疾病中,其中40种疾病在上述三个数据库中得到了验证,有10种没有得到验证的疾病分别是Schizophrenia(精神分裂症)、Hepatitis,Chronic(慢性肝炎)、Azoospermia(精子缺乏)、HepatitisC(丙型肝炎)、PituitaryNeoplasms(垂体肿瘤)、WaldenstromMacroglobulinemia(瓦尔登斯特伦巨球蛋白血症)、DigestiveSystemNeoplasms(消化系统肿瘤)、RetinalNeovascularization(视网膜血管疾病)、NeurodegenerativeDiseases(神经退行性疾病)和HepatitisB(乙型肝炎),具体情况见表5.6。我们搜索文献发现了这些疾病和hsa-mir-21存在关[197]联,如Han等人发现在实验性创伤性脑损伤后,hsa-mir-21通过在体外促进[198]PTEN-Akt信号通路来减缓皮质神经元的凋亡。Montalban等人发现hsa-mir-21可以对神经细胞生长因子信号进行调控并可调节PC12细胞内神经元变性。[199]Smigielska等人发现在CD4+T细胞中,hsa-mir-21具有支持记忆T细胞的存[200][201]活的作用。Zhang等人发现hsa-mir-21和肝纤维化的发展有关。Ding等人通过实时定量PCR技术发现hsa-miR-21可作为诊断乙肝相关的急性肝衰竭的新生[202]物标记物。Liao等人发现为80%的肝细胞癌患者有慢性乙型肝炎或C型肝炎和肝硬化的背景,而hsa-miR-21可以用来区分区分肝细胞癌和慢性肝炎。Yao等[203]人发现和阻塞性精子缺乏患者比较,非阻塞性精子缺乏患者精母细胞内的[204]hsa-miR-21等miRNA下调。Gutsaeva等人发现hsa-mir-21和缺血性视网膜内[205]的新血管化密切关系。Andrade等人通过微阵列发现hsa-miR-424和hsa-miR-21等11种miRNA在肌萎缩性脊髓侧索硬化症(一种迅速进行性的神经[206]退行性疾病)病人的肌肉中存在差异表达。Yin等人认为miR-21在致癌作用中起着至关重要的作用,可以作为亚洲人的消化系统癌症诊断和预后标志。这些文献都发表在这三个数据库的最后更新日期之后,这充分说明了我们的有效性。表5.6本章预测得到的前50个与hsa-mir-21相关的疾病及验证证据RanmiRNAevidencesRanmiRNAnameevidencesknamekLymphoma,1HeartFailureHDMM26B-CellHMDD,mir2diseaseBreastColorectalHMDD,miR2Disease,dbDEM2NeoplasmsHMDD,mir2disease,dbDEMC27eoplasmsCLung3NeoplasmsHMDD,mir2disease,dbDEMC28HodgkinDiseaseHMDD,mir2diseaseOvarianCarcinoma,RenalHMDD,miR2Disease,dbDEM4NeoplasmsHDMM29CellCHepatitis,5NeoplasmsHDMM30ChronicUnconfirmed6MelanomaHMDD,dbDEMC31LymphomaHDMM108 博士学位论文续表5.6本章预测得到的前50个与hsa-mir-21相关的疾病及验证证据RanmiRNAevidencesRanmiRNAnameevidencesknamekAdrenocortic7alCarcinomadbDEMC32AzoospermiaUnconfirmedMuscularDisorders,8AtrophicHDMM33HepatitisCUnconfirmedStomachLymphoma,9NeoplasmsHDMM34PrimaryEffusiondbDEMCPancreatic10NeoplasmsHMDD,dbDEMC35Sarcoma,KaposidbDEMCLupusCardiomyopathy,11VulgarisHDMM36HypertrophicHMDD,mir2diseaseColonicPituitary12NeoplasmsHMDD,dbDEMC37NeoplasmsUnconfirmedAutisticUterineCervical13DisorderHDMM38NeoplasmsHMDD,dbDEMCWaldenstromProstaticMacroglobulinem14NeoplasmsHDMM39iaUnconfirmedHeadandNeckPolycythemia15NeoplasmsHDMM40VeraHDMMCarcinoma,HepatocellulDigestiveSystem16arHMDD,mir2disease,dbDEMC41NeoplasmsUnconfirmedSalivaryGlandUrinaryBladder17NeoplasmsHDMM42NeoplasmsHDMMAdenocarcinLeukemia,18omaHDMM43B-CelldbDEMCLeukemia,SchizophreniPromyelocytic,19aUnconfirmed44AcutedbDEMCPrecursorB-CellLymphoblasticEndometriosLeukemia-Lymph20isHDMM45omamir2diseaseLeukemia,LymphocyticRetinal,Chronic,Neovascularizati21B-CellHMDD,mir2disease,dbDEMC46onUnconfirmedACTH-SecretingMedulloblastPituitary22omaHDMM47AdenomaHDMMLeukemia,Myeloid,Neurodegenerati23Acutemir2disease,dbDEMC48veDiseasesUnconfirmedMultiple24LeukemiaHDMM49MyelomaHMDD,dbDEMCThyroid25NeoplasmsHMDD,dbDEMC50HepatitisBUnconfirmed5.8小结本章提出了一种基于网络一致性的信息扩散疾病关联miRNA预测模型,该模109 基于生物网络的复杂疾病关联miRNA预测方法研究型首先综合miRNA家族信息和miRNA功能相似性来重构miRNA网络,利用已知的疾病和miRNA关联信息和疾病之间的语义得分来重构疾病网络,接着通过求拉普拉斯算子获取两个网络的全局相似性,用全局相似性得分来度量疾病之间、miRNA之间的相似程度,然后分别利用miRNA结点全局相似性、已知实验验证的疾病和miRNA关系构建基于miRNA全局相似性信息的疾病-miRNA关联网络ASm,利用疾病结点全局相似性、已知实验验证的疾病和miRNA关系构建基于疾病全局相似性信息的疾病-miRNA关联网络ASd,然后利用向量的投影获得向量之间一致性信息,用这些信息分别在疾病和miRNA全局性网络游走扩散,获得稳定的扩散谱作为对应的预测得分,最后把两预测得分加权作为最终的疾病-miRNA关联miRNA预测得分。该预测模型通过用网络一致性来来整合实验验证的疾病-miRNA信息、疾病全局相似性信息和miRNA全局相似性信息,算法设计简单,时间复杂度低,且能够应用于预测孤立疾病和新miRNA,优于目前最前沿的方法。在案例分析中,我们一样选择乳腺肿瘤和结肠肿瘤进行病例研究,两类疾病在疾病关联miRNA预测和孤立疾病预测时中都取得了较好的预测结果,对于没有实验验证的miRNA,在最近的文献中都找到了相应的关联证据,此外,我们尝试对新miRNA进行案例分析,在预测得到的前50个与hsa-mir-21相关的疾病中,有40个在三个数据库中得到了验证,其余疾病在最近的文献中也得到了证实。本章算法展现出强大的预测能力主要得益于以下工作。首先是我们加入了家族信息对miRNA相似性网络进行了重构、综合已知的miRNA关联疾病信息和疾病表型相似性信息对疾病网络进行了重构,其次是利用了拉普拉斯算子获取了miRNA网络、疾病网络的全局相似性,第三是加入了网络全局相似性信息对疾病-miRNA关联网络进行了重构,第四是利用了网络一致性来获取了miRNA和疾病两个不同对象内部的数据关联。尽管基于网络一致性的信息扩散疾病关联miRNA预测模型取得了较为满意的预测效果,但还是存在一些缺陷,第一是参数过多,对于不同的数据集需要耗费大量的时间寻找最优参数;第二是疾病和miRNA相似性网络的构建亟待整合更多的数据得到更准确的描绘;第三是对于孤立疾病和新miRNA的预测准确度有待提升。110 博士学位论文结论人类基因组计划等项目的顺利完成产生了大量的生物数据,为研究人员更深入的探索遗传发育、了解人类疾病致病机理及治疗等提供了海量的数据支持。非编码RNA是新发现的一族RNA,最开始由于不编码蛋白质被视为“垃圾”,然而随着测序技术的飞速发展,其各种生物功能被逐渐发现,越来越受到科学家的关注,特别是miRNA作为2002年十大科技突破的第一名,更是生物学研究的焦点。近年来,科学家发现miRNA的变异和失调与人类肿瘤密切相关,鉴别疾病-miRNA关联有助于认识疾病或肿瘤发生发展的机制,对人类疾病的预后、诊断和治疗具有十分非常重要的意义。目前,不断涌现出一大批生物实验方法和计算预测方法来识别miRNA和疾病之间的关联关系,生物实验方法对实验条件要求高、研究周期长,而计算预测方法是生物实验的有益补充,能够降低生物实验成本,提高识别效率,越来越引起科学家注意。但是,用计算方法预测miRNA和疾病之间的潜在关系的研究还存在着许多问题和挑战,首先表现在预测准确度较低,目前大多数研究都是利用已知的实验验证的疾病-miRNA关联来展开研究,但由于实验验证的疾病-miRNA关系不多,导致预测准确度大多不高。第二是对孤立疾病和新miRNA没有预测能力或者预测准确度很低,由于大多新发现的miRNA和很多疾病都没有相关的已知实验支持的关联证据,孤立疾病和新的miRNA的预测更有意义。第三是很多方法对数据集依赖严重,泛化推广能力不强,开发普适性强的计算方法需求很迫切。针对这些挑战,本文从生物信息学的角度出发,通过整合疾病相似性网络、miRNA相似性网络、实验验证的疾病-miRNA关联网络构造有效计算模型来预测疾病-miRNA的潜在关联,主要研究工作如下:(1)概述预测潜在的与疾病相关的候选miRNA这一系统工作,介绍了论文的研究背景和意义,对计算预测方法的国内外研究现在展开讨论,分析其优缺点,总结目前疾病-miRNA关联预测领域存在的问题和挑战。(2)介绍了疾病-miRNA关联预测相关理论及数据资源,简单介绍了miRNA的发现、作用机制及与疾病的关联,介绍了疾病与miRNA关联数据资源、疾病相关数据资源和miRNA相互作用数据资源,重点描述了疾病相似性网络的构建方法miRNA相似性网络的构建方法,归纳总结他们的优缺点,对预测评价方法与指标做简单介绍。(3)提出了一种基于共同邻居的异构二分网络链接预测方法来推断疾病-miRNA关联,受单分网络共同邻居的启发,结合二分网络的特点,提出了二分111 基于生物网络的复杂疾病关联miRNA预测方法研究网络共同邻居这一概念,在此基础上,定义了8个局部结构相似性指标来衡量结点之间的关联概率,重构了疾病相似性关系和miRNA功能相似性关系,依据共同邻居指标计算疾病和miRNA结点的初次关联得分,分别依据疾病相似性网络和初次关联得分、miRNA相似性网络和初次关联得分计算二次关联得分,整合疾病空间二次得分和miRNA空间二次关联得分得到最终预测得分。该方法在黄金基准数据集上的AUC值为0.7973,在预测数据集上取得的AUC达到了0.9349,优于很多全局性方法。实例研究中乳腺肿瘤和结肠肿瘤排名前50位得到更新的HDMM、mir2disease和dbDEMC这数据库支持验证的准确率分别为96%和82%,孤立疾病前50名得到数据库支持验证准确度分别为100%和96%。(4)提出了一种利用双层网络随机游走的全局相似性方法来揭示潜在的疾病-miRNA联系,考虑到利用全局相似性能够提高预测准确度,通过拉普拉斯算子获取全部疾病之间的全局相似性和所有miRNA之间的全局相似性,利用优化后的miRNA种子在疾病网络中游走得到一稳定向量,求该稳定向量和miRNA全局相似性矩阵的各向量的皮尔森系数,把求得的结果作为疾病和miRNA预测得分,利用优化后的疾病种子在miRNA网络中游走得到一稳定向量,求该稳定向量和疾病间全局相似性矩阵的各向量的皮尔森系数,把求得的结果作为miRNA和疾病的预测得分,对两个预测得分加权得到最终的疾病-miRNA关联预测得分,得分越高,则代表疾病-miRNA关联概率越大。该方法在没有负样本的情况下能够同时预测所有疾病的和miRNA之间的关联关系,LOOCV实验在黄金基准数据集和预测数据集上得到的AUC值分别为0.8479和0.9434,预测精度上优于现有其他方法,在乳腺肿瘤和结肠肿瘤进行了实例研究,排名前50位准确率分别为92%和84%,孤立疾病的排名前50位准确率分别为98%和92%。(5)提出了利用网络一致性的信息扩散方法来推断潜在的疾病-miRNA关系,在前面方法使用全局网络相似性方法提高预测精度的基础上,利用网络一致性是描述两个向量以同样的顺序与同一个对象的数据关系,利用这两个向量的变化规律相似这一特点来获取两个向量的综合信息。为了构建合理的相似性关系,我们通过整合实验验证的疾病和miRNA相关联的信息、疾病之语义得分、拉普拉斯算子构建疾病全局相似性网络,利用miRNA的家族信息、功能相似性、拉普拉斯算子构建miRNA全局相似性网络,综合加入全局相似性关系重构疾病-miRNA关联网络,结合全局相似性网络和重构的疾病-miRNA关联网络获取网络一致性扩散种子,利用随机游走算法获得稳定的扩散谱作为预测得分。该方法不需要负样本、可对孤立疾病和新的miRNA进行预测、算法设计简单,在黄金基准数据集上LOOCV实验的AUC值高达0.8814,在预测数据集上取得的AUC高达0.9512,优于我们前面提出的方法和他人先进方法。在实例研究中,我们同样选取乳腺肿瘤和结肠肿瘤来进行实验研究,在排名前50位得到数据库验证的准确率分别为112 博士学位论文94%、90%,在孤立疾病病例预测中,排名前50位的98%、94%被数据库证实,我们把hsa-mir-21模拟成新的miRNA进行预测,预测得到的前50位疾病中,有40位得到数据库的验证,其余的在最新文献中找到了支持证据,展现了我们提出的方法良好的预测能力。我们对疾病-miRNA关联预测做了一定的探索,但由于受时间等其他原因所限,将来还有很多工作要做:(1)本文提出的基于共同邻居的异构二分网络链接预测方法来推断疾病-miRNA关联方法中有四种算法,分别是:只利用已知关联信息的二分网络共同邻居链路预测算法、基于miRNA功能相似性的共同邻居链路预测算法、基于疾病功能相似性的共同邻居链路预测算法、基于miRNA功能相似性和疾病功能相似性共同邻居的加权链路预测算法。这几个算法的预测准确度都还有待提高,这主要是疾病相似性网络和miRNA相似性网络构建不够准确,在计算二次得分时引入全部结点的相似性信息时又带入了噪声,特别是基于疾病功能相似性的共同邻居链路预测算法较只利用已知关联信息的二分网络共同邻居链路预测算法预测准确度不升反降。在将来的研究中,为了避免噪声,我们打算只引入部分和待考查疾病密切相关的疾病的关联关系,使用更科学的度量方法来构建相似性网络。(2)本文提出的基于双层网络全局相似性算法利用的是全局性信息,预测准确度较上一个方法大幅提升,但该方法存在算法设计复杂、参数过多等缺陷,在将来的工作中,我们探索用更科学的度量方法来代替拉普拉斯算子获取网络全局相似性,在相关性计算中,考虑用别的更准确的相关性度量方法来衡量向量间的相似性,从而获得更准确的预测得分。(3)本文提出了一种基于网络一致性的信息扩散疾病关联miRNA预测方法具有算法设计简单、预测准确度高等优点,但同样存在参数过多、一旦数据集变动之后需要重新训练参数等缺点,在将来的工作中我们将首先着力解决参数选择问题,力求使得方法普适性更强,其次是通过融合更多的生物数据来刻画疾病网络和miRNA网络,以求进一步提高预测准确度。(4)在未来的工作中,将考虑其他更先进的方法应用于疾病关联miRNA预测问题,如矩阵补齐算法、神经网络等算法、矩阵因子分解法等;目前在生物信息学中还存在同样的关联预测问题,如lncRNA和疾病的关联预测问题、微生物和疾病的关联预测问题、药物和靶标的关联预测问题,在未来将我们成熟的疾病-miRNA关联预测方法应用于这些领域。113 基于生物网络的复杂疾病关联miRNA预测方法研究参考文献[1]J.S.MattickandI.V.Makunin.Non-codingRNA.HumanMolecularGenetics,2006,15(suppl_1):R17-R29[2]G.Storz.AnExpandingUniverseofNoncodingRNAs.Science,2002,296(5571):1260-1263[3]G.MeisterandT.Tuschi.Mechanismsofgenesilencingbydouble-strandedRNA.Nature,2004,431(7006):343[4]T.Li,R.-S.Li,Y.-H.Li,etal.miR-21asanindependentbiochemicalrecurrencepredictorandpotentialtherapeutictargetforprostatecancer.TheJournalofurology,2012,187(4):1466-1472[5]D.D.Young,C.M.Connelly,C.Grohmann,etal.SmallmoleculemodifiersofmicroRNAmiR-122functionforthetreatmentofhepatitisCvirusinfectionandhepatocellularcarcinoma.JournaloftheAmericanChemicalSociety,2010,132(23):7976-7981[6]S.Toffanin,Y.Hoshida,A.Lachenmayer,etal.MicroRNA-basedclassificationofhepatocellularcarcinomaandoncogenicroleofmiR-517a.Gastroenterology,2011,140(5):1618-1628.e16[7]B.Shi,L.Sepp-Lorenzino,M.Prisco,etal.MicroRNA145targetstheinsulinreceptorsubstrate-1andinhibitsthegrowthofcoloncancercells.JournalofBiologicalChemistry,2007,282(45):32582-32590[8]X.Zeng,X.ZhangandQ.Zou.IntegrativeapproachesforpredictingmicroRNAfunctionandprioritizingdisease-relatedmicroRNAusingbiologicalinteractionnetworks.BriefingsinBioinformatics,2016,17(2):193-203[9]Q.Jiang,G.Wang,T.Zhang,etal.PredictinghumanmicroRNA-diseaseassociationsbasedonsupportvectormachine.In:2010IEEEInternationalConferenceOnBioinformaticsandBiomedicine(BIBM).2010,467-472[10]J.Xu,C.-X.Li,J.-Y.Lv,etal.PrioritizingcandidatediseasemiRNAsbytopologicalfeaturesinthemiRNAtarget–dysregulatednetwork:Casestudyofprostatecancer.Molecularcancertherapeutics,2011,10(10):1857-1866[11]X.Zeng,Z.Xuan,Y.Liao,etal.PredictionandvalidationofassociationbetweenmicroRNAsanddiseasesbymultipathmethods☆.BiochimicaEtBiophysicaActa,2016,1860(11):2735-2739[12]A.Qabaja,M.Alshalalfa,T.A.Bismar,etal.Proteinnetwork-basedLassoregressionmodelfortheconstructionofdisease-miRNAfunctionalinteractions.EurasipJournalonBioinformatics&SystemsBiology,2013,2013(1):3-3[13]X.ChenandG.-Y.Yan.Semi-supervisedlearningforpotentialhumanmicroRNA-diseaseassociationsinference.Scientificreports,2014,4:114 博士学位论文[14]X.Chen,Y.W.Niu,G.H.Wang,etal.MKRMDA:multiplekernellearning-basedKroneckerregularizedleastsquaresforMiRNA–diseaseassociationprediction.JournalofTranslationalMedicine,2017,15(1):251[15]J.Luo,Q.Xiao,C.Liang,etal.PredictingMicroRNA-DiseaseAssociationsUsingKroneckerRegularizedLeastSquaresBasedonHeterogeneousOmicsData.IEEEAccess,2017,5(99):2503-2513[16]X.ChenandL.Huang.LRSSLMDA:LaplacianRegularizedSparseSubspaceLearningforMiRNA-DiseaseAssociationprediction.PlosComputationalBiology,2017,13(12):e1005912[17]L.Peng,M.Peng,B.Liao,etal.Anovelinformationfusionstrategybasedonaregularizedframeworkforidentifyingdisease-relatedmicroRNAs.RscAdvances,2017,7(70):44447-44455[18]W.Lan,J.Wang,M.Li,etal.PredictingmicroRNA-diseaseassociationsbasedonimprovedmicroRNAanddiseasesimilarities.IEEE/ACMTransactionsonComputationalBiology&Bioinformatics,2016,PP(99):1-1[19]W.Lan,J.Wang,M.Li,etal.PredictingmicroRNA-diseaseassociationsbyintegratingmultiplebiologicalinformation.In:IEEEInternationalConferenceonBioinformaticsandBiomedicine.183-188[20]Q.Xiao,J.Luo,C.Liang,etal.Agraphregularizednon-negativematrixfactorizationmethodforidentifyingmicroRNA-diseaseassociations.Bioinformatics,2018,34(2):239-248[21]Y.Zhong,P.Xuan,X.Wang,etal.Anon-negativematrixfactorizationbasedmethodforpredictingdisease-associatedmiRNAsinmiRNA-diseasebilayernetwork.Bioinformatics,2018,34(2):267-277[22]C.PasquierandJ.Gardès.PredictionofmiRNA-diseaseassociationswithavectorspacemodel.SciRep,2016,6:27036[23]X.Chen,L.Huang,D.Xie,etal.EGBMMDA:ExtremeGradientBoostingMachineforMiRNA-DiseaseAssociationprediction.CellDeath&Disease,2018,9(1):3[24]X.Chen,Y.Gong,D.H.Zhang,etal.DRMDA:deeprepresentations‐basedmiRNA–diseaseassociationprediction.JournalofCellular&MolecularMedicine,2017,22(Suppl.1):[25]L.FuandQ.Peng.AdeepensemblemodeltopredictmiRNA-diseaseassociation.ScientificReports,2017,7(1):14482[26]X.Chen,C.C.Yan,X.Zhang,etal.RBMMMDA:predictingmultipletypesofdisease-microRNAassociations.ScientificReports,2015,5:13877[27]J.Luo,P.Ding,L.Cheng,etal.CollectivePredictionofDisease-AssociatedmiRNAsBasedonTransductionLearning.IEEE/ACMTransactionsonComputationalBiology&Bioinformatics,2017,14(6):7[28]X.Zeng,N.Ding,A.Rodríguez-Patón,etal.PredictionofMicroRNA–diseaseAssociationsbyMatrixCompletion.CurrentProteomics,2016,13(2):151-157[29]J.Q.Li,Z.H.Rong,X.Chen,etal.MCMDA:MatrixCompletionforMiRNA-Disease115 基于生物网络的复杂疾病关联miRNA预测方法研究Associationprediction.Oncotarget,2017,8(13):21187-21199[30]L.Peng,M.Peng,B.Liao,etal.Improvedlow-rankmatrixrecoverymethodforpredictingmiRNA-diseaseassociation.ScientificReports,2017,7:[31]J.Li,Z.Wu,F.Cheng,etal.ComputationalpredictionofmicroRNAnetworksincorporatingenvironmentaltoxicityanddiseaseetiology.ScientificReports,2014,4(Suppl1):5576[32]C.Gu,B.Liao,X.Li,etal.Network-basedcollaborativefilteringrecommendationmodelforinferringnoveldisease-relatedmiRNAs.RscAdvances,2017,7(71):44961-44971[33]L.Peng,Y.Chen,N.Ma,etal.NARRMDA:negative-awareandrating-basedrecommendationalgorithmformiRNA-diseaseassociationprediction.MolecularBiosystems,2017:[34]X.Chen,Y.W.Niu,G.H.Wang,etal.HAMDA:HybridApproachforMiRNA-DiseaseAssociationprediction.JournalofBiomedicalInformatics,2017,76:50-58[35]Q.Zou,J.Li,Q.Hong,etal.PredictionofMicroRNA-DiseaseAssociationsBasedonSocialNetworkAnalysisMethods.BiomedResearchInternational,2015,2015(10):810514[36]!!!INVALIDCITATION!!!:[37]Q.Jiang,G.WangandY.Wang.Anapproachforprioritizingdisease-relatedmicroRNAsbasedongenomicdataintegration.In:InternationalConferenceonBiomedicalEngineeringandInformatics.2010,2270-2274[38]X.Li,Q.Wang,Y.Zheng,etal.PrioritizinghumancancermicroRNAsbasedongenes’functionalconsistencybetweenmicroRNAandcancer.NucleicAcidsResearch,2011,39(22):e153[39]H.Shi,J.Xu,G.Zhang,etal.WalkingtheinteractometoidentifyhumanmiRNA-diseaseassociationsthroughthefunctionallinkbetweenmiRNAtargetsanddiseasegenes.BMCsystemsbiology,2013,7(1):101[40]C.Xu,Y.Ping,X.Li,etal.PrioritizingcandidatediseasemiRNAsbyintegratingphenotypeassociationsofmultiplediseaseswithmatchedmiRNAandmRNAexpressionprofiles.MolecularBioSystems,2014,10(11):2800-2809[41]S.Rossi,A.Tsirigos,A.Amoroso,etal.OMiR:IdentificationofassociationsbetweenOMIMdiseasesandmicroRNAs.Genomics,2011,97(2):71-6[42]D.Wang,J.Wang,M.Lu,etal.InferringthehumanmicroRNAfunctionalsimilarityandfunctionalnetworkbasedonmicroRNA-associateddiseases.Bioinformatics,2010,26(13):1644-1650[43]P.Xuan,K.Han,M.Guo,etal.PredictionofmicroRNAsassociatedwithhumandiseasesbasedonweightedkmostsimilarneighbors.PloSone,2013,8(8):e70204[44]X.Chen,Q.F.WuandG.Y.Yan.RKNNMDA:Ranking-basedKNNforMiRNA-DiseaseAssociationprediction.RnaBiology,2017:1[45]D.H.Le.Network-basedrankingmethodsforpredictionofnoveldiseaseassociatedmicroRNAs.ComputationalBiology&Chemistry,2015,58(C):139-148116 博士学位论文[46]H.Shi,G.Zhang,M.Zhou,etal.IntegrationofMultipleGenomicandPhenotypeDatatoInferNovelmiRNA-DiseaseAssociations.PlosOne,2016,11(2):e0148521[47]P.Xuan,K.Han,Y.Guo,etal.Predictionofpotentialdisease-associatedmicroRNAsbasedonrandomwalk.Bioinformatics,2015,31(11):1805-15[48]B.Liao,S.Ding,H.Chen,etal.IdentifyinghumanmicroRNA–diseaseassociationsbyanewdiffusion-basedmethod.JournalofBioinformatics&ComputationalBiology,2015,13(4):1550014[49]Y.Liu,X.Zeng,Z.He,etal.InferringmicroRNA-diseaseassociationsbyrandomwalkonaheterogeneousnetworkwithmultipledatasources.IEEE/ACMtransactionsoncomputationalbiologyandbioinformatics,2016:[50]J.LuoandQ.Xiao.AnovelapproachforpredictingmicroRNA-diseaseassociationsbyunbalancedbi-randomwalkonheterogeneousnetwork.JournalofBiomedicalInformatics,2017,66:194-203[51]I.Mugunga,Y.Ju,X.Liu,etal.Computationalpredictionofhumandisease-relatedmicroRNAsbypath-basedrandomwalk.Oncotarget,2017,8(35):58526-58535[52]H.ChenandZ.Zhang.Similarity-basedmethodsforpotentialhumanmicroRNA-diseaseassociationprediction.BMCMedGenomics,2013,6:12[53]C.Gu,L.Bo,X.Li,etal.NetworkConsistencyProjectionforHumanmiRNA-DiseaseAssociationsInference.ScientificReports,2016,6:36054[54]X.Li,Y.LinandC.Gu.AnetworksimilarityintegrationmethodforpredictingmicroRNA-diseaseassociations.RscAdvances,2017,7(51):32216-32224[55]J.J.Nalluri,B.K.Kamapantula,D.Barh,etal.DISMIRA:PrioritizationofdiseasecandidatesinmiRNA-diseaseassociationsbasedonmaximumweightedmatchinginferencemodelandmotif-basedanalysis.BMCGenomics,2015,16(5):S12[56]X.Chen,C.C.Yan,Z.Xu,etal.HGIMDA:HeterogeneousgraphinferenceformiRNA-diseaseassociationprediction.Oncotarget,2016,7(40):65257-65269[57]Z.H.You,Z.A.Huang,Z.Zhu,etal.PBMDA:Anovelandeffectivepath-basedcomputationalmodelformiRNA-diseaseassociationprediction.PlosComputationalBiology,2017,13(3):e1005455[58]D.Sun,A.Li,H.Feng,etal.NTSMDA:predictionofmiRNA-diseaseassociationsbyintegratingnetworktopologicalsimilarity.MolecularBiosystems,2016,12(7):2224[59]X.Chen,N.Guan,J.Li,etal.GIMDA:Graphletinteraction-basedMiRNA-diseaseassociationprediction.JournalofCellular&MolecularMedicine,2017,(Suppl1):[60]X.Chen,Z.C.Jiang,D.Xie,etal.Anovelcomputationalmodelbasedonsuper-diseaseandmiRNAforpotentialmiRNA-diseaseassociationprediction.MolecularBiosystems,2017,13(6):1202-1212[61]S.Mørk,S.Pletscher-Frankild,A.PallejaCaro,etal.Protein-driveninferenceofmiRNA–disease117 基于生物网络的复杂疾病关联miRNA预测方法研究associations.Bioinformatics,2013,30(3):392-397[62]R.C.Lee,R.L.FeinbaumandV.Ambros.TheC.elegansheterochronicgenelin-4encodessmallRNAswithantisensecomplementaritytolin-14.Cell,1993,75(5):843-854[63]B.J.Reinhart,F.J.Slack,M.Basson,etal.The21-nucleotidelet-7RNAregulatesdevelopmentaltiminginCaenorhabditiselegans.nature,2000,403(6772):901[64]M.Lagos-Quintana,R.Rauhut,W.Lendeckel,etal.IdentificationofnovelgenescodingforsmallexpressedRNAs.Science,2001,294(5543):853-858[65]N.C.Lau,L.P.Lim,E.G.Weinstein,etal.AnabundantclassoftinyRNAswithprobableregulatoryrolesinCaenorhabditiselegans.Science,2001,294(5543):858-862[66]A.KozomaraandS.Griffithsjones.miRBase:integratingmicroRNAannotationanddeep-sequencingdata.NucleicAcidsResearch,2011,39(Databaseissue):D152-7[67]E.WienholdsandR.H.Plasterk.MicroRNAfunctioninanimaldevelopment.FEBSletters,2005,579(26):5911-5922[68]R.J.JohnstonandO.Hobert.AmicroRNAcontrollingleft/rightneuronalasymmetryinCaenorhabditiselegans.Nature,2003,426(6968):845[69]A.Marson,S.S.Levine,M.F.Cole,etal.ConnectingmicroRNAgenestothecoretranscriptionalregulatorycircuitryofembryonicstemcells.Cell,2008,134(3):521-533[70]C.Z.Chen,L.Li,H.F.Lodish,etal.MicroRNAsmodulatehematopoieticlineagedifferentiation.Science,2004,303(5654):83-86[71]M.N.Poy,L.Eliasson,J.Krutzfeldt,etal.Apancreaticislet-specificmicroRNAregulatesinsulinsecretion.Nature,2004,432(7014):226-230[72]C.Esau,X.Kang,E.Peralta,etal.MicroRNA-143RegulatesAdipocyteDifferentiation.TheJournalofbiologicalchemistry,2004,279(50):52361[73]H.E,M.JH,Y.S,etal.ThemicroRNAmiR-196actsupstreamofHoxb8andShhinlimbdevelopment.Nature,2005,438(7068):671[74]Z.Y,S.EandS.D.Serumresponsefactorregulatesamuscle-specificmicroRNAthattargetsHand2duringcardiogenesis.Nature,2005,436(7048):214[75]H.Yang,C.P.Dinney,Y.Ye,etal.EvaluationofgeneticvariantsinmicroRNA-relatedgenesandriskofbladdercancer.Cancerresearch,2008,68(7):2530-2537[76]B.Yang,H.Lin,J.Xiao,etal.Themuscle-specificmicroRNAmiR-1regulatescardiacarrhythmogenicpotentialbytargetingGJA1andKCNJ2.Naturemedicine,2007,13(4):486[77]Y.Zhao,J.F.Ransom,A.Li,etal.Dysregulationofcardiogenesis,cardiacconduction,andcellcycleinmicelackingmiRNA-1-2.Cell,2007,129(2):303-317[78]G.Long,F.Wang,Q.Duan,etal.HumancirculatingmicroRNA-1andmicroRNA-126aspotentialnovelindicatorsforacutemyocardialinfarction.InternationalJournalofBiologicalSciences,118 博士学位论文2012,8(6):811-8[79]C.Bang,J.FiedlerandT.Thum.CardiovascularImportanceoftheMicroRNA‐23/27/24Family.Microcirculation,2012,19(3):208-214[80]G.A.Calin,C.D.Dumitru,M.Shimizu,etal.Frequentdeletionsanddown-regulationofmicro-RNAgenesmiR15andmiR16at13q14inchroniclymphocyticleukemia.ProceedingsoftheNationalAcademyofSciences,2002,99(24):15524-15529[81]B.-s.Li,Y.-l.Zhao,G.Guo,etal.PlasmamicroRNAs,miR-223,miR-21andmiR-218,asnovelpotentialbiomarkersforgastriccancerdetection.PloSone,2012,7(7):e41629[82]T.Inoue,H.Iinuma,E.Ogawa,etal.ClinicopathologicalandprognosticsignificanceofmicroRNA-107anditsrelationshiptoDICER1mRNAexpressioningastriccancer.Oncologyreports,2012,27(6):1759-1764[83]F.Gao,J.Chang,H.Wang,etal.PotentialdiagnosticvalueofmiR-155inserumfromlungadenocarcinomapatients.Oncologyreports,2014,31(1):351-357[84]J.Takamizawa,H.Konishi,K.Yanagisawa,etal.Reducedexpressionofthelet-7microRNAsinhumanlungcancersinassociationwithshortenedpostoperativesurvival.Cancerresearch,2004,64(11):3753-3756[85]L.J.Chin,E.Ratner,S.Leng,etal.ASNPinalet-7microRNAcomplementarysiteintheKRAS3′untranslatedregionincreasesnon–smallcelllungcancerrisk.Cancerresearch,2008,68(20):8535-8540[86]T.Hirota,Y.Date,Y.Nishibatake,etal.Dihydropyrimidinedehydrogenase(DPD)expressionisnegativelyregulatedbycertainmicroRNAsinhumanlungtissues.LungCancer,2012,77(1):16-23[87]X.Zhu,Y.Li,H.Shen,etal.miR‐137inhibitstheproliferationoflungcancercellsbytargetingCdc42andCdk6.FEBSletters,2013,587(1):73-81[88]D.Wan,S.He,B.Xie,etal.AberrantexpressionofmiR-199a-3panditsclinicalsignificanceincolorectalcancers.MedicalOncology,2013,30(1):378[89]J.-M.Li,R.-H.Zhao,S.-T.Li,etal.Down-regulationoffecalmiR-143andmiR-145aspotentialmarkersforcolorectalcancer.SaudiMedJ,2012,33(1):24-29[90]Z.Zhang,X.Zhang,K.Newman,etal.MicroRNAregulationofoncolyticadenovirus6forselectivetreatmentofcastration-resistantprostatecancer.Molecularcancertherapeutics,2012,11(11):2410-2418[91]X.Wang,X.Wu,L.Yan,etal.SerummiR-103asapotentialdiagnosticbiomarkerforbreastcancer.Nanfangyikedaxuexuebao=JournalofSouthernMedicalUniversity,2012,32(5):631-634[92]R.Wang,H.-B.Wang,C.J.Hao,etal.MiR-101isinvolvedinhumanbreastcarcinogenesisbytargetingStathmin1.PloSone,2012,7(10):e46173[93]E.O'DayandA.Lal.MicroRNAsandtheirtargetgenenetworksinbreastcancer.Breastcancer119 基于生物网络的复杂疾病关联miRNA预测方法研究research,2010,12(2):201[94]Q.Huang,K.Gumireddy,M.Schrier,etal.Themicrornasmir-373andmir-520cpromotetumormigration,invasionandmetastasis.2008,[95]B.Wang,H.WangandZ.Yang.MiR-122inhibitscellproliferationandtumorigenesisofbreastcancerbytargetingIGF1R.PLoSOne,2012,7(10):e47053[96]K.J.Png,M.Yoshida,X.H.-F.Zhang,etal.MicroRNA-335inhibitstumorreinitiationandissilencedthroughgeneticandepigeneticmechanismsinhumanbreastcancer.Genes&development,2011,25(3):226-231[97]E.Wee,K.Peters,S.Nair,etal.Mappingtheregulatorysequencescontrolling93breastcancer-associatedmiRNAgenesleadstotheidentificationoftwofunctionalpromotersoftheHsa-mir-200bcluster,methylationofwhichisassociatedwithmetastasisorhormonereceptorstatusinadvancedbreastcancer.Oncogene,2012,31(38):4182[98]S.Caramuta,S.Egyházi,M.Rodolfo,etal.MicroRNAexpressionprofilesassociatedwithmutationalstatusandsurvivalinmalignantmelanoma.JournalofInvestigativeDermatology,2010,130(8):2062-2070[99]L.He,J.M.Thomson,M.T.Hemann,etal.AmicroRNApolycistronasapotentialhumanoncogene.nature,2005,435(7043):828[100]M.N.Poy,L.Eliasson,J.Krutzfeldt,etal.Apancreaticislet-specificmicroRNAregulatesinsulinsecretion.Nature,2004,432(7014):226[101]J.Yao,T.Hennessey,A.Flynt,etal.MicroRNA-relatedcofilinabnormalityinAlzheimer'sdisease.PloSone,2010,5(12):e15546[102]A.Paraskevi,G.Theodoropoulos,I.Papaconstantinou,etal.CirculatingMicroRNAininflammatoryboweldisease.JournalofCrohn'sandColitis,2012,6(9):900-904[103]H.Wang,W.Peng,X.Ouyang,etal.ReducedcirculatingmiR-15biscorrelatedwithphosphatemetabolisminpatientswithend-stagerenaldiseaseonmaintenancehemodialysis.Renalfailure,2012,34(6):685-690[104]S.T.Sredni,C.C.Huang,M.d.F.Bonaldo,etal.MicroRNAexpressionprofilingformolecularclassificationofpediatricbraintumors.Pediatricblood&cancer,2011,57(1):183-184[105]M.V.Iorio,M.Ferracin,C.-G.Liu,etal.MicroRNAgeneexpressionderegulationinhumanbreastcancer.Cancerresearch,2005,65(16):7065-7070[106]Y.Li,C.Qiu,J.Tu,etal.HMDDv2.0:adatabaseforexperimentallysupportedhumanmicroRNAanddiseaseassociations.NucleicAcidsResearch,2014,42(Databaseissue):D1070[107]Q.Jiang,Y.Wang,Y.Hao,etal.miR2Disease:amanuallycurateddatabaseformicroRNAderegulationinhumandisease.NucleicAcidsResearch,2009,37(1):D98-104[108]Z.Yang,L.Wu,A.Wang,etal.dbDEMC2.0:updateddatabaseofdifferentiallyexpressed120 博士学位论文miRNAsinhumancancers.Nucleicacidsresearch,2017,45(D1):D812-D818[109]B.Xie,Q.Ding,H.Han,etal.miRCancer:amicroRNA–cancerassociationdatabaseconstructedbytextminingonliterature.Bioinformatics,2013,29(5):638-644[110]A.Ruepp,A.Kowarsch,D.Schmidl,etal.PhenomiR:aknowledgebaseformicroRNAexpressionindiseasesandbiologicalprocesses.GenomeBiology,2010,11(1):1-11[111]D.Wang,J.Gu,T.Wang,etal.OncomiRDB:adatabasefortheexperimentallyverifiedoncogenicandtumor-suppressivemicroRNAs.Bioinformatics,2014,30(15):2237[112]R.Khurana,V.K.Verma,A.Rawoof,etal.OncomiRdbB:acomprehensivedatabaseofmicroRNAsandtheirtargetsinbreastcancer.BMCBioinformatics,2014,15(1):15[113]B.Ulfenborg,S.Jurcevic,A.Lindlöf,etal.miREC:adatabaseofmiRNAsinvolvedinthedevelopmentofendometrialcancer.BmcResearchNotes,2015,8(1):104[114]A.Hamosh,A.F.Scott,J.S.Amberger,etal.OnlineMendelianInheritanceinMan(OMIM),aknowledgebaseofhumangenesandgeneticdisorders.Nucleicacidsresearch,2005,33(suppl_1):D514-D517[115]M.A.VanDriel,J.Bruggeman,G.Vriend,etal.Atext-mininganalysisofthehumanphenome.Europeanjournalofhumangenetics:EJHG,2006,14(5):535[116]K.Peng,W.Xu,J.Zheng,etal.Thediseaseandgeneannotations(DGA):anannotationresourceforhumandisease.NucleicAcidsResearch,2013,41(Databaseissue):553-60[117]S.Nam,B.Kim,S.Shin,etal.miRGator:anintegratedsystemforfunctionalannotationofmicroRNAs.Nucleicacidsresearch,2007,36(suppl_1):D159-D164[118]M.Megraw,P.Sethupathy,B.Corda,etal.miRGen:adatabaseforthestudyofanimalmicroRNAgenomicorganizationandfunction.Nucleicacidsresearch,2006,35(suppl_1):D149-D155[119]C.H.Chou,N.W.Chang,S.Shrestha,etal.miRTarBase2016:updatestotheexperimentallyvalidatedmiRNA-targetinteractionsdatabase.NucleicAcidsResearch,2016,44(Databaseissue):D239[120]H.Dweep,C.Sticht,P.Pandey,etal.miRWalk--database:predictionofpossiblemiRNAbindingsitesby"walking"thegenesofthreegenomes.JournalofBiomedicalInformatics,2011,44(5):839[121]S.-D.Hsu,C.-H.Chu,A.-P.Tsou,etal.miRNAMap2.0:genomicmapsofmicroRNAsinmetazoangenomes.Nucleicacidsresearch,2007,36(suppl_1):D165-D169[122]P.Sethupathy,B.CordaandA.G.Hatzigeorgiou.TarBase:AcomprehensivedatabaseofexperimentallysupportedanimalmicroRNAtargets.Rna,2006,12(2):192-197[123]D.Betel,M.Wilson,A.Gabow,etal.BetelD,WilsonM,GabowAetal.ThemicroRNA.orgresource:targetsandexpression.NucleicAcidsRes36:D149-D153.NucleicAcidsResearch,2008,36(Databaseissue):D149-53[124]M.Kertesz,N.Iovino,U.Unnerstall,etal.TheroleofsiteaccessibilityinmicroRNAtarget121 基于生物网络的复杂疾病关联miRNA预测方法研究recognition.Naturegenetics,2007,39(10):1278[125]A.Krek,D.Grün,M.N.Poy,etal.CombinatorialmicroRNAtargetpredictions.Naturegenetics,2005,37(5):495-500[126]B.P.Lewis,C.B.BurgeandD.P.Bartel.Conservedseedpairing,oftenflankedbyadenosines,indicatesthatthousandsofhumangenesaremicroRNAtargets.Cell,2005,120(1):15[127]M.Maragkakis,M.Reczko,V.A.Simossis,etal.DIANA-microTwebserver:elucidatingmicroRNAfunctionsthroughtargetprediction.Nucleicacidsresearch,2009,37(suppl_2):W273-W276[128]J.KrügerandM.Rehmsmeier.RNAhybrid:microRNAtargetpredictioneasy,fastandflexible.Nucleicacidsresearch,2006,34(suppl_2):W451-W454[129]K.C.Miranda,T.Huynh,Y.Tay,etal.Apattern-basedmethodfortheidentificationofMicroRNAbindingsitesandtheircorrespondingheteroduplexes.Cell,2006,126(6):1203-1217[130]R.Goel,B.Muthusamy,A.Pandey,etal.Humanproteinreferencedatabaseandhumanproteinpediaasdiscoveryresourcesformolecularbiotechnology.MolecularBiotechnology,2011,48(1):87-95[131]G.P.Rédei.BIND(BiomolecularInteractionNetworkDatabase).SpringerNetherlands,2008,[132]I.Xenarios,D.W.Rice,L.Salwinski,etal.DIP:thedatabaseofinteractingproteins.Nucleicacidsresearch,2000,28(1):289-291[133]H.W.Mewes,D.Frishman,K.F.Mayer,etal.MIPS:analysisandannotationofproteinsfromwholegenomesin2005.NucleicAcidsResearch,2006,34(Databaseissue):169-72[134]L.Isseltarver,K.R.Christie,K.Dolinski,etal.SaccharomycesGenomeDatabase.MethodsinEnzymology,2002,350(69):329[135]B.Snel,G.Lehmann,P.Bork,etal.STRING:aweb-servertoretrieveanddisplaytherepeatedlyoccurringneighbourhoodofagene.NucleicAcidsResearch,2000,28(18):3442-4[136]C.Stark,B.J.Breitkreutz,T.Reguly,etal.BioGRID:ageneralrepositoryforinteractiondatasets.NucleicAcidsResearch,2006,34(Databaseissue):535-9[137]H.J.LoweandG.O.Barnett.Understandingandusingthemedicalsubjectheadings(MeSH)vocabularytoperformliteraturesearches.Jama,1994,271(14):1103[138]R.CornetandN.D.Keizer.FortyyearsofSNOMED:aliteraturereview.BmcMedicalInformatics&DecisionMaking,2008,8Suppl1(1):S2[139]L.M.Schriml,C.Arze,S.Nadendla,etal.DiseaseOntology:abackbonefordiseasesemanticintegration.NucleicAcidsResearch,2012,40(Databaseissue):940-6[140]T.G.O.Consortium,M.Ashburner,C.A.Ball,etal.GeneOntology:toolfortheunificationofbiology.NatureGenetics,2000,25(1):25-9[141]ResnikandPhilip.Usinginformationcontenttoevaluatesemanticsimilarityinataxonomy.In:InternationalJointConferenceonArtificialIntelligence.448-453122 博士学位论文[142]D.Lin.AnInformation-TheoreticDefinitionofSimilarity.In:FifteenthInternationalConferenceonMachineLearning.296-304[143]A.Schlicker,F.S.Domingues,J.Rahnenführer,etal.AnewmeasureforfunctionalsimilarityofgeneproductsbasedonGeneOntology.BMCBioinformatics,2006,7(1):302[144]C.D.JiangJ.SemanticSimilarityBasedonCorpusStatisticsandLexicalTaxonomy.In:ProceedingsoftheInternationalConferenceonResearchinComputationalLinguistics.11512--0[145]B.Li,J.Z.Wang,F.A.Feltus,etal.EffectivelyintegratinginformationcontentandstructuralrelationshiptoimprovetheGO-basedsimilaritymeasurebetweenproteins.2010:166-172[146]L.Jiang,B.Gong,C.Xi,etal.DOSim:AnRpackageforsimilaritybetweendiseasesbasedonDiseaseOntology.BmcBioinformatics,2011,12(1):266[147]X.Li,C.Li,F.Zhang,etal.DOSim:AnRpackageforsimilaritybetweendiseasesbasedonDiseaseOntology.BMCBioinformatics,12,1(2011-06-29),2011,12(1):1-10[148]S.MathurandD.Dinakarpandian.AutomatedOntologicalGeneAnnotationforComputingDiseaseSimilarity.AmiaJointSummitsonTranslationalScienceProceedingsAmiaSummitonTranslationalScience,2010,2010:12[149]S.MathurandD.Dinakarpandian.Findingdiseasesimilaritybasedonimplicitsemanticsimilarity.JournalofBiomedicalInformatics,2012,45(2):363-71[150]Y.LiandP.Agarwal.Apathway-basedviewofhumandiseasesanddiseaserelationships.PlosOne,2009,4(2):e4346[151]K.I.Goh,M.E.Cusick,D.Valle,etal.TheHumanDiseaseNetwork.ProceedingsoftheNationalAcademyofSciencesoftheUnitedStatesofAmerica,2007,104(21):8685[152]L.Cheng,J.Li,P.Ju,etal.SemFunSim:anewmethodformeasuringdiseasesimilaritybyintegratingsemanticandgenefunctionalassociation.PlosOne,2014,9(6):e99415[153]K.Sun,N.Buchan,C.Larminie,etal.Theintegrateddiseasenetwork.IntegrativeBiology,2014,6(11):1069-1079[154]Y.I.Liu,P.H.WiseandA.J.Butte.The"etiome":identificationandclusteringofhumandiseaseetiologicalfactors.BmcBioinformatics,2009,10(Suppl2):S14[155]X.Chen,M.-X.LiuandG.-Y.Yan.RWRMDA:predictingnovelhumanmicroRNA–diseaseassociations.MolecularBioSystems,2012,8(10):2792-2798[156]P.Ding,J.Luo,Q.Xiao,etal.Apath-basedmeasurementforhumanmiRNAfunctionalsimilaritiesusingmiRNA-diseaseassociations.ScientificReports,2016,6:32533[157]R.Shalgi,D.Lieber,M.Oren,etal.GlobalandLocalArchitectureoftheMammalianmicroRNA–TranscriptionFactorRegulatoryNetwork.PlosComputationalBiology,2007,3(7):e131[158]Q.Jiang,Y.Hao,G.Wang,etal.WeightedNetwork-BasedInferenceofHumanMicroRNA-DiseaseAssociations.In:FifthInternationalConferenceonFrontierofComputerScience123 基于生物网络的复杂疾病关联miRNA预测方法研究andTechnology.431-435[159]C.Lan,Q.ChenandJ.Li.GroupingmiRNAsofsimilarfunctionsviaweightedinformationcontentofgeneontology.BmcBioinformatics,2016,17(19):507[160]G.Yu,C.L.Xiao,X.Bo,etal.AnewmethodformeasuringfunctionalsimilarityofmicroRNAs.JournalofIntegratedOmics,2011,1(1):49-54[161]Y.Xu,M.Guo,X.Liu,etal.Inferringthesoybean(Glycinemax)microRNAfunctionalnetworkbasedontargetgenenetwork.Bioinformatics,2014,30(1):94-103[162]X.Chen,M.X.Liu,Q.H.Cui,etal.PredictionofDisease-RelatedInteractionsbetweenMicroRNAsandEnvironmentalFactorsBasedonaSemi-SupervisedClassifier.PlosOne,2012,7(8):e43425[163]J.C.CuberoandJ.C.Cubero.ASurveyofLinkPredictioninComplexNetworks.ACM,2016,[164]S.Bandyopadhyay,R.Mitra,U.Maulik,etal.DevelopmentofthehumancancermicroRNAnetwork.Silence,2010,1(1):6[165]M.E.J.Newman.Clusteringandpreferentialattachmentingrowingnetworks.PhysicalReviewEStatisticalNonlinear&SoftMatterPhysics,2001,64(2Pt2):025102[166]G.SaltonandM.J.Mcgill.Introductiontomoderninformationretrieval.McGrawpHill,1983,[167]P.Jaccard.EtudedeladistributionfloraledansuneportiondesAlpesetduJura.BulletinDeLaSocieteVaudoiseDesSciencesNaturelles,1901,37(142):547-579[168]T.Sørensen.AmethodofestablishinggroupsofequalamplitudeinplantsociologybasedonsimilarityofspeciesanditsapplicationtoanalysesofthevegetationonDanishcommons.BiolSkr,1957,5:1-34[169]E.Ravasz,A.L.Somera,D.A.Mongru,etal.Hierarchicalorganisationofmodularityinmetabolicnetworks.Science,2002,297(5586):1551-1555[170]T.Zhou,L.LüandY.C.Zhang.Predictingmissinglinksvialocalinformation.EuropeanPhysicalJournalB,2009,71(4):623-630[171]E.A.Leicht,P.HolmeandM.E.Newman.Vertexsimilarityinnetworks.PhysicalReviewEStatisticalNonlinear&SoftMatterPhysics,2006,73(2Pt2):026120[172]Barab,xe,A.-L.si,etal.EmergenceofScalinginRandomNetworks.Science,1999,286(5439):509-512[173]L.Z,L.JW,W.Y,etal.AbnormalmiRNA-30eExpressionisAssociatedwithBreastCancerProgression.ClinicalLaboratory,2015,62(1-2):121-128[174]T.Isobe,S.Hisamori,D.J.Hogan,etal.miR-142regulatesthetumorigenicityofhumanbreastcancerstemcellsthroughthecanonicalWNTsignalingpathway.Elife,2014,3:[175]A.Schwickert,E.Weghake,K.Brüggemann,etal.microRNAmiR-142-3pInhibitsBreastCancerCellInvasivenessbySynchronousTargetingofWASL,IntegrinAlphaV,andAdditional124 博士学位论文CytoskeletalElements.PlosOne,2015,10(12):e0143993[176]M.Pichler,A.L.Ress,E.Winter,etal.MiR-200aregulatesepithelialtomesenchymaltransition-relatedgeneexpressionanddeterminesprognosisincolorectalcancerpatients.BritishJournalofCancer,2014,110(6):1614-21[177]Y.Niu,Y.Wu,J.Huang,etal.IdentificationofreferencegenesforcirculatingmicroRNAanalysisincolorectalcancer.ScientificReports,2016,6:35611[178]Y.Hiyoshi,A.J.Schetter,H.Okayama,etal.IncreasedMicroRNA-34band-34cPredominantlyExpressedinStromalTissuesIsAssociatedwithPoorPrognosisinHumanColonCancer.PLOSONE,2015,10(4):e0124899[179]R.Nonaka,J.Nishimura,Y.Kagawa,etal.CirculatingmiR-199a-3pasanovelserumbiomarkerforcolorectalcancer.OncologyReports,2014,32(6):2354-8[180]P.Mussnich,R.Ros,R.Bianco,etal.MiR-199a-5pandmiR-375affectcoloncancercellsensitivitytocetuximabbytargetingPHLPP1.ExpertOpinTherTargets,2015,19(8):1017-1026[181]A.Drusco,G.J.Nuovo,N.Zanesi,etal.MicroRNAProfilesDiscriminateamongColonCancerMetastasis.PLOSONE,2014,9(6):e96670[182]T.Tanaka,M.Arai,S.Wu,etal.EpigeneticsilencingofmicroRNA-373playsanimportantroleinregulatingcellproliferationincoloncancer.OncologyReports,2011,26(5):1329[183]X.ChenandG.Y.Yan.Semi-supervisedlearningforpotentialhumanmicroRNA-diseaseassociationsinference.SciRep,2014,4:5501[184]O.B.DengyongZhou,ThomasNavinLal,anda.B.S.JasonWeston.LearningwithLocalandGlobalConsistency.2004:[185]R.Ben-HamoandS.Efroni.MicroRNAregulationofmolecularpathwaysasagenericmechanismandasacorediseasephenotype.Oncotarget,2015,6(3):1594[186]D.D.Esposti,E.Lee,H.Hernandezvargas,etal.miR-500a-5pregulatesoxidativestressresponsegenesinbreastcancerandpredictscancersurvival.ScientificReports,2017,7(1):[187]Y.Shi,X.Luo,P.Li,etal.miR-7-5psuppressescellproliferationandinducesapoptosisofbreastcancercellsmainlybytargetingREGγ.CancerLetters,2015,358(1):27-36[188]P.Xuan,K.Han,M.Guo,etal.PredictionofmicroRNAsassociatedwithhumandiseasesbasedonweightedkmostsimilarneighbors.PLoSOne,2013,8(8):e70204[189]L.Yang,X.Q.Tang,Z.Bai,etal.Exploringtheintrinsicdifferencesamongbreasttumorsubtypesdefinedusingimmunohistochemistrymarkersbasedonthedecisiontree.ScientificReports,2016,6:35773[190]Q.Wang,K.He,Z.Li,etal.TheCMYA5geneconfersriskforbothschizophreniaandmajordepressivedisorderintheHanChinesepopulation.WorldJournalofBiologicalPsychiatrytheOfficialJournaloftheWorldFederationofSocietiesofBiologicalPsychiatry,2014,15(7):553-560125 基于生物网络的复杂疾病关联miRNA预测方法研究[191]S.Gambardella,F.Rinaldi,S.M.Lepore,etal.OverexpressionofmicroRNA-206intheskeletalmusclefrommyotonicdystrophytype1patients.JournalofTranslationalMedicine,2010,8(1):48[192]F.Catapano,I.Zaharieva,M.Scoto,etal.AlteredLevelsofMicroRNA-9,-206,and-132inSpinalMuscularAtrophyandTheirResponsetoAntisenseOligonucleotideTherapy.MolecularTherapyNucleicAcids,2016,5(7):e331[193]Y.Ma,X.Pan,P.Xu,etal.PlasmamicroRNAalterationsbetweenEGFR-activatingmutationalNSCLCpatientswithandwithoutprimaryresistancetoTKI.Oncotarget,2017,8(51):88529-88536[194]H.Persson,A.Kvist,N.Rego,etal.IdentificationofnewmicroRNAsinpairednormalandtumorbreasttissuesuggestsadualrolefortheERBB2/Her2gene.Cancerresearch,2011,71(1):78-86[195]J.Shou,S.GuandW.Gu.IdentificationofdysregulatedmiRNAsandtheirregulatorysignatureingliomapatientsusingthepartialleastsquaresmethod.Experimentalandtherapeuticmedicine,2015,9(1):167-171[196]C.Cai,H.Ashktorab,X.Pang,etal.MicroRNA-211ExpressionPromotesColorectalCancerCellGrowthInVitroandInVivobyTargetingTumorSuppressorCHD5.PLOSONE,2012,7(1):e29750[197]Z.Han,F.Chen,X.Ge,etal.miR-21alleviatedapoptosisofcorticalneuronsthroughpromotingPTEN-Aktsignalingpathwayinvitroafterexperimentaltraumaticbraininjury.BrainResearch,2014,1582:12[198]E.Montalban,N.Mattugini,R.Ciarapica,etal.MiR-21isanNgf-modulatedmicroRNAthatsupportsNgfsignalingandregulatesneuronaldegenerationinPC12cells.NeuromolecularMedicine,2014,16(2):415-430[199]K.Smigielska-Czepiel,d.B.A.Van,P.Jellema,etal.DualroleofmiR-21inCD4+T-cells:activation-inducedmiR-21supportssurvivalofmemoryT-cellsandregulatesCCR7expressioninnaiveT-cells.PlosOne,2013,8(10):e76217[200]Z.Zhang,Y.Zha,W.Hu,etal.TheautoregulatoryfeedbackloopofmicroRNA-21/programmedcelldeathprotein4/activationprotein-1(MiR-21/PDCD4/AP-1)asadrivingforceforhepaticfibrosisdevelopment.JournalofBiologicalChemistry,2013,288(52):37082[201]W.Ding,J.Xin,L.Jiang,etal.CharacterisationofperipheralbloodmononuclearcellmicroRNAinhepatitisB-relatedacute-on-chronicliverfailure.ScientificReports,2015,5:13098[202]Q.Liao,P.Han,Y.Huang,etal.PotentialRoleofCirculatingmicroRNA-21forHepatocellularCarcinomaDiagnosis:AMeta-Analysis.PLOSONE,2015,10(6):e0130677[203]C.Yao,Q.Yuan,M.Niu,etal.DistinctExpressionProfilesandNovelTargetsofMicroRNAsinHumanSpermatogonia,PachyteneSpermatocytes,andRoundSpermatidsbetweenOAPatientsandNOAPatients.MolecularTherapyNucleicAcids,2017,9:182-194[204]D.R.Gutsaeva,M.Thounaojam,S.Rajpurohit,etal.STAT3-mediatedactivationofmiR-21is126 博士学位论文involvedindown-regulationofTIMP3andneovascularizationintheischemicretina.Oncotarget,2017,8(61):103568-103580[205]H.Andrade,M.Albuquerque,T.Peluzzo,etal.Hsa-miR-424andhas-miR-206areoverexpressedintheskeletalmuscleandplasmaofpatientswithAmyotrophicLateralSclerosis(ALS)(P2.054).Neurology,2015,84(14Supplement):[206]C.Yin,X.Zhou,Y.Dang,etal.PotentialRoleofCirculatingMiR-21intheDiagnosisandPrognosisofDigestiveSystemCancer:ASystematicReviewandMeta-Analysis.Medicine,2015,94(50):e2123127 基于生物网络的复杂疾病关联miRNA预测方法研究致谢麓山巍巍,湘水泱泱,四年前有幸到湖南大学求学,衷心感谢湖南大学为我敞开了大门,衷心感谢我的导师廖波教授给我学术的引领、生活的指导。廖老师严谨的治学态度、开阔的世界眼光、渊博的专业知识是我学习的楷模、追求的目标。感谢团队中朱老师、陈老师、谷老师、卢老师等老师对我的指导,你们无私的奉献精神、精益求精的工作作风永远是我的学习榜样。感谢实验室各位同学对我科研工作的大力帮助,感谢我的家人,谢谢你们对我的包容。最后感谢各位专家对我论文审阅,感谢您们的宝贵建议和意见。128 博士学位论文附录A攻读学位期间所发表的学术论文目录[1]MinChen,XinguoLu,BoLiao,ZejunLi,LijunCai.UncovermiRNA-diseaseassociationbyexploitingglobalnetworksimilarity.Plosone,2016,11(12):e0166509(第一作者,中科院JCR三区)[2]MinChen,BoLiao,ZejunLi.GlobalSimilarityMethodBasedonaTwo-tierRandomWalkforthePredictionofmicroRNA–DiseaseAssociation.ScientificReports,DOI:10.1038/s41598-018-24532-7(第一作者,中科院JCR三区)129 基于生物网络的复杂疾病关联miRNA预测方法研究附录B攻读博士学位期间主要参与的课题[1]国家自然科学基金项目:大规模SNP数据挖掘及其在复杂疾病分析中的应用研究(编号:61370171)[2]国家自然科学基金项目:复杂疾病的基因调控网络构建及调控机制研究(编号:61472127)[3]国家自然科学基金项目:面向生物大数据分析的正则化方法及应用研究,(编号:61672214)130

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭