基于神经网络的癌症多亚型分类及关键致病基因选择

基于神经网络的癌症多亚型分类及关键致病基因选择

ID:77696593

大小:2.00 MB

页数:73页

时间:2024-02-04

上传者:笑似︶ㄣ無奈
基于神经网络的癌症多亚型分类及关键致病基因选择_第1页
基于神经网络的癌症多亚型分类及关键致病基因选择_第2页
基于神经网络的癌症多亚型分类及关键致病基因选择_第3页
基于神经网络的癌症多亚型分类及关键致病基因选择_第4页
基于神经网络的癌症多亚型分类及关键致病基因选择_第5页
基于神经网络的癌症多亚型分类及关键致病基因选择_第6页
基于神经网络的癌症多亚型分类及关键致病基因选择_第7页
基于神经网络的癌症多亚型分类及关键致病基因选择_第8页
基于神经网络的癌症多亚型分类及关键致病基因选择_第9页
基于神经网络的癌症多亚型分类及关键致病基因选择_第10页
资源描述:

《基于神经网络的癌症多亚型分类及关键致病基因选择》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

硕士学位论文基于神经网络的癌症多亚型分类及关键致病基因选择NeuralNetworksBasedMultipleCancerSubtypeClassificationandKeyDiseaseGeneSelection作者:何艳玲导师:张林副教授中国矿业大学二○一八年五月 中图分类号TP181学校代码10290UDC621.3密级公开中国矿业大学硕士学位论文基于神经网络的癌症多亚型分类及关键致病基因选择NeuralNetworksBasedMultipleCancerSubtypeClassificationandKeyDiseaseGeneSelection作者何艳玲导师张林副教授申请学位工学学位培养单位信息与控制工程学院学科专业信息与通信工程研究方向生物信息处理答辩委员会主席李雷达评阅人二○一八年五月 致谢春暖花开之际,这将是求学生涯最后的一段时光。回顾这三年在中国矿大的研究生生活,感概万千。三年间的成长和进步得益于很多人,然而,最需要表达谢意的还是我的导师张林老师。选导师之前,并未和张林老师有过交流和沟通,而是通过徐钊教授介绍过来的,然而我庆幸有一个这样严肃认真,尽心尽责的导师。研究生刚入学时,张老师恰巧出国深造,本以为会阻碍师生之间交流和沟通。但非常感恩的是,虽隔着半个地球的距离,张老师仍然坚持对我的课题做出持续性的指导和建议。不仅如此,学院要求的期刊论文写作以及最后的毕业论文,若是没有张老师正确的指导和热心的帮助,我自己很难完成。眨眼间,研究生的学习生活就快结束了,感谢张老师三年间给予的关心和帮助。在这里,真诚地对您说一声:“谢谢您!”实验室就像一个大家庭,天南海北,素不相识的老师和同学们因向往知识的缘故聚到了一起。德高望重的徐钊教授就像这个大家庭里的家长,威严又不失温存,还有认真负责的刘辉老师,细致入微的张晓光老师,热情大方的郑红党老师,都给了我们这些小辈无微不至的关心和帮助。借此机会,我要向几位老师表达我内心的敬意和感谢。感谢师兄师姐:王婷婷、郑纪玲、郭颖、白梦如、满忠昊、卓然、梁龙兵、刘振暢等,他们在我的研究生期间给予了许多帮助。特别是卓然师兄和梁龙兵师兄,在刚入学的时候,不管是在生活方面,还是学习方面,都给了我很多指导性的建议,让我能够快速地适应研究生生活,并进入学习状态,在此表示感谢。感谢我亲爱的同学:王怀志和苏茜芮。可能因为整个实验室里,我们这届的学生只有我们三个,所以大家彼此相处的像亲人一样,互相学习,互相进步,互相帮助,你们成了我的研究生时光里最清晰,最难忘的一群人。特别要感谢的是王怀志,为人乐观热情,不仅给了我许多实实在在的帮助,更在精神和意志上鼓励了我。感谢培养了我二十几年的父母,你们虽然有望女成凤的心,却从来不在言语和行动上给我压力。每当面对重要关卡,你们总说:尽力就好!心虽感恩,却从未当着你们的面,严肃认真地说一句:谢谢。谢谢你们言传身教,谢谢你们无私付出,谢谢你们一路相伴。最后,谢谢各位专家参加我的论文评审工作,你们辛苦了! 摘要癌症日益威胁着人类的生存和健康,可能以不同的形式发生于人体的不同部位,形成不同类型的癌症。即便同种类型的癌症也会由于不同的基因突变表现为不同的亚型,给常规的癌症诊断和治疗带来困难。为了能够给癌症患者制定合理有效的个体化治疗方案,准确地进行癌症多亚型分类,并确定相关关键致病基因至关重要。本文即针对现有的与癌症多亚型分类相关的生物信息学方法展开研究和分析,首先针对癌症多亚型分类和关键致病基因选择设计了零隐藏层神经网络—弹性网正则化的Softmax回归(ElasticNetRegularizedSoftmaxRegression,ENRSR)模型,该模型基于各个基因的表达谱进行分类,并通过弹性网正则化实现稀疏约束,在进行癌症多亚型分类的同时完成了关键致病基因的选择。本文分别在仿真数据和三组基因表达谱数据(乳腺癌、小圆蓝细胞瘤和白血病)上对ENRSR模型进行仿真研究,通过k-折交叉验证和分类结果的BCubedF值得分评估模型分类性能,并和传统的分类方法,如K-means、层次聚类、非负矩阵分解、期望最大化、支持向量机和随机森林等方法进行比较。仿真结果表明,ENRSR模型在癌症多亚型分类方面能获得更理想的效果。选择出的关键致病基因通过GO通路富集度分析,在生物学功能上体现出了与相关癌症的密切联系。但该模型本身存在计算负荷过高的缺点,因此,本文进一步设计了含有两个隐藏层的全连接多层神经网络(Multi-layerNeuralNetworks,MLNN),以实现癌症的多亚型分类。考虑到关键致病基因的选择问题,在MLNN基本模型基础上使用ReLU激活函数。同样的,本文在ENRSR模型验证时采用的三组真实的基因表达谱数据上验证MLNN模型的性能,仿真结果表明,该模型可达到理想的分类效果。由于ReLU函数是线性激活函数,所以可通过隐藏层权值的大小简单地进行关键致病基因的选择,所选出的基因同样具备与现有参考文献相一致的生物学结论。该论文有图35幅,表4个,参考文献72篇。关键词:癌症多亚型分类;基因选择;Softmax回归;多层神经网络I AbstractCancerisincreasinglythreateninghuman’survivalandhealth.Itmaytakeplaceindifferentpartsofhumanbodywithdifferentforms,resultinginvarioustypesofcancer.Evencancerofthesametypewillshowdifferentsubtypesduetodiversegenemutations,whichmakesconventionalcancerdiagnosisandtreatmentmoredifficult.Inordertoselectmoreeffectiveandindividualizedtreatmentregimentsforcancerpatients,itisessentialtoclassifymulti-subtypecanceraccuratelyandselectkeydiseasegenes.Inthisthesis,wefirstanalyzedtheexistingbioinformaticsmethodsaimingatcancermulti-subtypeclassification.Then,weproposedaneuralnetworkswithouthiddenlayer—theElasticNetRegularizedSoftmaxRegression(ENRSR)modelformultiplecancersubtypeclassificationandkeydiseasegeneselection.Themodelestablishedasoftmaxregressionwithelasticnetpenalizedsparsenessregularizationforgeneexpressionprofiles.Itcansimultaneouslyachievecancersubtypeclassificationaswellaskeydiseasegeneselection.TheENRSRmodelwastestedonbothsimulateddataandthreesetsofgeneexpressionprofiles(breastcancer,smallroundbluecelltumorandleukemia).Theperformancewasevaluatedbyk-foldcrossvalidationandBCubedFscoreincomparisonwithsomeconventionalclassificationmethods,suchasK-means(Kmeans),HierarchicalClustering(Hclust),Non-negativeMatrixFactorization(NMF),ExpectationMaximization(EM),SupportVectorMachine(SVM)andRandomForest(RF).TheresultsshowedthatENRSRmodelcanachievemoreidealresultsforclassification,andtheselectedkeydiseasegeneswereanalyzedbyGOenrichmentanalysis,indicatingthatthesegeneshavecloserelationshipwiththerelevantcancers,whichisconsistentwithpreviousstudies.However,ENRSRmodelasksforhighcomputationload.Therefore,wefurtherdesignedafullyconnectedMulti-layerNeuralNetworks(MLNN)withtwohiddenlayersforcancermulti-subtypeclassification.Consideringtheselectionofkeydiseasegenes,weadoptedReLUactivationfunctionintheMLNNbasicmodel.Inthesameway,theperformanceoftheMLNNwasverifiedbythreegroupsofrealgeneexpressionprofilesusedintheENRSRmodel.TheresultsshowedthatMLNNcanachieveanidealclassificationperformance.SincetheReLUfunctionisalinearactivationfunction,thekeydiseasegenescanbeselectedsimplyaccordingtothevalueoftheweightsinthefirsthiddenlayer.GenesselectedinthiswaywerealsoII provedtohavebiologicalconclusionsconsistentwiththeexistingreferences.Attheendofthisthesisisasummaryandaprospecttothefollow-upwork.Thereare35images,4tables,72referencesinthisthesis.Keywords:multiplecancersubtypeclassification;geneselection;softmaxregression;multi-layerneuralnetworksIII 目录摘要............................................................................................................................I目录.........................................................................................................................IV图清单......................................................................................................................VIII表清单.........................................................................................................................XI1绪论............................................................................................................................11.1课题背景及意义......................................................................................................11.2课题研究现状..........................................................................................................31.3课题研究内容..........................................................................................................51.4本文的结构..............................................................................................................52癌症亚型分类的生物信息学方法...........................................................................72.1数据预处理..............................................................................................................72.2特征选择方法..........................................................................................................82.3癌症分型方法........................................................................................................102.4分类性能评估方法................................................................................................172.5本章小结................................................................................................................203基于弹性网正则化Softmax回归的癌症多亚型分类及关键致病基因选择.....213.1Softmax回归.........................................................................................................213.2弹性网正则化........................................................................................................223.3基于弹性网正则化Softmax回归的癌症多亚型分类方法................................233.4ENRSR算法的实现..............................................................................................243.5实验结果及分析....................................................................................................253.6本章小结................................................................................................................364基于多层神经网络的癌症多亚型分类及关键致病基因选择.............................37384.1多层神经网络........................................................................................................384.2多层神经网络的稀疏性........................................................................................394.3基于多层神经网络的癌症多亚型分类方法........................................................404.4MLNN算法的实现...............................................................................................434.5实验结果及分析....................................................................................................44IV 4.6本章小结................................................................................................................495总结与展望.............................................................................................................505.1总结........................................................................................................................505.2展望........................................................................................................................51参考文献.....................................................................................................................5152作者简历.....................................................................................................................5527论文原创性说明.........................................................................................................58学位论文数据集.........................................................................................................59V ContentsAbstract........................................................................................................................IIContents.....................................................................................................................VIFigureList...............................................................................................................VIIITableList...................................................................................................................XI1Introduction...............................................................................................................11.1BackgroundandSignificanceoftheSubject...........................................................11.2ResearchStatusoftheSubject.................................................................................31.3ContentsoftheSubject............................................................................................51.4StructureoftheSubject............................................................................................52BioinformaticsClassificationMethodsofCancerSubtypes.................................72.1DataPreprocessing...................................................................................................72.2FeatureSelectionMethods.......................................................................................82.3CancerSubtypesClassificationMethods...............................................................102.4ClassificationPerformanceEvaluationMethods...................................................172.5Summary................................................................................................................203ElasticNetRegularizedSoftmaxRegressionBasedMultipleCancerSubtypeClassificationandKeyDiseaseGeneSelection.......................................................213.1SoftmaxRegression...............................................................................................213.2ElasticNetRegularized..........................................................................................223.3MultipleCancerSubtypeClassificationMethodBasedonElasticNetRegularizedSoftmaxRegression.....................................................................................................233.4ENRSRAlgorithmImplementation.......................................................................243.5ExperimentResultsandAnalysis...........................................................................253.6Summary................................................................................................................364Multi-layerNeuralNetworksBasedMultipleCancerSubtypeClassificationandKeyDiseaseGeneSelection...............................................................................37384.1Multi-layerNeuralNetworks.................................................................................384.2MLNN’sSparsity...................................................................................................394.3MultipleCancerSubtypesClassificationMethodBasedonMLNN.....................404.4MLNNAlgorithmImplementation........................................................................43VI 4.5ExperimentResultsandAnalysis...........................................................................444.6Summary................................................................................................................495ConclusionsandProspects.....................................................................................505.1Conclusions............................................................................................................505.2Prospects................................................................................................................51References.......................................................................................................................52Author’sResume........................................................................................................5257DeclarationofThesisOriginality..............................................................................58ThesisDataCollection...............................................................................................59VII 图清单图序号图名称页码图2-1癌症分类的生物信息学流程7Figure2-1Bioinformaticsprocedureofcancerclassification7图2-2Filter特征选择算法流程8Figure2-2Filterfeatureselectionalgorithmflowchart8图2-3Wrapper特征选择算法流程9Figure2-3Wrapperfeatureselectionalgorithmflowchart9图2-4Embedded特征选择算法流程9Figure2-4Embeddedfeatureselectionalgorithmflowchart9图2-5层次聚类的合并算法和分裂算法11Figure2-5Mergehierarchicalclusteringandsplithierarchicalclustering11图2-6超平面示例15Figure2-6Hyperplaneexample15图2-7Sigmoid和Tanh函数图像16Figure2-7ImageofSigmoidandTanhfunction16图2-8单个生物神经元和数学模型17Figure2-8Singlebiologicneuralandmathematicalmodel17图2-9神经网络模型17Figure2-9Neuralnetworksmodel17图2-10计算某个样本BCubed精确率和召回率的示例19FigureExampleofcalculatingoneitem’sBCubedprecisionandrecall192-10图3-1ENRSR算法实现流程图24Figure3-1FlowchartofENRSRalgorithm24图3-2仿真数据的热图25Figure3-2Heatmapofsimulationdata25图3-3回归系数随迭代次数变化的热图26Figure3-3Heatmapoftheestimatedregressioncoefficients26图3-4100次模型训练中每个特征在每种类别中被选中的次数26Selectedtimesofeachfeaturewith100timesmodeltrainingforeachFigure3-426subtypeVIII 图3-5各种方法在仿真数据集上的分类性能比较27Figure3-5Predictionperformancecomparisononsimulationdata27图3-6ENRSR为Basal-like类型乳腺癌选出的基因的相关系数矩阵28ThecorrelationcoefficientmatrixofgenesgroupedbyENRSRforFigure3-628Basal-like图3-71000组随机选择的基因之间平均相关系数柱形图(乳腺癌数据集)29HistogramoftheaveragepairwisecorrelationcoefficientsoftherandomlyFigure3-729selectedgroupsfrombreastcancerdataset图3-8乳腺癌数据集上各种分类方法分类性能比较30Figure3-8Predictionperformancecomparisononbreastdataset30图3-9ENRSR为EWS类型的SRBCT选出的基因的相关系数矩阵31Figure3-9ThecorrelationcoefficientmatrixofgenesgroupedbyENRSRforEWS31图3-101000组随机选择的基因之间平均相关系数柱形图(SRBCT数据集)31FigureHistogramoftheaveragepairwisecorrelationcoefficientsoftherandomly313-10selectedgroupsfromSRBCTdataset图3-11SRBCT数据集上各种分类方法分类性能比较33FigurePredictionperformancecomparisononSRBCTdataset333-11图3-12ENRSR为AML类型的白血病选出的基因的相关系数矩阵34FigureThecorrelationcoefficientmatrixofgenesgroupedbyENRSRforAML343-12图3-131000组随机选择的基因之间平均相关系数柱形图(白血病数据集)34FigureHistogramoftheaveragepairwisecorrelationcoefficientsoftherandomly343-13selectedgroupsfromleukemiadataset图3-14白血病数据集上各种分类方法分类性能比较36FigurePredictionperformancecomparisononLeukemiadataset363-14图4-1多层神经网络模型38Figure4-1Multi-layerneuralnetworksmodel38图4-2脑神经元接受信号的激活模型和ReLU激活函数模型39Figure4-2ActivationmodelofbrainneuronreceivingsignalandReLUfunction39图4-3ReLU函数的稀疏激活性40Figure4-3ReLU’ssparseactivation40图4-4MLNN算法实现流程图44IX Figure4-4FlowchartofMLNNalgorithm44图4-5代价函数值和分类精确率在迭代过程中的变化趋势(乳腺癌数据集)44Figure4-5VariationtrendofJwb(,)andprecisioniniterationprocess(breastcancer)44图4-6所有方法在乳腺癌数据集上的分类性能比较45Figure4-6Predictingperformancecomparisonofallmethodsonbreastcancerdataset45图4-7隐藏层权值分布图(乳腺癌数据集)46Figure4-7Distributionhistgramofthehiddenlayerweights(breastcancer)46图4-8所有方法在SRBCT数据集上的分类性能比较46Figure4-8PredictingperformancecomparisonofallmethodsonSRBCTdataset46图4-9隐藏层权值分布图(SRBCT数据集)47Figure4-947Distributionhistgramofthehiddenlayerweights(SRBCT)图4-10所有方法在白血病数据集上的分类性能比较48Figure48PredictingperformancecomparisonofallmethodsonLeukemiadataset4-10图4-11隐藏层权值分布图(白血病数据集)48FigureDistributionhistgramofthehiddenlayerweights(Leukemia)484-11X 表清单表序号表名称页码表3-1真实数据集27Table2-1Realdatasets27表3-2乳腺癌数据集中所选基因的GO通路富集度分析29Table3-2Geneontologyenrichmentanalysisofselectedkeygenesforbreastcancer29表3-3SRBCT数据集中所选基因的GO通路富集度分析32Table3-3GeneontologyenrichmentanalysisofselectedkeygenesforSRBCT32表3-4白血病数据集中所选基因的GO通路富集度分析35Table3-4GeneontologyenrichmentanalysisofselectedkeygenesforLeukemia35XI 1绪论1绪论1Introduction1.1课题背景及意义(BackgroundandSignificanceoftheSubject)1.1.1课题研究背景随着经济的发展,丰富的物质条件给人们的生活带来了极大的便利,同时,各类疾病也给人们的生存和健康带来了极大的困扰和威胁,其中癌症是最让人恐惧和无能为力的。得病率和死亡率高,危害性大是各类癌症病的显著特点。全球范围内的癌症病例和死亡人数呈爆发性的增长,仅2012年就新增大约1410万的[1]癌症患者和820万死亡病例。中国癌症中心发布的2017年最新的癌症数据显[2]示,中国现在每天约有10,000人确诊癌症。癌症的发生从微观方面来讲是细胞不受控制增殖的结果。细胞的增殖和凋亡是维持机体正常运转的重要过程。细胞通过分裂进行增殖,与此同时,携带遗传信息的染色体也完成了自我复制。而细胞凋亡是其主动进行的程序性死亡过程。这两个过程维持了细胞数量的平衡,保证了肌体功能的正常表达。但是,当基因发生突变时,细胞增殖和凋亡的平衡状态被打破,细胞开始恶性增殖、传播、扩散,就形成了癌症。所以,从根本上来说癌症是一种基因病。基因是染色体上携带遗传信息的DNA片段,具有多样性,基因突变在外界因素的影响之下产生不[3]同的组合,就会引起诸如癌症之类的疾病,且同一类癌症会由于不同的基因突变表现为不同的亚型。[4]例如,中国癌症第一杀手肺癌,可分为非小细胞肺癌和小细胞肺癌。小细胞肺癌约占肺癌的15%,可观察到非常小的,形状为纺锤形或多边形的细胞。非小细胞肺癌也可分为三个亚型:肺腺癌,肺鳞状细胞癌和肺大细胞癌。肺腺癌又有如腺泡状腺癌、乳头状腺癌、细支气管肺泡癌和实性腺癌等多种亚型;肺鳞癌也有乳头状鳞状细胞癌和透明细胞鳞状细胞癌等亚型;肺大细胞癌有肺淋巴上皮瘤样癌、基底细胞样大细胞癌和肺大细胞神经内分泌癌等亚型。乳腺癌在白人女性中的发病率较高,其本身并不致命,致命的原因是扩散的癌细胞对其他器官和组织的侵蚀。根据雌激素受体(EstrogenReceptor,ER)、孕激素受体(ProgesteroneReceptor,PR)和人类表皮生长因子受体2(HumanEpidermalGrowthFactorReceptor2,HER2)3种分子标记物的检测结果,可将乳腺癌分为5个亚型:管腔A(Luminal_A)型、管腔B(Luminal_B)型、基底细胞样(Basal-like)型、[5]HER2过表达(HER2-enriched)型和正常乳腺样(Normal-like)型。Luminal_A型和Luminal_B型的HER2呈阴性,ER和PR都呈阳性,侵略性较小,对激素1 硕士学位论文疗法反应良好;Basal-like型乳腺癌患者的ER、PR和HER2都是低表达,呈现较强的攻击性,迁移频率高,容易复发,对激素和靶向疗法不敏感,对化学疗法反应较好,但预后效果差,因而死亡率最高;HER2过表达型也称为HER2阳性型,ER低表达或者无表达,发展迅速,临床生物学特征差,恶性程度高,患者可通过化学疗法和靶向疗法得到缓解。急性白血病(AcuteLeukemia)是另一种常见的恶性肿瘤,患有急性白血病的患者正常造血功能受到抑制,白血病细胞大量堆积于骨髓和其他造血组织。临床表现主要有:发热、感染、贫血、浸润、出血、肝、脾、淋巴结肿大等,若不接受特殊治疗,平均存活时间仅为三个月。从临床角度,急性白血病可以分为急性淋巴细胞白血病(AcuteLymphoblasticLeukemia,ALL)和急性髓性白血病(AcuteMyeloidLeukemia,AML)两大类。ALL型白血病恶性增殖的细胞以原始和幼稚淋巴细胞为主,细胞广泛浸润、大量增殖,多发于儿童。AML恶性增殖的细胞以原始和幼稚髓性细胞为主,临床表现为代谢异常、脏器浸润等,多发于成人。可以看出,即便是同一器官/部位的癌变,也可能呈现不同的亚型,相应的需要制定不同的诊疗方案进行诊断和治疗。因此,癌症亚型的准确分类对为患者制定合理有效的个体化治疗方案至关重要。1.1.2课题研究意义随着临床治疗技术的不断进步,癌症的不良预后得到了极大的改善,然而,对发生于同一器官且病理上无明显异质性的癌症采取同样的治疗方案,预后却天[6]差地别。究其原因,病理检查主要依据的是光学显微镜所观察到的细胞规则程度及其排列的规则程度,因而,病理上相同的癌症不足以说明就是同一种癌症,仍然有更细微的地方需要加以区分。所以,从分子的角度挖掘相同病理结果后潜藏的信息,探索能够分辨癌症亚型的关键致病基因,对癌症的临床治疗具有重要的意义。另外,找出关键致病基因对推进癌症靶向治疗也有重要的意义。目前,临床活检的病理学检查是癌症诊断的基本手段,以放疗、化疗等治疗方式为辅助措施,[7]手术切除仍是最主要的治疗方式。作为最古老、最基本的癌症治疗方法,手术切除确实能在合适的情况下彻底根治癌症,但成功的几率很低,且很大程度上受医生自身的经验、癌症的类型和所在身体的部位等因素的影响。放射疗法的基本措施是利用高通量射线,如X射线,来杀死癌细胞,但是射线自身就具有致癌性,在杀死癌细胞的同时,正常细胞也会被损害,因而副作用很大。而靶向治疗是在细胞分子水平上,针对已经明确的癌症位点,即所谓的关键致病基因,来设计相应的治疗药物,药物进入体内会特异地选择致癌位点来结合发生作用,使肿瘤细胞特异性死亡,而不会波及肿瘤周围正常的组织细胞。癌症的靶向治疗凭借2 1绪论其特异性与靶向性,在癌症治疗中发挥越来越重要的作用,成为癌症治疗的主攻方向,因而探索癌症关键致病基因选择方法对推进药物靶向治疗意义重大。然而,完全从生物实验的角度来探索癌症亚型分类和关键致病基因选择方法,在人力物力财力等多方面均消耗过大,而生物信息学为此开辟了一条新的途径,也是本课题研究的意义之一。20世纪90年代发展起来的基因芯片(GeneChip)和近年来迅速发展的第二代高通量测序(NextGenerationSequencing)技术为从生物信息学角度探索癌症亚型分类和关键致病基因选择方法提供了技术和数据支持。由美国能源部和国家卫生研究院于1990年正式启动的“人类基因组计划(HumanGenomeProject,HGP)”极大地推动了基因组和基因测序技术的发展,由此催生的高通量测序技术也极大地改变了分子生物学的研究方向,使对单个基因的研究拓展到对一群基因乃至整[8,9]个基因组的研究,研究工作者们能够同时测量成千上万个基因的表达水平[10-13],为基因功能探索带来了有力的分析依据。而基于高通量测序技术的癌症基因组学(CancerGenomics)及其代表项目癌症基因组图谱计划(TheCancerGenomeAtlas,TCGA)为分析研究癌症的致病机理和演化过程提供了大量癌症患者的样本数据,为我们从生物信息学的角度寻找癌症的致病基因奠定了数据基础,但是如何有效利用如此庞大数量的癌症基因组数据,挖掘其中的重要信息仍然是一个严峻而棘手的课题。人类的基因约有20,000多个,而作为癌症测序样本的患者却相对较少,导致用于癌症亚型分类的基因组数据基因数总是显著地大于样[14,15]本数,即表现出高维小样本的特性。另外,在这些特征基因中,只有很少的一部分对某种特定的疾病有影响,其余的特征有的无关紧要,有的甚至对疾病类型的确定和病情的分析起着噪声的作用。因此,探索新的生物信息学方法,以有效利用大量的癌症样本数据,对癌症的多种亚型实现正确的分类,并筛选出潜在的癌症亚型相关致病基因,对研究抗癌药物、制定个体化治疗方案及人类最终攻克癌症都具有非常重要的指导意义。1.2课题研究现状(ResearchStatusoftheSubject)[16]近年来,针对癌症多亚型分类方法的研究层出不穷。2008年,Alok提出了一种梯度线性判别分析(GradientLinearDiscriminantAnalysis,GLDA)方法对癌症多亚型进行识别。该方法在原有的LDA算法上进行了改进,通过对基因微阵列表达数据进行特征提取降维,以避免由于样本数量过少而导致的一些问题,如类间散点矩阵的奇异性等。然后使用K-最近邻(K-nearestNeighbour,KNN)算法对将维后的数据进行分类,从而得到理想的分类准确率。GLDA的优点是对“高维小样本”数据进行了降维,即使样本数量较少,也能够对模型进行有效的训练。但在最终的分类模型选择上面,KNN的性能要逊于神经网络。2013年,Men-Yun3 硕士学位论文[17]Wu等人提出了一种网络聚类算法以实现癌症亚型的分类,该算法具有鲁棒性,不仅可识别癌症亚型,还可以发现生物标志物。该算法是建立在多元学生氏分布基础上的混合模型,其特点是能让算法不受个别基因异常表达值的影响。另外,基于基因各种功能的实现是网络化的,该算法提出了一种新的表示基因之间网络关系的方法—逆尺度矩阵(InverseScaleMatrix),将基因之间的相互关系纳入了癌症亚型分类的范畴。然而基因表达谱数据中往往有成千上万个基因,对海量基因构建网络通路,计算负荷过高,因而只能选择其中很小的一部分具有明显差异表达的基因来进行癌症亚型分类。比如在进行白血病亚型分类时,只能够选择其中300个基因的表达谱进行分析,基因数量过少往往导致部分有效信息的丢失,造[18]成分类精度下降。同样在2013年,Anguraj对一个包含了1290个大肠癌病例的基因表达谱数据集进行了分析,并通过一致性无监督聚类算法,对这1290个大肠癌患者进行归类,最终依据每个大肠癌亚型的基因标志物,定义了6个临床相关的大肠癌亚型。Anguraj的研究将基因表达谱数据和患者临床治疗的数据紧密结合,合理地分出了大肠癌的6个亚型,对大肠癌的研究和治疗都有着非常重[19]要的意义。2014年,YiyiLiu设计了一种共聚类算法,所谓共聚类,就是将样本和基因同时分成最一致的类。该算法是建立在当时被发现的所有的基因网络调控关系之上,基因权重的赋值方法参考其在网络中的作用。显然这种方法并不具有绝对的权威性,因为目前的研究成果并不能包括全部的基因调控网络,并且,在癌症发展进程中,不同的调控网络所发挥的作用也各有不同。2015年,Justin[20]Guinney等人进行了一项大型的结直肠癌分子亚型分类研究,他们联合多个国家的科学家集合当时所有可用的结直肠癌数据集,包括癌细胞类型、基因活性、细胞代谢、基因突变、免疫系统活性等的分子学和临床数据,其中有3962个病例,4个结直肠癌亚型,分别为:微卫星不稳定免疫型、经典型、代谢型和间质型。这4种结直肠癌亚型大约覆盖了87%的肠癌,JustinGuinney等人基于该数据集,对结直肠癌的亚型分类进行了研究。[21]在关键致病基因选择方面,2014年,赵磊等人提出了一种癌症关键基因的预测模型,挖掘癌症病人突变基因中的信息。该模型以患者的基因表达谱数据和分子之间的相互作用为依托,将t-检验和卷积改变相结合,验证差异基因的存在,并以皮尔逊相关系数得分为参考对网络中分子之间的相互作用进行了评估,最终以差异性表达最大的那部分基因作为预测的癌症关键基因。2007年,[22]Wang等人对基因按重要性进行排序,先选出一部分相对重要的基因,再针对其中不同个数的基因依序穷尽搜索,搜索的结果使用模糊神经网络(FuzzyNeuralNetworks,FNN)和支持向量机(SupportVectorMachine,SVM)进行评判,找出其[23]中的最佳组合。2015年,Sardana等人针对一类结直肠癌数据提出了一种求最4 1绪论少冗余但最相关基因集合的方法。该方法以散射矩阵为基础,根据分类方法的不同得到三组数量不同的基因,分别为9个、21个和28个,对应的分类方法为KNN、线性判别分类器(LinearDiscriminantClassifier)和SVM,若进行留一交叉[24]验证,三种方法分别可达到95.16%、100%和98.39%的精度。2016年,Yang等人在选择关键致病基因时,考虑了多分类转化为多个二分类所带来的样本不平衡问题,提出了一种适用于样本不平衡的关键致病基因选择方法。上述癌症多亚型分类方法和致病基因选择方法各有各的优势,但也都或多或少存在着一些不足之处。分类算法方面,例如算法太过复杂,计算代价太高等;关键致病基因选择方面,存在方法只针对某种癌症,泛化性能较差,未能考虑基因表达谱中的全部基因等问题。另外,部分基因选择方法独立于分类方法而存在的,并没有和相关的分类方法进行有效的融合,所以如何将二者更好地结合,实现在分类的过程选出关键基因,仍是一个充满挑战的研究课题。1.3课题研究内容(ContentsoftheSubject)本文针对癌症多亚型分类和关键致病基因选择问题,研究了两种具有稀疏性的神经网络分类模型,弹性网正则化的Softmax回归模型和多层神经网络模型,具体研究内容如下:1)研究了癌症分类的一般流程和现有的与之相关的生物信息学方法,对每种方法的优缺点都进行了分析和归纳,说明了选择稀疏学习方法解决癌症多亚型分类问题的必要性。2)针对多亚型分类和关键致病基因选择的双重问题,研究了弹性网正则化、Softmax回归,并建立了基于弹性网正则化的Softmax回归模型以实现癌症多亚型分类和关键致病基因的选择。3)针对弹性网正则化的Softmax回归模型耗时过长的问题,研究了ReLU函数做激活函数的多层神经网络在癌症多亚型分类和关键致病基因选择方面的应用。4)对选出的致病基因进行了GO通路富集度分析,分析其在相关疾病形成过程中的作用和功能,验证相关基因选择方法的可行性和有效性。1.4本文的结构(StructureoftheSubject)本文一共可分为五章。具体内容为:第一章围绕课题的研究背景及意义做了简要的介绍,分析了当前癌症病的严峻形势,并举例阐述了癌症多亚型的特点给临床治疗所带来的困难,说明本文研究内容的重要意义。第二章针对目前已有的与癌症亚型分类相关的生物信息学方法做了总结,包5 硕士学位论文括数据处理方法、分类方法、聚类方法和分类性能评估方法。并对这些方法的优势和存在的问题进行了剖析,为后续章节内容的开展奠定了基础。第三章中提出了一种零隐藏层神经网络—基于弹性网正则化的Softmax回归模型,可用于癌症多亚型的分类和关键致病基因的选择。本章给出了该模型的训练过程,分别在仿真数据和真实数据集中验证了该模型的分类性能,并与其他几种分类和聚类方法进行比较。此外,本章还对模型选出的致病基因进行了“群组效应”和GO通路富集度分析,挖掘其潜在的生物性能和致病原理。第四章中提出了一种含有两个隐藏层的多层神经网络模型,给出了具体的推导步骤及训练过程,对隐藏层激活函数的选择和反向传播算法进行了详细的阐述和解释,在三组真实数据集上验证了模型的分类性能,也对筛选出的基因在相关癌症中的作用作了具体分析。第五章总结本文的主要工作和任务完成情况,针对与任务要求之间的差距和和现有方法的改善空间提出了后续的工作内容。6 2癌症亚型分类的生物信息学方法2癌症亚型分类的生物信息学方法2BioinformaticsClassificationMethodsofCancerSubtypes癌症分类问题的研究已历经了几十年的发展,形成了一套完整而成熟的体系,分类大致的流程如图2-1所示。其中,关于癌症分类问题中的数据处理、特征选择、分类器设计和分类结果评估有许多经典的算法,下面将针对这些算法做具体介绍。图2-1癌症分类的生物信息学流程Figure2-1Bioinformaticsprocedureofcancerclassification2.1数据预处理(DataPreprocessing)数据标准化是数据预处理的重要方面。数据标准化的目的是使数据具有相同的量纲,方便后期的数据分析。对于微阵列数据,目前常用的方法有两种:1)设X是基因表达微阵列矩阵,对矩阵X标准化,使得每个基因的均值为0,方差为1,计算方法如式(2-1)所示:()xxijjx(2-1)ijsj其中,xij是第i个样本的第j个基因的原始值,xj是在所有样本中第j个基因的均值,sj是在所有样本中第j个基因的方差,xij是第i个样本的第j个基因在标准化之后的值。2)经过标准化变换使得微阵列数据在[0,1]范围内,计算方法如式(2-2)所示:7 硕士学位论文xxijminxij(2-2)xxmaxmin其中,x和x分别是第j个基因表达值的最大值和最小值。在本文中,采用maxmin第一种方法对数据进行标准化。2.2特征选择方法(FeatureSelectionMethods)常用的特征选择方法大致可以分为三类,过滤(Filter)算法,包装(Wrapper)算法和嵌入式(Embedded)算法。1)Filter算法Filter特征选择方法的基本思想是运用统计方法制定准则来衡量每个特征的重要性,并根据重要性的程度对特征进行排序,比较重要的特征被保留,不重要[25]的被丢弃。保留下来的特征被用于学习算法的训练,如图2-2所示。这种评估特征的方法与后续的学习算法无关,时间复杂度低,速度快,开销少,但与后续算法性能偏差较大。Filter方法包括卡方检验(Chi-squaredTest)、信息增益(InformationGain)和相关系数得分(CorrelationCoefficientScores)等。图2-2Filter特征选择算法流程Figure2-2Filterfeatureselectionalgorithmflowchart2)Wrapper算法不同于Filter算法,Wrapper算法将最终需要使用的分类算法作为特征选择算法的一个组成部分,纳入了特征子集的评估过程,如图2-3所示。选取的特征子集被用于对训练集的分类,以分类性能为标准,寻找能够使后续学习算法性能达到最优的特征子集。Wrapper算法选择的特征子集规模较小,准确率较高,不仅适用于类别离散的数据集,也适用于类别连续的数据集。但是在特征子集的选择过程中,需要对每个特征子集的分类准确率进行计算,所以速度要比Filter算法慢,且泛化能力差。8 2癌症亚型分类的生物信息学方法图2-3Wrapper特征选择算法流程Figure2-3WrapperfeatureselectionalgorithmflowchartWrapper算法选择特征子集的过程是将所有可能的特征子集做分类性能比较,所以存在比计较顺序的问题,常用的搜索策略有穷举搜索、启发式搜索和随机搜索等。3)Embedded算法Embedded特征选择方法的显著特点是不单独做特征选择,而是将特征选择的过程嵌套在分类算法中,如图2-4所示,在选定模型的情况下,选取对模型训练作用最大的特征。这类方法中最典型的就是正则化方法。图2-4Embedded特征选择算法流程Figure2-4Embeddedfeatureselectionalgorithmflowchart9 硕士学位论文2.3癌症分型方法(CancerSubtypesClassificationMethods)2.3.1聚类算法聚类,就是按照某种算法,将给定元素集合划分成K个子集,划分的依据是元素之间的相似度,同一子集的元素相似度比不同子集的元素相似度要高。聚类是无监督的学习方法,聚类之前可以不知道样本类别。癌症分型中常用的聚类算法有:K-means聚类算法、层次聚类、高斯混合模型和非负矩阵分解等。1)K-means聚类算法[26]K-means算法输入簇的个数K和n个样本数据,并以方差最小标准输出K个聚类,算法步骤可总结如下:i:从n个样本点中任意选取K个作为初始聚类中心;ii:计算每个样本到K个聚类中心的距离,并将样本归到离它最近的聚类中;iii:以每个聚类中样本的均值为新的聚类中心,并对样本进行重新聚类;iv:重复上一步,直到满足一定的条件,如函数收敛,算法终止。K值的确定是K-means算法的关键。目前主要方法有:①据问题的内容确定K的大小;②肘部法则:计算不同K值的成本函数,选取畸变程度下降最快的位置作为K的值;③与层次聚类结合找到初始聚类。由于K-means算法要事先确定K值并选取K个初始质心,所以一旦K值或初始质心选的不好,就会对聚类结果造成很大的影响。2)层次聚类[27]层次聚类(HierarchicalClustering)的基本思想是通过计算样本之间的相似性,一层一层地对样本进行聚类的方法。层次聚类可以分为自下而上的合并算法和自上而下的分裂算法。合并算法,如图2-5a)所示,在最开始的时候将每个样本都归为一个簇,计算每对簇类的相似性,选取相似性最大的两个簇合并成一个簇,重复这个过程直到满足分类要求。分裂算法与之相反,如图2-5b)所示,开始时将所有样本归为一个大簇,然后计算簇内样本之间的相似性,选取相似性最小的一对样本拆分到两个不同的簇,其他样本则根据与拆分样本相似性的大小归到这两个簇中,重复上述过程直到满足分类条件。层次聚类算法虽然不用事先确定K值,但是计算复杂度高,且不具有再分配的能力,即一旦一个合并或分裂被执行,就不能再修订,聚类质量受限制。10 2癌症亚型分类的生物信息学方法a)合并算法b)分裂算法图2-5层次聚类的合并算法和分裂算法Figure2-5Mergehierarchicalclusteringandsplithierarchicalclustering3)高斯混合模型高斯混合模型(GaussianMixtureModel,GMM)由K个高斯分布线性叠加而成,每个高斯分布称为GMM中的一个成分(Component),对应着一个簇类(Cluster),GMM对样本的概率密度分布进行估计,将样本数据在每个高斯模型上进行投影,得到在各个类别上的概率,选取概率最大的类作为预测结果。GMM的定义如式(2-3)所示:Kpx()ipx(i,i)(2-3)i1其中,px(,)是以为均值向量,以为协方差矩阵的多元高斯分布的概率密度函数,是第i个高斯分布在混合模型中的权重。求解均值向量,i协方差矩阵和权重,即可得到每个样本属于各个类的概率。GMM算法和K-means算法很类似,成分(即高斯分布)的个数K,也需要另外的方法来确定,并且GMM对每个成分的质心初始化也很敏感。4)非负矩阵分解非负矩阵分解(Non-negativeMatrixFactorization,NMF)算法于1999年由[28]D.D.Lee和H.S.Seung两位科学家发表在著名的科学杂志《Nature》上。该方法实现简便、占用内存少、分解形式和分解结果可解释性强,在图像分析、文本聚类、数据挖掘、语音处理和生物医学工程等方面都有广泛的应用。对一个M维的向量v,进行N次观测,记为vj,j1,2,...,N,取V=[V.1,V.2,…,V.N],其中V.jjv,j1,2,...,N,NMF的目标是求出非负的基矩阵W[WW,,...,W]和系数矩阵H[HH,,...,H],使得VWH。在对高维稀.1.2.N.1.2.N疏数据进行聚类时,NMF算法是一种很有效的手段。利用NMF可以将高维矩阵分解成易于处理的低秩矩阵,并保持数据的原有特征。矩阵分解方法有很多,如主成分分析(PrincipalComponentAnalysis,PCA),独立成分分析(IndependentComponentCorrelation,ICA),奇异值分解(SingularValueDecomposition,SVD)11 硕士学位论文等。这些方法将原始的大矩阵V近似分解为低秩矩阵W和H,不同的是,所有这些方法中,低秩矩阵W和H中的元素可正可负。在数学上,分解的矩阵中含有负值是正常的,但在生活实际中却毫无意义。例如,图像数据中负值的像素点,文本分析中负值表示的单词个数等都是无法解释的。而NMF算法致力于将任意给定的非负矩阵分解为另外两个低秩非负矩阵的乘积,这对解决很多现实问题是很有意义的。2.3.2分类算法癌症分型中常用的分类方法有基于规则的分类算法、K-最近邻分类算法、决策树分类算法、朴素贝叶斯分类算法、支持向量机、随机森林、逻辑回归和神经网络等。下面就这几种分类方法做简单的介绍。1)基于规则的分类算法基于规则的分类方法是使用一组“if…then…”规则来对记录进行分类的方法。其中规则用析取范式R()rrr表示,R是规则集,ri,1,2,,k,12ki是分类的规则。r可表示为:ir:if(条件=i)then(y)ii规则的左部(“if”部分)称为规则的前件,是属性测试的合取;规则的右部(“then”部分)是规则的结论,包含一个类别预测。预测性能用覆盖率(coverage)和准确率(accuracy)来评估。类标给定的总的记录数为D,被规则覆盖的记录数为n,覆盖的记录中被正确分类的记录数为coversn,规则的覆盖率和准确率的计算方法如式(2-4)和式(2-5)所示:correctncoverageR()covers(2-4)DncorrectaccuracyR()(2-5)ncovers基于规则的分类方法可能会存在以下的问题:①多个规则被触发,但是它们指向了不同的类;②没有一个规则被触发。为了解决以上两个问题,规则集R需要满足以下两个规则:①互斥规则:规则集R不存在两条规则被同一记录触发;②穷举规则:对属性值的任意组合,R中都有一条规则加以覆盖。这两条规则保证每一条记录被且仅被一条规则覆盖。2)K-最近邻分类算法[29]K-最近邻(K-NearestNeighbor,KNN)分类算法是一种理论比较成熟,也是最简单的分类技术之一,它的核心思想是:通过计算每个样本集中的数据到未知类别样本数据的距离,找到与未知类别样本距离最小的K个样本,并对每种12 2癌症亚型分类的生物信息学方法类别样本个数进行统计,最后将未知类别样本归到样本数最多的类别。设有n个样本,可分为p个类别,对于样本x,在其选中的K个近邻中,属于i类的样本有s个,ip1,2,...,,判别函数的定义如式(2-6)所示:igx()si,1,2,...,p(2-6)ii决策规则如式(2-7)所示:gx()max,,sij1,2,...,p(2-7)jii则x的类标为j,j=1,2,…,p。搜索距离最近的K个样本可采用欧氏距离,如式(2-8)所示:1d(,)xy(xyxy)()T2(2-8)euc或者相关系数,如式(2-9)所示:Covxy(,)rxy(,)(2-9)1(VarxVary[][])2其中,Covxy(,)是x和y的协方差,Varx[]是x的方差,Vary[]是y的方差。KNN算法的性能很大程度上取决于K值的选择。K值偏小,得到的近邻数就会偏少,一方面会降低分类精度,另一方面会放大噪声干扰;K值偏大,若待定的样本类别恰巧是训练集中包含样本较少的一类,那么K个近邻中真正属该类别的样本处于弱势,则分类效果不佳。文献[30]提出一种SA-KNN算法,引用稀疏学习理论,利用训练样本重构测试样本,同时引入l范数去除噪声样本,2,1寻找投影变换矩阵W的方法来确定K值。文献[31]建议K值等于n,n为样本个数。KNN算法在为待分类样本寻找最近的K个邻居时,需要计算样本空间中每个样本与待分类样本之间的距离,当训练样本过多时计算量太大,分类速度慢。另外,当样本类别不平衡时,分类精度降低。3)决策树分类算法决策树(DecisionTree,DT)是一种有监督的分类学习算法,在机器学习,数据统计和数据挖掘等方面都有广泛的应用。在构造决策树的过程中最重要的是选择什么样的属性对样本进行划分。根据属性划分方法的不同,决策树可分为多种不同的算法,常用的决策树算法有ID3算法,C4.5算法和CART算法。ID3算法将信息增益作为属性的选择标准,以当前样本集中具有最大信息增益值的属性作为测试属性,信息增益值越大,不确定性就越小,从而可以得到较小的决策树。但是ID3算法只能处理离散的描述属性,不能处理连续的描述属性。C4.5算法在ID3算法的基础上使用信息增益率来确定测试属性,既能处理离散的描述属性,也能处理连续的描述属性;CART算法是一种有效的回归分类方法,13 硕士学位论文当叶子结点是连续变量时,CART树是回归树,反之,为分类树。然而,以上三类决策树算法仍存在一系列的问题。一方面,受内存限制,存在驻留现象和伸缩性较差等问题;另一方面,处理大数据时会增加算法开销,分类准确性下降。4)朴素贝叶斯分类器朴素贝叶斯分类器(NativeBayesClassifiers)是基于贝叶斯理论的一种分类算法,形式简单、便于理解,具有分类精度高,分类速度快等优点。贝叶斯定理是根据一个已发生事件的概率,计算另一个事件发生的概率,如式(2-10)所示:PBAPA()()PAB()(2-10)PB()PA()是事件A的先验概率,PAB()是B发生的条件下A发生的概率,称作A的条件概率或者后验概率。PB()是事件B的先验概率,PBA()是A发生的条件下B发生的概率,称作B的条件概率或者后验概率。在分类问题中,类变量y{,,...,yyy},K是类别总数,假设X是未知类别12K样本的特征向量,通过计算yi(1,2,...,)K对X的后验概率,如式(2-11)所示:iPXyPy()()iiPyX()(2-11)iPX()选取后验概率最大的类别,作为未知样本X的类标。因为贝叶斯理论假设每个特征之间都是相互独立的,这在实际应用中很难实现,所以分类器的性能会有所下降。5)支持向量机支持向量机(SupportVectorMachine,SVM)于1995年由CorinnaCortes和[32]Vapnik等提出,它在解决高维小样本及非线性数据中具有独特的优势,广泛应用于癌症检测,基因表达谱分析等模式识别领域。SVM的基本思想是要在样本空间中找到一个超平面(HyperPlane),将类别不同的样本分开。以一个线性可分的二分类问题为例,超平面在二维空间中就是一条直线,并且有很多这样的直线可以满足分类要求,如图2-6所示。但是有些超平面的分类效果并不是特别的好,如图2-6的线L,若测试数据出现一点点的偏差,分类结果就容易出现错误。因此,我们要找到一个最优超平面(OptimalHyperPlane)。最优超平面要使模型的泛化误差达到最小,例如超平面H的泛化误差可以用离超平面最近的样本点到超平面之间的间隔(Margin)来表示,间隔越大,超平面的泛化误差越小。H1和H2过两侧离H最近的样本点且与H平行,它们之间的距离就是分类的最小间隔。将最小间隔最大化,此时的H就是最优超平面。H1和14 2癌症亚型分类的生物信息学方法H2上的样本点就是支持向量(SupportVector)。图2-6超平面示例Figure2-6HyperplaneexampleSVM的可解释性强,对线性和非线性问题都适用,泛化错误率低,适用于高维小样本数据,但对函数选择和参数调节太过敏感。6)随机森林随机森林(RandomForest,RF)是于2001年,由LeoBreiman提出的一种新[33]的机器学习方法,是一种组合学习方法。所谓组合学习,就是将多个分类器组合起来,在对样本进行分类时,以多个分类器的组合结果判定样本的类别。RF中的每棵分类树都是通过随机选择变量生长得到的,每一个节点的变量都产生于随机选择的几个变量,通过这种随机方式建立模型进行分类和回归分析,所以被称为“随机森林”。RF中的每棵分类树都依赖着一个独立同分布的随机向量,对于分类问题,由随机向量树的投票结果决定最终的类别;对于回归问题,将随机向量树结果的平均值作为因变量的预测值。RF的建模过程中,有两个需要优化的自定义参数,一个是分类树的数量(k),另一个是用于节点分割的随机变量数(m),这两个参数对分类树的生长有着非常重要的作用。假设某随机森林有k个分类树,它的建模过程可以描述为:①当i从1到k变化时,建立一个自助法子集X,这个子集中的数据量占原始数据集iX中数据量的三分之二,在任意一个节点上,以X为基础,随机选择m个变量,i并对其中最好的一个随机变量做节点分割,进行分类,从而建立一棵最大深度且无需修剪的分类树;②根据k个分类树提供的信息进行数据预测。若是回归问题,则计算k个分类树结果的平均值,若是分类问题,则以多数选票为投票结果。RF可以在不做特征选则的情况下处理高维数据,泛化能力强,训练速度快,适用于多分类问题,能处理连续和离散的变量,但RF在存在多取值属性的数据上产出的属性权值并不可信,因为取值划分较多的属性会对RF产生很大的影响。7)逻辑回归在统计学中,通常使用逻辑回归(LogisticRegression,LR)来解决二分类的问题(健康VS.发病或亚型1VS.亚型2等)。作为广义线性模型中的特例,LR经15 硕士学位论文过了严格的理论推导,具有良好的统计性能和准确的意义诠释,被广泛地应用于生物信息学、流行病学、经济学、心理学和社会调查等领域。LR模型采用了非线性的Sigmoid函数或者Tanh函数将线性函数映射到非线性函数中。Sigmoid函数(图2-7中的虚线)的表达式如式(2-12)所示:1fx()(2-12)x1eTanh函数(图2-7中的实线)的表达式如式(2-13)所示:1e2xfx()(2-13)2x1e图2-7Sigmoid和Tanh函数图像Figure2-7ImageofSigmoidandTanhfunction本文假设一个基因表达谱数据矩阵X有n个样本,p个基因,x,in1,2,...,,ijTjp1,2,...,表示第i个样本上第j个基因的表达水平。因变量y(,yy,...,y),12ny{0,1},in1,2,...,表示第i个样本的类别标签。LR分类模型尝试给出某个特i定样本的发病概率(以Sigmoid做激活函数为例),假设每个基因都已经进行标准化,则某个特定样本发病概率的计算方法如式(2-14)所示:Texp(x)Py(1|;)xi,i1,2,...,n(2-14)iiiT1exp(x)i其中,是回归系数。回归系数的求解方法通常通过最小化代价函数得到。LR分类器能使预测结果在0到1的范围之内,实现简单,易于理解,但容易欠拟合,不适合处理特征维度过多的数据。8)神经网络神经网络(NeuralNetworks,NN)能够模拟人脑的数据处理机制,它的基本成分是一个一个的神经元,在图2-8中,a)图是单个的生物神经元,b)图是其抽16 2癌症亚型分类的生物信息学方法象的数学模型。神经元从树突获得信号输入,输出信号经过轴突传播至突触与其他神经元相连。连接的方式是突触的突触强度(权重w)和其他神经元的树突交互相乘(wxwx,,...)。其中,权重w具有可学习性。若来自树突的信号叠加超过某0011个阈值,神经元会被激活,此时会有一个峰值信号输出至轴突,激活信号产生的a)单个生物神经元b)单个神经元的数学模型图2-8单个生物神经元和数学模型Figure2-8Singlebiologicneuralandmathematicalmodel频率用激活函数(ActivationFunction)来建模。所谓神经网络,就是将许多个神经元集结在一起的层状结构,前一层神经元的输出即可作为后一层神经元的输入。神经网络可分为输入层、隐藏层和输出层三个部分,如图2-9所示,通过参数学习确定连接权重值(w)和偏置(b)。当输出层只有一个神经元,可解决二分类问题,当输出层有多个神经元时,即可用于解决多分类问题。图2-9神经网络模型Figure2-9Neuralnetworksmodel2.4分类性能评估方法(ClassificationPerformanceEvaluationmethods)分类完成后,需要对分类结果进行评估。理论上讲,模型所使用的训练样本越多,预测结果就越可信,但基因表达谱数据通常并没有那么多的样本。为了使分类结果有效,分类模型的评估过程中通常会使用保持法、随机子抽样、留一验17 硕士学位论文证和k-折交叉验证等方法来提升分类结果的可信度。保持(Holdout)法随机将数据分为训练集和测试集,在训练集上训练分类模型,在测试集上检验模型分类性能。保持法过分依赖训练集和测试集的构成,且训练集和测试集的划分没有统一标准,因而得到的分类结果并不可靠。随机子抽样(RandomSubsampling)是将保持法进行N次,每次随机抽取训练集,剩下的数据作为测试集,最终将N次分类评估指标的平均值作为模型的评估结果。该方法在随机抽取训练集时,可能存在分布不均的情况,因而分类结果仍值得商榷。k-折交叉验证(k-foldcrossvalidation)随机将所有样本分为k个大小大致相同的的子集,子集之间互不相交,分类算法每次对其中的k-1个子集进行训练,然后在剩下的一个子集中检验分类性能。留一(Leave-one-out)验证,是k-折交叉验证的特例,k是样本总数,每次选取数据集中的一个样本作为测试集,其余的样本作为训练集。留一验证计算量较大,且由于每次只检验一个样本,评估指标方差较大。所以,本文选择k-折交叉验证来提高分类模型预测结果的可信度。[34]预测结果的评估指标也有很多种,EnriqueAmigó等人总结了评估指标应满足的4种约束,分别为:①聚类同质化(ClusterHomogeneity),即不同类别的样本应分到不同的簇类;②聚类完整性(ClusterCompleteness),即同类样本应分到同一簇类;③碎片袋(RagBag),约束将无序引入无序簇类的害处比将无序引入有序类簇的害处小;④聚类大小和质量(ClustersSizevs.Quantity),即大簇类中的小错误应该比小簇类中的大错误好。在这4种约束的基础上,EnriqueAmigó比较了5个评估指标家族的评估性能,分别为:①集匹配评估指标(EvaluationbySetMatching),该指标假设原始类别和预测簇类存在一对一的映射,依赖于信息检索中精确率(Precision)和召回率(Recall)的概念,但不满足约束②和约束③;②基于计数对的评估指标(MetricsBasedonCountingPairs),这类指标考虑样本对的统计特性,但不满足约束③和约束④;③基于熵的评估指标(MetricsBasedonEntropy),该类指标反映了K个类别中的样本在预测簇类中的分布方式,不满足约束②、③、④;④基于编辑距离的评估指标(EvaluationMetricsBasedonEditDistance),这类指标中簇类分布的质量和转换规则的数目相关,转换规则被用于得到理想分布,即,每个类别对应一个簇类,该类指标不满足约束①和约束③;⑤BCubed评估标准(BCubedmetric),是一个混合评估标准,EnriqueAmigó等人通过严格的理论证明,该准则满足上述所有的约束,且通过实验证明其在评估分类结果方面的有效性。所以本文使用BCubed标准评估预测结果。BCubed评估标准分别评估分布中每个样本的精确率和召回率,它对评估过程进行分解,针对每个样本计算精确率和召回率。某个样本BCubed精确率表示18 2癌症亚型分类的生物信息学方法其被分到的簇类中有多少样本属于其本来的类别(Category)。某个样本的BCubed召回率表示原来该类别的样本有多少出现在新的簇类中。图2-10展示了如何计算一个样本的BCubed精确率和BCubed召回率。尽管BCubed被定义为一个算法,仍可以用公式来描述。设L(e)和C(e)分别表示样本e的原始类别和分类后的簇类,定义相关准确性(Correctness)函数用于描述样本e和样本e'之间的关系,如式(2-15)所示:1if()LeL(')eC()eC('e)Correctness(,)ee'(2-15)0,otherwise图2-10计算某个样本BCubed精确率和召回率的示例Figure2-10Exampleofcalculatingoneitem’sBCubedprecisionandrecall这就是说,如果两个原始类别相同的样本经分类后也同时出现在某个簇类中,那么这两个样本就被正确地建立了关系。某个样本的BCubed精确率是指这个样本所在的簇类中和它拥有同样原始类别(包括该样本)的样本所占的比例,而总体BCubed精确率是所有样本BCubed精确率的平均值,同理总体BCubed召回率也是所有样本BCubed召回率的平均值。由于是对所有样本取平均,不需要根据类别或者簇类的大小添加权重,如式(2-16)和式(2-17)所示:BCubedPrecision=Avg[Avg[Correctness(,')]]ee(2-16)eeCe'.()Ce(')BCubedRecall=Avg[Avg[Correctness(,')]]ee(2-17)eeLe'.()Le(')[35]VanRijsbergen于1974年提出了一种标准的方法—调和F值得分(WeightingF-score)可以将这两种评估指标进行结合,如式(2-18)所示:1F(,)RP(2-18)11()(1)()PR其中,P是BCubed精确率评估指标,R是BCubed召回率评估指标,和1是两个指标的相对权重(本文在后续实验中,均设定0.5,且重新定义调和F19 硕士学位论文值得分为BCubedF值得分)。2.5本章小结(Summary)本章内容首先分析了癌症分类算法的大致流程,并对其中的关键步骤和所使用的生物信息学方法进行了概述。微阵列数据的标准化处理是进行癌症亚型分类必要的过程,常用的方法有两种,一种是均值为0,方差为1标准化,另外一种是将所有数据集中在0~1范围内,标准化之后的数据更方便处理和分析。特征选择也是癌症亚型分类的关键步骤,有Filter、Wrapper和Embedded三种特征选择方法。本章还对癌症多亚型分类中常用的一些分类和聚类方法的实现原理和性能进行了分析和比较,同时也介绍和分析了几种分类模型的评估方法,最终选择k-折交叉验证和BCubed评估标准来评估后续章节相关癌症亚型分类方法的分类性能。20 3基于弹性网正则化Softmax回归的癌症多亚型分类及关键致病基因选择3基于弹性网正则化Softmax回归的癌症多亚型分类及关键致病基因选择3ElasticNetRegularizedSoftmaxRegressionBasedMultipleCancerSubtypeClassificationandKeyDiseaseGeneSelection3.1Softmax回归(SoftmaxRegression)Softmax回归(SoftmaxRegression,SR)是逻辑回归在多分类问题方面的拓展,区别在于因变量y可取K(K2)个不同的值,即yK{1,2,...,},in1,2,...,,Ki表示样本总共可分的类别数。多用于神经网络的最后一层,输出层。因而Softmax回归可看作是具有0个隐藏层的神经网络。假设每个基因都已经进行标准化,SR可计算出每个样本被归到每个类别的概率,如式(3-1)所示:Tpy(1;)xe1xiiiTpy(2x;)1e2xiii,i12...,,,n(3-1)iKxTekik1Tpy(iiKx;)eKix其中,12KKp(1)是回归系数矩阵,=(),,...,,kK1,2,...,。相应的SR的交叉熵代价kk01kkp函数如式(3-2)所示:T1nKekixJ()I{yk}log(3-2)SR∑∑iKxTnik11∑ekik1这一代价函数通常也是Softmax做输出层时,神经网络中的代价函数。其中,I{}是示性函数,如式(3-3)所示:1,当expression为真I{expression}(3-3)0,当expression为假21 硕士学位论文3.2弹性网正则化(ElasticNetRegularized)和LR一样,SR若直接用于癌症的多亚型分类并不能达到理想的分类效果,主要原因有二:①特征选择问题;②过度拟合问题。因此,在实际应用时,SR和LR通常结合相应的正则化方法加以约束,来抑制无关特征对分类性能的影响,并防止过度拟合。[36-40]目前为止,学者们已提出多种正则化方法,并且大都得到了很好的应用。[38][39]其中,LASSO(LeastAbsoluteShrinkageandSelectionOperator)和岭回归(RidgeRegression,RR)是两种比较典型的正则化方法。岭回归通过在代价函数的计算里加入了L2范数,如式(3-4)所示:Kp2JJ()RR()kj(3-4)kj11其中,0是权重衰减参数。从式(3-4)中可以看出,待预测的回归系数越小,正则化项的值就越小,因而加入正则项有利于缩减回归系数接近于0,从而挑选出有用的特征。但是,岭回归同时引入了p个待估的回归系数,正则项可以收缩这些回归系数接近于0,但并不能获得准确的零值(不可能为)。尽管接近零值的参数项不会对模型的预测精度造成显著的影响,但降低了模型的可解释性,因此,岭回归无法从真正意义上实现特征选择。LASSO算法针对岭回归的上述缺点,在代价函数里使用L范数,实现特征1的选择,如式(3-5)所示:KpJJ()LASSO()kj(3-5)kj11LASSO的好处在于只要保证足够大,即可将部分回归系数准确地收缩为0。但是LASSO用于高维小样本的基因表达谱数据时,其自身的局限性表现过于明显:①对样本数为n,特征维度p的数据集,在pn的情况下,由于凸优化本质问题,在模型达到饱和前LASSO最多选择出n个特征,即,该方法在特征数量上受限;②如果数据集中存在一些群变量(GroupFeatures),这些变量特征之间存在很强的相似性,LASSO只会从这些群变量中任意选出一个特征。这对存在大量群变量的基因表达谱数据的分析是非常不利的;③当np时,如果预测变量存在很强的相关性,此时预测结果由岭回归主导。基于LASSO和岭回归方法存在的不足,本文考虑使用弹性网(ElasticNet)正则化实现对Softmax回归的稀疏约束。弹性网结合LASSO和岭回归各自的特点,建立回归模型,特别适用于处理高维小样本数据。弹性网不仅能使模型具有稀疏性(多数特征的回归系数为0),且高度相关的特征会全部被选中或全部被丢弃,即体现出所谓的“群组效应”,有利于分析群变量之间的相似性。其数学表达形22 3基于弹性网正则化Softmax回归的癌症多亚型分类及关键致病基因选择式如式(3-6)所示:(1)2P()(3-6)en122其中,KKpp22,12∑∑kj∑∑kjk1j1k1j101则控制LASSO和岭回归的正则化比重。3.3基于弹性网正则化Softmax回归的癌症多亚型分类方法(MultipleCancerSubtypeClassificationMethodBasedonElasticNetRegularizedSoftmaxRegression)基于弹性网正则化Softmax回归(ElasticNetRegularizedSoftmaxRegression,ENRSR)的代价函数如式(3-7)所示:T1nKekixJ()I{yk}logENRSR∑∑iKxTnik11∑ekik1(1)2()(3-7)122最小化上述代价函数,可得回归系数,如式(3-8)所示:ˆargmin()J(3-8)ENRSRENRSR[41]通过梯度下降算法求解回归系数,具体步骤为:i:初始化模型参数为随机值,收敛参数(convergence)为0,迭代次数索引(iterationindex)为1;ii:在第t次迭代中,更新参数:newoldkjkjJ()|old,为学习速率;kjkjoldnewJJ()()iii:更新收敛参数,convergence=old;J()iv:重复步骤ii)~iii)直到收敛条件满足,即,收敛参数要小于某个域值,如:1e-6。代价函数对的梯度计算方法如式(3-9)所示:k1n(1)kJ()-[(1{xykpy}-(kx;))]()(3-9)k∑iiiikni1k223 硕士学位论文需要注意的是,J()实际上是个向量,第j个值表示的是的梯度。参数确kkj定之后,由式(3-1)算出每个样本被归到每个类别的概率,将概率最大的类别作为样本的预测类别。3.4ENRSR算法的实现(ENRSRAlgorithmImplementation)本章所用代码均使用R语言在R-3.2.3环境下实现。图3-1是结合R语言实现ENRSR算法的流程图。a)算法整体流程图b)梯度下降算法流程图图3-1ENRSR算法实现流程图Figure3-1FlowchartofENRSRalgorithm其中,Xpn是基因表达谱数据矩阵训练集,K是基因表达谱数据矩阵中包含的癌症亚型类别数,Y是示性函数演化矩阵,即若yk,则有Yik[,]1,其余的nKi值为0。下面给出部分算法的R语言实现代码。求回归系数梯度矩阵的代码为:xb=beta_old%*%XU=t(exp(xb))/colSums(exp(xb))W=matrix(0,n,K)for(iin1:n){for(jin1:K){W[i,j]=Y[i,j]*U[i,j]}}##W为每个样本被归到每个类别的概率矩阵B=ifelse(beta_old>0,1,-1)dif=-(1/n)*t(X%*%(Y-W))+lambda*(alpha*B+(1-alpha)*beta_old)24 3基于弹性网正则化Softmax回归的癌症多亚型分类及关键致病基因选择更新回归系数:beta=beta_old-garma*dif重新计算代价函数:xb=beta%*%Xcsum=colSums(exp(xb))log_c=log(csum[i])cross_entropy=-(1/n)*(sum(diag(Y%*%xb))-sum(log_c))+lambda*(alpha*sum(abs(beta))+(1-alpha)*0.5*sum(beta^2))3.5实验结果及分析(ExperimentResultsandAnalysis)3.5.1仿真数据实验首先,我们将ENRSR应用于仿真数据集。在生成的仿真数据集中有100个样本,300个特征,3个类别。在300个特征中,有两组特征呈现高度相关性,来自两个不同的正态分布,分别含有30个和50个特征,可用于验证模型的“群组效应”。另外还有两个独立的特征和218个噪声特征。仿真数据的热图如图3-2所示,可以很清楚地看到最上面是两组相关性较强的特征,两个独立的特征在图中是两条直线(热图最下面)。图3-2仿真数据的热图Figure3-2Heatmapofsimulationdata预先设置模型的参数值,为每个类别挑选不同的关键特征,方法是将关键特征的回归系数设置为非0值,其他特征的回归系数设置为0,其中不为0的回归系数为:、、、,然后可由式(3-1)得到样本的初始标签。重1,132,462,2993,300新初始化回归系数,训练模型。在参数的优化过程中,随着梯度下降算法迭代次数不断增多,关键特征被保留,其余的特征则被丢弃,即ENRSR算法体现出稀疏性。图3-3是回归系数的值随迭代次数增加而变化的热图,回归系数值的kj大小反应了对应特征在不同类别样本中的重要程度。从图3-3可以看出,随着迭代次数不断地增长,越来越多的回归系数接近于25 硕士学位论文0,最终只有少数几个特征被保留了下来,而这些特征正是我们之前预先设定作为分类特征的项。图3-3回归系数随迭代次数变化的热图Figure3-3Heatmapoftheestimatedregressioncoefficients为了进一步验证模型的特征选择性能以及“群组效应”,我们用ENRSR算法在100组不同的仿真数据上进行测试,每组仿真数据预先挑选的特征都相同,图3-4总结了100次实验中,每个特征在每个类别中被选中的次数。我们发现,模型为每个类别选择了不同的关键特征,在类别1的100次模型训练中,第13个特征被选中了97次,类别2的100次模型训练中,第46个特征被选中了94次,第299个特征每次都被选中。类别3的100次模型训练中,第300个特征每次都被选中,这些被选中次数最多的特征正是我们之前预先所选中的特征。图3-4100次模型训练中每个特征在每种类别中被选中的次数Figure3-4Selectedtimesofeachfeaturewith100timesmodeltrainingforeachsubtype另外,从图3-4可以看到,在类别1中,前30个相关性较强特征被选中的次数大都在80~90次之间,类别2中,第31~80个相关性较强的基因被选中的26 3基于弹性网正则化Softmax回归的癌症多亚型分类及关键致病基因选择次数大都在40~50次之间,由此可以证明ENRSR算法的“群组效应”,即,相关性较强的特征,若其中一个被选中,与之相关的特征都有很大概率会被选中。然后,我们使用BCubedF值得分对模型的分类性能进行评估,并与K-means(kmeans)、层次聚类(Hclust)、期望最大化(Expectation-Maximization,EM)算法、NMF、SVM和RF6种方法进行分类性能的比较。Kmeans聚类方法中的主要函数是R语言中的“Kmeans()”函数;Hclust方法中的主要函数是“Hclust()”函数;基于高斯混合模型的EM算法用的是“mclustpackage”中的“Mclust()”函数;NMF方法用的是“NMFpackage”中的“nmf()”函数;SVM分类方法用的是“e1071package”中的“svm()”函数;RF分类方法用的是“randomForestpackage”中的“randomForest()”函数。图3-5是ENRSR算法与其他6种分类方法在仿真数据集上的分类性能比较,箱线图所用数据为各种方法在100次仿真数据上的BCubedF值得分。从几种方法在仿真数据上的分类性能来看,ENRSR算法明显优于其他6种方法,由此验证了ENRSR模型对癌症多亚型分类的有效性。图3-5各种方法在仿真数据集上的分类性能比较Figure3-5Predictionperformancecomparisononsimulationdata3.5.2真实数据实验本文中用于验证模型分类性能的三组基因表达谱数据分别为乳腺癌数据集(https://cancergenome.nih.gov/)、小圆蓝细胞数据集(http://www.biolab.si/[42]supp/bi-cancer/projections/info/SRBCT.html)和白血病数据集如表3-1所示。表3-1真实数据集Table3-1Realdatasets癌症类型样本数基因数目癌症亚型(数量)CancerTypeSampleNumberGeneNumberCancerSubtype(Number)27 硕士学位论文乳腺癌Luminal_A(264);Luminal_B(142)57717277BreastCancerBasal-like(109);HER2-enriched(62)小圆蓝细胞癌Ewing'sfamilyoftumors(EWS,29)SmallRoundNeuroblastoma(NB,11)832308BlueCellTumorBurkitt'sLymphoma(BL,18)(SRBCT)Rhabdomyosarcoma(RMS,25)白血病AcuteMyeloidLeukemia(AML,14)355588LeukemiaAcuteLymphoblasticLeukemia(ALL,21)1)乳腺癌数据集上的实验结果及分析原始的乳腺癌数据中共有597个样本,我们在实验时去掉了样本数过少(8个)的Normal-like型样本和12个无标签样本,在剩下的577个样本数据上进行模型验证。我们对乳腺癌数据进行10-折交叉验证,随机将样本分为差不多数量的10份,轮流选取其中的1份作测试集,其它9份作训练集。不同的乳腺癌亚型由不同的基因所导致,通过对ENRSR模型的训练,我们能够挑选出对乳腺癌亚型分类识别有用的基因。挑选方法与仿真实验中一样,模型训练结束之后,系数不为0的特征即是被选出的基因。此外,我们通过计算选出的特征基因的相关系数,进一步证实了ENRSR模型的“群组效应”。例如,ENRSR模型针对Basal-like类型的乳腺癌选出的一组特征基因,共有12个,它们之间的相关系数如图3-6所示。可以发现,这12个基因之间呈现高度的相关性(最小的相关系数为0.59)。图3-6ENRSR为Basal-like类型乳腺癌选出的基因的相关系数矩阵Figure3-6ThecorrelationcoefficientmatrixofgenesgroupedbyENRSRforBasal-like为了进一步验证所选基因的群组特性,我们从原始特征中随机挑选出12个28 3基于弹性网正则化Softmax回归的癌症多亚型分类及关键致病基因选择基因,计算两两之间的相关系数,并记录所有相关系数的平均值,将此过程重复1000次,得到1000个平均值,画出图3-7中的柱形图。和被ENRSR选中基因的相关系数的最小值(0.59,图中用圆点表示)比较,随机选出的基因的相关系数要小很多,换句话说,被ENRSR选中的基因之间确实具有很强的相关性。图3-71000组随机选择的基因之间平均相关系数柱形图(乳腺癌数据集)Figure3-7Histogramoftheaveragepairwisecorrelationcoefficientsoftherandomlyselectedgroupsfrombreastcancerdataset为了进一步研究所选特征基因的生物功能,我们对所选基因进行geneontology(GO)通路富集度分析,部分分析结果如表3-2所示。所选基因的很多生物功能和乳腺癌的发病机制密切相关。例如,核腔(nuclearlumen,p-value=5[43]1.0110)已经被发现在ER功能中直接承受应力相关变化。细胞凋亡负调控2(negativeregulationsofapoptosis,p-value=1.1010)也在乳腺癌细胞中发挥着重[44][45]要的作用。GO富集度分析所用工具是DAVID,阈值:count=2,EASE=0。表3-2乳腺癌数据集中所选基因的GO通路富集度分析Table3-2GeneontologyenrichmentanalysisofselectedkeygenesforbreastcancerFoldTermFunctionp-valueGenesEnric-hmentRPP38,LOR,FGF18,PNMA3,DBF4,LMO4,S100A9,MORF4L2,CCT2,NR2E3,MCM10,TAF7L,CBX5,MUTYH,SRRM1,GNL2,CCNA2,AGR2,MYST4,TBPL1,KRR1,LIG1,HNRNPA2B1,RBL1,TOPBP1,MYH7,TOX4,PPARGC1A,PPARGC1B,ORC1L,MRTO4,NAV2,GO:003nuclear-5CSTB,AKAP8,SIP1,KIF4B,BLM,SRF,1.01×101.5171981lumenNR2C2,HIST1H4B,RPL9,ZNF597,TAF9,TCF4,NKX2-5,AGBL2,DHX9,TSR1,MKI67,SPTBN4,CDC23,CDC20,C1ORF124,FOXP1,AR,POLD4,CCT5,POLD1,POP1,BACH1,E2F3,E2F4,ZNF532,UCHL1,EZH2,RPS19BP1,CCNE1,MCM8,MCM7,DKC1,TRIM8,MKX,CIRH1A,NOL4,GPR19,CCNH,29 硕士学位论文NUSAP1,MCM3,ZFR,MCM5,C20ORF20,XPC,CA9,NOL10,C19ORF2,NOL11,UBB,CPSF3,TBX19,STON2,CKS1B,ZBTB16,IVNS1ABP,ORC2L,SUPT4H1,ETV6,GTF3C2,BUB3,KLK6,POLR3G,BIRC5,MED30,RPS6KA2,SFPQ,TEX10,NFIB,CBScondensedCENPN,ART3,CENPM,NUF2,KNTC1,chromoso-GO:000-5CASC5,CENPE,AURKB,MLF1IP,me,1.14×104.4450779CENPH,SPC25,ORC2L,MAD2L1,centromericCENPA,ZWINTregionKIF11,PDS5A,KNTC1,NUF2,KIF18A,NUSAP1,FOXA1,CDC23,CDC20,AURKA,CENPE,BIRC5,PTTG1,AURKB,GO:000nuclear-55.01×10NCAPD3,SMC4,LEMD1,FAM83D,2.4750280divisionSPC25,NCAPH,MAD2L1,CCNB2,ZWINT,HORMAD1,AKAP8,C13ORF34,CCNA2,BUB3WFS1,ERBB3,PAFAH2,TGFB3,TP63,ASNS,ADA,IGF1R,TAF9,NKX2-5,negativeGO:004-2MSH2,PIM1,ESR1,SKP2,ANXA1,regulation1.10×101.6563066BIRC5,SOD1,SOD2,DAPK1,KRT18,ofapoptosisBTG2,F3,SERPINB2,FOXC1,HSPD1,UBB,APBB2,GSTP1negativeGO:004regulationMSH6,MSH3,BLM,MSH2-3ofDNA3.27×1011.9665910recombinat-ion图3-8是ENRSR模型与其它6种分类方法在乳腺癌数据集上的分类性能比较,箱线图所用数据为10-折交叉验证产生的10组BCubedF值得分。从比较结果来看,实验中所用的几种方法分类性能相差不是很多,但最好的是ENRSR和RF,展示了它们在高维数据上的优越性能。图3-8乳腺癌数据集上各种分类方法分类性能比较Figure3-8Predictionperformancecomparisononbreastdataset30 3基于弹性网正则化Softmax回归的癌症多亚型分类及关键致病基因选择2)SRBCT数据集上的实验结果及分析SRBCT是病理学上对显微镜观察到的肿瘤细胞形态的描述,光镜下不易区分,形态以小圆细胞为主,可来源于神经内分泌系统、软组织肉瘤和淋巴造血系统等,具体组织来源不确切,是一种侵袭性的未分化的胚胎干细胞肿瘤,有4种亚型。同样,我们在SRBCT数据集上验证ENRSR的“群组效应”。针对EWS亚型,ENRSR选出了一组由6个基因组成的基因群组,6个基因两两之间的相关系数如图3-9所示,可以看出这6个基因彼此之间呈高度相关。图3-9ENRSR为EWS类型的SRBCT选出的基因的相关系数矩阵Figure3-9ThecorrelationcoefficientmatrixofgenesgroupedbyENRSRforEWS对SRBCT原始特征做1000次的随机选择,每次选出6个基因,计算它们之间的相关系数,结果如图3-10所示。可以看出1000个相关系数平均值仍远小于被ENRSR选中的基因之间的相关系数(最小值为0.43)。图3-101000组随机选择的基因之间平均相关系数柱形图(SRBCT数据集)Figure3-10HistogramoftheaveragepairwisecorrelationcoefficientsoftherandomlyselectedgroupsfromSRBCTdatasetGO通路富集度分析同样用来分析被选中特征基因在SRBCT中的生物功能,部分结果如表3-3所示。这些基因的诸多生物功能都被证明与SRBCT的发病机制密切相关,例如,磷酸盐的代谢过程(phosphatemetabolicprocess,p-value-8-7=3.64×10)、细胞增殖(cellproliferation,p-value=2.00×10)和程序性细胞死亡的负31 硕士学位论文-7调控(negativeregulationofprogrammedcellceath,p-value=2.29×10)等在癌细胞[46]的生长过程中起着非常重要的作用。针对BL型选出的特征基因,参与了正调-3控有丝分裂细胞周期(positiveregulationmitoticcellcycle,p-value=4.3×10)、负调-2控有丝分裂细胞周期(negativeregulationmitoticcellcycle,p-value=2.4×10)、-5mRNA剪接的剪接体(mRNAsplicingviaspliceosome,p-value=2.8×10)等。针对EWS亚型选出的特征基因被发现与早期内涵体蛋白质定位的正调控(positive-3regulationofproteinlocalizationtoearlyendsome,p-value=5.3×10)、细胞氨基酸代-2谢过程(cellularaminoacidmetabolicprocess,p-value=6.8×10)都相关。针对NB选出的特征基因与病毒对宿主免疫应答的主动诱导作用(activeinductionofhost-2immuneresponsebyvirus,p-value=4.7×10)、细胞增殖(cellproliferation,-4-4p-value=5.4×10)和细胞凋亡过程(apoptoticprocess,p-value=1.0×10)相关。针对-4RMS亚型选出的特征基因和细胞增殖(cellproliferation,p-value=5.4×10)、细胞-3-3分裂(celldivision,p-value=2.0×10)和RNA剪接(RNAsplicing,p-value=2.2×10)[47]都有很强的相关性。表3-3SRBCT数据集中所选基因的GO通路富集度分析Table3-3GeneontologyenrichmentanalysisofselectedkeygenesforSRBCTFoldTermFunctionp-valueGenesEnrich-mentUQCRC2,IMPA2,CDK18,EFNA1,FASTK,ATP6AP1,SNCA,PTPN21,PRDX2,LPAR2,PMVK,DDR2,WNT2,CSNK2A2,MAP3K7,NDUFS8,PIK3CA,ATP5O,PRKACB,ATP6V0D1,CDK16,ATP5I,ADAM9,phosphateGO:00-8CAV1,CDK13,EGFR,RET,STK25,STK24,metabolic3.64×101.97406796MADD,PTPRR,CDK6,CD99,FVT1,PIM2,processNDUFC1,PPP1CB,WEE1,SRPK1,DAPK1,PRKD1,TYK2,MTMR11,MAP4K5,NME2,HIPK1,PSEN1,RIOK3,MVD,PTPLAD1,ERBB2,CAMK2G,MAP4K2,MKNK1,TFG,ADRBK1,MAPKAPK2NRP1,FGF7,TSG101,ATP6AP1,IGFBP7,ZEB1,DDR2,CTNNB1,WNT2,CD47,BDNF,CASP3,S1PR1,FNTA,FANCA,GO:00regulationMYC,CCNA2,RHOG,AGPAT1,CDK13,42127ofcell3.64×10-8EGFR,CAPNS1,TBRG4,CDK6,PPP1CB,1.933proliferati-IRS1,PURA,CIAO1,NME2,HIF1A,onHIPK1,NCK1,HIPK2,TGIF1,ADAMTS1,LAMC1,EMP3,MCTS1,CAV2,FGFR1,CNBP,FGFR4GO:00cellE2F1,UCHL1,PRDX2,ZEB1,CXCL12,08283proliferati-2.00×10-7ISG20,CTNNB1,KIF2C,SHB,BAK1,2.249onDKC1,MYC,IMPDH1,EGFR,ARHGEF1,SKP2,IFI16,PIM2,DCTN2,PRKD1,32 3基于弹性网正则化Softmax回归的癌症多亚型分类及关键致病基因选择PSEN1,NAB2,TXNRD1,BIN1,CKS1B,CTF1,ERBB2,ELN,UBE2V2,KIT,HPRT1,EPHB4,PDAP1,ITGAM,BUB1,PAFAH1B1,COL8A1,MAP2K1,NF2,CSRP2,FURIN,MNAT1,CDH13,EPS8,FYN,PPP1R8,GOLPH3,PCNA,RAP1BCCL2,MCL1,ERBB2,SNCA,NFKBIA,PRDX2,ASNS,KIT,ADA,CITED2,negativeMAP3K7,PEA15,IGF1R,CASP3,BDNF,GO:00regulationFNTA,PPP2CB,PIK3CA,GLO1,CAT,43069of2.29×10-7MYC,API5,EGFR,HTT,CRYAB,MSH2,2.397programm-SKP2,IGF2,POLB,PIM2,SOD1,FURIN,edcellDAPK1,CDH13,MNAT1,NME2,deathHSP90B1,PSEN1,BNIP2,HIPK2,GSTP1,UBA52,F2RpositiveEGFR,F10,MAP2K1,IGF2,KIT,FURIN,GO:00regulation-67.22×10CXCL12,IRS1,KDR,CDH13,IGF1R,3.82230335ofcellPRR5,S1PR1,HIF1A,TRIP6,F2R,ADAM9migration由于SRBCT本相对较少,所以测试时使用3折交叉验证。图3-11是ENRSR模型与其它6种分类方法在SRBCT数据集上的分类性能比较。从比较结果可以看出,ENRSR方法虽比随机森林的分类性能略差一点,但相较于其他几种方法,有很明显的优势。图3-11SRBCT数据集上各种分类方法分类性能比较Figure3-11PredictionperformancecomparisononSRBCTdataset3)白血病数据集上的实验结果及分析白血病数据集中有急性髓系白血病(AML)和急性淋巴细胞白血病(ALL)两个亚型,其中ALL有21个,AML有14个。同样,我们首先验证ENRSR在白血病数据集上的特征选择能力和“群组效应”。以针对AML所选特征基因为例,ENRSR选出了一组包含6个基因的基因群组,同样计算它们之间的相关系数,结果如图3-12所示。这6个基因互相33 硕士学位论文之间呈现明显的相关性,且最小相关系数都不低于0.52。图3-12ENRSR为AML类型的白血病选出的基因的相关系数矩阵Figure3-12ThecorrelationcoefficientmatrixofgenesgroupedbyENRSRforAML为了使该试验结果更具说服力,我们也从白血病的原始特征中随机挑选了6个基因,计算它们的相关系数,重复1000次,记录每次相关系数的平均值,做出图3-13的柱形图,结果仍在我们的意料之中,就是随机挑选的基因的相关系数要小于ENRSR所选基因之间的最小相关系数(0.52,图中的圆点)。图3-131000组随机选择的基因之间平均相关系数柱形图(白血病数据集)Figure3-13Histogramoftheaveragepairwisecorrelationcoefficientsoftherandomlyselectedgroupsfromleukemiadataset对所选出的基因做GO通路富集度分析,部分结果如表3-4所示。所选基因与白血病相关的功能包括细胞死亡调控(regulationofcelldeath,-12p-value=9.89×10)和细胞增殖调控(regulationofcellproliferation,-11p-value=4.67×10)等。我们还发现,针对ALL类型白血病所选基因对B细胞受体通路和T细胞受体通路都有重要的意义。针对AML选出的基因与造血干细胞-3增殖(hematopoieticstemcellproliferation,p-value=5.3×10)、细胞周期调控-3(regulationofcellcycle,p-value=5.4×10)等相关。34 3基于弹性网正则化Softmax回归的癌症多亚型分类及关键致病基因选择表3-4白血病数据集中所选基因的GO通路富集度分析Table3-4GeneontologyenrichmentanalysisofselectedkeygenesforLeukemiaFoldTermFunctionp-valueGenesEnrichmentMEF2C,XRCC2,STAT5A,EIF5A,NFKB1,PRDX1,CRADD,AKT1,EDNRB,GPX1,BDNF,APP,CASP4,CDKN2A,CASP9,TIAM1,CASP8,RHOA,APOH,PIK3CA,CASP1,LTB,CUL1,SPN,RAB27A,IRAK1,ARHGEF2,PTPRF,CRYAB,ACTN3,PIM2,IFI16,CSDA,CDK5,XPA,INHBA,BTG2,IFNB1,HIPK3,UBC,regulationGO:00-12MAPK9,MYO18A,ALOX12,ACVR1,ofcell9.89×102.08610941DCC,HMGB1,YWHAZ,CCL2,CCK,deathERBB3,ERBB2,MGMT,RAG1,TNFRSF8,SOX4,RRAGA,COL2A1,BCL2L1,KIT,SFN,TNFRSF4,SRC,PLAGL1,CHD8,ALDH1A3,PPP2CA,PPP3CC,BCL6,DYRK2,CD24,INPP5D,ARHGDIA,ERCC2,APC,CFLAR,GNRH1,SMAD6,PHB,GRIN1,ANXA1,NR4A1,IGF2,GAS1,RPS6,P2RX4,PLA2G4A,EPHA7,FOSL2,AIF1,PDGFA,PGF,STAT5A,IL18,PAX6,EIF5A,TTK,EDNRB,GPX1,BDNF,CDKN2A,GATA4,APOH,IL13RA1,LTB,CUL1,SPN,MATK,MAP2K5,SYK,CDC7,regulationCDC6,CTBP1,APLP2,ARHGEF2,RBBP4,GO:00ofcell-11CAPNS1,LYN,PTPRF,FOXJ1,CDK4,4.67×102.06842127proliferati-PURA,MYCN,OSM,SSTR5,PRKCQ,onBTG2,HNF4A,IFNB1,GHRH,CD33,GRN,CD81,MDM4,EMP3,TSHR,ALOX12,CXCL1,RBP4,CNBP,CCL2,NDN,PRTN3,ERBB3,ERBB2,TNFRSF8,SOX4,IFI30,BCL2L1MEF2C,TCF3,CD19,XRCC2,STAT5A,EIF5A,NFKB1,PRDX1,CRADD,AKT1,regulationEDNRB,GPX1,BDNF,APP,CASP4,GO:00-11of6.34×10CDKN2A,CASP9,TIAM1,CASP8,RHOA,2.04742981apoptosisAPOH,PIK3CA,CASP1,LTB,CUL1,SPN,RAB27A,IRAK1,ARHGEF2,PTPRF,CRYAB,ACTN3INSL4,TSPO,PGF,PDGFA,FES,PRDX1,ISG20,GPX1,PRMT5,CUL1,MATK,SYK,ARHGEF1,CDK9,IFI16,PIM2,CDK5,PRKCD,LRPAP1,OSM,CHRM5,CCND3,cellGO:00-8IFNB1,CD81,MAPRE2,MDM4,CXCL1,proliferati-1.85×102.28108283RBP4,ERBB2,UBE2V2,KIT,SFN,IL7R,onTNFRSF4,SRC,PDAP1,ITGAM,DOCK2,CSE1L,AMELX,THPO,ERCC2,GINS1,GNAT1,CRIP1,ESRRB,FSCN1,RAF1,CDC25C,GCG,NPY,CKS2,CD79A,MPL35 硕士学位论文EIF5A,PRDX1,CRADD,AKT1,GPX1,APP,CDKN2A,CASP4,CASP9,TIAM1,CASP8,CASP1,LTB,SPN,CUL1,RAB27A,ARHGEF2,PTPRF,IFI16,CDK5,positiveXPA,INHBA,IFNB1,UBC,MAPK9,DCC,GO:00regulation-71.10×10CCK,RRAGA,SOX4,TNFRSF8,BCL2L1,2.20410942ofcellSFN,SRC,PLAGL1,PPP2CA,ALDH1A3,deathPPP3CC,BCL6,DYRK2,INPP5D,CD24,APC,ERCC2,CFLAR,GRIN1,NR4A1,RPS6,EPHA7,PLA2G4A,ETS1,ID3,BARD1,DNM2MEF2C,HMGB1,YWHAZ,CCL2,XRCC2,ERBB3,STAT5A,ERBB2,RAG1,SOX4,COL2A1,NFKB1,BCL2L1,KIT,AKT1,negativeGPX1,EDNRB,BDNF,CHD8,APOH,GO:00regulation-7RHOA,PIK3CA,BCL6,ARHGDIA,2.25×102.31160548ofcellERCC2,APC,IRAK1,CFLAR,GNRH1,deathCRYAB,SMAD6,GRIN1,ANXA1,IGF2,PIM2,CSDA,PSMC5,BTG2,HIPK3,UBC,MPO,NEUROD1,MYO18A,BARD1,ACVR1,ALOX12在对白血病数据集进行模型测试时使用3-折交叉验证。图3-14是ENRSR模型与其它6种分类方法在白血病数据集上的分类性能比较。从比较结果可以看出,ENRSR方法在白血病数据集上的分类性能相较于其它几种方法呈现明显的优势。图3-14白血病数据集上各种分类方法分类性能比较Figure3-14PredictionperformancecomparisononLeukemiadataset3.6本章小结(Summary)本章提出了一种ENRSR模型,可用于癌症多亚型的分类和关键致病基因的选择。在正则化方法的选择上面对岭回归、LASSO和弹性网进行了比较,最终选择了具有“群组效应”且稀疏性较好的弹性网。本章给出了该模型的具体训练过程,分别在仿真数据和三组真实数据集中验证了模型的分类性能,并与其他几36 3基于弹性网正则化Softmax回归的癌症多亚型分类及关键致病基因选择种分类和聚类方法进行比较。实验结果表明,ENRSR确实能对癌症多亚型进行有效的分类。此外,本章还对模型选出的致病基因进行了GO通路富集度分析,挖掘其在相关癌症亚型形成中的作用。但ENRSR算法的缺陷是时间复杂度略高,计算公式为O(Kpn),还需要继续改进,或探索更快更有效的癌症多亚型分类方法。因而我们在ENRSR的基础上研究了具有多个隐藏层的神经网络算法。37 硕士学位论文4基于多层神经网络的癌症多亚型分类及关键致病基因选择4Multi-layerNeuralNetworksBasedMultipleCancerSubtypeClassificationandKeyDiseaseGeneSelection4.1多层神经网络(Multi-layerNeuralNetworks)所谓多层神经网络(Multi-layerNeuralNetworks,MLNN),可解释为具有多个隐藏层的全连接神经网络。所谓全连接,即l层的每一个神经元和l+1层的每一个神经元都有连接。不仅隐藏层有多个,输出也可以有多个,本文所使用的神经网络模型是一个4层MLNN,如图4-1所示,一个数据输入层,两个隐藏层,和一个Softmax回归分类的输出层。MLNN虽看起来相当复杂,其工作原理和简单的神经网络甚至单个神经元并无二致。图4-1多层神经网络模型Figure4-1Multi-layerneuralnetworksmodel这个神经网络的输入为xx,,...,x,输出为hx(),激活函数为f()。设L表12pwb,()l示神经网络的层数(此处L=4);(,)wb是网络参数,其中wij表示第l层的第j个节点与第l+1层第i个节点之间的连接权重,b是每层神经元节点的偏置;s表l()l示l层的节点数目(不包括偏置单元);a表示第l层第i个神经元的激活度i(1)(Activation),即神经元的输出值,对于输入层(l=1),ax。ii38 4基于多层神经网络的癌症多亚型分类及关键致病基因选择4.2多层神经网络的稀疏性(MLNN’sSparsity)在对含有多亚型样例的基因表达谱数据进行分类的同时实现关键致病基因的选择是本文的一个重要的目标,因而要在MLNN分类功能的基础上,保证模型具有绝对的稀疏性。为了实现这一目标,我们使用了具有单边抑制性的ReLU函数做隐藏层的激活函数。激活函数是神经网络的核心,是神经网络能够解决各种复杂问题的关键。传统神经网络中最常使用Sigmoid系激活函数,即Sigmoid和Tanh函数。从两个函数对信号的增益来看,都是中央区大,两侧区小(如图2-7所示),能够对信号进行有效的特征空间映射。单单Sigmoid函数或Tanh函数的输出没有稀疏性,需要结合惩罚因子来去除冗余数据。常用的惩罚因子包括L、L、L、Student-t等。另外,不论是121/2Sigmoid函数还是Tanh函数,在反向传播求解网络参数w时,传导的梯度中含有输入x的导数fx'(),而当输入趋近或时,x的导数趋近于0,陷入饱和区,致使在MLNN的训练中会出现梯度消失的现象。所谓梯度消失,就是当梯度小于1时,预测误差会逐层衰减,消失,导致模型收敛停滞不前。目前,一些以近似生物神经为特点的激活函数逐渐取代Sigmoid系函数而被广泛用于多层神经网络中,ReLU函数便是其中的一个。[48][49]修正线性单元(RectifiedLinearUnits,ReLU)来源于Dayan和Abott于2001年从生物学角度模拟出的大脑接受信号的激活模型,如图4-2a)图所示,而b)图即是衍生出的ReLU激活函数。a)脑神经元接受信号的激活模型b)ReLU激活函数模型图4-2脑神经元接受信号的激活模型和ReLU激活函数模型Figure4-2ActivationmodelofbrainneuronreceivingsignalandReLUfunctionReLU函数表达式如式(4-1)所示:xxif0f()x或f()xmax(0,)x(4-1)ReLUReLU0ifx039 硕士学位论文对比Sigmoid系模型,ReLU模型的特点有:①单侧抑制。ReLU函数为分段函数,负值对应的输出全部为0,正值输出为其本身,保持不变,所以ReLU在非负区间的梯度为常数,可有效避免梯度消失的问题。②相对宽阔的兴奋边界。③稀疏激活性。前端(图4-2a)图中灰色方框中的部分完全没有激活。其中,ReLU的稀疏激活性在MLNN的训练过程中意义重大。研究表明,神经元编码具有稀疏和分布特性,同一时间处于激活状态的神经元只占总数的1~4%。ReLU有单侧抑制的特性,输入为负的神经元输出为0,处于抑制状态,所以网络中只有部分神经元被激活,如图4-3所示。图4-3ReLU函数的稀疏激活性Figure4-3ReLU’ssparseactivation此外,当选用ReLU函数做神经网络的激活函数时,由于神经元节点并未对输入特征的线性组合进行非线性变换,因而可以将使代价函数最小化的网络权重作为对输入空间的筛选。换句话说,特征所对应的网络连接权重值越大,说明这个特征越重要,相反,权重值小的特征则可作忽略处理。由于多层神经网络中的非线性,并不是必须依赖于激活函数,所以当非线性激活函数变为线性激活函数时,网络的非线性仍然可以来自于神经元的选择性激活。且稀疏特征对网络处理线性不可分机制也没有过高的要求。所以,在MLNN中,我们选用ReLU函数作为激活函数。4.3基于多层神经网络的癌症多亚型分类方法(MultipleCancerSubtypeClassificationMethodBasedonMLNN)MLNN模型最后的分类任务由Softmax层来完成,结合第三章的相关内容,(1)(1)()nn()可得到n个训练样本{(x,y),...,(x,y)}的交叉熵代价函数如式(4-2)所示:nK()i()()LiJMLNN(,)wb∑∑yklogak(4-2)ik1140 4基于多层神经网络的癌症多亚型分类及关键致病基因选择()L以下简写为Jwb(,),其中a是输出层第k个神经元的输出,y是实际输出。kk我们使用批量梯度下降算法来训练MLNN模型,更新网络参数w和b,如式(4-3)和式(4-4)所示:()ll()wwJwb(,)(4-3)ijij()lwij()ll()bbJwb(,)(4-4)ii()lbi是学习速率。()l()l关于wij和bi偏导数的计算,我们使用一种有效的偏导数计算方法—反向传播算法(BackpropagationAlgorithm)。介绍反向传播算法之前,我们需要先了解一下()l前向传播算法,即若已知l层各神经元节点的激活度a,就能计算出第l+1层各(1)l神经元节点的激活度a,如式(4-5)和式(4-6)所示:(1)l()l()l()lzwab(4-5)(1)ll(1)afz()(4-6)具体推导过程可考参见UnsupervisedFeatureLearningandDeepLearning(UFLDL)教程(http://ufldl.stanford.edu/wiki/index.php/Neural_Networks)。先从单个样本(x,y)的偏导数计算开始,反向传播的思路为:先用前向传播算法对网络进行前向传播运算,算出网络中所有神经元的激活度,和输出hx()。然后从后向前依次计算wb,()l每层神经元节点的“残差”(表明此神经元节点对输出残差的影响程度),再i()l()l由残差对网络参数进行求导,从而得到代价函数对wij和bi的梯度。下面给出残差的计算过程。输出层神经元节点残差的计算过程如式(4-7)所示:Jwbxy(,;,)sL()LL()(yalog)i()LL()∑kkzziik1sL1()LL()(ylog(fz))yfz'()()LL∑kki()iziik1fz()1()Lyfz'()(4-7)()Liiai隐藏层神经元节点残差的计算过程如式(4-8)所示:41 硕士学位论文Jwbxy(,;,)sL(LL1)()i(LL1)(1)∑yaklogkzziik1ssLL1()LL()∑yk(LL1)logfzk∑yk()L(1)fzkkk11zziifzksL1z()LsLsL1()Lk()L(L1)(L1)∑yk()Lf'zk(LL1)∑k(1)fztwktk1fzkzziik1t1sL(L1)()L(L1)∑wkikf'zi(4-8)k1将上式中L-1和L的关系用l和l+1来替换,就可以得到式(4-9):sl1()l()l(1)l()li∑wkikf'zi(4-9)k1因而,前一层节点的残差可由后一层节点的残差得到,这种从后向前的计算过程即实现了反向传播,其具体实现步骤如下:①利用前向传播算法,得到神经网络每层节点的激活度;()L②计算输出层节点的残差,如式(4-10)所示:i()LL1()yz'()(4-10)ia()Liii()L()L()L'(z)(z)(1(z))(4-11)iii③计算隐藏层(l层)节点的残差,如式(4-12)所示:sl1()l()l(1)l()li∑wzkikReLU'i(4-12)k1()l1,z0()liReLU'zi()l(4-13)0,z0i()l()l④计算wij和bi偏导数,如式(4-14)和式(4-15)所示:()ll(1)Jwbxy(,;,)a(4-14)()ljiwij(1)lJwbxy(,;,)(4-15)()libi因而,用批量梯度下降算法训练多层神经网络的步骤为(一次迭代):()ll()i:参数初始化:wb:0,:0。()l()l()l()l注:w是个矩阵,与w维度相同,b是个向量,与b维度相同。42 4基于多层神经网络的癌症多亚型分类及关键致病基因选择ii:对i=1~n,a.计算()llJwbxy(,;,)和()Jwbxy(,;,);wb()ll()b.计算w:w()lJwbxy(,;,);w()ll()c.计算b:b()lJwbxy(,;,)。biii:更新网络参数:()l()l1()lwwwn()l()l1()lbbbn为学习速率,本文后续实验中的值均为0.001。iv:重复ii)~iii)T次,T为迭代次数,完成网络参数优化。4.4MLNN算法的实现(MLNNAlgorithmImplementation)本章程序代码均用Python语言实现。图4-4是MLNN算法实现的流程图。其中,X是训练集数据,Y同样是示性函数的演化矩阵,T为迭代次数。计算交叉熵代价函数的代码为:cross_entropy=-tf.reduce_mean(tf.nn.sparse_softmax_cross_entropy_with_log2its(logits=prediction,labels=tf.argmax(ys,1)))添加网络层数:Defadd_layer(inputs,in_size,out_size,layer_name,activation_function=None,keep_prob=0.5):Weights=tf.Variable(tf.random_normal([in_size,out_size]))biases=tf.Variable(tf.zeros([1,out_size])+0.1,)Wx_plus_b=tf.matmul(inputs,Weights)+biasesWx_plus_b=tf.nn.dropout(Wx_plus_b,keep_prob)ifactivation_functionisNone:outputs=Wx_plus_belse:outputs=activation_function(Wx_plus_b,)returnoutputs,Weights,biases添加隐藏层:l1,weights_1,biases_1=add_layer(xs,gene_num,1000,'l1',activation_function=tf.nn.ReLU)添加输出层:prediction,weights_2,biases_2=add_layer(l1,1000,category_num,'output',activation_function=tf.nn.softmax)网络优化用的Adam:train_step=tf.train.AdamOptimizer(0.001).minimize(cross_entropy)43 硕士学位论文图4-4MLNN算法实现流程图Figure4-4FlowchartofMLNNalgorithm4.5实验结果及分析(ExperimentResultsandAnalysis)4.5.1乳腺癌数据集上的实验结果及分析考虑到乳腺癌基因表达谱数据共有17,277个基因,4种乳腺癌亚型,所以MLNN的输入层节点共有17,277个,输出层(Softmax层)节点数为4个。实验中将隐藏层I的节点数设置为5000,隐藏层II的节点数设置为1000,对乳腺癌数据集进行10-折交叉验证,迭代次数T为500次,图4-5给出了500次迭代过程中代价函数和分类预测精确率的变化趋势。可以看出,随着迭代次数不断增加,总的趋势上,代价函数不断减小,分类精确率不断增高,并最终均达到收敛状态。a)代价函数值在迭代过程中的变化b)分类精确率在迭代过程中的变化图4-5代价函数值和分类精确率在迭代过程中的变化趋势(乳腺癌)Figure4-5VariationtrendofJwb(,)andprecisioniniterationprocess(breastcancer)44 4基于多层神经网络的癌症多亚型分类及关键致病基因选择为了更直观地观察MLNN模型的分类性能,我们将MLNN和之前实验中用到的所有方法在乳腺癌数据集上的分类性能放在一起进行比较,如图4-6所示,MLNN的预测正确率不仅高于6种用于对比的实验方法,也同样高于ENRSR方法,由此说明在处理高维特征数据时,选用多层次的网络结构更为合适。图4-6所有方法在乳腺癌数据集上的分类性能比较Figure4-6Predictingperformancecomparisonofallmethodsonbreastcancerdataset另外,MLNN模型的稀疏性也在最终得到的权重参数上得到了充分的体现,图4-7给出了隐藏层连接权重的柱形图,从图中可以看到绝大部分的权重值集中在0,也就是说,MLNN模型工作的过程中大部分神经元都处于抑制状态,只有少部分的神经元被激活。前文介绍ReLU激活函数时,解释了关键特征基因的选择与对应连接权重值之间的关系,即,越重要的基因,连接权重值越大。由此,我们可以根据输入层与第一个隐藏层之间的连接权重选出在乳腺癌亚型形成过程中起重要作用的那部分基因。具体方法是对所有基因的权重进行从大到小排序,排在前面的基因相对比较重要,越往后越不重要。其中,FOXA1,PHLPPL,AGR2,CXCL13,PPARBP,TAS1R1,GRB7,PIK3R1,AKR1C1,SQLE是排在最前面的十个基因,它们在乳腺癌亚型的形成过程中都起着至关重要的作用。例如,[50]PI3K-Akt信号通路的组成是乳腺癌药物的靶点,其中包含了多种蛋白磷酸酶,PHLPPL就是其中之一。这些磷酸酶被认为是肿瘤抑制因子,其中PHLPPL能够[51,52]对Akt直接脱磷酸化,从而降低其生物活性。乳腺浸润性导管癌患者的GRB7呈阳性,且在不同的亚型中阳性表达率各不相同,Luminal_B型最高,次高的是HER-2过表达型,最低的Luminal_A。GRB7的阳性表达与很多临床病理特征相关,如HER-2高表达状态、原发肿瘤偏大、临床分期晚、组织学分级高、淋巴[53]结转移多等。趋化因子CXCL13(也称作B细胞趋化因子)在乳腺癌转移和侵袭[54]过程的作用已经被证实。Chen等人发现CXCL13在乳腺癌患者尤其是年轻乳腺癌患者体内高表达,并且这种表达与不利临床特征之间的相关性极高。Razis[55]等通过研究发现,CXCL13mRNA高表达有助于提高HER2阳性乳腺癌的检45 硕士学位论文[56]出率。Panse等也通过研究证实CXCL13在乳腺癌患者的末梢血和肿瘤组织中均过表达,且在患者血清中的水平也明显提升。这些都是和已有研究结果相吻合的。a)隐藏层I的权值直方图b)隐藏层II的权值直方图图4-7隐藏层权值分布图(乳腺癌)Figure4-7Distributionhistgramofthehiddenlayerweights(breastcancer)4.5.2SRBCT数据集上的实验结果及分析SRBCT基因表达谱数据中共有2,308个基因,4种亚型,所以MLNN的输入层节点共有2,308个,输出层节点共有4个。实验将隐藏层I的节点数设为1000,隐藏层II的节点数设为500,对SRBCT数据集进行3-折交叉验证,使用批量梯度算法优化网络参数,迭代次数T为500次。图4-8是实验中所有方法在SRBCT数据集上的分类性能比较。MLNN的预测正确率虽然不是最高的,但也基本和ENRSR、RF两种方法持平,均在0.9以上。图4-8所有方法在SRBCT数据集上的分类性能比较Figure4-8PredictingperformancecomparisonofallmethodsonSRBCTdataset同样,我们做出了隐藏层连接权重的柱形图,如图4-9所示。从图中依然可以看到绝大部分的权重值集中在0附近,即,大部分神经元是处于抑制状态的。46 4基于多层神经网络的癌症多亚型分类及关键致病基因选择a)隐藏层I的权值直方图b)隐藏层II的权值直方图图4-9隐藏层权值分布图(SRBCT)Figure4-9Distributionhistgramofthehiddenlayerweights(SRBCT)根据第一个隐藏层连接权重的大小对SRBCT数据集中的2,308个基因进行排序,排在最前面的十个基因为:HSPB2,ANXA1,HSPG2,CD99,HCLS1,RAF-1,CD9,FCGRT,CAV1,PTPN13。其中尤因肉瘤标记物CD99是基因[57]MIC2的产物,研究表明,T细胞淋巴瘤和白血病均可表达CD99,在原发性[58]肾透明细胞癌组织中的表达较旁癌组织明显上调。造血系细胞特异蛋白HCLS1是酪氨酸激酶的底物,存在于某种表面抗原受体的信号通路中。HCLS1主要在巨噬细胞、粒细胞、扁桃体、胸腺、淋巴结、骨髓、脾脏、外周血等组织器官中表达,非造血组织中不表达,在B淋巴细胞发育过程中起着重要的调节作用。B细胞淋巴瘤组织中HCLS1普遍高表达,高表达的细胞系有L428-CD99、[59]OCI-Ly8、Daudi、Ramous和Raji。RAF-1是激酶RAF的3个亚型之一,其它两个是B-RAF和A-RAF。RAF-1能够有效地调控信号通路(生长因子)的细胞效应,能介导肿瘤的多种生理过程,如增殖、分化和凋亡等,在肿瘤的发生和发展[60]过程中发挥着重要的促进作用。RAF-1和癌症相关的突变体,如E478K和S247G等,也在人急性髓细胞样白血病和肿瘤细胞株以及大鼠肺癌模型的研究中[61]被提及。基因CD9是白细胞分化抗原的一种,位于人体第12号染色体上,有多种生物学功能,在肿瘤转移、精卵融合、细胞黏附、运动、分化和激活等方面[62]都起着非常重要的作用。4.5.3白血病数据集上的实验结果及分析白血病基因表达谱数据中共有5,588个基因,2种亚型,所以MLNN的输入层节点共有5,588个,输出层节点共2个。实验将隐藏层I的节点数设为2000,隐藏层II的节点数设为500,对白血病数据集进行3-折交叉验证,使用批量梯度算法优化网络参数,迭代次数T为500次。图4-10是所有方法在白血病数据集上的分类性能比较,我们发现MLNN是实验所用方法中预测正确率最高的,由47 硕士学位论文此说明MLNN模型在癌症亚型预测方面的优越性能。图4-10所有方法在白血病数据集上的分类性能比较Figure4-10PredictingperformancecomparisonofallmethodsonLeukemiadataset同样,我们做出了隐藏层连接权重的柱形图,如图4-11所示。从图中依然可以看到绝大部分的权重值集中在0附近,即,大部分神经元是处于抑制状态的。a)隐藏层I的权值直方图b)隐藏层II的权值直方图图4-11隐藏层权值分布图(白血病)Figure4-11Distributionhistgramofthehiddenlayerweights(Leukemia)根据连接权重的大小对白血病数据集中的5,588个基因进行排序,排在最前面的十个基因为:TCF3,FOXO3a,LTK,FOXM1,TET2,TEL,SPTAN1,PHF6,CLCN7,MLL。其中核转录因子FOXO3a是叉头框基因(ForkheadBoxGene,[63]FOX)家族中的一员,其异常表达与白血病密切相关。FOXO3a能调控细胞增殖、分化及凋亡,是唯一持续表达于AML细胞胞质的FOXO亚家族基因成员。临床实验发现,高表达磷酸化FOXO3a的AML患者更容易产生耐药性,缓解期[64]更短,预后更差,磷酸化的FOXO3a是AML预后不良的一个独立因素。在细胞遗传学正常的AML患者中,高表达FOXO3a的AML患者生存率低于低表达FOXO3a的AML患者,高表达FOXO3a的AML患者复发率高于低表达FOXO3a[65]的AML患者,高表达FOXO3a的AML患者预后不良。FOXM1是FOXM亚48 4基于多层神经网络的癌症多亚型分类及关键致病基因选择家族基因的主要成员,在细胞的增殖过程中调控细胞周期的进程,是一个致癌转[66]录基因。FOXM1参与多种癌症的发生,能促进肿瘤生长和扩散。与正常血细胞比较,FOXM1异常高表达于AML细胞胞核,异常高表达的FOXM1促进AML[67,68]细胞增殖和AML细胞集落形成,FOXM1表达可能成为AML治疗的新靶点。针对TEL基因,目前研究较多的是它与AML1基因形成的TEL/AML1融合基因。TEL/AML1融合基因是目前儿童ALL病例中最常见的融合基因,发生率为20%~25%。TEL基因位于染色体12p13,AML1位于染色体21q22,两条染色体断裂融合形成TEL/AML1融合基因,可影响造血干细胞的自我更新与分化,从[69]而诱发白血病。临床研究发现,TEL/AML1融合基因阳性的ALL患儿治疗效果优于其他类型,是一个独立的预后因素,其5年存活率可达(862)%,而[70]TEL/AML1阴性组患儿为(722)%。MLL基因位于染色体11q23,编码一个与胚胎发育控制有关的DNA结合蛋白,主要包括3个功能区:转录抑制区、转录激活区和DNA结合区,起着转录因子功能,在人类发育和细胞分化过程中起[71]着重要的调控作用。一般认为,MLL基因融合与儿童ALL的发生有直接联系,见于70%婴儿和年长儿的ALL病例,通常具有前B细胞免疫表型、高白细胞计数、脏器肿大及中枢神经系统浸润等特征,预后效果极差,尽管采取较强的化疗[72]方案,长期无病生存率仍极低,骨髓移植是最好的解决方案。4.6本章小结(Summary)本章提出了一种含有两个隐藏层的多层神经网络分类模型,推导了神经网络的前向传播算法和反向传播算法,对多层神经网络如何进行关键致病基因选择的问题进行了分析,最终通过ReLU激活函数保证模型的稀疏性来实现。为了验证模型的性能,分别在乳腺癌、SRBCT和白血病基因表达谱数据上进行了测试,实验结果表明,多层神经网络在癌症多亚型分类的应用中具有绝对的优势。本章还分别对模型选出的关键基因进行了分析,发现这部分基因确实在癌症亚型形成过程中起到了关键性的作用。由于时间限制,本章在选择关键致病基因时只是简单地通过隐藏层I的权值系数的大小实现,后续需要深入研究多层神经网络模型,设计更为有效的基因选择方法。49 硕士学位论文5总结与展望5ConclusionsandProspects5.1总结(Conclusions)本文针对癌症多亚型分类和关键致病基因的选择提出了两种具有稀疏性的神经网络分类模型,一种是基于弹性网正则化的Softmax回归模型,一种是多层神经网络模型。下面就这两种方法在癌症多亚型分类和关键致病基因选择方面的实现过程及测试结果进行总结。1)基于弹性网正则化Softmax回归的癌症多亚型分类及关键致病基因选择。癌症多亚型分类:弹性网正则化Softmax回归是一种零隐藏层的神经网络,对癌症多亚型分类有很好的应用效果。该模型是一种有监督的学习算法,通过梯度下降算法最小化交叉熵代价函数,得到最优模型参数,最终由Softmax函数给出每个样本被归到每个类别的概率,选取概率最大的类别作为样本的预测类别。模型测试分别在仿真数据集和真实数据集上进行,以BCubedF值得分为分类性能的评估标准,并将分类结果与其他聚类和分类方法比较,证明了该模型更适用于癌症多亚型分类。关键基因选择:该模型以弹性网正则化为稀疏性约束,选取关键基因。基因的重要程度以回归系数的大小为判断标准,模型训练结束时,回归系数越大的基因就越重要。本文对选取的基因进行了“群组效应”验证和GO通路富集度分析,挖掘所选基因的生物功能,证明所选基因确实在相关癌症多亚型的形成过程中起到了关键的作用。2)基于多层神经网络的癌症多亚型分类及关键致病基因选择。癌症多亚型分类:该多层神经网络包含一个输入层,两个隐藏层和一个Softmax层(输出层)。模型使用批量梯度下降算法对网络参数进行优化,其中使用了反向传播算法求传导误差。模型的分类任务由Softmax层完成,实现过程与正则化Softmax回归模型类似。为了验证多层神经网络的分类性能,我们对实验中用到的所有方法的分类结果进行比较,发现多层神经网络的性能不仅好于已有的几种算法,也好于正则化的Softmax回归。关键基因选择:多层神经网络模型选择ReLU函数作为隐藏层节点的激活函数,由于ReLU函数具有单边抑制的特性,所以其本身具有稀疏性,我们根据ReLU函数的这一特性,来选择关键基因。由于ReLU是线性激活函数,并没有对输入特征进行非线性变化,因而可以参考每个基因连接权重大小确定其重要与否。本文还对每种癌症中的代表性基因做了具体分析,发现它们在癌症的发展过50 5总结与展望程中都起到了很关键的作用。5.2展望(Prospects)本文提出的两种模型在癌症亚型分类和关键致病基因的选择方面都达到了很好的应用效果,但仍然有值得推敲和该改善的地方:1)多层神经网络模型选择关键致病基因的方法还不成熟,目前未约束网络权重,在后续的工作中可以尝试使用一阶或二阶范数或者弹性网进行约束,观察模型在分类和特征基因选择方面的性能,选出最合适的正则化方法。2)文中所用的多层神经网络含有两个隐藏层,在后续的工作中可以尝试增加多个隐藏层,探索模型的分类性能与隐藏层层数之间的关系是否是层数越多,分类效果越好。由于时间关系和作者水平有限,对癌症多亚型分类和关键致病基因选择问题只做了浅层次的研究,文中错漏和不足之处还望各位专家评审批评指正。51 参考文献[1]Stewart,B.andWild,C.P.WorldCancerreport2014[J].World,2015.[2]赫捷.中国肿瘤的现状和趋势[J].中华医学会第十四次全国放射肿瘤学学术年会,2017.[3]Hofree,M.,Shen,J.,Carter,P.H.etal.Network-basedstratificationoftumormutations[J].NatMethods,2013.10(11):1108-1115.[4]Chen,W.Cancerstatistics:updatedcancerburdeninChina.ChinJCancerRes,2015,27(1):1.[5]Parker,J.S.,Mullins,M.,Cheang,M.C.etal.Supervisedriskpredictorofbreastcancerbasedonintrinsicsubtypes[J].JClinOncol,2009,27(8):1160-1167.[6]Gerlinger,M.,RowanA.J.,andHorswell,S.Intratumorheterogeneityandbranchedevolutionrevealedbymultiregionsequencing[J].NEnglJMed2012,366:883-892.[7]Stu,R.,Hegi,M.E.andMason,W.P.EffectsofradiotherapywithconcomitantadjuvanttemozolomideversusradiotherapyaloneonsurvivalingliblastomarandomisedphaseIIIstudy:5-yearanalysisoftheEORTC-NCICtrial[J].LancetOncol,10:459-466.[8]Algamal,Z.Y.andLee,M.H.Regularizedlogisticregressionwithadjustedadaptiveelasticnetforgeneselectioninhighdimensionalcancerclassification[J].ComputersInBiologyAndMedicine,2015,67:136-145.[9]Zhang,W.,Wan,Y.W.,Allen,G.I.etal.Molecularpathwayidentificationusingbiologicalnetwork-regularizedlogisticmodels[J].BmcGenomics,2013,14.[10]Kalina,J.Classificationmethodsforhigh-dimensionalgeneticdata.BiocyberneticsAndBiomedicalEngineering[J],2014.34(1):10-18.[11]Ma,S.andHuang,J.Penalizedfeatureselectionandclassificationinbioinformatics[J].BriefingsInBioinformatics,2008,9(5):392-403.[12]Kastrin,A.andPeterlin,B.Rasch-basedhigh-dimensionalitydatareductionandclasspredictionwithapplicationstomicroarraygeneexpressiondata[J].ExpertSystemswithApplications,2010,37(7):5178-5185.[13]Chandra,B.andGupta,M.Anefficientstatisticalfeatureselectionapproachforclassificationofgeneexpressiondata[J].JournalOfBiomedicalInformatics,2011,44(4):529-535.[14]Zheng,S.andLiu,W.AnexperimentalcomparisonofgeneselectionbyLassoandDantzigselectorforcancerclassification[J].ComputersinBiologyandMedicine,2011,41:1033-1040.[15]Zheng,C.H.,Chong,Y.W.andWang,H.Q.Geneselectionusingindependentvariablegroup52 analysisfortumorclassification[J].NeuralComputing&Applications,2011,20:161-170.[16]Alok,S.andPaliwal,K.K.CancerclassificationbygradientLDAtechniqueusingmicriarraygeneexpressiondata[J].Data&KnowledgeEngineering,2008,66(2):338-347.[17]Wu,M.Y.,Dai,D.Q.andZhang,X.F.CancerSubtypeDiscoveryandBiomarkerIdentificationviaaNewRobustClusteringAlgorithm[J].PLoSOne,2013,8(6):e66256.[18]Anguraj,S.,Lyssiotis,C.A.andHomicsko,K.Acolorectalcancerclassificationsystemthatassociatescellularphenotypeandresponsestotherapy[J].Naturemedicine,2013,19(5):619-625.[19]Liu,Y.,Gu,Q.andHou,J.P.Anetwork-assistedco-clusteringalgorithmtodiscovercancersubtypesbasedongeneexpression[J].BMCBioinformatics,2014,15(1):37.[20]Guinney,J.,Dienstmann,R.andWang,X.Theconsensusmolecularsubtypesofcoloectalcancer[J].NatureMedicine,2015,21(11):1350.[21]赵磊.基于基因表达谱和分子互作网络的癌症驱动基因预测[硕士学位论文].吉林大学,2014.[22]Wang,L.,Chu,F.andXie,W.AccurateCancerClassificationUsingExpressionsofVeryFewGenes[J].IEEE/ACMTransactionsonComputationalBiology&Bioinformatics,2007,4(1):40-53.[23]Sardana,M.,Agrawal,R.K.andKaur,B.Anincrementalfeatureselectionapproachbasedonscattermatericesforclassificationofcancermicroarrarydata[J].INternationalJournalOfComputerMathematics,2015,92(2):277-295.[24]Yang,J.,Zhou,J.andZhu,Z.Iterativeensemblefeatureselectionformulticlassclassificationofimbalancedmicroarrarydata[J].JournalOfBiologicalResearch-Thessaloniki,2016,23(1):1-9.[25]李高明.基因表达谱数据的特征选择方法应用策略研究[硕士学位论文].第三军医大学,2016.[26]Gourevitch,B.andLeBouquin-Jeannes,R.K-meansclusteringmethodforauditoryevokedpotentialsselection[J].MedBiolEngComput,2003,41(4):397-402.[27]Kaneko,H.,Suzuki,S.S.Okada,J.etal.Multineuronalspikeclassificationbasedonmultisiteelectroderecording,whole-waveformanalysis,andhierarchicalclustering[J].IEEETransBiomedEng,1999,46(3):280-290.[28]Lee,D.D.andSeung,H.S.Learningthepartsofobjectsbynon-negativematrixfactorization[J].Nature,1999,401(6755):788-791.[29]龚瑞琴.文本分类中特征选择和分类算法的研究[硕士学位论文].宁夏大学,2014.[30]孙可,龚永红,邓振云.一种高效的K值自适应SA-KNN算法[A].计算机工程与科学,53 2015,37(10):1965-2006.[31]Lall,L.andSharma,A.Anearestneighborbootstrapforresamplinghydrologictimeseries[J].WaterResourceResearch,1996.32(3):679-693.[32]Cortes,C.andVapnik,V.Support-vectornetworks[J].MachineLearning,1995,20(3):273-370.[33]Breiman,L.Randomforests[J].MachineLearning,2001,45(1):5-32.[34]Amigo,E.,Gonzalo,J.Artiles,J.etal.Acomparisonofextrinsicclusteringevaluationmetricsbasedonformalconstraints[J].InformationRetrieval,2009,12(4):461-486.[35]VanRijsbergen,C.Foundationofevaluation[J].JournalofDocumentation,1974,30(4):365-373.[36]Liu,Z.Q.,Jiang,F.,Tian,G.L.etal.SparselogisticregressionwithLppenaltyforbiomarkeridentification.StatisticalApplicationsInGeneticsAndMolecularBiology,2007,6:1-22.[37]Zou,H.andHastie,T.Regularizationandvariableselectionviatheelasticnet[J].JournalOftheRoyalStatisticalSocietySeriesB-StatisticalMethodology,2005,67:301-320.[38]Tibshirani,R.Regressionshrinkageandselectionviathelasso[J].JournalOftheRoyalStatisticalSocietySeriesB-StatisticalMethodology,1996,58:267-288.[39]Hoerl,A.E.andKennard,R.W.Ridgeregressionbiasedestimationfornon-orthogonalproblems.Technometrics,1970,8(1):27-51.[40]Li,J.T.,Jia,Y.M.andZhao,Z.H.Partlyadaptiveelasticnetanditsapplicationtomicroarrayclassification[J].NeuralComputing&Applications,2013,22(6):1193-1200.[41]Kim,J.,Kim,Y.andKim,Y.AGradient-BasedOptimizationAlgorithmforLASSO[J].JournalOfComputationalAndGraphicalStatistics,2008,17(4):994-1009.[42]Hoshida,Y.Nearesttemplateprediction:asingle-sample-basedflexibleclasspredictionwithconfidenceassessment[J].PLoSOne,2010,5(11):e15543.[43]Chow,K.H.,Factor,R.E.andUllman,K.S.Thenuclearenvelopeenvironmentanditscancerconnections[J].NatureReviewsCancer,2012,12(3):196-209.[44]Carpenter,R.L.andLo,H.W.RegulationofApoptosisbyHER2inBreastCancer[J].JCarcinogMutagen,2013,Suppl7.[45]Huang,D.W.,Sherman,B.T.andLempicki,R.A.SystematicandintegrativeanalysisoflargegenelistsusingDAVIDbioinformaticsresources[J].NatureProtocol,2008,4(1):44-57.[46]Kafri,M.,Metzlraz,E.,Jona,G.etal.TheCostofProteinProduction[J].CellReports,2016,14(1):22-31.[47]Mukhopadhyay,A.,Bandyopadhydy,S.B.andMaulik,U.Multi-classclusteringofcancer54 subtypesthroughSVMbasedensembleofpareto-optimalsolutionsforgenemarkeridentification[J].PLoSOne,2010,5(11).[48]Nair,V.andHinton,G.E.RectifiedlinearunitsimproverestrictedBoltzmannmachines[C].InternationalConferenceonMachineLearning.USA,Medison:Omnipress,2010:807-814.[49]Dayan,P.andAbbott,L.TheoreticalNeuroscience:ComputationalandMathematicalModelingofNeuralSystems,MITpressCambridge,MA,chapterModelNeuronsI:Neuroelectronics.2001:178-189.[50]Grunt,T.W.andMariani,G.L.Novelapproachesformoleculartargetedtherapyofbreastcancer:InterferingwithPI3K/AKT/mTORsignaling.CurrentCancerDrugTargets,2013,13(2):188-204.[51]Brognard,J.andNewton,A.C.PHLiPPingtheswitchonAktandproteinkinaseCsignaling[J].TrendsinEndocrinologyandMetabolism,2008,19(6):223-230.[52]Gao,T.,Brognard,J.andNewton,A.C.ThephosphatasePHLPPLcontrolsthecellularlevelsofproteinkinaseC[J].JournalofBiologicalChemistry,2008,283(10):6300-6311.[53]左永刚.GRB7表达与乳腺癌生物学行为相关性研究[硕士学位论文].中国医科大学,2013.[54]Chen,L.,Huang,Z.,Yao,G.etal.TheexpressionofCXCL13anditsrelationtounfavorableclinicalcharacteristicsinyoungbreastcancer[J].JTranslMed,2015,13:168.[55]Razis,E.,Kalogeras,K.T.,Kotoula,V.etal.Improvedoutcomeofhigh-riskearlyHER2positivebreastcancerwithhighCXCL13-CXCR5messengerRNAexpression[J].ClinBreastCancer,2012,12(3):183-193.[56]Panse,J.,Friedrichs,K.,MarxA.etal.ChemokineCXCL13isoverexpressedinthetumourtissueandintheperipheralbloodofbreastcancerpatients[J].BrJCancer,2008,99(6):930-938.[57]Kang,L.C.andDunphy,C.H.ImmunoreactivityofMIC2(CD99)andterminaldeoxynucleotidyltransferaseinbonemarrowclotandcorespecimensofacutemyeloidleukemiasandmyelodysplasticsyndromes[J].ArchPatholLabMed,2006,130(2):153-157.[58]曹廷虎,侯建国,常文军.原发性肾透明细胞癌根治术患者预后与CD99基因表达的关系及预后影响因素分析[J].第二军医大学学报,2011,5:517-520.[59]葛娟.HCLS1参与调控B淋巴瘤细胞分化机制的初步研究[硕士学位论文].南方医科大学,2011.[60]Li,J.,Fan,Y.,Zhang,Y.N.etal.TheRaf-1inhibitorGW5074andtheERK1/2pathwayinhibitorU0126amelioratePC12cellsapoptosisinducedby6-hydroxydopamine[J].Pharmazie,2012,67(8):718-724.55 [61]Zebisch,A.,Staber,P.B.,Delavar,A.etal.TwotransformingC-RAFgerm-linemutationsidentifiedinpatientswiththerapy-relatedacutemyeloidleukemia[J].CancerRes,2006,66(7):3401-3408.[62]李庆伟,苏鹏,刘晓忠等.CD9与免疫细胞、免疫因子相互作用及其功能的研究[J].辽宁师范大学学报(自然科学版),2010,4.[63]Katoh,M.,Igarashi,M.,Fukuda,H.etal.CancergeneticsandgenomicsofhumanFOXfamilygenes[J].CancerLett,2013,328(2):198-206.[64]Kornblau,S.M.,Singh,N.andQiu,Y.HighlyphosphorylatedFOXO3aisanadverseprognosticfactorinacutemyeloidleukemia[J].JClinCancerRes,2010,16(6):1865-1874.[65]Santamaría,C.M.,Chillón,M.C.andGarcía-Sanz,R.HighFOXO3aex-pressionisassociatedwithapoorerprognosisinAMLwithnormalcytogenetics[J].JLeukRes,2009,33(12):1706-1709.[66]Halasi,M.andGartel,A.L.FOX(M1)news-itiscancer[J].JMolCancerTher,2013,12(3):245-254.[67]Nakamura,S.,Hirano,I.andOkinaka,K.TheFOXM1transcriptionalfactorpromotestheproliferationofleukemiacellsthroughmodulationofcellcycleprogressioninacutemyeloidleukemia[J].JCarci-nogenesis,2010,31(11):2012-2021.[68]Zhang,X.,Zeng,J.andZhou,M.ThetumorsuppressiveroleofmiR-NA-370bytargetingFoxM1inacutemyeloidleukemia[J].JMolCancer,2012,11:56.[69]郭霞,李强.TEL/AML1融合基因与儿童急性淋巴细胞白血病[J].实用儿科临床杂志,2007,22(3):227-229.[70]Rubnitz,J.E.,Wichlan,D.andDevidas,M.E.A.ProspectiveanalysisofTELgenerearrangementsinchildhoodacutelymphoblasticleukemia:aChildren'sOncologyGroupstudy[J].JClinOncol,2008,26(13):2186-2191.[71]Eguchi,M.,Eguchi-Ishimae,M.andGreaves,M.TheroleoftheMLLgeneininfantleukemia[J].IntJHematol,2003,78(5):390-401.[72]Kosaka,Y.,Koh,K.,Kinukawa,N.etal.InfantacutelymphoblasticleukemiawithMLLgenerearrangements:outcomefollowingintensivechemotherapyandhematopoieticstemcelltransplantation[J].Blood,2004,104(12):3527-3534.56 作者简历一、基本情况姓名:何艳玲性别:女民族:汉出生年月:1991-12-29籍贯:江苏省宿迁市2015-09—2018-06中国矿业大学信息与控制工程学院硕士;2011-09—2015-06扬州大学信息工程学院学士。二、学术论文及专利1.共同一作.Clusteringcount-basedRNAmethylationdatausinganonparametricgenerativemodel[J].CurrentBioinformatics.(审稿中)2.共同一作.Clusteringcount-basedRNAmethylationdatausinganonparametricgenerativemodel[J].CurrentBioinformatics.(审稿中)3.第一作者.路由器[P].专利号:ZL201630000654.4.4.第二作者.雷达对抗虚拟仿真软件V1.0[CP/DK].登记号:2016SR061094.三、获奖情况1.2017.9学业奖学金.研究生二等奖学金;2.2016.9学业奖学金.研究生一等奖学金;3.2015.9学业奖学金.研究生一等奖学金;四、研究项目1.国家自然科学基金项目.基于非参数贝叶斯推断的RNA甲基化谱分解及关键致病酶基因的预测(61501466).2016.1-2018.12.参与人57 论文原创性说明本人郑重声明:所呈交的学位论文《基于神经网络的癌症多亚型分类及关键致病基因选择》,是本人在导师指导下,在中国矿业大学攻读学位期间进行的研究工作所取得的成果。据我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:年月日58 学位论文数据集关键词*密级*中图分类号*UDC论文资助癌症多亚型分类;基因选择;公开TP181621.3Softmax回归;多层神经网络;学位授予单位名称*学位授予单位代码*学位类别*学位级别*中国矿业大学10290工学硕士论文题名*并列题名*论文语种*NeuralNetworksBased基于神经网络的癌症多亚型分类及MultipleCancerSubtype中文关键致病基因选择ClassificationandKeyDiseaseGeneSelection作者姓名*何艳玲学号*TS15060093A3TM培养单位名称*培养单位代码*培养单位地址邮编中国矿业大学10290江苏省徐州市221008学科专业*研究方向*学制*学位授予年*信息与通信工程生物信息处理三年2018年论文提交日期*2018.4导师姓名*张林职称*副教授答辩委员会主席评阅人答辩委员会成员*李雷达电子版论文提交格式文本(√)图像()视频()音频()多媒体()其他()推荐格式:application/msword;application/pdf电子版论文出版(发布)者电子版论文出版(发布)地权限声明论文总页数*59页注:共33项,其中带*为必填数据,共22项。59

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭