基于互信息的变量选择方法研究

基于互信息的变量选择方法研究

ID:33790091

大小:6.16 MB

页数:52页

时间:2019-03-01

上传者:U-22107
基于互信息的变量选择方法研究_第1页
基于互信息的变量选择方法研究_第2页
基于互信息的变量选择方法研究_第3页
基于互信息的变量选择方法研究_第4页
基于互信息的变量选择方法研究_第5页
资源描述:

《基于互信息的变量选择方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

中图分类号UDC0651540硕士学位论文学校代码!Q5三3密级公珏基于互信息的变量选择方法研究Theresearchofvariableselectionmethodbasedonmutualinformation作者学科研究学院(指导名:龙旭霞业:化学向:分析化学所):化学化工学院师:梁逸曾教授论文答辩日期塑!主:』:卅答辩委员会主席中南大学2013年5月姓专方黍教 原创性声明本人声明,所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我共同工作的同志对本研究所作的贡献均已在论文中作了明确的说明。作者签名:蓝业!巨Et,苴a:立虹王年工月丛日学位论文版权使用授权书本人了解中南大学有关保留、使用学位论文的规定,即:学校有权保留学位论文并根据国家或湖南省有关部门规定送交学位论文,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以采用复印、缩印或其它手段保存学位论文。同时授权中国科学技术信息研究所将本学位论文收录到《中国学位论文全文数据库》,并通过网络向社会公众提供信。ra,N务。储虢邀翩签趔喻盟年』月堕日作者签名:逊益导师签霜乏望型日期:上型王年』月堕日 基于互信息的变量选择方法研究摘要:现代分析仪器的产生及计算机技术的进步,极大地促进了分析化学和生命科学的研究和发展。如今,我们能够通过含有成千上万个分析通道(如基因芯片,质谱的质荷比和近红外光谱、拉曼光谱等的波长)的仪器来获取实验样本的相关数据。然而,这也意味着我们将要面临一个新的难题,如何从这些庞大的数据集里挑选出有信息的变量,并建立起相应的分析识别模型?为此,本文提出了一个新的变量选择方法,即MPA.MMIFS,它以交互信息为基础并结合了模型集群分析(ModelPopulationAnalysis,MPA)的概念,使得样本集中待选变量与样本类型的互信息最大,且与已选变量的互信息最小。此外,我们还引入了偏最小二乘线性判别分析(PartialLeastSquaresLinearDiscriminantAnalysis,PLS—LDA)的回归系数来调整变量的重要性。为了对我们提出的方法进行测试,我们选取了3个实际生活中的数据集(Estrogen基因表达数据,II型糖尿病代谢数据与近红外数据食用醋分类数据)来进行变量筛选和样本建模,并同时采用了交叉验证法(CrossValidation,CV)和双交叉验证法(DoubleCrossValidation,DCV)来对模型进行评价。通过与其他变量选择方法(MIFS、MMIFS和CA)的比较,其结果表明,我们提出的基于模型集群分析方法在这三个具有不同性质的数据上均表现出不同程度的优势。以Estrogen数据为例,其留一交互检验预测准确率为100%,且利用其选出的仅5个基因做主成分分析,就能得到两类样本非常明显的分类趋势。图15幅,表9个,参考文献45篇。关键词:变量选择;互信息;模型集群分析;偏最小二乘线性判别分析;交叉验证分类号:0651;540(UDC、) rnl1,’●1'1●上neresearCnOIVarla01eselectlonmetnodbased0nmUtualinfoHnationAbstract:Asweknow,theemergingofmodemanalyticalinstrumentsandtheprogressofcomputertechnologyhavedonemuchtopromotethedevelopmentofAnalyticalChemistryandLifeScience.Now,wecangetavastamountofdataaboutthesamplesbytheaidoftheinstrumentswhichishighthroughput,suchasgene-chip,mass-to-chargeratiosofmassspectrometry,andwavelengthsofNearInfraredSpectrumorRamanSpectrum.HoweveLitmeansthatwewillbeconfrontedwithanewproblem:howtoselectinformativevariablesfromthoselargedatasetsandhowtoestablishcorrespondingmodeltoanalysisandrecognize?Toproposeasolution,wethoughtupanewmethodofvariableselection,thatis胁.MMIFS.ItwasbasedonmutualinformationandcombinedwithModelPopulationAnalysis(MPA),wheretherelevancebetweentheinputvariablesandtheresponseiSmaximizedandtheredundancyoftheselectedvariablesiSminimized.Moreover,inordertoadjustthevariableimportance,wealsointroducedintheregressioncoe伍cientofPartialLeastSquaresLinearDiscriminantAnalysis(PLS—LDA).Usingthreerealworlddatasets(GeneexpressiondataofEstrogen,MetabolomicsdataofType2DiabetesMellitusandNearinfraredspectroscopydataofvinegar),theproposedmethodwastestedtoselectvariablestoestablishmodels,inthemeanwhile,bothcrossvalidation(cv)anddoublecrossvalidation(DCV)wereusedtoassessthemodel.Comparingwithothermethods(MIFS,MMIFSandGA),theoutcomesshowedthattheproposedmethodachievedcompetitiveperformance.Keywords:Variableselection,Mutualinformation,Modelpopulationanalysis,Partialleastsquareslineardiscriminantanalysis,CrossvalidationClassification:0651,540(UDC) 目录原创性声明⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯I摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯II目录⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯IV1绪论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.11.1引言⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯11.2多变量建模方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.11.2.1最小二乘法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯21.2.2偏最小二乘法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯21.3变量选择方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.31.3.1子集选择法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯31.3.2系数压缩法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯41.4判别分析法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一41.5模型评价方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一51.5.1独立测试集法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯51.5.2交互检验法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯61.6本文的主要研究内容⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..62基于互信息的模型集群分析变量选择方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯82.1引言⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..82.2原理和算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..82.2.1熵与互信息⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯92.2.2基于互信息的变量选择方法回顾⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.1O2.2.3本文提出的MPA.MMIFS算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯122.3MPA—MMIFS计算软件⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯142.4实验数据⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯142.4.1基因组学数据(乳腺癌)⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.152.4.2代谢组学数据(II型糖尿病)⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.152.4.3近红外数据(食用醋)⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.162.5数据处理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯172.6结果与讨论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯182.6.1Estrogen数据⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一182.6.2T2DM数据⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.202.6.3Vinegar数据⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯22IV 2.7本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯243变量选择方法之间的比较⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯263.1引言⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯263.2其他变量选择方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯263.2.1遗传算法(GA)⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯263.2.2间隔影响分析法(MIA)⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.283.2.3随机青蛙算法(Iu)⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯283.2.4子窗口重排分析法(SPA)⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..293.2.5变量互补信息网(VCN)⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.293.2.6竞争性白适应重加权采样法(CARS)⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯303.3不同方法的计算结果比较⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯313.3.1Estrogen数据⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.313.3.2T2DM数据⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..323.3.3Vinegar数据⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯323.4本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯334MPA.MMIFS算法的参数优化⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯344.1引+言⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一344.2k值与Q值的优化⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯344.2D值的优化⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.364.3N的取值对MPA.MMIFS算法的影响⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯364.4本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯37结论与展望⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.38参考文献⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.39攻读学位期间主要的研究成果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.45致谢⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯46V 硕士学位论文1绪论1绪论1.1引言现代分析仪器的产生及计算机技术的进步,极大地促进了分析化学和生命科学的研究和发展。如今,我们能够通过含有成千上万个分析通道(基因芯片,质谱的质荷比和波谱,如近红外光谱、拉曼光谱等的波长)的仪器来获取实验样本的相关数据,比如,在基因组学(Genomics)领域,一张基因芯片可同时对几十万甚或上百万的基因表达进行检测;在代谢组学(Metabolomics)领域,基质辅助激光解析电离飞行时间质谱(MALDI.TOF.MS)仪器所产生的样本谱图即由上万个质荷比处的量测信息组成;而在近红外(Near-Infrared)领域,通过测量样本所得到的光谱也往往含有上千个波长点。然而,在这些超大规模的数据中,通常含有三类信息变量,一是能够提高模型预测能力的有信息变量(informativevariable)。据大量文献反映的情况以及我们的实验经验所知,这类变量仅仅是少数。二是重复冗余,或对建模有干扰作用的变量(redundantorinterferingvariable)。三是与模型完全无关的变量(uninformativevariable),如噪声。因此,这就意味我们面临着一个新的难题:如何从这些庞大的数据集里挑选出有信息的变量,并建立起相应的分析识别模型?许多文献研究表明,去除无关甚或干扰变量,或者选择有信息变量能够有助于我们去发现实际数据分类问题中的潜在概念。而通常由高通量数据引发的这些问题中,少数问题我们可以采用现有的数学方法或统计学方法来解决,而其他大部分则需要我们通过改进已有算法或者发展新算法来进行分析和研究。1.2多变量建模方法在现代分析化学和生命科学研究中,我们分析的样本往往具有高度复杂性,如香烟中的香精香料,代谢组学中的血浆和基因组学中的基因测序。因此,与以浓度检测为主的传统化学分析相比,现代化学分析的目的更加广泛而复杂,这些分析目标不再是由某个“单一组分”决定,而常常是由多个组分共同决定。想要完成分析任务,就需要我们采用多变量建模方法来建立起多变量数据与目标值之间的回归或分类模型,其数学表达式为:y钡X)(1-1)其中,X代表样本量测数据,y代表分析目标的数据,_『(.)代表X与Y的相关函数, 硕士学位论文1绪论即我们所要建立的模型函数。目前,关于函数月.)的求解主要有三类方法:线性方法,非线性方法和集成学习算法。在线性模型算法中,主要有最小二乘法(LeastSquares,LS)、岭回归法(RidgeRegression,RR)、主成分回归(PrincipalComponentRegression,PCR)【1]和偏最小二乘法(PartialLeastSquares,PLS)【21,非线性模型算法中则有人工神经网络(ArtificialNeuralNetwork,ANN)[3]、分类回归树(ClassificationAndRegressionTree,CART)【4]和支持向量机(SupportVectorMachines,SVM)『51;而集成学习建模方法是近年来的热点思想,它主要是采用事先选定的建模方法来建立一组模型,进而通过组模型来共同决策。其主要方法包括:自助集合法(Bagging)[6】、助推法(Boosting)【7,8】和随机森林(RandomForests)『91。而在本文的研究工作中,我们采用的是线性模型算法。下面我们对几种线性模型算法进行简要介绍[101。1.2.1最d、--"乘法最d,-乘法(LS)是由著名数学家高斯提出的。一般多元线性回归模型的公式为:y=Xb+e(1-2)其中,Y为分析目标的响应变量,X为分析体系的量测数据矩阵,b为回归向量,e为量测误差矢量,一般设为服从正态分布的等方差噪声误差。为使所估计的响应变量与实际量测的响应变量之间的误差最小,即使eTe最小,采用最小二乘法可得:bLs=(XTX)一1XTY(1—3)利用bLs对新样本Xnew进行预测,可得:Ypred=XnewbLs(1·4)在全部线性无偏估计类中,最小二乘估计是唯一的一个方差一致最小估计。故虽此方法很古老,但它仍在化学计量学中被广泛地应用。1.2.2偏最小二乘法偏最小二乘法(PLS)【2】通过使用奇异值分解法(SingularValueDecomposition,SVD)对X矩阵和Y进行分解,并且在分解X矩阵的同时考虑Y的因素,在分解Y的同时又兼顾X矩阵,加强了X与Y之间回归对应计算的2 硕士学位论文1绪论关系,以获得最佳回归预测效果。因此,PLS本质上其实是一种基于特征变量的回归方法。著名的化学计量学家H6skuldsson证明了PLS根本上是对yTxxTy或XTyyTXfl勺分解[11]。假设由PLS分解X矩阵得到的权重矩阵为W,载荷矩阵为P,而分解Y得到的载荷为Q,那么回归向量可表示为:bPLs=W(PTW)一1Q(1.5)PLS在多元校正中得到了广泛地应用,是化学计量学家进行数据分析的主要方法。1.3变量选择方法一般来说,变量选择对于现代高维数据分析有以下几点帮助:有助于真实实验数据的可视化和便于理解,减少数据测量和数据储存,减少数据训练和运行时间和解决维度带来的困扰从而提高模型预测能力等等。因此,变量选择一直是化学计量学家们所重视的问题,同时也是一个难点问题。通过化学计量学家、数学家和统计学家的多年努力,使得高维数据变量选择方法体系逐渐建立。现以线性回归模型中变量选择方法的进展为例,作出简单介绍。线性回归模型的一般形式为:Y2xlpl+x2p2+⋯+xppp+e=xp+e(1-6)其中,Y为响应变量,X为量测矩阵,Xi为量测变量,其中i=l,2⋯.,pop=(pl,&⋯.,艮)’,是x的回归系数向量。王大荣[12】将线性回归模型中的变量选择方法分为两个系列:一为子集选择法,二为系数压缩法。1.3.1子集选择法在线性模型中,每个量测数据X的子集对应一个模型。子集选择法即对量测变量集合[xl,X2⋯.,xp】中的所有子集或部分子集进行建模分析和比较,从而选出相对于某个选择准则而言的最优子集回归模型。根据不同的理论基础,则有不同的选择准则,如基于信息论的准则,其典型代表是Akaike提出的AIC(AkaikeInformationCriterion)准则【13];基于Bayesian方法的准则,即BIC(BayesianInformationCriterion)[14】和基于预测误差的准贝,lJ[15]。由于分析化学和生命科学数据的多样性和复杂性,科学工作者往往要根据数据的不同性质,来选择不同的准则进行变量选择工作。而上述这些准则是化学计量学家们在分析高维数据时常3 硕士学位论文1绪论用的。子集选择法,从理论上来说,要对29—1(p为变量个数)个量测变量子集进行计算和分析。当量测变量较多时则会导致巨大的计算量,且算法基于的准则也会在一定程度上影响其复杂度。1.3.2系数压缩法由于子集选择法在计算量上的局限性以及变量选择结果的不稳定性,统计学家和化学计量学工作者们研究了系数收缩法,这种方法使变量选择和参数估计可同时进行。属于这个类别的方法有NNG法(Non.negativeGarrote)f161,Lasso法(LeastAbsoluteShrinkageandSelectionOperator)[17]等。Lasso法最初由Tibshirani教授于1996年提出,与最d,--乘法(LS)一样,Lasso法也是针对使公式1-6中Je达到最小这一目标而对回归系数B进行求解。不同的是,Lasso法还增加了一项约束条件,即要求回归系数满足如下条件:∑墨1lDiI≤t,t≥0(1—7)其中,t为事先给定的一个非负值,这相当于对回归系数进行了惩罚。Lasso法的关键之处就在于t值的选择,t值越大,即惩罚越小,选出的变量就越多。除却上述提及的变量选择方法外,还有其他许多性能优良的方法,Lt-,女I弹性网(ElasticNet)方法『181、无信息变量消除法(UninformativeVariableElimination,UVE)【19]和移动窗口偏最dx--乘法(MovingWindowPartialLeastSquares,MWPLS)[201等等。1.4判别分析法对于现代化学或生物数据的分析,已不仅仅局限于测定物质含量,科学家们往往要从量测数据中进一步挖掘物质的隐含性质,例如,进行样本分类。这一过程我们通常称之为模式识别。在化学计量学领域的研究中,模式识别是一项十分重要的内容,它的一般过程如下:首先根据化学(或物理)模型或经验规律对实验获取的一批训练点进行特征提取;然后再采用一定的变量选择方法做进一步的特征抽取从而张成模式空间,并利用模式识别算法进行训练和分类:最后根据所得的判据对未知样本进行分类判别。判别分析法属于模式识别方法中有监督的一类,最常用的有距离判别分析法、线性学习机、K邻域判别法和人工神经网络判别法。在本论文的研究工作中,我们所采用的是线性学习机,又称为线性判别法[10】。4 硕士学位论文1绪论假设训练集中有两类样本,记为U1和U2,如果它们是线性可分的,那么就总能找到一个矢量U使得:Xi∈U1,UTXi>0(1-8)Xi∈Uz,UTXi<0(1-9)线性判别法的目标是找到上述这样一个矢量U。线性判别分析法是一个简单的线性判别函数迭代算法,可由以下步骤实现:1)随机选择一个与样本变量具有相同维数的矢量作为U;2)计算训练集中的每一个样本(i--1,2⋯.,n,n为样本个数):如果Xi∈U1,而且如果uTxi>0,则Uncw=Uold(判决矢量保持不变),反之,如果uTxi<0,则U。。W—uold-hi(修正判决矢量);如果Xi∈U2,而且如果uTxi<0,则Unew--Uold(判决矢量保持不变),反之,如果uTxi>0,则unew=uoId.九xi(修正判决矢量);这里,九-----2(UTldxi)/llxill2;3)重复第2步,直到所有样本都正确分类。1.5模型评价方法一般来说,我们无法确定分析目标与测量数据之间的关系是否线性,即分析体系的模型形式fix)处于未知状态。因此,为了检验我们事先选定的模型是否可靠,我们必须对其性能进行评价,而评价的指标即为模型的预测能力。在化学计量学研究中,主要的模型评价方法有两类:独立测试集法和交互检验。1.5.1独立测试集法对于样本量足够的数据空间,我们可将其划分为两个样本子集:训练集和测试集。然后利用事先选定的多变量建模方法对训练集样本进行建模计算,继而通过该模型对测试集中的样本进行预测。以回归分析为例,可采用公式1.8计算模型的均方预测误差(RootMeanSquaredErrorofPrediction,RMSEP):RMSEP=(1-8)其中,n。。。。代表测试集中样本的个数。如果我们不断改变模型的复杂程度,并依次求出模型在预测集上的RMSEP值,便可通过考察预测误差来选出最优的模型。5 硕士学位论文1绪论1.5.2交互检验法独立测试集法是基于大量样本上获得可靠结果的方法,然而,实际问题中,样本的个数往往很少,为了充分利用样本信息,我们可采用交互检验(CV)来进行模型评价。交互检验发展至今,已有了多种形式,主要包括留一交互检验(LeaveOneOutCrossValidation,LOOCV),K折交互检验(K—foldCrossValidation,K.foldCV),双层交互检验(DoubleCrossValidation,DCV)、重复双层交互检验(repeateddoubleCrossValidation,rdCV)和蒙特卡洛交互检验(MonteCarloCrossValidation,MCCV)。下面只介绍本研究中所用及的前三种方法:留一交互检验(LOOCV)的做法是在每次分配训练集和测试集时,只留一个样本在测试集中,其余都归为训练集,对训练集建模从而预测测试集,求出预测误差。如此重复n次(n为样本个数),直至所有样本都被预测过一次。此时,模型的均方误差为:厂=—■——————■了RMSECV=.]Y&l(yi,p,'ea-yO-.(1-9)Yn’式中,Yi.pred表示第i个样本的预测值,Yi表示其实际测量值。鉴于当样本量变大时,LOOCV法的计算量也随之变大,且有研究表明LOOCV所得的结果常常会低估了预测误差。因此,K折交互检验(K.foldCV)应运而生。本质上,K.foldCV与LOOCV大同小异,只是在分配预测集时,不再只留一个样本,而是留取n/K个样本,通常K取5或10。同理,我们每次用其余的K.1组样本做训练集进行建模,继而预测第K组样本。这样,我们便只需计算K次RMSECV从而大大减少了计算量。有研究表明,K.foldCV比之LOOCV,可得到更为准确的误差估计。K—foldCV虽然能够优化LOOCV,但尤显不足,它还存在一定程度上的过拟合风险。于是,科学家们又发展了双层交互检验(DCV)。双层交互检验,顾名思义,即两层交互检验。首先,我们对前文所提到的K.1组样本进行一次K折交互检验,得到模型的最优参数;然后用这些参数对这K.1组样本建模从而预测第K组样本;重复前两个步骤直到每组样本都被预测一次。1.6本文的主要研究内容通过上文的简要介绍,我们可以发现,建立起高维数据的分析模型主要有以下过程:变量选择、模型构建和模型评价。其中,变量选择一直是化学计量学家们十分重视的研究内容,而本论文的主要工作就是针对对高维数据分析中的变量6 硕士学位论文1绪论选择进行研究探索,发掘变量选择的新思路,以期得到一种新的、有效的变量选择方法,从而解决现代高维数据分析的实际问题。本文的研究工作主要有:新变量选择方法的提出(第二章),变量选择方法之间的对比(第三章)和变量选择方法相关参数的优化(第三章),现简述如下:一、我们通过查阅大量的相关文献发现,近年来,以信息论为基础的变量选择方法研究正属于热点,且其应用较为广泛。因此,我们以信息论中的互信息准则作为切入点,结合本研究小组之前提出的模型集群分析思路,在前人的研究基础上进行了思路创新和方法改进,最终提出了一种基于互信息的模型集群分析变量选择方法(本文称之为MPA.MMIFS)。其中,我们还引入了偏最小二乘中的回归系数对变量的重要性进行修正,使得变量选择结果更为准确。本论文工作中采用的分类器是线性学习机,也就是线性判别分析。对于模型评价方法的选择,为了使结果更具说服力,我们对每一个样本数据分别采用了留一交互检验(LOOCV)、双层交互检验(DCV)和K折交互检验(K.foldCV)。对于样本数据的选择,为体现本方法具有较好的适应性,我们分别选取了基因组学、代谢组学和近红外中的一组数据进行分析。此外,我们还将本方法与同源的其他方法进行了实验结果的对比,以说明本方法对变量选择效果的改善和提高。(第二章)二、为了体现本方法在一定程度上的竞争性,我们还通过查找文献、采用其他方法进行实验数据的计算等,对比了性一系列不同类型的变量选择方法的计算结果,有遗传算法(GeneticAlgorithm,GA)、间隔影响分析法(MarginInfluenceAnalysis,MIA)、随机青蛙算法(RandomFrog,RF)、子窗口重排分析法(Sub.windowPermutationAnalysis,SPA)、变量互补信息网(VariableComplementaryNetwork,VCN)和竞争自适应重加权采样法(CompetitiveAdaptiveReweightedSampling,CARS)。(第三章)三、由于本论文所提出的变量选择方法涉及了一些参数设置问题,对此,我们专门介绍了本方法是如何确定最优参数的,以及各参数对计算结果的影响情况。(第四章)7 硕士学位论文2基于互信息的模型集群分析变量选择方法01己l。言二·1JI口在变量选择中,如果一个变量含有与某一样本类别相关的有意义的信息,那么这个变量就称为这个样本类别的有信息变量(informativevariable),反之,则认为该变量为无信息变量(uninformativevariable)或干扰变量(interferingvariable)。而信息论中,互信息(mutualinformation,MI)是定量计算两个随机变量间共有信息量的良好计算工具,因此,它被广泛认为是作为表示两个随机变量相关性的有效指标。此外,由于互信息能够计算随机变量间的任意依赖,这使得它能够适用于复杂分类任务中信息量的估计,因为若使用基于线性关系,如相关系数的方法容易产生误差。如前文所述,在变量选择的研究中,研究者们主要集中于选择准则,即计算准则和搜寻策略的研究,而在所有不同的选择准则中,基于信息论的准则得到了更为广泛的关注。Lewis和Battiti是最早提出利用互信息进行变量选择的研究者,1992年,Lewis采用互信息方法对文本分类数据进行了变量抽取选择[21];1994年,Battiti利用互信息准则对候选变量进行评估,选出有信息变量的子集来作为神经网络分类器的输入数据集[22]。此后,经过20多年的发展,大量基于互信息的变量选择方法被研究者们提出,并被广泛地用于处理各种数据:Amiri为电脑入侵检测系统提出了一种互信息变量选择法[23];李兵为齿轮的混合故障诊断进行了基于互信息的特征抽取与选择研究[24];Garbarine设计了三种源自信息论的不同变量选择方法来对宏基因组进行读取分类[25]等等。而他们之间的的主要区别在于信息论准则的选择。信息论在化学计量学中的应用目前还不算多,故本论文的主要目的就是将信息论理论引入化学和生物学数据分析,发现变量选择的新方法。2.2原理和算法在这部分内容中,我们将介绍算法中所涉及的信息论的基本概念,两种前人所提出的基于互信息的变量选择算法以及本研究所设计的基于互信息的模型集群分析变量选择方法。8 硕士学位论文2基于互信息的模型集群分析变量选择方法2.2.1熵与互信息在Cover所著的{ElememsofInformationTheory))【26】一书中,对熵和互信息的概念是这样阐述的:熵是随机变量的自信息,而互信息则是相关熵(一个一般量)中的一个特例,它是两个概率分布之间的距离度量,也是一个随机变量所包含的另一个变量的信息量的度量。随机变量X的熵H(X)的定义为:H(X)=一∑。∈xp(x)log,p(x)(2-1)一对联合分布为p(x,y)的离散型随机变量(X,Y)的联合熵H()(,Y)定义为:H(X,Y)=一∑。∈x∑v∈Yp(x,y)log,p(x,Y)(2-2)如果(X,Y)~p(x,y),那么条件熵H(YIX)贝3J定义为:H(YIX)=∑x∈xp(x)H(YIX=x)=一∑p(x)PYp(ylx)log,p(ylx)xEXZ.JyEI一厶PkA/Y’=一∑x∈XZyeVP(x,y)log,p(ylx)(2-3)对于两个随机变量x和Y,若其联合概率质量函数为p(x,y),边缘概率质量函数分别为p(x)和p(y),其互信息I(X;Y)贝JJ为:I(x;Y)=∑x∈x∑y∈Yp(x,y)l。92器(2-4)根据以上定义,我们可得到以下定理:I(X;Y)=H(X)一H(XIY)(2-5)I(XjY)=H(Y)一H(YIX)(2-6)I(x;Y)=H(x)+H(Y)一H(X,Y)(2-7)I(X;Y)=I(Y;X)(2-8)H(X)、H(Y)、H(X,Y)、H(XIY)、H(YIX)和I(X;Y)之间的关系可用文氏图2.1来表示。从图中可知,互信息I(X;Y)对应于变量X的信息与变量Y的信息的相交部分。9 硕士学位论文2基于互信息的模型集群分析变量选择方法Hl埘》图2.1熵与互信息之间的关系2.2.2基于互信息的变量选择方法回顾以互信息作为准则的变量选择方法主要聚焦于:使待选变量与相应变量之间的互信息最大,而使待选变量与已选变量之间的冗余度最小。Battiti提出的互信息变量选择方法(MutualInformation.basedFeatureSelection,MIFS)[22]和Amifi提出的改进互信息变量选择方法(ModifiedMutualInformation.basedFeatureSelection,MMIFS)【23]就是基于此目的而产生的,其过程可表述如下:1)初始化:令F为所有变量的初始集合,S为空集,C为输出类(响应变量或分类情况);2)变量与输出类之间互信息的计算:对每一个变量f;(fi∈F)计算I(fi;c);3)首变量的选取:找到使I(fi;c)最大化的变量fi,令F卜F.£,S卜f;;4)贪婪选择法:重复一以下步骤直到所选变量的个数达到预设变量数:a.变量间互信息的计算:对所有变量组合(£:Si)计算I(fi:Si),这里£∈F,Si∈S:b.选择下一变量:选取使最终准贝JJ(finalcriterion)最大的变量,令F卜F.f;,S卜SU£。5)获得包含所有所选变量的集合S。在Battiti提出的MIFS算法中,上述步骤4)中最终准则的一般表达式为:I(fi;c)一13∑。;∈sI(丘jSi)(2-9)它计算的是待选变量fi与输出类别C(响应变量或分类情况)的互信息I(fi;c),以及待选变量f;与已选变量Si的互信息I(fi:Si)。在MIFS方法中,首变量选择的10 硕士学位论文2基于互信息的模型集群分析变量选择方法是与响应变量C的互信息最大的那个变量,而下一变量的选择是使I(f;;c)一p∑。;∈sI(fi;Si)最大,这里,p是一个惩罚系数,主要是用来调节候选变量与各个已选变量之间的互信息之和。如果13=o,那么只考虑的是待选变量与输出类别的互信息。Battiti认为介于O.5到1之问的13值能够适用于大部分分类任务,但是13依赖于样本数据,必须经过优化才能确定具体值。然而,Amiri等人认为,在MIFS的最终准则公式2-9中,并未考虑到已选变量个数的影响,随着已选变量个数的增加,待选变量与输出类别间的互信息对变量重要性的贡献就会越来越小。因此,Amiri等人提出了改进算法MMIFS,其最终准则(finalcriterion)为:I(丘jc)一(IVISI)∑。i∈sI(fi;si)(2-10)以上两种方法的流程可见于图2.2。图2-2MIFS算法和MMIFS算法流程图 硕士学位论文2基于互信息的模型集群分析变量选择方法2.2.3本文提出的MPA.MMIFS算法由上节的介绍及图2.2可知,MIFS算法和MMIFS算法都是以排序处理和贪婪搜寻作为它们的寻求特征变量的策略。排序处理使得预设个数的变量(变量与输出类别间的互信息最大)单个单个地被搜寻出来,因此,它忽视了变量间的相互作用以及变量间的依赖性对输出类别的影响。而贪婪选择法一般由提前预设和重复寻求两个步骤组成,所有变量中每次只有一个变量能被探索到,且该过程不能回溯,因此,其计算结果极大程度上依赖于搜寻路径[27]。为了解决上述两个问题,我们引入了偏最小二乘(PLS)回归系数和本研究组之前提出的模型集群分析(ModelPopulationAnalysis,MPA)【28,29]的思路。由于PLS在一定程度上兼顾了变量间相互作用的关系[30,31],因此,PLS回归系数的引入能够有助于变量重要性的正确评估。而针对贪婪搜寻法所产生的问题,我们通过采用模型集群分析法(MPA)和建立随机变量序列来构建搜寻策略,从而得到更为客观和真实的结果,因为,模型集群分析(MPA)以统计学的方法分析了大量子模型所得的有意义的数据指标——MPA主要有以下几个步骤:1)通过蒙特卡洛采样(MonteCarloSampling,MCS)获得数据子集;2)为每个数据子集建立起子模型;3)统计分析所有子模型中我们感兴趣的参数。这样,我们就能更加全面地了解数据性质。以上就是MPA.MMIFS算法的产生背景,下面我们将对其进行详细阐述。2.2.3.1变量空间中的采样假定有数据集(X,c),其中,矩阵X的每行表示一个样本,共有m个,每列表示一个变量,共有P个;每个样本相应的响应值或分类类别记录在矢量e(mxl)中,在两类别的分类离子中,c中的值皆为1或.1。蒙特卡洛采样(MCS)次数设为N,通常N值较大,比如1000或10000,这可以保证每个变量都有可能进入到子集中。在每次采样中,P个变量中会有Q(例如10)个被随机选取到子集中,这样,一个大小为m×Q的数据子集就产生了。重复N次这样的蒙特卡洛采样过程,我们就可以获得N个数据子集,它们可表示为(F,C)i(i=l,2⋯.,N)。2.2.3.2利用PLS.LDA建立子模型在本文的研究工作中,PLS—LDA被应用于为每个数据子集建立相应的模型,而我们所感兴趣的参数是回归系数B。对于变量集合F,也就是MCS采样所得的数据子集中的每一个变量f;,我们可得到它相应的回归系数bj(规范化的),12 硕士学位论文2基于互信息的模型集群分析变量选择方法结合前文所讲的信息论准则,于是一个改进的准则产生了,即:Wi=bi[I(fi;c)一(IVISl)∑sieSI(fi;8i)l(2-11)这里,wi表示的是由上述最终准则计算所得的变量重要性。S集中的每一个变量是一个接一个随机从F中选出的,并计算其变量重要性。而第一个被选出的变量,其重要性则由biI(fi;c)来计算。如此,随着一个子模型的建立,一个变量重要性集合W(1×Q)就被计算出来了,有N个子集,就有N个W。图2.3清楚地显示了这一过程,这里我们给定N=100,p=15,Q=5。图中的黑色条表示每次随机选出的变量。10090807060Z504030201051O15Variableindex图2—3每个变量的W值计算情况图示2.2.3.3变量重要性的统计分析对所有数据子集进行“集群”(Population)训练后,我们就要用对其统计分析的结果进行信息提取,这也是本方法(MPA.MMIFS)的核心部分。为了鉴别出有信息的变量,我们采用基于PLS.LDA分类器和互信息理论的方法对变量重要性进行评估。随着N次蒙特卡洛采样的进行,每个变量可以被选中多次,假定某个变量被选中的次数为n,那么就有n个相应的W值,因此,13 硕士学位论文2基于互信息的模型集群分析变量选择方法第i个变量的重要性Mi可用公式2.12计算:Mi=;∑i_lWi(2-12)随后,变量根据M值进行降序排列,通过交互检验法或双层交互检验法我们可以得到最优变量个数,从而得到最终的特征变量集合S。MPA—MMIFS算法流程可见于图2.4。开始l原始数据预处理上由蒙特卡洛采样法获得皆含有Q个交量的N个数据子集J采用PLS-LDA法建立予模型从丽获得回归系数BlI结合信息准贝l对交量进行计算,I从瓶获得变量重要性分布情况Wl计算变量重要性M1L通过交互检验方法获得最优变量个数l得到S图2—4MPA—MMIFS流程图2.3MPA—MMIFS计算软件采用MATLAB(R2009a版)编写了MPA.MMIFS程序包,源代码公布于:http://code.google.com/p/mpa-mmifs/downloads/list.2.4实验数据为了验证方法的可靠性,我们分别选取了3种实验数据来进行演练,它们分别是乳腺癌基因表达(雌性激素,estrogen)数据、II型糖尿病(type2diabetesmellitus,T2DM)代谢组学数据和食用醋(vinegar)的近红外数据,其具体情况14 硕士学位论文2基于互信息的模型集群分析变量选择方法如下。2.4.1基因组学数据(乳腺癌)该基因表达数据(Estrogen数据)取自于West[32]等的研究报道。最初的乳腺肿瘤样本是研究人员基于此项研究的一些准则从杜克乳腺癌中心(SPORE)的冷冻组织银行选取的,这些肿瘤样本,有的是雌激素(estrogen)和黄体酮(progesterone)受体(receptor)皆呈阳性,用ER+表示,有的是两种激素受体都呈阴性(ER一)。每个肿瘤样本都被确诊为是浸润性导管癌,且其最大尺寸介于1.5~5cm之间。同时,每一个样本都进行了腋窝淋巴结清扫术(axillarylymphnodedissection)诊断,有的为LN+(1ymphnode呈阳性),有的为LN一。最终的收集结果为49例乳腺癌肿瘤样本,其中13例EIHLN+,12例ER—LN+,12例ER+LN一和12例ER—LN一。这些乳腺肿瘤组织样本经过进行DNA提取处理后,根据美国昂飞公司的DNA阵列分析技术的说明,采用人类HuGeneFL基因微阵列芯片进行试验。阵列与目标物在45。C下杂交混合16小时后,用基因芯片流控技术进行冲洗和染色,经基因芯片扫描仪扫描所得的信号由基因芯片的基因表达分析算法(3.2版)进行处理。最终,研究人员获得了7129个基因表达数据,原始数据可从该网址获得:http://mgm.duke.edu/genome/dnamicro/work/。2.4.2代谢组学数据(II型糖尿病)此代谢组学数据(T2DM数据)是由谭斌斌[331等人测得。研究小组从中国湖南长沙湘雅医学院获取了45个II型糖尿病患者和45个健康人的空腹血浆样本,这两组试验对象的临床特点记录在表2.1。表2—1健康人和II型糖尿病(T2DM)患者的临床数据a:fastingbloodglucose(空腹血糖)b:2hourspostprandialbloodglucose(餐后2小时血糖) 硕士学位论文2基于互信息的模型集群分析变量选择方法血样经处理后,由气象色谱.质谱联用仪(岛津,GC.MS,QP2010)对进行分析,其谱图由化学计量学分辨算法进行了定性(NIST质谱库检索)和定量(色谱峰)分析,最终得到20个代谢物(游离脂肪酸):C12:0,C14:0,C15:0,C16:0,C16:1n.9,C16:1n.7,C18:0,C18:1n.9,C18:1n.7,C18:2n.6,C18:3n.3,C18:3n一6,C20:0,C20:In.9,C20:2n.7,C20:3n.6,C20:4n.6,C20:5n.3,C22:5n.3和C22:6n一3,以及总游离脂肪酸浓度。2.4.3近红外数据(食用醋)范伟[34]等测量了在中国市场上购买的100个食用醋样本的近红外光谱,其中50个酿制醋样(由各种粮食,如玉米、高粱、大米或小麦,发酵酿造所得),另50个为混合醋样(由发酵醋、醋酸和食品添加剂混合而成)。实验中的所有样本都是市场上可购买的,且是根据中国市场上的各级零售价格和销售地区所选出的代表性样本,图2.5给出了样本的量测谱图。蜊米登图2-5食用醋样本的近红外谱图实验测量采用的是傅立叶变换近红外光谱仪(AntarisIIFT-NIRspectrometer,ThermoFisher,USA),与该仪器匹配的光谱获取软件为“Results”。在该项研究中,光谱获取的传输方式为光路为11TII/1的液体单元,每个光谱是在波长10000.4000cm。1范围内每隔4cmJ进行64次扫描的平均值,因此,每个光谱由1557个波长点上的响应值组成,16 硕士学位论文2基于互信息的模型集群分析变量选择方法2.5数据处理在数据处理这一部分,首先,我们需要确定实验数据的矩阵大小和分类情况。对于Estrogen数据,它含有49个样本,7129个变量,故其X矩阵大小49x7129。在本次研究中,只针对LN+和LN一的情况进行分类,其中25个LN+样本用数值“1”来表示分类的类别,而24个LN一样本则用数值“一1”表示。同理,T2DM数据含有90个样本,21个变量(20个游离脂肪酸和1个总酸浓度),X矩阵大小为90x21。其45个健康人分类类别为“1”,45个患者的分类类别为“一1”。对于Vinegar数据,它有100个样本,1557个变量,X矩阵大小为100x1557,分类情况为50个“l”(酿制醋样)和50个“一1”(混合醋样)。如1.4小节中所提,在对某些数据进行变量选择之前,我们需要对其进行初步的特征选取。这里需要进行处理的是Estrogen数据,因为它所含有的变量过多,而根据经验和文献调研,我们发现其中的大部分变量是可以去除的。参照马双鸽f35]等人提出的方法,我们去除了3796个变量,使得数据大小变为49x3333。然后再采用t检验方法,剔除了没有显著性差异的变量,最终Estrogen数据的大小为49x185。在初步进行特征选取之后,模式识别的分类计算之前,有几种可采取的数据预处理方法,这些方法可以使模式空间中,样本代表点的分布结构发生改变,从而更加有利于分类计算的进行。比如,在各变量取值量纲不同时,有些变量的绝对值很大,而另一些变量的绝对值很小(如T2DM数据中,某一游离脂肪酸浓度很低,与总游离脂肪酸浓度相差巨大),这样在分类过程中就不容易获得最佳的结果。因此,我们需要适当运用标度化法使各个变量的变化幅度位于同一水平。常用的标度化法有:范围标度化,自标度化,标准化,变换法和组合法。针对不同的数据情况,我们可以采用不同的预处理方法[10]。在本文的研究工作中,由于需要计算变量间的互信息,就必须将每个变量值进行分类处理,也就是前文所说的变换法。其主要思想是将变量数值相近的归为一段,用不同的正整数表示,而具体分为几段则依据于优化的结果,这里分段数用k(芝1的正整数)表示。完成数据的预处理之后,将要进行的就是变量选择。根据我们提出的思路,我们采用MATLAB软件对MPA.MMIFS算法进行编译,然后对上述三类数据进行了变量选择的运算。此外,我们根据MIFS算法和MMIFS算法的流程,也对其进行了编译,从而用于选择结果的对比。在MPA.MMIFS算法中有3个主要参数需要确立:B(惩罚值)、Q(子集中变量的个数)和k(变量分段数),而蒙特卡洛采样(MCS)次数N一般设定为1000。对于MIFS和MMIFS算法中,我们需要确定B和k值。下文中,对于各17 硕士学位论文2基于互信息的模型集群分析变量选择方法个参数的赋值都是经过优化而设定的,具体优化过程会在后续章节中作详细介绍。2.6结果与讨论2.6.1Estrogen数据预处理后的Estrogen数据,其进行变量选择的数据大小为49xl85,分类情况为25个LN+样本,24个LN一样本。优化后的参数设置分别为:k--20,Q=15,和p=o.25。经过MPA.MMIFS算法的运算,我们得到了这185个基因的变量重要性(M)计算结果。根据M值的降序排列,我们采用交互检验(CV)的方法,选出了使预测误差最小且与样本分类最为相关的5个基因,见图2-6。对照数据来源文献【32】给出的资料,我们确定了所选变量对应的基因,表2.2给出了这几个基因的详细说明。1O.80.6乏0.4O.20VariableIndex图2-6Estrogen数据的变量重要性柱状图表2-2采用MPA.MMIFS算法选出的5个显著基因基因ID基因描述AFFX.CreX.3stZ22536atX15357at噬菌体P1的ere重组酶蛋白(BacteriophageP1Crerecombinaseprotein)间变淋巴瘤激酶.4的mRNA,完整的编码序列(HomosapiensALK一4mRNA)布卢姆综合征蛋白质的mRNA,完整的编码序列(HumanBloomsyndromeprotein(BLM)mRNA)利尿钠肽ANP.A受体的mRNA(HumanmRNAfornatriureticpeptideANP.Areceptor)18 硕士学位论文2基于互信息的模型集群分析变量选择方法对于MIFS和MMIFS算法的运行,其参数设置分别为13=o.05、k=5和13=o.6、k--20,而最终的变量个数选择结果分别为21和6。我们用不同方法选出的特征变量建立起不同的偏最小二乘线性判别(PLS.LDA)模型,并采用留一交互检验法(LOOCV)和留一双层交互检验法(LOODCV)对模型的预测能力,即整体的预测准确度(accuracy,Acc)、敏感度(sensitivity,Se)和特异性(specificity,Sp)等指标作出了评价(见表2.3)。表2-3采用不同变量选择方法的LOOCV和LOODCV结果(Estrogen数据)a:被选变量的个数由表2.3可知,无论哪一种变量选择方法,对比于全变量建模,都可以有效地提高模型的预测能力,这充分体现了变量选择的重要性和有效性。而本文提出的MPA.MMIFS方法对Estrogen数据进行变量选择的结果是三种算法中最好的,其模型预测能力的各项指标皆为100%,且由它选出的变量个数也最少的。这说明MPA.MMIFS算法在以互信息为选取准则的MIFS和MMIFS算法的基础上有所提高和改善,我们提出的思路是正确且有效的。此外,为了验证用所选基因建立的分类判别模式具有筛选乳腺癌患者的能力,我们采用了主成分分析法(PrincipalComponentAnalysis,PCA)对变量选择前后的量测数据矩阵进行分解,图2.7给出了在主成分空间内的各样本分布情况。由图2.7a可知,未进行变量选择之前,两类样本具有一定的重合度(用原始数据49x7129进行PCA分析,样本完全重合),并不能进行分辨。而采用Battit提出的MIFS算法和Amiri的MMIFS算法分别进行变量选择后,其分离度也未见显著提高(图2—7b和c)。当采用本文所提出的MPA.MMIFS算法对其进行处理后,两类样本则明显分离,这充分说明了本方法具有准确选取出与样本分类相关的变量的潜能。19 硕士学位论文2基于互信息的模型集群分析变量选择方法02No12.0—0.2—04—0.202040.6PCIONo13_.0.2—0.4ONo乱.02—04O0.2040.6PCI—0.6一一一06—0.6—0.4—0.20204.O.20O.20.4O.60.8PCI图2—7Estrogen数据变量选择前后的PCA投影图(。:LN一样本,+:LN+样本)a:全变量(185个),b:MIFS算法,C:MMIFS算法,d:MPA—MMIFS算法2.6.2T2DM数据经过定性定量分析后的T2DM数据含90个样本,21个变量,分类情况为45个“1”(健康人)和45个“一1”(患者)。MPA—MMIFS的最优参数设置为:k=15,Q=lO,和D=0.2。图2.8给出了这21个变量的重要性,根据交互检验的结果,我们选出了前3个最有意义的相关变量,即图中变量索引号为8、11和18的变量,与其相对应的变量物质分别是油酸(OLA,C18:In一9)、O【.亚麻酸(ALA,C18:3n一3)和二十碳五烯酸(EPA,C20:5n.3)。采用MIFS和MMIFS算法对T2DM数据进行运算时,最优参数设置分别为:13=o.05、k=15和13=o.1、k=15。最终选出的最优变量个数则为6和4。分别采用三种方法选出的变量进行PLS.LDA建模,鉴于该数据的样本较多,我们采用的模型评价方法为十折交互检验法(10一foldCV)和十折双层交互检验法(10一foldDCV),其计算结果已列于表2.4。2020—4,岛与42O24Ⅲ0O0bNo正640a420d420C 硕士学位论文2基于互信息的模型集群分析变量选择方法10.8—T~一1——⋯~一T~一一~一r~~~T~一⋯⋯。r一一818101214161820VariableIndex图2—8T2DM数据的变量重要性柱状图表2-4采用不同变量选择方法的10一foldCV和10.foldDCV结果(T2DM数据)a:被选变量的个数由表2-4可知,通过本文提出的MPA.MMIFS算法选取出的变量建立的模型,其模型预测能力分别为97.78%(Acc)、97.78%(Se)和97.78%(Sp)(10.foldCV)及96.67%(Acc)、97.78%(Se)和95.56%(Sp)(10.foldDCV)。虽然在模型的预测能力上,MPA.MMIFS算法并没有显著的提高,但是在最优变量个数的选择上,本算法却有明显优势,从MIFS算法选出的6个缩减至3个。这说明,MPA.MMIFS算法的选择更为精准。类比于Estrogen数据,我们同样地作出了在各主成分空间中,样本的PCA投影图(图2.9)。由图2.9a可以看出,未进行变量选择之前,样本部分重合,并不能完全区分。由MIFS算法和MMIFS算法进行变量选择后,皆有两个样本不能正确聚类。而经过MPA.MMIFS变量选择方法进行处理后,只有一个样本没有正确分离。这个结果进一步说明了本方法对特征变量选取的准确性。21●■■■■■I4I■2I针l}讣}外}一。nmI/\l 硕士学位论文2基于互信息的模型集群分析变量选择方法a0.2010No12.一01C0302l01。N0}o12.一0.1—O2一O3.I一0.4__一0.4do2厂一一一一否、01}3爹,、01t"xl豁·,1I’凝、。2n1|‘瓷一正-o,l。。躺、j-0.2妒J..0.3L——————J图2-9T2DM数据变量选择前后的PCA投影图(0:健康人样本,+:患者样本)a:全变量(21个),b:MIFS算法,C:MMIFS算法,d:MPA—MMIFS算法此外,通过参考相关文献,我们确定了MPA—MMIFS算法筛选出的代谢物确实具有生物学意义。Madigan等的研究[361指出,食用富含OLA的食物可以改善糖尿病人的脂代谢过程,即降低了低密度脂蛋白(LDL)的含量,同时增加了高密度脂蛋白(HDL)的含量。作为多碳不饱和酸的EPA,具有降低血压的功能,并与胰岛素的敏感性以及人体能量代谢密切相关。而ALA是EPA的合成底物,故也在一定程度上关联于糖尿病的相关代谢过程[33]。2.6.3Vinegar数据食用醋样本的近红外数据大小为lOOx1557,其中有50个酿制醋样和50个混合醋样。MPA.MMIFS参数设置为k=2,Q=20和D=O.35,所有变量的重要性计算结果见图2.10。其中,黑色条形代表的就是所选出的7个变量,分别是544、558、1099、1109、111l、1190和1194,它们对应的波长则为6094cm~、6148cm~、8235cm~、8273cm~、8281cm~、8585cm。1和8601cm~。22543210bNo正__n》F篙4.,|t—o、.;l霉磐』咔0订吲一OJ斗n眦一_●OCP2Ⅲ 硕士学位论文2基于互信息的模型集群分析变量选择方法10806芝0.4VarlableIndex图2.10Vinegar数据的变量重要性柱状图对于Vinegar数据,MIFS算法和MMIFS算法的参数分别设置为p=0.45、k=10和13=o.9、k=20,运行结果所得的最优变量个数分别为10和9。同样地,我们采用了十折交互检验法(10.foldCV)和十折双层交互检验法(10.foldDCV)对模型的预测能力进行了评估,结果记录于表2.5。表2-5采用不同变量选择2r';L-的10.foldCV和10.foldDCV结果(Vinegar数据)a:被选变量的个数由以上结果可知,本文提出的MPA.MMIFS算法选取的变量个数是最少的,然而对分类结果的预测却不是最好的。尽管如此,这个计算结果依然证明了我们的思路是对的:我们可以利用信息论里的互信息来分析类似于近红外数据的光谱数据。这个做法是在以前的基于信息论准则的变量选择方法中没有涉及到的,值得我们进行深入研究。同样地,我们给出了各个变量方法所选变量的PCA结果(图2.11)。图2.1la是全变量空间进行主成分分析后的PCA投影图,样本的分离情况不太好,两类样本大部分都重叠在一起。但经过各变量选择方法的筛选,选取出与样本类别最为相关对的变量后,样本的分离聚类趋势变得更为明显。而从图2—1ld的PCA投影图来看,我们的方法对样本的聚类效果不是很好,还有多个样本没有正确区23 硕士学位论文2基于互信息的模型集群分析变量选择方法分。这说明,我们的方法在处理近红外等类型的数据上,还需做进一步的改善和调整。80.30201N0o13_.01—02—03b020.10No乱一01—02.0.4—0.3—06—04—0202—02020406PCIC0.3O2O.1N0o13.一01—02—03do3⋯02O.1}N0|o13_一0.1—0.2—0.3一O.4一O4.0.6—0.4—0.200.2.O.6.O.4—0.2O0.2PCI图2—11Vinegar数据变量选择前后的PCA投影图(。:酿制醋,+:混合醋)a:全变量(1557个),b:MIFS算法,c:MMIFS算法,d:MPA—MMIFS算法2.7本章小结本章着重介绍了本论文的核心研究工作:我们采用模型集群分析(MPA)的研究思路,以信息论中的互信息作为变量选择准则,结合偏最小二乘线性判别分析(PLS.LDA)的回归系数,提出了一个新的变量选择方法——基于互信息的模型集群分析变量选择方法(MPA.MMIFS)。该法既考虑了变量与输出类别之间的互信息最大,与其他变量之间的冗余最小,也顾及到了变量之间的共同作用。此外,虽然MPA。MMIFS方法的子模型是根据蒙特卡洛采样(MCS)随机建立的,但是变量选择的最终结果是可以重现的,这一点将会在第四章做出进一步的介绍。为了体现本法相对于MIFS算法和MMIFS算法上的提高和改善,我们对三24 硕士学位论文2基于互信息的模型集群分析变量选择方法种不同类型的数据进行了试验,这三个数据分别为Eetrogen数据,T2DM数据和Vinegar数据。计算结果大都表明MPA.MMIFS算法相对于其它两种算法其性能(变量个数和模型预测能力)有所提高,所选出的较少变量能够较为准确的预测样本的类别。而根据文献调研,这些特征变量也具有一定的生物学或化学意义。然而,对于食用醋(Vinegar)的近红外数据,MPA.MMIFS算法对其的处理结果并不十分理想,这说明本方法还有改进的空间,这部分内容我们希望在以后的工作中能够很好地解决。25 硕士学位论文3变量选择方法之间的比较变量选择方法之间的比较3.1引言为了体现本文提出的MPA.MMIFS算法具有相当的竞争性和实用性,我们还计算了三类数据的遗传算法(GeneticAlgorithm,GA)[37]变量选择结果,并作出了比较。此外,通过查阅文献,我们还对比了一系列分析过这几个数据的变量选择方法,如间隔影响分析法(MarginInfluenceAnalysis,MIA)、随机青蛙算法(RandomFrog,RF)、子窗口重排分析法(Sub.windowPermutationAnalysis,SPA)、变量互补信息网(VariableComplementaryNetwork,VCN)和竞争性自适应重加权采样法(CompetitiveAdaptiveReweightedSampling,CARS),这些方法的都是基于模型集群分析(MPA)的思路而建立的。3.2其他变量选择方法3.2.1遗传算法(GA)遗传算法(GA)早在19世纪60年代就由J.H.Holland[38]提出,而它的应用却始于1990年之后,因为此时计算机的计算速度更为迅速,从而使遗传算法(GA)的运行时间变得合理。在各类领域,如人工智能、生命科学研究和化学计量学等领域,有很多问题要求我们在庞大复杂的空间中搜寻最优或准最优解,而GA算法就是解决这一问题的很好策略,它能在搜索过程中自动获取和累积相关的信息,然后自适应地调控搜寻过程,最终获得最优解。GA算法的思路来源于达尔文的进化理论——对环境适应性较大的个体具有较大的生存概率和在交配竞争中获胜的较大概率,因此,最优个体的遗传物质会越来越多的出现于其后代。根据RiccardoLeard[37,39,40]的描述,GA算法首先要做的是将生物进化理论转化为一种最优化技术,这需要利用计算机对自然条件进行模拟,也就是信息编码,其过程如下:遗传物质的功能可以看做是生命对环境的适应,正如实验条件之于实验结果,因此,我们可以建立起遗传物质与实验条件之间的对应关系。在低层级中,遗传物质是由基因来定义的,而实验条件则由与实验相关的变量值组成,这样,基因与变量的对应关系也因此建立。而在更低一级的层面上,每个基因所包含的信息是由含氮碱基序列定义的,因为有4个碱基,所以每个基因可以认为是一个具有变量长度的由4个字母写成的单词。如此,我们可以用二进制编码将变量值转化26 硕士学位论文3变量选择方法之间的比较为变量长度的由字节(字符0和1)写成的词串。由上,我们得到了以下对应关系:1)遗传物质:实验条件,2)基因:变量,3)含氮碱基:字节。根据进化理论,一个物种的进化是通过大量后代的个体遗传物质的持续改进来实现的。“坏”的个体难以生存,这使得最好的个体有更大的可能将其基因传给下一代。然而,在此逻辑发展之外的突变使新的实验条件得以探索。突变通常产生的是不好的结果,但一个含氮碱基的随机改变会终结于一个更好的基因组内。近年来,多种GA算法不断发展,除了基本思路(模拟物种的进化)外,它们还有着其他相关的不同之处。即使所有GA算法的执行方法并不一致,但有三个基本的步骤却是相同的。这三个步骤为:1)起始种群的创建,2)繁殖,3)突变。(1)起始种群的创建:种群的大小在整个过程中保持不变,而个体的数量却十分不同,一般在20.500之间。确定种群大小为P之后,随机确定P个个体的遗传物质。也就是说每条染色体的单个字节被随机设为0或1。如果这个染色体对应于一个可能的实验条件,那么它的响应就会被评估。(2)繁殖:建立起始种群(或称第一代)后,个体开始“交配"和“繁殖后代"。这一步骤在不同的GA算法中存在很大的差异,但它们都有着共同的概念:好的染色体(响应最好的那些)繁殖后代的概率比差的染色体要高,后代皆来源于它们交配之后的重组。基本上,第一步创造第二代种群都是简单地随机复制第一代染色体P次,如果这个过程是完全随机的,那么每条染色体遗传给下一代的概率都是相同的,因此,第n+l代与第n代的响应平均值在统计学意义上应该是相同的。在自然界中,每个个体都有繁殖的机会,但是最好的个体在竞争中取得交配机会的概率更大。同样地,在选择被复制的染色体的过程中,应当考虑个体的响应情况,给予最好的染色体较大的复制概率。鉴于此,应当执行一个有偏的绘制过程,每个个体被选则的概率取决于它的响应情况。为了探索新的实验条件,新的个体可以由交换产生,即让父母的基因重新打乱之后进行繁殖。(3)突变:自然界中,突变发生的概率极低,它产生的影响就如基因编码中的一个字母,DNA中的一个含氮碱基,染色体中的一个字节。交换和突变的差别在于,交换应用于基因水平(涉及编码变量的所有字节),而突变只影响单个字节。通常,突变的概率为1-2%。如果第二代的平均响应高于第一代,这就说明所有好的染色体已经开始活动。在这些染色体的基础上重复整个过程(选择.复制,交换,突变)从而产生第三代。通过这种选择,每一代的平均响应通常都比上一代高。新的一代不断产生,直到满足终止准则。终止准则一般为达到预设的繁殖代数、预设的时间或者获得了目标响应值。将GA算法应用于变量选择则可做如下处理:目标数据集含有k个变量,GA算法相当于一个优化过程,其参数为k个变量。每个染色体由k个基因组成,27 硕士学位论文3变量选择方法之间的比较而每个基因则由单个字节形成,比如,假设有10个变量,我们考虑其中的变量1、5、8和9,那么它们可被编码为1000100110。响应值则由所选变量的结合(回归技术)或预测准确率(分类和建模技术)的交互验证方差来确定。本文中,我们采用RiccardoLeardi提出的应用于PLS的的GA算法【37】对三个数据进行了分析。3.2.2间隔影响分析法(MIA)间隔影响分析法(MarginInfluenceAnalysis,MIA)是Li[41]基于MPA思路提出的以支持向量机(SVM)为建模手段的变量选择方法。MIA方法的出发点在于:间隔(margin)是反映SVM模型预测能力的一项重要指标,SVM模型的间隔越大,其结构风险就越小,且泛化性能也更优秀。因此,“认为,能够增加SVM模型间隔的变量就是有信息变量,而他采用MPA策略筛选出的特征变量即是在统计意义上能够明显增减SVM模型间隔的变量。由于MIA方法的搜寻策略来自与MPA,所以它也有三个步骤:1)进行N次MCS,获得N个变量子集;2)建立SVM子模型;3)统计分析SVM子模型的间隔。Mn方法的关键在于第三步,这里,“采用无参数检验对SVM模型间隔进行统计分析,以第i个变量为例,其计算过程如下:将所有N个SVM模型分为A和B两组,其中,包含变量i的模型为A组,反之为B组。假设A、B两组的模型个数分别为NiA和NiB,那么NiA+NiB=N(3-1)根据这两组模型间隔的数据,可得到对应的两个数据分布,分布均值的差为:DMEANi=MEANia—MEANm(3—2)如果DMEANi>0,则说明变量i是可能使SVM模型间隔变大的变量,可将其定位候选变量。MIA方法通过以下步骤挑选特征变量:1)去除所有DMEAN<0的变量;2)采用Mann.WhitneyU检验计算剩余变量的P值:3)设定P值的阈值,判断SVM间隔是否显著增加,即若变量的P值大于此阈值则该变量为有信息变量。本文提及的Estrogen数据也被MIA方法计算过。3.2.3随机青蛙算法(RF)逆跳马尔科夫链(ReversibleJumpMarkovChainMomeCarlo,RJMCMC)28 硕士学位论文3变量选择方法之间的比较是以贝叶斯理论为基础的变量选择方法,最早由PeterGreen[42]提出。Li[431受到RJMCMC中采用维数转换进行模型采样思想的启发,开发出了基于正态分布的随机维数转换机制,再结合MPA策略得到多个模型,以形成一个伪马尔科夫链,进而统计每个变量在所有模型中出现的概率来确定变量的重要性,这一变量选择方法被称为随机青蛙法(RandomFrog,RF)。RF法不受建模方法的限制,可以根据分析对象的实际情况,灵活采用PLS或SVM等方法进行建模。在对Estrogen数据的研究中,Li选用了PLS.LDA作为建模手段,其步骤简述如下:1)随机产生一个含Q个变量的变量集,记作vo;2)以Vo为基础,建立一个含有Q’个变量的变量集,记为V+,以一定的概率接受V+,令Vl=V’,重复此步骤N次:3)统计分析每次产生的变量集,计算各变量的选取频率以评价变量的重要性。3.2.4子窗口重排分析法(SPA)子窗口重排分析法(Sub.windowPermutationAnalysis,SPA)是Wang和Li[44]于2011年提出的一种变量选择方法。此法同样是在MPA思路上发展起来的,选用的建模技术为PLS.LDA。现以变量i来阐述整个计算过程:假设每个变量被选中的概率相同,由于每个子模型中含有Q个变量,所以包含某个变量的模型的个数为NQ/p。若含有变量i的子模型的个数为I,可用Hk(k=1,2⋯.,I)来表示这些模型,每个子模型对应的变量子集可用Sk表示,而不含有变量i的模型所对应的的变量子集则可用Ck表示。如果用V表示所有变量的集合,就有Sk+Ck=V。对于每个测试集Sk(共1个),可求出其模型的预测误差,而当且仅当变量i重排后,也可以获得一个预测误差,这里,前者为正常的预测误差(NormalPredictionError,NPE),记为NPEk;后者为重排预测误差(PermutedPredictionError,PPE),记为PPEk。如此,对于所有含变量i的1个测试集,我们可以得到1个NPE和1个PPE。通过比较这两种误差的经验分别,可获得变量的重要性。SPA方法比较的是两种误差的平均值,其均值之差可用式3.3计算:DMEANi=MEANi,NPE—MEANi,PPE(3-3)如果DMEANi>0,这说明若将变量i纳入PLS.LDA模型可以提高模型的预测能力,可视为候选变量。特征变量的筛选可参照MIA方法,P值的阈值可设为0.01。SPA方法曾用于T2DM数据的分析。3.2.5变量互补信息网(VCN)29 硕士学位论文3变量选择方法之间的比较Li[45]认为,在其它变量存在的背景下,某2个变量联合使用时所产生的附加预测信息是这两个变量关于响应变量的互补信息。该互补信息受到两个条件的约束:1)只限于预测建模问题,2)具有条件意义。对于含有P个变量的实际数据,给定其中两个变量之后,其他变量的组合方式有2p-2种,若要全部进行计算,则工作量十分巨大,不符合算法研究的要求。因此,Li借助MPA思路,提出了称为变量互补信息网(VariableComplementaryNetwork,VCN)的变量选择方法。在VCN方法中,Li仍选用PLS.LDA作为建模手段,并利用子模型的预测误差和回归系数来计算变量间的互补信息。这是因为:一、PLS.LDA回归系数反应了变量之间的共同作用,具有一定的条件意义;二、模型的预测误差反应的是用于建模的所有变量的联合预测性能。VCN算法计算了每个子模型中两两变量之间的互补信息,并对所有子模型所对应的变量进行互补信息求和,形成变量互补信息网,以反应不同变量的组合效应。该算法对T2DM数据进行了测试。3.2.6竞争性自适应重加权采样法(CARS)竞争性自适应重加权采样法(CompetitiveAdaptiveReweightedSampling,CARS)是Li模仿达尔文进化论中“适者生存”的自然规则,结合MPA策略而提出的变量选择方法[31】。CARS方法的基本思路是,在每次迭代过程中,通过强制删除和自适应重加权采样两个步骤去除变量子集中权重较小的变量,从而获得一个新的变量子集。随后计算这些子集的交互检验误差(I洲SECV),获得其误差分布,RMSECV平均值最低的变量子集为CARS方法选出的最优变量集合一在CARS法的强制删除步骤中,Li利用PLS回归模型中变量的回归系数b,来衡量变量的权重W,两者之间的关系为:W,啊Ibil,i=1,2⋯·,P(3-4)这里,若其中的某个变量已去除,‘则其回归系数b可置为0。然后根据指数衰减函数(ExponentiallyDecreasingFunction,EDF)来计算变量的保留比,进而去除IbiI值相对较小的一些变量。保留比计算公式如式3.5。ri=ae—k(3.5)迭代初始,由于P个变量都被用于模型的建立,因此rl=l:而当迭代进行至第N次时,只保留2个变量,故rN=2/p。基于上述条件,式3.5中的系数a和k可由以下公式确定:a=(今而(3-6)30 硕士学位论文3变量选择方法之间的比较k=些N-1(3-7)执行强制删除的步骤后,CARS法将对剩余变量进行自适应加权采样(AdaptiveReweightedSampling,ARS),即权重较大的变量被选中的次数就较多。通过ARS采样后得到变量子集继续用于模型建立,重复强制删除的过程,直至完成N次迭代。由于对样本进行了多次随机的分组组合,因此可得到交互检验的误差分布,选其平均误差最低的变量子集作为最优子集。Fan[34]在研究食用醋数据时正是采用的CARS方法进行特征波长的选择。3.3不同方法的计算结果比较为了体现我们提出的MPA.MMIFS算法相对于其他变量选择方法具有一定的竞争性和可比性,我们给出了以上不同变量选择方法对下面三种数据的计算结果,以供分析。3.3.1Estrogen数据对Estrogen数据进行了变量选择的方法有:MIA、RF、GA和MPA—MMIFS,利用这些方法选取出的特征变量进行模型预测,其交互检验结果见表3.1。表3.1不同变量选择方法的交互检验结果a:被选变量的个数从表3.1可看出,GA算法选出的变量建立的模型,其分类预测能力最低,而其他三种方法的预测准确率都达到了100%。在选出变量的个数上,本文提出的MPA.MMIFS方法具有明显的优势,用选出的仅5个特征变量建模,就能很好的将两类样本分开,且变量选择结果稳定,重现性好(这一点将在第四章详细说明)。MIA算法和RF算法选出的变量则过多,且每次选出的结果都不是很稳定,需要重复运行程序多次从而确定较优的变量。此外,根据文献调研,MIA算法选出的108个变量中,变量重要性最为显31 硕士学位论文3变量选择方法之间的比较著的前两个为AFFX—CreX一一st和Z22536一at,与MPA—MMIFS方法选出的前两个变量相吻合,这说明基因AFFX.CreX.3st和Z22536at在很大程度上蕴含了乳腺癌的分类信息,对疾病的预测有一定的临床价值。特征基因的正确选取说明MPA.MMIFS算法是一个十分有效的变量选择方法,而与其他变量选择方法的对比则说明,MPA.MMIFS算法还是一个具有竞争力的方法。3.3.2T2DM数据我们通过查阅文献资料发现,对T2DM数据进行过研究的变量选择方法有SPA算法和VCN算法,同时我们也利用GA算法和MPA.MMIFS算法对其进行了计算,结果列表3.2中。表3—2不同变量选择方法的十折双层交互检验结果a:被选变量的个数对于T2DM数据,四种方法所选取的3个特征变量皆为OLA(油酸)、ALA(c【.亚麻酸)和EPA(二十碳五烯酸),所以我们有理由相信,这三种游离脂肪酸就是II型糖尿病的生物标记物。本文提出的MPA—MMIFS算法在T2DM数据分析上的表现不输于其他三种变量选择方法,这充分说明了该算法的有效性和可比性。3.3.3Vinegar数据Fan[34]在分析Vinegar数据时采用的是CARS变量选择方法,而GA算法[37]在近红外(NIR)数据中的应用技术也颇为成熟,因此我们对比了这两种算法与MPA.MMIFS算法的计算结果,见表3—3。从表3—3的数据中可以看出,CARS算法选出的变量建模预测结果最好,而GA算法与我们提出的MPA.MMIFS算法的交互检验结果不相上下,但在选择的变量个数上,MPA.MMIFS算法略有优势。这个结果进一步表明,MPA—MMIFS变量选择方法具有一定的有效性,能够用于近红外(NIR)数据的分析。同时,也提醒了我们,在对类似于NIR的光谱数据的分析上,MPA.MMIFS算法还有改32 硕士学位论文3变量选择方法之间的比较CARS1l99.00.GA3596.0098.0094.00MPA.MMIFS796.0094.0098.0094.0096.0094.0092.0098.00a:被选变量的个数3.4本章小结在本章的内容中,通过对比本文提出的MPA.MMIFS算法与不同变量选择方法对不同数据的分析结果,我们发现,在Estrogen、T3DM和Vinegar这三种不同类型数据的处理上,MPA.MMIFS算法大都能得到比其它方法较优或不分伯仲的结果,这体现了MPA.MMIFS算法的有效性和竞争性。同时,对计算结果的分析对比,也让我们发现了该算法在处理近红外等数据类型上的不足,需要我们提出改进。总的来说,MPA.MMIFS算法是一个实用有效的变量选择方法,可适用于基因表达、代谢组学和近红外等不同类型数据的分析处理。 硕士学位论文4MPA—MMIFS算法的参数优化4MPA—MMIFS算法的参数优化4.1引言由第二章内容可知,MPA—MMIFS算法运行前应设置3个重要参数,这3个参数为k、B、和Q。为了考察这三个参数对运行结果的影响,我们在其一系列取值下运行了算法,并对运行结果进行了分析,以期得到一组最优化的参数设置。另外,为了确定B值的取值范围,我们也计算了MIFS算法和MMIFS算法的最优D值。而对于运行次数N,我们进行了算法稳定性和结果重现性的测试。以Estrogen数据(最优参数设置为k=20,Q=15,和B=0.25)为例,图4.1给出了一个较为直观的示意图。k=200.25、0.2\。0.15、oa)0.1、0.05、,0>30Q0.2图4—1预测误差与各参数之间的关系图(Estrogen数据)(k取20时,Q与B反映的预测误差变化趋势)4.2k值与Q值的优化k值被用于数据预处理时对变量进行分类,从而便于计算变量的互信息。Q值是指每次随机确定的初始变量子集中变量的个数。这里,我们以Estrogen数据为例来阐述k与Q的优化过程。对于Estrogen数据,其样本大小为49×185。给定Q值,根据样本个数,我34 硕士学位论文4MPA.MMIFS算法的参数优化们测试了一些k值:5、lO、15和20,并将结果绘制于图4.2中。同样地,给定k值,根据变量个数,我们测试了不同的Q值:15、20、25和30,结果示于图4.3。量0L0o匕∞Cod)0O0a0L02∞00CQ=15BQ=25韭孰甓:匕一。.i}do∞Q=200.2o.40608pQ=30志02——f04器。o蔑6。”—志08pB图4-2固定O,k与B反映的预测误差变化趋势k=5o25r—:2LOon,0Bk=15o2o4o6B图4.3081bon)n2『鬲k=10oo——————————-———————J———————————————————L—————————————————一———————————L00.20.4060.8pk=20o25d02L0o∞0Q=15O=20刊。塑Q=25}莎潲:“H{固定k,O与p反映的预测误差变化趋势G从图4-2中可以看出,在给定O值的情况下,随着p值的增加,预测误差的变化趋势会因k值的不同而不同,这说明k的取值会影响MPA—MMIFS算法的计算结果,需要进行优化,即运行不同k值下的MPA.MMIFS,选择预测误差最小的结果所对应的的k值。对于O值,分析图4-3可知,在k值一定的条件下,随着p值的改变,预测35.DLoJJ∞ 硕士学位论文4MPA.MMIFS算法的参数优化误差的变化趋势并不受Q值变化的影响,其大致走向相同,从图4.2也可以看出,4个不同Q值下的预测误差图相似度很高,这进一步说明了Q值的取值MPA.MMIFS算法无明显影响。4.2p值的优化p值是本文第二章中所介绍的一系列基于互信息准则的变量选择方法的重要参数,用于调控候选变量互信息的重要程度。Battiti[22]在其提出MIFS算法的文章中指出,对于大多数的分类任务,B适宜的取值范围介于O.5到1之间。而我们认为p的取值准确与否直接关系到了算法计算结果的好坏,不能大致估计,应该进行优化。因此,我们以T2DM数据的MPA.MMIFS参数的优化为例,分析了其MIFS算法、MMIFS算法和MPA.MMIFS算法的B值优化结果(见附录I)。我们通过两个条件来确定p的最优取值,一是预测精度最高,二是被选变量个数最少。由附录1的表格可知,对于T2DM数据的分析,三种基于互信息的算法能达到的最大预测准确度都为97.78%。在准确率为97.78%的条件下,MIFS算法所需的最少变量个数为6,故其B最优值为0.05;MMIFS算法选择的变量个数为4,相应可取的B值为0.1和0.15;而本文所提出的MPA.MMIFS算法最少只需3个变量建模,就能达到同水平的预测能力,同时,p的最优取值范围也更加宽泛,有0.2、0.25、0.3、和0.35。上述结果表明,f3值的优化有利于提高变量选择的结果,且对于不同的数据类型,其取值范围并不局限于0.5~l,应该经过优化程序进行确定。此外,B值的优化结果进一步证明了MPA.MMIFS算法的性能相对于其他算法有所提高。4.3N的取值对MPA.MMIFS算法的影响N值为MPA.MMIFS算法的采样次数,为了研究本算法的重现性,我们依次计算了N取1000、2000和5000时变量的重要性(T2DM数据),并获取了各变量按变量重要性降序排列的结果,见附录II。由此可知,虽然采样次数并不相同,但是变量的排序是稳定且相同的,但由于采样总数的不同,各变量被选取的次数就不同,因此变量重要性的值不尽相同,但并不影响变量的排序。因此,我们可以说,当采样次数达到一定次数后,变量选择结果趋于稳定。另外,我们还测试了不同N值(1000、2000、3000、5000和10000)对MPA.MMIFS算法运行时间的影响,结果见表4.1。根据表4.1,我们绘制了N36 硕士学位论文4MPA.MMIFS算法的参数优化与运行时间的关系图(图4.4)。袁4-1不同N值所需的运行时间N时间(s)1000200030005000100005.2310.4715.7225.9752.61N图4.4N与运行时间的关系综上所述,在既保证MPA.MMIFS算法的重现性,又节省计算时间的情况下,我们一般可令N等于1000。4.4本章小结通过对MPA.MMIFS算法各参数的优化,我们了解到了各参数对算法运行结果的影响:k值的不同会影响变量选择结果,需要进行优化计算;13值的选择范围并不仅限于0.5-1,应该在全范围内进行优化选择后确定,并且13的取值对计算结果影响颇大;Q和N值对算法影响较小,可根据经验先行确定。37 硕士学位论文结论与展望本论文基于互信息准则,在前人提出的变量选择方法的基础上做出改进和创新:把PLS.LDA模型中的变量回归系数引入变量筛选准则,并采用模式集群分析(MPA)思路作为变量搜寻策略,最终提出了MPA.MMIFS变量选择方法。通过纵向和横向对比不同变量选择方法对三个不同类型分类数据(基因组学Estrogen数据、代谢组学T2DM数据和Vinegar近红外数据)的分析计算结果,有力地证明了MPA.MMIFS算法计算性能的提高,对各种类型数据分析的有效性和实用性,以及相比于其它新近提出的变量选择方法,MPA.MMIFS算法所具有优势和竞争性。同时,我们也发现了该算法的不足之处,希望在以后的工作中继续研究,加以改进。此外,对MPA.MMIFS算法的参数优化过程的深度剖析,让我们更清楚地了解了外部调控对算法运行结果的影响。而我们认为,对于变量互信息的计算还有更好的数据预处理方式,这有待于我们进一步的研究。总的来说,MPA.MMIFS算法能够适用有大多数高通量数据类型的分析和处理,是变量选择方法中新的一员。希望我们的研究工作能够有助于生命科学研究和化学计量学工作的发展。38 硕士学位论文参考文献[1】S.Wold.PrincipalComponentAnalysis[J].ChemometricsIntelligentLaboratorySystem.1987.2:37—52.【2】S.Wold,M.Sj6str6m,L.Eriksson.PLS-regression:abasictoolofchemometrics[J].ChemometricsIntelligentLaboratorySystem.2001,58(2):109.130.[3]B.D.Ripley.Pattemrecognitionandneuralnetworks[M].Cambridge:Cambridgeuniversitypress,2008.[4】L.Breiman,J.Friedman,C.J.Stone,eta1.Classificationandregressiontrees[M].Chapman&Hall/CRC.1984.[5]VVapnik.Thenatureofstatisticallearningtheory[M].NewYork:Springer,1999.[6]L.Breiman.Baggingpredictors[J].Machinelearning.1996,24(2):123-140.【7]J.Friedman,T.Hastie,R.Tibshirani.Additivelogisticregression:astatisticalviewofboosting[J].Theannalsofstatistics.2000,28(2):337-407.[8】YFreund,R.E.Schapire.Experimentswithanewboostingalgorithm.in:Machinelearning—internationalworkshopthenconference·,MorganKaufmannPublishers,INC.,1996:148—156.[9】L.Breiman.Randomforests[J].Machinelearning.2001,45(1):5-32.[10】梁逸曾,俞汝勤.化学计量学【M].北京:高等教育出版社,2003.[11]A.H6skuldsson.PLSregressionmethods[J].JournalofChemometrics.2005,2(3):211-228.[12】王大荣,张忠占.线性回归模型中变量选择方法综述[J].数理统计与管理.2010,29(04):615-627.【13】H.Akalke.Informationtheoryandanextensionofthemaximumlikelihoodprinciple.in:IntemationalSymposiumonInformationTheory,2nd,Tsahkadsor,ArmenianSSR,1973:267-281.[14]G.Schwarz.Estimatingthedimensionofamodel[J].Theannalsofstatistics.1978,6(2):461-464.[15]Q.Wang,H.-D.Li,Q.-S.Xu,eta1.Noiseincorporatedsubwindowpermutmionanalysisforinformativegeneselectionusingsupportvectormachines[J].Analyst.2011,136(7):1456—1463.[16]L.Breiman.Bettersubsetregressionusingthenonnegativegarrote[J].Technometrics.1995,37(4):373.384.39 硕士学位论文参考文献[17]R.Tibshirani.Regressionshrinkageandselectionviathelasso[J].JournaloftheRoyalStatisticalSociety.1996,58:267—288.[18】H.Zou,T.Hastie.Regulafizationandvariableselectionviatheelasticnet[J].JournaloftheRoyalStatisticalSociety:SeriesB(StatisticalMethodology)。2005,67(2):301—320.[19】VCentner,D.-L.Massart,O。E.deNoord,eta1.Eliminationofuninformativevariablesformultivariatecalibration[J].Analyticalchemistry.1996,68(21):3851.3858.【20]J.一H.Jiang,R.J.Berry,H.W.Siesler,eta1.Wavelengthintervalselectioninmulticomponentspectralanalysisbymovingwindowpartial.1east—squaresregressionwithapplicationstomid—infraredandnear-infraredspectroscopicdata[J].Analyticalchemistry.2002,74(14):3555·3565.【2l】L.D.David.FeatureSelectionandFeatureExtractionforTextCategorization[J].in:111eproceedingsofaworkshoponspeechandnaturallanguage.1992:212—217.【22]R.Battiti.Usingmutualinformationforselectingfeaturesinsupervisedneuralnetleafing[J].IEEETrans.NeuralNetworks.1994,5:537-550.【23】EAmiri,M.RezaeiYousefi,C.Lucas,eta1.Mutualinformation—basedfeatureselectionforintrusiondetectionsystems[J].JournalofNetworkandComputerApplications.2011,34(4):1184—1199.[24】B.Li,P.一1.Zhang,H.Ti锄,eta1.Anewfeatureextractionandselectionschemeforhybridfaultdiagnosisofgearbox[J].ExpertSystemswithApplications.2011,38(8):10000—10009.【25】E.Garbafine,J.DePasquale,V.Gadia,eta1.Information—theoreticapproachestoSVMfeatureselectionformetagenomereadclassification[J].ComputationalBiologyandChemistry.2011,35(3):199—209.【26】T.M.Cover,J.A.Thomas.Elementsofinformationtheory.in,2006:13—22.[27]H.Yan,X.一T.Yuan,S.-C.Yan,eta1.Correntropybasedfeatureselectionusingbinaryprojection[J].PatternRecognit.2011,44(12):2834—2842.【28】H.-D.Li,Y.-Z.Liang,Q.一S.X.u,eta1.Modelpopulationanalysisforvariableselection[J].JournalofChemometrics.2010,24(7—8):418-423.【29]H.一D.Li,Y.-Z.Liang,Q.一S.Xu,eta1.Modelpopulationanalysisanditsapplicationsinchemicalandbiologicalmodeling[J].h≮CTrendsinAnalyticalChemistry.2012.38:154.162.40 硕士学位论文参考文献[30】M.Barker,WRayens.Partialleastsquaresfordiscrimination[J].JournalofChemometrics.2003,17:166-173.【31】H.-D.“,Y-Z.Liang,Q.-S.Xu,eta1.Keywavelengthsscreeningusingcompetitiveadaptivereweightedsamplingmethodformultivariatecalibration[J].Analyticachimicaacta.2009,648(1):77-84.[32】M.West.Predictingtheclinicalstatusofhumanbreastcancerbyusinggeneexpressionprofiles[J].ProceedingsoftheNationalAcademyofSciences.2001,98(20):11462-11467.[33】B.-B.Tan,Y-Z.Liang,L.-Z.Yi,eta1.Identificationoffreefattyacidsprofilingoftype2diabetesmellitusandexploringpossiblebiomarkersbyGC-MScoupledwithchemometrics[J].Metabolomics.2009,6(2):219-228.【34]W.Fan,H.·D.Li,YShan,eta1.Classificationofvinegarsamplesbasedonnearinfraredspectroscopycombinedwithwavelengthselection[J].AnalyticalMethods.2011,3(8):1872.【35]S.Ma,X.Song,J.Huang.RegularizedbinormalROCmethodindiseaseclassificationusingmicroarraydata[J].BMCBioinformatics.2006,7(1):253.[36]C.Madigan,M.Ryan,D.Owens,eta1.Comparisonofdietshighinmonounsaturatedversuspolyunsaturatedfattyacidonpostprandiallipoproteinsindiabetes[J].Irishjoumalofmedicalscience.2005.174(1):8.20.[37]R.Leardi,A.L.Gonzalez.GeneticalgorithmsappliedtofeatureselectioninPLSregression:howandwhentousethem[J].ChemometficsIntelligentLaboratorySystem.1998,41:195-207.[38】J.H.Holland.Outlineforalogicaltheoryofadaptivesystems[J].JournaloftheACM(JACM).1962,9(3):297—314.[39】R.Leardi.Geneticalgorithmsinchemistry[J].JournalofChromatography-A.2007,1158(1):226—233.[40】R.Leardi,R.Boggia,M.Terrile.Geneticalgorithmsasastrategyforfeatureselection[J].JournalofChemometrics.1992,6(5):267.281.[41]H.一D.Li,Y-Z.Liang,Q.-S.Xu,eta1.Recipeforuncoveringpredictivegenesusingsupportvectormachinesbasedonmodelpopulationanalysis[J].IEEETransactionsonComputationalBiologyandBioinformatics.2011.8:1633.1641.[42】EJ.Green.ReversiblejumpMarkovchainMonteCarlocomputationandBayesianmodeldetermination[J].Biometrika.1995,82(4):711-732.41 硕士学位论文参考文献[43]H.一D.Li,Q.一S.Xu,Y—Z.Liang.Randomfrog:AnefficientreversiblejumpMarkovChainMonteCarlo—likeapproachforvariableselection、析thapplicationstogeneselectionanddiseaseclassification[J].Analyticachimicaacta.2012.[44]Q.Wang,H.一D.Li,Q.-S.Xu,eta1.Noiseincorporatedsubwindowpermutmionanalysisforinformativegeneselectionusingsupportvectormachines[J].Analyst.2011,136:1456—1463.[45】H.一D.Li,Q.-S.Xu,W.Zhang,eta1.Variablecomplementarynetwork:anovelapproachforidentifyingbiomarkersandtheirmutualassociations[J].Metabolomics.2012,8(6):1218.1226.42 硕士学位论文附录I∞也Nnv、Nnv、No。o△卜,_n∞n岔nInn—、No∞△Q卜,_卜∞N①∞nN心nNooo△卜,_V、卜均noo∞Inn●心v、noNo∞△卜,_,-_卜心No。∞”N∞v、No∞△卜⑦●_n卜啦n卜婚lnn●∞lnno。oo△卜oo,_卜∞n卜∞n∞no。∞△卜oo-_n卜均n∞心lnn●∞v、no∞△卜∞●H卜心n∞n●∞n—、ooo△@卜∞●Hn卜n∞n●∞nooo△卜●_卜∞n心℃卜心∞卜o。o△卜U、∞oo卜寸卜蛤卜∞o∞△∞寸∞。o卜寸卜∞卜∞o∞△∞弋tnNoo∞nN卜N卜No⑦△昏-_屺●nNoo∞nN卜N卜No△岔,_也tnnN卜∞N∞卜N啦卜No△直,_n—’N卜∞N∞卜N∞卜No△凸,_V、—'nN∞卜-_N卜∞●N卜口^o△急⑦蜀卜寸rq零∞卜ln卜∞r_卜∞籁aV、△凸oo寸rqo瓣∞oo卜七v、臀卜∞蜩lo●卜∞o始色△愀旧∞fq鄹∞则卜o篁工o释卜辎∞oo-_⑦△@/.、咚臣籁一■●■窆∽窆盆∽臣窆i∽茎_銮∽‘i_基函窆_窆趟笛函窆一窆攸。窆43 硕士学位论文附录IIo●卜o卜o卜oN寸nNo-do,_o●do,._o卜(--qo。N,—_,-_o●心o心o姬o卜l,’ooU1寸no●V、V1●·do-_o’doN①寸∞寸no∞V1心∞nonono’do●do●doI,、r---寸岔r---。o小o①o⑦o,—_o,_o.-_oV、Nooo西岔,Ho●NoNoNo寸Nr'.---_oN●dN--_-_一●N●●do-_o-_o寸∞n寸卜,_卜,d●d●卜●一_o●__o,dooo寸’。_U、寸n,_,d’d●fno—、onon心均U1∞,_,d,_一●弋to寸o寸oN寸r、卜寸●d寸--_,_一●飞r●,do●do-_onl,、’_一,__o·_’dN,dN’dNoNoNo’_(-q’_r1r、寸岣n岣n∞n●,—_o-do,do寸ooo。寸nV、呐n●nonono骝∞n旧-一_寸n糕o∞o旧o∞fqofqof、lo茎●一_oo。寸口nQ卜N凸o⑦。岔o卜岣西n旧n4件∞卜。o卜●。。’Ho●_o’-_o隧V、卜N=,●dn陬∞oo00●骣∞oo。o00o蚓o制o●●d’d蚓心删心愀恤茎锹避茎斟性羔oZ●_NV144 硕士学位论文攻读学位期间主要的研究成果参加的研究项目:【1】2011.01-2013.12:国家自然科学基金项目(题目:基于模型集群分析技术的变量选择与模型评价新方法研究,编号:21075138)发表的论文:[1】Xu-XiaLong,Hong—DongLi,WeiFan,eta1.Amodelpopulationanalysismethodforvariableselectionbasedonmutualinformation【J】.ChemometricsandIntelligentLaboratorySystems,2013,121:75-81.[2】2Hong-DongLi,Yi-ZengLiang,Xu—XiaLong,eta1.Thecontinuityofsamplecomplexityanditsrelationshiptomultivariatecalibration:Ageneralperspectiveonfirst-ordercalibrationofspectraldatainanalyticalchemistry【J].ChemometricsandIntelligentLaboratorySystems,2013,122:23-30.【3]李洪东,龙旭霞.变量互补信息网:一种新型的探寻Biomarker及其相互关联的方法【C】.中国化学会第28届学术年会第14分会场摘要集,2012.45 硕士学位论文致谢时光飞逝,转眼间,近三年的研究生学习生涯即将结束。回首来路,我最要感谢的是我的导师梁逸曾教授。我认识梁老师是在本科的化学计量学课程上,他丰富的专业知识,充沛的精力和幽默生动的语言,让我感受到了他的魅力,并喜欢上了化学计量学。保研时,我坚定地选择了梁老师作为我的导师,同时非常感激梁老师接受了我。读研期间,我再一次感受到了梁老师对专业的热爱,对工作的热情。这些可贵的品质对实验室的同学们影响颇大,极大地鼓舞了我们的学习热情。梁老师在学业上对我严以要求,在工作上对我悉心指导,在未来道路的规划上给我鼓励和帮助,这一切的一切都让我满怀感激!其次,我要感谢的是指导我学习的博士师兄李洪东,他严谨的工作作风,一丝不苟的科研精神,让我更加认真得对待每一件事。他乐观豁达的生活态度,幽默风趣的性格,也曾一度感染我。感谢李洪东师兄在学习和生活上给予我的无私帮助和辛苦指导。感谢本实验室的范伟、张志敏、曹东升、张良晓、董乃平、黄建华、严军、杨朝晖、张婉、杨扬、任达兵、云永欢、MiguelFerro、LeslieEuceda、DeboraMendes等所有硕士、博士及海外交流生对我的诸多帮助和支持。特别感谢我的家人对我学业上的支持和生活上的付出。最后,再一次向所有给予我帮助和支持的老师、同学和家人致以最衷心的感谢和最崇高的敬意!

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
大家都在看
近期热门
关闭