资源描述:
《煤炭企业信息系统集成的系统架构研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、面向高维微阵列数据的集成特征选择算法孙刚张靖2(1.阜阳师范学院计算机与信息工程学院,阜阳市,2360372.合肥工业大学计算机与信息学院合肥230009)摘要:特征选择算法是微阵列数据分析的重要工具,特征选择算法的分类性能和稳定性对微阵列数据分析至关重要。为了提高特征选择算法的分类性能和稳定性,本文提出一种面向高维微阵列数据的集成特征选择算法来弥补单个基因子集信息量的不足,提高基因特征选择算法的分类性能和稳定性。该算法首先采用信噪比方法选择若干区分基因,然后对每个区分基因利用条件信息相关系数评估候选基因与区
2、分基因的相关性,生成多个相关基因子集,最后,通过集成学习技术整合多个相似基因子集。实验结果表明本文提出的集成特征选择算法的分类性能以及稳定性在多数情况下均优于只选择单个基因子集的方法。关键词:微阵列数据,信噪比,条件相关系数,特征选择中图分类号:TP3文献标识码:AEnsembleFeatureSelectionAlgorithmforHighDimensionalMicroarrayDataSUNGang,1,2ZHANGJing2(1.SchoolofComputerandInfonnationEngin
3、eering,FuyangTeachersCollege,Fuyang,2360372.SchoolofComputerandInformation,HefeiUniversityofTechnology,Hefei,230009)Abstract:Featureselectionalgorithmisanimportanttoolformicroarraydataanalysis,classificationabilityandstabilityoffeatureselectionalgorithmform
4、icroarraydataanalysisisessential.Inordertoimproveclassificationabilityandstabilityoffeatureselectionalgorithm,aensemblefeatureselectionalgorithmforhighdimensionalmicroarraydataisproposedinthispapertocompensateforthelackofinformationofasinglegenesubsetandimp
5、rovetheclassificationabilityandstabilityofgenefeatureselectionalgorithm.TheproposedalgorithmfirstlyusesSignalNoiseRatiomethodtoselectdiscriminativegenes,andthengeneratesrelatedgenesubsetsthroughevaluatingthecoiTelationbetweenthecandidategeneanddiscriminativ
6、egeneusingconditionalcorrelationcoefficientforeachdiscriminativegene,andfinallyintegratesrcscmblantgenesubsetsthroughensemblelearningtcchnology.Experimentalresultsshowtheclassificationabilityandstabilityofensemblefeatureselectionalgorithmissuperiortoselecto
7、nlyasinglegenesubsetinmostcases・Keywords:microarraydata,signalnoiseratio,conditionalcoiTelationcoefficient,featureselect基金支持:国家口然科学基金项冃(51174257/F030504);中央高校基本科研业务费专项资金项冃(2013BHZX0040);安徽省级科研机构委托专项重点项目(2013WLGII01ZD)资助作者简介:孙刚(1978-),男,博士后,研究方向:数据挖掘.人工智能和模式
8、识别1引言随着基因芯片技术的发展,基因表达实验获得了大量的微阵列相关数据,为人类疾病研究提供了一种全新的手段。微阵列数据中单个样本的基因维数往往是数以万计,而真正和疾病有关的基因维数不多,我们把和疾病有关的基因称之为信息基因,因此,开发一个有效的、稳定的方法从高维微阵列数据中提取信息基因子集,是微阵列数据分析中一个极具挑战性且十分重要的问题。特征选择技术能够通过剔除无关属性、冗余属性和噪声属性来选择