欢迎来到天天文库
浏览记录
ID:57924346
大小:380.89 KB
页数:7页
时间:2020-04-14
《基于改进的和声搜索算法的特征基因选择方法-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第33卷第1期河南科学Vo1.33No.12015年1月HENANSCIENCE文章编号:1004—3918(2015)01—0058—07基于改进的和声搜索算法的特征基因选择方法巍缓(陕西理工学院数学与计算机科学学院,陕西汉中723000)摘要:DNA微阵列数据通常含有成千上万个基因,其中含有大量与分类无关的基因和冗余基因,这些基因的存在会严重影响分类精度和效率.针对这一问题,提出一种基于改进的和声搜索算法的特征基因选择方法,首先采用ReliefF算法对微阵列基因数据集排序,取排序靠前的N个基因构成初选基因子集,然后再利用改进的和声搜索算法选择特征基因.通过在
2、3个公共微阵列数据集上的仿真实验,结果表明,该算法能够在更少的特征基因情况下达到很高的精度,是一种有效的特征基因选择算法.关键词:微阵列数据;特征基因;ReliefF算法;声搜索算法中图分类号:TP18文献标识码:AFeatureGeneSelectionMethodBasedonImprovedHarmonySearchAlgorithmWeiJun(SchoolofMathematics&ComputerScience,ShaanxiUniversityofTechnology,Hanzhong723000,ShaanxiChina)Abstract:DNA
3、microarraydataoftencontaintensofthousandsofgenes,wheretherearealotofirrelevantandredundantgenes.Thesegenesmayseriouslyaffecttheaccuracyandeficiencyofclassification.Inordertosolvethisproblem.Thispaperproposesafeaturegeneselectionmethodbasedonimprovedharmonysearchalgorithm.Firstly,micr
4、oarraygenesarerankedusingReliefFalgorithmandpreselectedgenesubsetisobtainedaccordingtoranked·topgenes,thentheimprovedharmonysearchalgorithmisusedtoselectfeaturegenesfromabovegenesubset.Finallyweimplementsimulationexperimentsonthreepublicmieroarraydatasets.Theresultsshowthatthepropose
5、dalgorithmcanachieveveryhighaccuracyinlessfeaturegenes,andisaeffectivefeaturegeneselectionalgorithm.Keywords:microarraydata;featuregene;ReliefFalgorithm;harmonysearchalgorithm基因芯片又称为DNA微阵列(DNAmicroarray),作为一种先进的、大规模、高通量检测技术,广泛而成功地应用于疾病诊断和治疗、药物筛选等许多领域,它将为人类疾病的诊断、治疗和防治开辟全新的途径,为药物开发中先导化
6、合物的快速筛选和药物基因组学研究提供技术支撑平台.微阵列数据集包含成千上万的基因,而基因样本的数量往往不足一百.在这成千上万的基因中,大部分基因对于癌症的分类没有太大的贡献,仅有非常少量的基因与分类任务密切相关,这些噪声和冗余基因会严重影响分类的性能和效率.为了解决这个问题,我们通过特征基因选择,剔除与分类无关的、冗余的基因,从而降低临床诊断的费用,提高癌症诊断的准确性,并对疾病的预测提供可靠的依据.目前,特征基因选择方法主要有过滤法(Filter)与缠绕法(Wrapper)两种。.过滤法通常采用某种策略来评估每个基因对分类任务的相关性,然后按照相关性的高低对基
7、因进行排序,最后选择排名靠前的N个基收稿日期:2014—05—29基金项目:国家自然科学基金(81160183,11305097);陕西省教育厅科学研究项目(14JK1132)作者简介:魏峻(1979一),男,实验师,硕士,主要研究方向为数据挖掘.2015年1月魏峻:基于改进的和声搜索算法的特征基因选择方法一59一因作为特征基因.常用的过滤法有“t~检验”、“Fisher~标”口、“ReliefF”n们以及“分类信息指数”口妇等,过滤法具有运算效率高、易于实现的优点,但是它没有考虑基因之间的相互作用,容易产生冗余基因.缠绕法通常采用分类算法对一个特征基因子集进行
8、分类性能的评价,然后根据
此文档下载收益归作者所有