基于全局和声搜索算法的特征基因选择方法.pdf

基于全局和声搜索算法的特征基因选择方法.pdf

ID:55399371

大小:401.43 KB

页数:8页

时间:2020-05-15

基于全局和声搜索算法的特征基因选择方法.pdf_第1页
基于全局和声搜索算法的特征基因选择方法.pdf_第2页
基于全局和声搜索算法的特征基因选择方法.pdf_第3页
基于全局和声搜索算法的特征基因选择方法.pdf_第4页
基于全局和声搜索算法的特征基因选择方法.pdf_第5页
资源描述:

《基于全局和声搜索算法的特征基因选择方法.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第44卷第3期内蒙古师范大学学报(自然科学汉文版)VoI.44NO.32015年5月JournalofInnerMongoliaNormalUniversity(NaturalScienceEdition)May2015基于全局和声搜索算法的特征基因选择方法魏峻(陕西理工学院数学与计算机科学学院,陕西汉中723000)摘要:鉴于DNA微阵列数据中无关基因和冗余基因对分类精度和效率的影响,提出一种基于全局和声搜索的特征基因选择方法,首先采用ReliefF算法对微阵列基因数据集排序,取排序靠前的N个基因构成初选基因子集,然后利用全局和声搜索算法选择特征基因

2、.两个公共微阵列数据集上的仿真实验表明,该算法全局搜索能力强,分类精度高,能够有效地剔除噪声和冗余基因,是一种有效的特征基因选择算法.关键词:微阵列数据;特征基因;ReliefF算法;全局和声搜索算法中图分类号:TP18文献标志码:A文章编号:1001-8735(2015)03-0372-08基因芯片L1又称为DNA微阵列(DNAmicroarray)作为一种先进的、大规模、高通量检测技术,已成功应用于病原物检测、遗传疾病检测、疾病进程检测等方面.然而基因芯片具有高维数小样本的特点,在这些成千上万的基因中,仅有非常少量的基因与分类任务密切相关,而其他与

3、分类无关的噪声和冗余基因则会严重影响分类的性能和效率.为了解决这个问题,我们通过特征基因选择,剔除与分类无关的、冗余的基因,从而降低临床诊断的费用,提高癌症诊断的准确性,并对疾病的预测提供可靠的依据瞳].目前,特征基因选择方法主要有过滤法(Filter)与缠绕法(Wrapper)两种[3].过滤法通常采用某种策略来评估每个基因对分类任务的相关性,然后按照相关性的高低对基因进行排序,最后选择排名靠前的N个基因作为特征基因.ReliefF算法[7。0]是一种经典的过滤算法,它首先从训练样本集中随机抽取出一个样本,再从与z同类的样本集中找出样本X的k个近邻样

4、本,然后从与每个不同类的样本集中找出k个近邻样本,最后根据权值更新公式更新每个特征的权值,再根据权值的大小排序.过滤法具有运算效率高、易于实现的优点,但是它没有考虑基因之间的相互作用,容易产生冗余基因.缠绕法通常采用分类算法对一个特征基因子集进行分类性能的评价,然后根据评价的结果按照某种策略对子集进行调整,以达到寻求最优基因子集的目的.其中一些启发式搜索算法已经在这一领域得到了广泛的应用,声搜索算法(HarmonySearch,HS)L】¨是一种新兴的智能优化算法,它模拟了乐师们通过反复调整各种乐器的音调直到生成一个美妙和声的过程,该算法也在很多领域得

5、到了成功的应用[1。引.缠绕法具有分类性能好、选取的特征基因少等优点,但其计算量很大,时间复杂度高,在高维、高噪的数据中容易产生过拟合现象.针对这一问题,本文结合过滤法与缠绕法的思想,提出一种基于全局和声搜索算法的基因选择方法.首先以ReliefF算法为基础,计算每个基因与分类属性的相关性,然后利用全局和声搜索算法选取特征基因.并在2个公共微阵列数据集上进行仿真实验,实验结果表明本文的算法全局搜索能力强,分类精度高,能够有效的剔除噪声和冗余基因,是一种有效的特征基因选择算法.1ReliefF算法1992年Kira等_5首先提出Relief算法,算法首先

6、对随机选择的m个样本的假设间隔进行计算,然后将计算结果累加起来作为属性的权值,最后根据属性权值的大小就可以近似地估计出对于分类最有用的特征子集.假设间隔定义为在保持样本分类不变的情况下决策面能够移动的最大距离,可表示为收稿日期:2014—08—24基金项目:国家自然科学基金资助项目(81160183,11305097);陕西省教育厅资助项目(14JK1148)作者简介:魏峻(1979一),男,陕西汉中人,陕西理工学院实验师,主要从事数据挖掘研究,E—mail:weijun307@163.com.第3期魏峻:基于全局和声搜索算法的特征基因选择方法一1(I

7、Iz—M()ll—lIz—H(z)l1).其中:H()、M(z)分别是与同类和非同类的最近邻点.样本更新属性P的权值可表示为w一w一!兰!垡兰+—diff(p,x,M(x))—.m最初,Relief算法主要针对两类问题.1994年Kononenko对Relief算法进行了改进,提出RelidF算法.算法的思想是将分类问题视为一类对多类关系加以解决,使算法可以解决多类问题和回归问题.其改进主要是在权值更新上,权值更新公式为kZ_aazf⋯f(p一,x,lVl⋯j(x)、)∑diff(p,z,H(z)).w===w~m×k.一+∑.C≠dass()⋯2改进

8、的和声搜索算法2.1标准和声搜索算法HS搜索算法(HarmonySearch,HS)是Geem

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。