模糊聚类在特征选取中的应用

模糊聚类在特征选取中的应用

ID:10708215

大小:360.00 KB

页数:7页

时间:2018-07-07

模糊聚类在特征选取中的应用_第1页
模糊聚类在特征选取中的应用_第2页
模糊聚类在特征选取中的应用_第3页
模糊聚类在特征选取中的应用_第4页
模糊聚类在特征选取中的应用_第5页
资源描述:

《模糊聚类在特征选取中的应用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、李求实等:平衡IO和CPU的XML关键词检索125模糊聚类在特征选取中的应用刘全金1,2,赵志敏1,李颖新3(1.南京航空航天大学理学院,江苏南京210016;2.安庆师范学院物理与电气工程学院,安徽安庆246011;3.北京经纬纺机新技术有限公司机器视觉与智能研究所,北京100176)摘要:提出了一种基于模糊聚类算法的高维特征选取方法。首先,利用Bhattacharyya距离过滤样本类别无关的特征;然后,基于递归特征剔除过程,提出了基于模糊ISODATA聚类方法,以样本与聚类中心的加权距离作为可分性指标,产生候选特

2、征子集;最后,以候选特征子集分类和聚类的AUC值和正确率作为目标函数,确定最佳特征子集。将该方法用于选取5个基因表达谱数据集的特征基因,结果显示该方法所选特征具有较好的分类和聚类能力,说明了提出的特征选取方法的有效性。关键词:特征选取;模糊ISODATA;层次聚类;支持向量机;K近邻ApplicationofFuzzyClusteringAlgorithmonfeatureselectionQuanjinLiu1,2,ZhiminZhao1,Ying-XinLi3(1.CollegeofScience,Nanjing

3、UniversityofAeronauticsandAstronautics,Nanjing,210016,China;2.DepartmentofPhysics,AnQingNormalCollege,Anqing,246011,China;3.InstituteofMachineVisionandMachineIntelligence,BeijingJingweiTextileMachineryNewTechnologyCo.,Ltd.,Beijing100176,China)Abstract:Anewfeatu

4、reselectionmethodbasedonclusteringalgorithmisproposedtoselectinginformativefeatures.First,category-unrelatedfeaturesarekickedoutaccordingtoBhattacharyyadistance.Then,basedontheprocessofrecursivefeatureelimination,aweighteddistancebetweensampleandtheclustercente

5、rgeneratedbythefuzzyInteractiveSelf-OrganizingDataAlgorithm(ISODATA)isusedastheindexoffeatureforseparatingdifferentclasses.Finally,thecandidatefeaturesubsetwiththemaximumAUCvalueandaccuracyratebothinclassificationandclusteringtestsisselectedastheoptimalfeatures

6、ubset.Theproposedfeaturesubsetselectionmethodisappliedto5geneexpressionprofiledatasetsandexperimentresultsshowthattheselectedfeatureshavegoodperformanceintermsofbothclassificationandclusteringmeasurements.Thisdemonstratesthattheproposedmethodiseffectiveforselec

7、tinginformativefeaturesfromhighdimensionaldataset.Keywords:featureselection;fuzzyISODATA;Hierachicalclustering;Supportvectormachine;K-nearestneighbor文献标识码:A中图分类号:TP391,Q81271引言从高维数据中选出与类别相关的特征是机器学习和模式分类的重要一步,特征选取方法的优劣将影响到分类和聚类结果[1,2],选取的特征应该同时具有较强的分类和聚类能力。filte

8、r和wrapper是两种常用的高维数据集的特征选取手段[3]。Filter方法利用可分性指标评定特征的重要性,选取有效的类别特征,但这种可分性指标仅从单个特征出发,没有考虑特征间的相互关系,所以选取的特征并非最优[4,5]7。wrapper方法则围绕学习算法,根据该算法执行情况选取相关的特征,这种方法能够取得比filter方法更优的结果[6,7

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。