基于遗传算法的高维数据特征选择和特征子集的组合分析

基于遗传算法的高维数据特征选择和特征子集的组合分析

ID:37943797

大小:1.25 MB

页数:53页

时间:2019-06-03

基于遗传算法的高维数据特征选择和特征子集的组合分析_第1页
基于遗传算法的高维数据特征选择和特征子集的组合分析_第2页
基于遗传算法的高维数据特征选择和特征子集的组合分析_第3页
基于遗传算法的高维数据特征选择和特征子集的组合分析_第4页
基于遗传算法的高维数据特征选择和特征子集的组合分析_第5页
资源描述:

《基于遗传算法的高维数据特征选择和特征子集的组合分析》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、中山大学硕士学位论文基于遗传算法的高维数据特征选择和特征子集的组合分析姓名:黄焕宇申请学位级别:硕士专业:计算机软件与理论指导教师:印鉴20060601基于遗传算法的高维数据特征选择和特征子集的组合分析计算机软件与理论硕士生:黄焕宇指导教师:印鉴教授摘要生物信息学、信息检索以及图像挖掘等大规模机器学习问题的不断涌现,对已有的特征选择算法和机器学习算法提出了严峻的挑战。人们迫切需要适应大规模数据集的特征选择算法和机器学习算法,并且对它们的准确性和运行效率等综合性能都有较高的要求。本文在高维数据的特征选择算法和基于特征选择的组合分类器构建问题上开展了研究。文章提出了一种综合了

2、Filter模型及Wrapper模型的特征选择算法FSRAGA。该算法首先利用特征与类别标签的相关性分析进行特征筛选,只保留与类别标签具有较强相关性的特征,然后针对经过筛选的精简特征子集采用遗传算法进行随机搜索,用分类错误率作为评价标准。实验比较表明,该算法能发现更好的特征子集从而实现降维并提高分类精度。本文在FSRAGA算法的基础上,查找出一系列分类性能较优的候选特征子集,引用特征子集的稳定性概念作为评价标准,利用差异性较大的特征子集组合来构造组合分类器,实验表明该评价标准有助于提高组合分类器的性能。关键词:特征选择;数据挖掘;遗传算法:特征子集稳定性;组合分类器基于遗

3、传算法的高维数据特征选择和特征子集的组合分析FeatureSelectionBasedonGAandAnalysisofFeatureSubsetsEnsembleCompmerSoftwareandTheoryName:HuangHuanyuSupervisor:ProfessorYinJianAbstractTheeme唱enceofhigh-dimensionalmachinelearningfieldssuchasbioinformatics,informationretrievalandimageprocessingposedseverechallengesto

4、thee五stingfeatureselectionandmachinelearningalgorithms.Thispapermainlystudiesonfeatureselectionandfeaturesubsetsensemble.AnewfeatureselectionmethodFSRAGAiSproposed,whichcombiningFilterandWrappermodels.Itfirstfiltersfeaturesbyfeaturerelevanceanalysis.andrealizesthenearoptimalfeattiresubset

5、searchonthecompactfeattiresubsetbygeneticalgorithm;andthefeaturesubsetisevaluatedbv山eclassificationinaccuracy.Theexperimentsshowsproposedalgorithmprovidesbeaerfcaturesubsets.whichresults.mthelOW.dimensionaldataandthegoodclassificationaccuracy.BasedonFSRAGA,aseriesoffeaturesubsetswithbeRer

6、classificationaccuracyareprovided.Stabilityoffeaturesubsetsisusedascriteria,toconstructensembleclassifiersbysearchingfeaturesubsetsoflargerdiversity.Theexperimentsshowthatsuchcriteriacanefficientlyimprovetheperformanceofensembleclassifiers.Keywords:Featureselection;Datamining;GeneticAlgor

7、ithm;StabilityofFeaturesubsets;EnsembleofclassifiersⅡ基于遗传葬法的高维数据特征选择和特征子集的组合分析第1章引言1.1数据挖掘的产生与发展在过去的三十年,随着计算机硬件技术、数据收集技术和数据存储技术的快速发展,各行各业都逐步建立起各自的数据库体系。在这些数据库中存放着大量的数据,人们所关注的问题是如何有效地利用这些信息使之能够应用到生产实践当中。收集和存储数据的轻松简便,已经完全改变人们对数据分析的态度:尽可能地收集各种数据。不管收集目的是否明确,人们相信收集的数据肯定会

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。