基于贝叶斯分类器的数据集重叠问题研究

基于贝叶斯分类器的数据集重叠问题研究

ID:33175358

大小:1.30 MB

页数:64页

时间:2019-02-21

基于贝叶斯分类器的数据集重叠问题研究_第1页
基于贝叶斯分类器的数据集重叠问题研究_第2页
基于贝叶斯分类器的数据集重叠问题研究_第3页
基于贝叶斯分类器的数据集重叠问题研究_第4页
基于贝叶斯分类器的数据集重叠问题研究_第5页
资源描述:

《基于贝叶斯分类器的数据集重叠问题研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中山大学硕士学位论文基于贝叶斯分类器的数据集重叠问题研究姓名:段鹏申请学位级别:硕士专业:应用数学指导教师:张磊;姚正安20060526中山大学硕上学位论文基于贝叶斯分类器的数据集重叠问题研究专业:应用数学硕士生:段鹏指导教师:张磊副教授姚正安教授摘要分类问题一直是机器学习领域的重要问题之一.对于分类模型,研究者除了致力于分类器的构造和优化外,也专注于对影响分类效果的各种因素的探究.而数据集的重叠问题和不平衡问题是影响分类效果的两个重要因素.数据集不平衡问题一度被视为影响分类效果的主因,学术界于2000年年12003年分别举行会议进

2、行了讨论,学术成果相当丰富.但随着研究的深入,陆续有学者提出数据集的不平衡并非是分类效果不佳的关键,而不同类别的样本在样本空问上的重叠才是导致分类精度不高的主要原因.更有学者进一步指出:不论数据集是否平衡,数据集的重叠都会对分类精度产生很大影响.目前数据集重叠问题已逐渐成为新的热点,受到越来越多研究者的关注.现有的处理数据集重叠的方法主要是选择性删除数据和特征提取.选择性删除数据的目的是找出数据集重叠的区域,并将该区域的样本删除,常用方法有两个:DataClean年IEdit.而利用特征提取算法处理重叠问题目前还只停留在理论阶段.本

3、文提出了两个处理数据集重叠问题的方法——基于离群点检测的处理方法和基于半监督学习法的处理方法.为了探讨各种方法对数据集重叠问题的处理效果,本文选用基于核密度估计的贝叶斯分类器,并且使用Fl指标作为分类器的评价标准.本文将这两种方法应用于UCI数据库中的十个数据集,并且与传统处理方法作了综合比较:通过适用性、功效性、稳定性和时效性四个方面的分析,结果表明:相比于传统方法,基于离群点检测的处理方法适用性较广且大多数情况下分类效果有较好的改进;基于半监督学习法的处理方法则针对一些特殊的情况具有显著的效果.关键词:数据集重叠离群点检测半监督

4、学习法贝叶斯分类器F1中山大学硕士学位论文ResearchofOverlappingDataSetusingBayesClassifierMajor:AppliedMathematicsName:DuanPengSupervisor:ZhangLeiAssociateProfessorYaoZhenganProfessorabstractClassificationisoneofthemostimportantproblemsofmachinelearning.Forthisproblem,researchersfocusontwo

5、aspects:howtoconstructagoodclassifierandwhateffluentsclassification’Saccuracy.Dataset’Soverlappedandimbalancedaretwoimportantcausationsforit.Imbalanceddatasetproblemwassaidtobeprincipalfactorforinfluencingclassification’Sresult.Thereweretwoacademicworkshopsholdfordiscu

6、ssingimbalanceddatasetproblemin2000and2003.Butmoreandmoreresearcherspointoutthatdataset’Simbalancedisnotthekeyreasonforclassifierwithlowaccuracybutdata’Soverlappingisafteraseriesexperiments.Furthermore,someresearchersindicatedthatdata’Soverlappingwillinfluenceclassifie

7、r’Saccuracyintensivelywhetherdatasetisbalancedorimbalanced.Therearetwomethodsoftenusedtodealwithdata’Soverlapping:deletedataoptionalandfeatureextraction.Deletedataoptionalisaimtofindtheareawheredata’Soverlappedanddeletesomedatasuitably.Fordeletingdata,therearetwoalgori

8、thms:DataCleanandEdit.FeatureextractionmaybeagoodmeanstodealwithitinthefuturebutCallnotbeusejustnow.Inthispaper,webri

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。