最优特征选择算法在文本分类上的应用研究

最优特征选择算法在文本分类上的应用研究

ID:39145699

大小:2.85 MB

页数:78页

时间:2019-06-25

最优特征选择算法在文本分类上的应用研究_第1页
最优特征选择算法在文本分类上的应用研究_第2页
最优特征选择算法在文本分类上的应用研究_第3页
最优特征选择算法在文本分类上的应用研究_第4页
最优特征选择算法在文本分类上的应用研究_第5页
资源描述:

《最优特征选择算法在文本分类上的应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、论文题目最优特征选择算法在文本分类上的应用研究专业学位类别工程硕士学号201091250101作者姓名王新莹指导教师何羚副教授万方数据分类号密级注1UDC学位论文最优特征选择算法在文本分类上的应用研究(题名和副题名)王新莹(作者姓名)指导教师何玲副教授电子科技大学成都高学理高级工程师成都市经济信息中心成都(姓名、职称、单位名称)申请学位级别硕士专业学位类别工程硕士工程领域名称软件工程提交论文日期2013.05.15论文答辩日期2013.05.23学位授予单位和日期电子科技大学2013年06月23日答辩委员会主席评阅人注1

2、:注明《国际十进分类法UDC》的类号。万方数据APPLICATIONOFOPTIMALFEATURESELECTIONALGORITHMINTEXTCLASSIFICATIONAThesisSubmittedtoUniversityofElectronicScienceandTechnologyofChinaMajor:SoftwareEngineeringAuthor:WangXinyingAdvisor:HeLingSchool:SchoolofAeronauticsandAstronautics1万方数据注1注明《

3、国际十进分类法UDC》的类号独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。签名:日期:年月日关于论文使用授权的说明本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借

4、阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后应遵守此规定)签名:导师签名:日期:年月日2万方数据摘要摘要随着网络技术和数据库技术的成熟,数据库系统逐渐普及。从文字分类搜索、到商业决策分析、更乃至前沿的生物工程。在数据库中储存的大量数据中隐藏着许多信息,这些隐藏的信息对于决策有着十分重要的作用。用作对这些隐藏信息进行分析处理的工具虽有了很大的发展,但是很多隐藏信息的许多重要内涵还远远没有得到足够的利用。数据挖掘作

5、为一种新型的数据处理技术,数据挖掘的过程就是对数据信息的再处理再分析过程。首先需要收集各种相关数据信息,其次通过各项模型化处理方式如取样、分析、结论等获得符合目标的关键因素。所以,数据挖掘及其相关的技术和应用的研究和发展受到了业界的重视与长足的进展。从而研究一种更加高效的Filter型特征选择算法对各个学科领域都有着非常重要的作用。文本分类就是根据预先定义的主题类别,按照一定的规则将文档集合中未知类别的文本自动确定一个类别,涉及数据分类、计算机学科,工科,信息学科、管理学等多个学科。至今,大部分的机器学习方法、统计方法、

6、数据分类技术被应用到文本分类里。本文首先研究了贝叶斯网络、朴素贝叶斯分类器、Filter型特征选择算法的问题,然后在此基础上详细讨论了基于最小联合互信息亏损的最优特征选择算法,并基于文本分类的应用需求进行了最优特征选择算法在文本分类上的研究及设计。最后通过试验,验证了Filter型算法可有效应用于文本分类的领域。本文重点研究了以下内容:首先,阐述了贝叶斯网络与朴素贝叶斯分类的定义。根据特征的不同,归纳了其特点及模型,以及相关应用。其次,阐述了Filter型特征选择算法的含义和基本特征。根据特征的不同,归纳了现有Filte

7、r型特征选择算法分为以特征子集搜索为基础的最优特征选择法和特征排序法两种类别,并对每种类别加以深入剖析。力求获得每种算法的特点、基本原理以及存在的缺点。再者,通过文本分类的定义及应用的介绍,引出了特征选择算法在文本分类上的研究。并通过算法的代码及实验过程进行了深入的研究。从而验证了Filter型算法可有效应用于文本分类的领域,提高了文本分类的效率。关键词:分类,特征选择,贝叶斯分类器,filter型特征选择算法I万方数据ABSTRACTABSTRACTWiththematurityofnetworktechnologya

8、nddatabasetechnology,databasesystemsarebecomingmorecommon.Fromthetextclassificationsearch,totheanalysisofbusinessdecisions,andevenmorecutting-edgebio-engineeri

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。