基于chi和knn的文本特征选择与分类算法的研究

基于chi和knn的文本特征选择与分类算法的研究

ID:35056025

大小:4.98 MB

页数:81页

时间:2019-03-17

基于chi和knn的文本特征选择与分类算法的研究_第1页
基于chi和knn的文本特征选择与分类算法的研究_第2页
基于chi和knn的文本特征选择与分类算法的研究_第3页
基于chi和knn的文本特征选择与分类算法的研究_第4页
基于chi和knn的文本特征选择与分类算法的研究_第5页
资源描述:

《基于chi和knn的文本特征选择与分类算法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中文图书分类号:TP391密级:公开UDC:38学校代码:10005硕士学位论文MASTERALDISSERTATION论文题目:基于CHI和KNN的文本特征选择与分类算法的研究论文作者:樊存佳学科:电子科学与技术指导教师:汪友生论文提交日期:2016年6月UDC:38学校代码:10005中文图书分类号:TP391学号:S201302041密级:公开北京工业大学工学硕士学位论文题目:基于CHI和KNN的文本特征选择与分类算法的研究英文题目:RESEARCHONTEXTFEATURESELECTIONANDCLASSIF

2、ICATIONALGORITHMBASEDONCHIANDKNN论文作者:樊存佳学科:电子科学与技术研究方向:文本数据挖掘申请学位:工学硕士指导教师:汪友生副教授所在单位:电子信息与控制工程学院答辩日期:2016年6月授予学位单位:北京工业大学独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡

3、献均已在论文中作了明确的说明并表示了谢意。签名:樊存佳日期:2016年6月6日关于论文使用授权的说明本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。(保密的论文在解密后应遵守此规定)签名:樊存佳日期:2016年6月6日导师签名:汪友生日期:2016年6月6日摘要摘要随着文本信息的快速膨胀,从庞杂的信息中获取对自己有用的信息越来越困难。文本自动分类作为一种有效组织和管理文本信息的数据挖

4、掘方法,解决了文本信息杂乱的问题,在信息检索、信息过滤、邮件过滤、数字化图书馆等领域有着非常广泛的应用前景。研究出一套分类精度高、效率高、稳定性好的文本分类方法具有重要的学术意义和实用价值。特征选择、特征加权及分类是文本分类过程中较重要的环节,本文以此为主要内容展开研究。首先简要说明了文本分类的研究背景和意义,阐述了文本分类的国内外研究现状,概括了本文的研究内容和章节安排。然后介绍了文本分类过程的关键技术和分类性能评价指标,为后期研究打好基础。最后,本文针对CHI特征选择、TFIDF特征加权、KNN分类方法进行了深入研

5、究并加以改进,主要研究内容如下:(1)针对CHI模型未考虑特征项词频,及放大了在指定类中很少出现但在其他类中普遍存在的特征项权重的缺点,本文基于传统CHI算法,提出了一种自适应的特征选择方法,该方法引入了自适应比例因子,可自动调节与类别呈正、负相关特征项的比重,消除了人为选取比例因子带来的误差,又引入了词频因子和类间方差,使最终选择出的特征项在特定类中出现频数多而在其他类中分布较少。结合KNN方法进行实验,实验结果表明,无论在平衡语料集上还是在非平衡语料集上,所提方法都有较好的分类效果,尤其提高了在非平衡语料集上的分类

6、效果。(2)针对TFIDF方法未考虑特征项类间、类内分布因素的不足,本文提出了2一种基于CHI统计和信息熵的改进型TFIDF特征加权方法,由于特征项的统计量和类内信息熵分别反映了特征项的类间、类内分布情况,因此,在传统TFIDF2方法的基础上,引入了统计量调节因子和类内分布熵因子,弥补了TFIDF方法的缺陷,提高了特征项权重计算的准确性。结合KNN方法进行实验,实验结果表明,所提方法用于权重计算后提高了分类器性能,同时证明了该方法具有较好的稳定性。(3)针对KNN方法训练样本增多而分类速度变慢的问题,本文提出了一种

7、基于K-Medoids和隶属度的改进型KNN文本分类方法,在传统KNN算法的基础上,采用改进K-Medoids聚类算法删掉对KNN分类贡献小的训练样本,减少了分类过程中相似度的计算量,并引入了隶属度,实现了有差别地处理与测试文本最近邻的K个文本。实验结果表明,在保证较高文本分类精度的前提下,所提I北京工业大学工学硕士学位论文方法提高了KNN方法的分类效率,同时验证了综合采用本文所提三种方法的有效性。关键词:文本分类;特征选择;CHI统计;TFIDF方法;KNN方法IIAbstractAbstractWiththerap

8、idexpansionoftextinformation,itismoreandmoredifficulttoacquireusefulinformationfromhugeandchaoticinformation.Asadataminingmethodoforganizingandmanagingmasstextinforma

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。