文本分类中特征选择与加权算法的研究

文本分类中特征选择与加权算法的研究

ID:35082928

大小:6.55 MB

页数:62页

时间:2019-03-17

文本分类中特征选择与加权算法的研究_第1页
文本分类中特征选择与加权算法的研究_第2页
文本分类中特征选择与加权算法的研究_第3页
文本分类中特征选择与加权算法的研究_第4页
文本分类中特征选择与加权算法的研究_第5页
资源描述:

《文本分类中特征选择与加权算法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文题目:文本分类中特征选择与加权算法的研究研究生王刘阳专业计算机技术指导教师赵乃良教授吴国华研究员完成日期2016年03月坑州电子科技大学学位论文原创性声巧和使用授权说明原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或集体已经发表或撰写过的作曲或成果。对本文的研巧做出重要贡献的个人和集体,均已在文中W明确方式标明。申请学位论文与资料若有不实么处一,本人承担切相关贵任。‘论文作者签名;身

2、曰期:年月曰I1內?3学化论文使用搬说明:本人完全了解杭州电子科技大学关于保留和使用学位论文的规定,即研巧生在巧攻读学位期间论文工作的知识产权单位属抗州电子科技大学。本人保证毕业离校后,发表论文或使用论文工作成果时署名单位仍然为杭州电子科技大学。学巧有枚保留送交论文的复印件,允许查阅和借阅论文;学校可W公布论文的全。(部或部分内容,可抖允许采用影印、缩印或其芭复制手段保存论文保密论文在解密后遵守此规定)论文作者签名;i叫的曰期;年之月3曰指导教师签名__期:年成曰贼础含喪襄最I户

3、|杭州电子科技大学硕士学位论文文本分类中特征选择与加权算法的研究研究生:王刘阳指导教师:赵乃良教授吴国华研究员2016年3月DissertationSubmittedtoHangzhouDianziUniversityfortheDegreeofMasterResearchonAlgorithmofFeatureSelectionandWeightinginTextClassificationCandidate:WangLiuyangSupervisor:Prof.ZhaoNailiangProf.WuGuohuaMarc

4、h,2016摘要文本分类是组织和管理文本信息的有效手段,但是文本分类中存在高维性、类别区分能力低等问题,严重影响了文本分类的性能。为了解决文本分类的高维性问题,本文对常见的特征选择算法进行了比较、研究,选择了降维效果较好的期望交叉熵算法。同时,分别从特征项词频在类内信息、类内和类间信息分布熵对算法的影响进行了分析,并提出了基于信息熵的改进算法,解决了算法对特征项词频考虑不足的缺陷。另外,本文也对TF-IDF特征加权算法进行了研究,分别从特征项在类间分布的集中性、类内分布的均匀性方面分析,本文提出了一种改进的TF-IDF特征

5、加权算法,解决了算法对特征项类别考虑不足的缺陷。基于上述改进算法,本文实现了文本分类系统。文本分类对比实验表明,基于信息熵的改进算法解决了高维性问题,能够准确的选择出最优特征子集,提升了文本分类的性能。改进的TF-IDF算法解决了特征项的类别区分能力的问题,可赋予特征项更精准的权重,提高了文本分类的准确度。关键字:文本分类、特征选择、信息熵、期望交叉熵、特征加权IABSTRACTTextclassificationisaneffectivewaytoorganizeandmanagetextinformation,butt

6、heresomecomplicatedproblemsintextclassificationwhichincludehigh-dimension,lowerabilityofcategorydistinguishing,whichseriouslyaffecttheperformanceoftextclassification.Inordertosolvehigh-dimensionproblemintextclassification,thispapercomparedandstudiedsomefeaturesele

7、ctionalgorithms,andselectedtheexpectedcrossentropyfeatureselectionalgorithmwhichworksbestindimensionreduction.Meanwhile,thispapermadeananalysisfromthefrequencyoffeaturesinformationwithincategory,theinformationdistributionentropyofwithincategoryandamongdifferentcat

8、egories,anexpectedcrossentropyfeatureselectionmethodbasedoninformationentropywasproposedtoresolvetheinsufficientconsiderationofthefrequencyoffeaturesint

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。