欢迎来到天天文库
浏览记录
ID:35039307
大小:2.43 MB
页数:55页
时间:2019-03-16
《中文短文本跨领域情感分类算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、中文短文本跨领域情感分类算法研究重庆大学硕士学位论文(学术学位)学生姓名:陈文指导教师:张玉芳教授专业:计算机系统结构学科门类:工学重庆大学计算机学院二O一六年四月TheResearchofCross-DomainSentimentClassificationAlgorithmsforChineseShort-TextsAThesisSubmittedtoChongqingUniversityinPartialFulfillmentoftheRequirementfortheMaster’sDegreeofEngineer
2、ingByChenWenSupervisedbyProf.ZhangYu-fangSpecialty:ComputerSystemArchitectureCollegeofComputerScienceofChongqingUniversity,Chongqing,ChinaApril,2016重庆大学硕士学位论文中文摘要摘要随着电子商务的快速发展和微博、微信等的崛起,互联网上的短文本评论呈指数形式地增长,这些评论信息的背后蕴藏着巨大的经济和社会价值。传统的手工处理方法变得越来越困难,如何自动化地挖掘这些评论中的有用信息是
3、自然语言处理领域的一个研究热点。文本情感分类技术应运而生,而跨领域情感分类由于不需要目标领域标记评论,实用性更强。情感分类作为一种主观的文本挖掘技术,其目的是判断评论者对某实体(产品、服务、事件等)的情感倾向和评价态度(正面或负面、推荐或不推荐等)。在对现有情感分类算法和相关技术进行了深入的研究基础上,提出了自己的跨领域情感分类算法。主要研究成果如下:①提出了基于情感敏感性词库(SentimentSensitiveThesaurus,SST)的跨领域情感分类算法。针对跨领域分类中原始领域(????)和目标领域(????)的
4、领域独立性问题,提出构建SST词库,然后利用SST词库对原始领域和目标领域的评论集进行特征向量扩展,最后利用扩展之后的评论集进行分类器训练和分类预测。SST是在????和????的评论集上构建的,同时包含两类领域的特征。该算法利用支持向量机(SVM)对扩展之后的原始领域评论集进行分类器的训练,所得分类器对扩展之后的目标领域评论集进行分类预测。通过在酒店、电脑和书籍三个领域的数据集上进行9组实验表明,基于SST的跨领域分类算法分类效果较好。论文还对算法中的参数K和训练集大小对分类器分类效果的影响进行了实验探讨。②提出了投票集
5、成的跨领域情感分类算法。利用集成学习的思想组合多个基分类器的结果来提升分类器分类效果。实验中采用了简单投票和加权投票两种方式,同样在酒店、电脑和书籍三个语料库上进行实验,结果表明投票集成分类算法分类效果明显优于单个基分类器的分类效果。③改进的Stacking集成分类算法。算法利用无监督的NTUSD情感词典分类方法,先对目标领域评论集进行分类,将其中部分情感极性较强的评论进行标记后加入到原始领域的评论集中,扩展训练集的构成,减小领域差异性。通过这种方式改进Stacking算法在跨领域分类中的实际应用效果。实验结果表明,Sta
6、cking集成分类算法能获得较好的分类效果,集成学习在跨领域情感分类中的应用具有研究价值。关键词:情感分类,跨领域,特征学习,集成分类器,支持向量机I重庆大学硕士学位论文英文摘要ABSTRACTWiththerapiddevelopmentofelectroniccommerceandtheriseofmicroblogandWeChat,theshort-textcommentsontheInternetgrowexponentiallyandthecommentshavehugeeconomicandsocialval
7、ue.Thetraditionalmanualprocessingmethodisbecomingmoreandmoredifficult,andhowtoautomaticallyminetheusefulinformationfromthecommentsbecomesaresearchhotspotinnaturallanguageprocessing.SentimentclassificationforChineseshort-textscomesintobeing,andowingtothecross-domai
8、nsentimentclassificationappliedtothedomainwhichlackslabeledcommentsgoesgraduallypopular.Sentimentclassification,whichisakindofsubjectivetextminingtechno
此文档下载收益归作者所有