基于自动标注训练集的中文微博情感分类的-研究

基于自动标注训练集的中文微博情感分类的-研究

ID:34126144

大小:2.96 MB

页数:55页

时间:2019-03-03

基于自动标注训练集的中文微博情感分类的-研究_第1页
基于自动标注训练集的中文微博情感分类的-研究_第2页
基于自动标注训练集的中文微博情感分类的-研究_第3页
基于自动标注训练集的中文微博情感分类的-研究_第4页
基于自动标注训练集的中文微博情感分类的-研究_第5页
资源描述:

《基于自动标注训练集的中文微博情感分类的-研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、万方数据48万方数据致谢时光荏苒,岁月如梭,研究生生活已接近尾声,回顾这些岁月,有收获,有感动,也有遗憾。值此硕士学位论文完成之际,谨向所有给予我关系、指导和帮助的老师、亲人、朋友表达我真挚的感激之情。首先,感谢我的导师陈雁翔老师,表示我最由衷的感谢,感谢陈老师在我攻读硕士学位期间对我所付出的一切心血。陈老师治学严谨的态度激励着我们,在做人、做事、做科研方面始终影响着我们。我知道在人生的道路上,我还有很长的路要走,但不管怎样,这种影响将始终在我身旁。谢谢陈老师!感谢孙晓老师!尽管他在科研、教学工作上很繁忙,但总会定时地在科研上给予我指导和关

2、心,总能在关键的时候给我指明正确的研究方向。从论文选题、文献收集到实验,孙老师都给了我很多帮助。在此,表示诚挚的感谢。希望孙老师在未来的生活中,工作顺利,天天快乐。感谢情感计算与先进智能机器实验室的所有同学和我的室友,是你们陪我走完了这美好的研究生时光,特别是汪海波、章琴、宋伟男、陶志颖、董旭文、刘盛中等。和他们之间的同学之情,友谊之情是我上研究生的最大收获,谢谢你们的陪伴。最后还要感谢我的家人,感谢他们这么多年以来对我的鼓励和支持,让我能够顺利完成学业。作者:刘伟朋2014年4月I万方数据摘要微博已经成为最受网民欢迎的社交网络平台之一,它

3、的快速发展使其显示出了巨大的商业价值和社会价值。用户已经习惯在微博上获取、分享信息以及发表对于时事热点话题或者产品的观点意见,这些观点往往带有丰富的情感色彩,因此,面向大规模微博数据的情感挖掘具有重大意义。通过情感挖掘可以及时了解用户对舆论热点、产品、政策等的反应,有助于为用户自身、政府机构、企业等提供决策支持。到目前为止,英文微博情感挖掘已经有了大量研究成果,而中文微博的情感分析还处于起步阶段。本文的主要研究工作包括以下几点:1.以用户数最多的微博平台—新浪微博为研究对象,通过其开放平台API获取大规模的原始微博数据,分析了微博数据的特征

4、并比较了微博文本和传统网络文本的不同。2.由于目前尚无高标准的已标注情感信息的微博语料库,本文提出了一种基于表情符号和心理词汇的自动标注微博语料训练集的方法,获取正负情感分类和七类情感分类的训练集,该方法省去了大量的人工标注的负担,减少了传统标注方式对领域、主题和时间等因素的依赖。基于此方法构建了一定规模的语料库。3.本文把微博情感倾向性分类任务主要分为两种,即正负面情感分类和七类情感(高兴、喜爱、惊、焦虑、哀、怒、恶)分类。我们将自动标注好的用于两种分类任务的语料库作为训练集构建微博情感分类器,用以对微博文本进行情感极性分类。4.本文针对

5、上述两种情感分类任务,分别进行了基于n-gram特征项的实验,以及两种特征选择方法(信息增益、卡方统计)和两种分类算法(朴素贝叶斯、支持向量机)的交叉验证实验。实验结果表明,正负情感分类的整体性能优于七类情感分类。在正负情感分类任务中,Unigram特征项的性能优于Bigram;信息增益结合朴素贝叶斯的组合性能最佳。七类情感分类任务中,Bigram特征项的性能优于Unigram;两种特征选择方法结合朴素贝叶斯和支持向量机算法实验时,F-测度值的差异性不大。关键词:微博;情感分析;自动标注;特征选择II万方数据ABSTRACTMicroblo

6、ghasbecomeoneofthemostpopularsocialnetworkingbynetizens,whoserapiddevelopmenthasshownthehugecommercialvalueandsocialvalue.Theusershaveusedtofindandshareinformationfrommicroblogandpublishingtheopinionsofthecurrenthotspottopics.Theseopinionsareoftenattachedwithemotion,theref

7、ore,itisvaluabletoprovidelarge-scaleemotion-miningofthemicroblogdata,whichcantimelyunderstandtheuser’sresponsetothepublichotspots,products,andpolicies,etcandcanprovidethedecisionsupportfortheuser,governmentagenciesandenterprises.Sofar,thesestudiesmainlyconcentrateonmicrobl

8、oginEnglishandthestudiesonmicrobloginChinesearestillinitsinfancy.Themainresearchworksofth

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。