基于文本和社交语境的微博数据情感分类

基于文本和社交语境的微博数据情感分类

ID:38287530

大小:879.95 KB

页数:5页

时间:2019-06-03

基于文本和社交语境的微博数据情感分类_第1页
基于文本和社交语境的微博数据情感分类_第2页
基于文本和社交语境的微博数据情感分类_第3页
基于文本和社交语境的微博数据情感分类_第4页
基于文本和社交语境的微博数据情感分类_第5页
资源描述:

《基于文本和社交语境的微博数据情感分类》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、ISSN1000—0054清华大学学报(自然科学版)2014年第54卷第1O期19/21订丽JTsinghuaUniv(Sci8LTechno1),2014,Vo1.54,No.1o1373—1376,1383基于文本和社交语境的微博数据情感分类吴方照,王丙坤,黄永峰(清华大学电子工程系,北京100084)摘要:微博数据的情感分析具有重要的应用价值和研究些蕴含丰富观点的微博数据进行情感分类具有很高价值,是网络文本挖掘领域的研究热点。微博消息非常短而的应用价值,因此是目前网络文本挖掘的一个热点且稀疏,同时

2、包含大量的不规则词语,噪声很强,给传统的情方向[I-4]。然而,微博数据的情感分析要比传统的感分析方法带来了很大的挑战。受社会科学的相关理论的情感分析面临更多的挑战。首先,微博数据是很短启发,该文尝试利用微博消息的社交语境来帮助解决情感分并且非常稀疏的,通常只包含一两个句子,甚至只有析所面临的稀疏性强和噪声大的困难。由于文本向量的维几个词,因此无法包含足够的信息来进行情感统计度很高,而具有情感倾向的词只占其中较少的一部分,因此和判断]。其次,微博消息中包含了大量的不规则将Lasso方法加进LR(1ogi

3、sticregression)模型中以提高模词和缩写词,如“普大喜奔”等,计算机很难自动地识型的鲁棒性。在真实的英文Twitter数据集上的实验结果表明,加入社交语境和模型的稀疏约束能够有效提高微博数别这些不规则词并区分其情感。据情感分类的准确率。微博数据处于社交网络中,包含丰富的社交语关键词:情感分类;微博;凸优化;L1正则境。因此微博消息问存在一些内在的情感联系口]。例如,有些微博消息是同一个用户所发表的并且谈中图分类号:TP391.1文献标志码:A论相同的话题,那么这些消息间往往具有类似的情文章编

4、号:1000—0054(2014)10—1373-04感倾向。社交网络的好友间对于特定的话题也往往观点一致。许多研究人员发现,一些社会科学的理Microblogsentimentclassificationusing论,如情感一致性(sentimentconsistency)¨6]、社交bothtextandsocialcontext趋同性(homophily)等也存在于在线社交网络中,WUFangzhao,WANGBingkun,HUANGYongfeng并且文E5-1证明利用这些社会学理论对于社交网

5、络(DepartmentofElectronicEngineering,TsinghnaUniversity,数据的情感分析很有帮助。BeUing100084,China)另外,文本数据语料库对应的字典一般都很长,Abstract:Microblogsentimentclassificationisofgreatimportancein往往有几千甚至几万个词,因此对应的文本向量维bothapplicationandresearchfields.However,microbloggingmessagesa

6、reusuallyveryshortandnoisy,whichbringsachallengetotraditional度很高,再加上微博数据固有的稀疏性的特点,给模sentimentclass

7、ficationmethods.Asentimentclass-ficationmethod型的训练带来了困难。然而,真正包含情感倾向的wasdevelopedtoincorporatesocialcontextstoalleviatetheproblem词语只是其中很少的一部分。因此,如果能够自动ofspa

8、rsenessandnoise.Basedontheideaofsparselearning,theLassomethodwasincorporatedinthelogisticregression(LR)model找出这些具有情感倾向的词,不仅可以提高模型的toimprovethemode1robustness.Experimentsonreal—worldTwitter可解释性,也能提高模型的鲁棒性和扩展能力。datasetsdemonstratethatincorporatingthesocial

9、contextandtheLasso方法通过加入模型参数的L1范数的正则modelsparsenessconstraintcanimprovesentimentclassificationperformanceonmicroblogs.项l8],可以有效提高模型的稀疏性,同时进行特征选Keywords:sentimentclassification;microblog;convexoptimization;L1择,滤除不重要的特征,很适合用

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。