基于word2vec的微博情感新词识别与倾向判断研究

基于word2vec的微博情感新词识别与倾向判断研究

ID:35181044

大小:6.64 MB

页数:63页

时间:2019-03-21

基于word2vec的微博情感新词识别与倾向判断研究_第1页
基于word2vec的微博情感新词识别与倾向判断研究_第2页
基于word2vec的微博情感新词识别与倾向判断研究_第3页
基于word2vec的微博情感新词识别与倾向判断研究_第4页
基于word2vec的微博情感新词识别与倾向判断研究_第5页
资源描述:

《基于word2vec的微博情感新词识别与倾向判断研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、巧女学化化义V?基于Word2Vec的微博情感新词识别与倾向判断研究.SV'、?必去斗如隋浩>子\ ̄’'..:’,,,V扣巧护托7^■‘、?‘i.、、j*、一'、'—,S、-'-?>S^,,V>i、?-..卢..VV.,吊:巧%鸿带公t當.三.々、?.、V、\:''’.一I户V.户兴作:-:-‘一.;.r..!自,?.:.;甚乂...,-一'权??J..、?;./?.J一1,V(‘

2、’’.I;:-八i>;:、-'?.1,,-【..ff1,.和。’廣乂^廣學講:;画古心-心.V....;二〇—六年六月'-.:-\\j一.心.钟礎按?■-.请V,中/|''-^|’。。'、、'-=.'‘巧备;/知^本;^.'^二/;7^/.-;VTSl-'I'‘^.'.VV巧谷此.V..记哨取;—‘?-V:■-一'V’、:.^..-占,.又,.巧:.;:..;.;片5分类号密级A_3UDC硕±学位论

3、文基于Word2Vec的微博情感新词识别与倾向判断研究隋浩学科专业信息安全与电子商务指导教师蒋侃教授口日如(6月;论文答辩日期20/16年5月18日学位授予日期午答辩委员会主席陈友初教授级高级工程师广西大学学位论文原创性和使用授权声明本人声明所呈交的论文,是本人在导师的指导下独立进行研究所取得的研究成果。除己特别加W标注和致谢的地方外,论文不包含任何其他个人或集体己经发表或撰写的研究成果,也不包含本人或他人为获得广西大学或其它单位的学位而使用过的材料一。与我同工作的同事对本论文的研

4、巧工作所做的贡献均己在论文中作了明确说明。本人在导师指导下所完成的学位论文及相关的职务作品,知识产权归属广西大学。本人授权广西大学拥有学位论文的部分使用权,目P:学校有权保存并向国家有关部口或机构送交学位论文的复印件和电子版,允许论文被查阅和借阅,可W将学位论文的全部或部分内容编入有关数据库进行检索和传播,可!^采用影印、缩印或其它复制手段保存、汇编学位论文。本学位论文属于:□保密,在年解密后适用授权。囚#保密。""请在[^上相应方框内打V()-论文作者签名:巧炎曰期;—^一口

5、^1指导教师签名>:日期山?/^’作者联系电话:电子邮箱;基于Word2Vec的微博情感新词识别与倾向判断研究摘要如今一一网络文,信息在网络上W爆炸的形式产生,信息的主要载体本承载着网民的情绪、观点与意见,分析这些文本,对于政府来说,可及时了解公共舆惰并引导舆论导向,可化及时发现自身问;对于企业来说题并改进企业服务。目前常用的情感词典并不能有效覆盖所有常用情感词。微博等新媒体逐渐流行,导致网络语言碎片化、新词不断产生和传播,给文本倩感分析带来了困难。本文立足于识别情感词典中未包含的情感新词。

6、,并判断其情绪倾向具体的研巧内容如下:1)微博语料的特征分析及情感词识别工作的预处理。为了保证情感词识别的准确率,同时又识别更多的情感词语,本文在实验过程中,针对微博语料的特点,制定了数据清洗方案、新词识别方案,构建了表情符号情感词典。2)基于词向量计算词语相似度并识别情感词。词向量是指将文本中的词语表示成空间向量的形式,这种方案在转化过程中考虑了词语出现的语境和搭配关系,可W保留更多的自然语言信息。本文将借助Word2Vec工具,将大规模微博语料中的词汇向量化,然后计算词语在多维空间中的距离,一些

7、近义词识别词语间的相似性。然后根据词语的最相近的,判别词语的是否是情感词,W及词语的倾向。I3)结合词共现与词向量相似度识别倩感词。基于词共现识别情感词与基于词向量相似度识别情感词是两种不同的思想。前者依据词语分别与正面种子词和负面种子词共现的频率来判断词语倾向,后者利用词语上下文的语境将其转化为向量形式,再根据词语与基础情感词的近义关系判断词语倾向。本文把两种情感词识别方法结合起来,基于词向量的方法为主,W基于词共现的方法为辅,过滤低频词和低可信度的结果,对冲突结果采用线性加权处理,在保证正确率的

8、同时,寻求识别更多的情感新词。综上所述,本文将对大规模微博语料进行分析,首先利用词向量工具,根据词语与基础情感词的近似关系一,提出套情感新词识别与倾向判断方案。然后,将两种不同的情感词识别与倾向判断的思想结合

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。