基于云计算的微博舆情监控系统研究

基于云计算的微博舆情监控系统研究

ID:35059931

大小:3.45 MB

页数:68页

时间:2019-03-17

基于云计算的微博舆情监控系统研究_第1页
基于云计算的微博舆情监控系统研究_第2页
基于云计算的微博舆情监控系统研究_第3页
基于云计算的微博舆情监控系统研究_第4页
基于云计算的微博舆情监控系统研究_第5页
资源描述:

《基于云计算的微博舆情监控系统研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于云计算的微博舆情监控系统研究2013霍可栋硕士控制科学与工程邢玲ClassifiedIndex:TP391U.D.C:004.77SouthwestUniversityofScienceandTechnologyMasterDegreeThesisResearchonMicroblogpublicopinionmonitoringsystembasedonCloudComputingGrade:2013Candidate:HuoKedongAcademicDegreeAppliedfor:MasterSpeciality:ControlscienceandEngineeringS

2、upervisor:XingLingApr.13,2016独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研巧工作及取得的研究成果。尽我所知,除了文中特别加1^^标注和致谢的地方外,雄文中不包含其他人百经发表或撰写过的研究成果,也不包含为获得西南科技大学或其一它教育机构的学位或证书而使用过的材料。与我同工作的同志对本研究所做的任何贡献巧己在论文中作了明确的说明并表示了谢意。整名:曰期;M秦手游//关于论文使用和授权的说明目P本人完全了解西南科技大学有关保留、使用学位论文的规定,;学校有权保留学位论文的复印件,允许该论文被查阅和借阅;学校可

3、抖公布该论文的全部或部分内容,可^Jl采用影印、缩印或其他复制手段保存论文。l(保密的学位论文在解密后应遵守此规定)签名;中猶导师签名曰期:磅/袭恢/西南科技大学硕士研究生学位论文第II页摘要目前,社会中的很多热点话题往往都是从微博开始传播,如何从微博中发现热点话题并对热点话题做舆情分析,是非常有现实意义的工作。本文针对微博舆情的特点,研究了微博舆情监控系统的实现方法。介绍Hadoop平台处理大数据的优势和原理,实现了数据采集、文本模型表示、话题发现以及舆情分析的功能。本文的主要工作和研究内容如下:第一,本文在数据采集模块采用新浪微博API和网络爬虫技术相结合实现微

4、博数据采集。基于微博热搜词检索实现相关微博的定位,能够在短时间内获取大量领域相关的微博数据。第二,在热点话题发现方法的改进上,采用了基于新词发现的微博文本主题发现方法,将其分为三个步骤:中文分词、LDA主题建模、主题聚类。在中文分词环节,加入了新词发现模块,提高了分词准确率。在建立文本模型时,采用LDA主题模型,提高了话题发现的准确率。第三,为了提高LDA建模的准确度,在构建文本模型前加入文本分类模块,解决了原有的话题发现方法在应用于微博文本时精度不高以及将同一关键字下的不同话题混淆的问题。本文基于实际的新浪微博数据实现热点话题发现、话题传播路径、内容倾向性分析、社会网络分析功能进行

5、测试、分析。最后本文针对系统的缺陷,对未来的工作做展望。关键词:微博Hadoop平台新词发现话题发现舆情监控西南科技大学硕士研究生学位论文第III页AbstractRecently,themethodoffindingtopicfrommicroblogandopinionmonitoringanalysisofthesetopicswerepracticalsignificant,becausemanysocialhottopicsoftenbeginwithmicroblog.Thisarticlestudytheimplementationofthemicroblogpubli

6、copinionanalyticsbasedonthecharacteristicsofmicroblog.TheadvantagesofHadoopplatformindataprocessing,datacollectiontechnology,textmodeling,clusteringalgorithmandrealizationofpublicopinionfunctionwereintroducedinthispaper.Themainworkisasfollows:Firstly,inthispaper,microblogdataiscollectedbymicrob

7、logopenAPIinterfaceandwebcrawler.Theachievementofdataacquisitionisbasedonthesearchofthehotsearchterms.Atthesametime,wegetalargenumberofmicroblogdatainashortperiodoftime.Secondly,inthethemediscoveryofmicroblogtext,thediscoveryofnew

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。