微博热点话题发现的研究

微博热点话题发现的研究

ID:34587052

大小:5.37 MB

页数:74页

时间:2019-03-08

微博热点话题发现的研究_第1页
微博热点话题发现的研究_第2页
微博热点话题发现的研究_第3页
微博热点话题发现的研究_第4页
微博热点话题发现的研究_第5页
资源描述:

《微博热点话题发现的研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、中文摘要摘要:微博平台作为WEB2.0时代的新产物,近年来得到了快速发展。由于其方便快捷的消息传播模式,越来越多的信息充斥着微博平台,如何实现微博平台中的信息的发掘、提取和分析是研究热点之一。本文研究的微博平台中热点话题发现的问题,具有较强的社会和现实意义。本文的主要工作如下:l、通过研究微博文本的特点,结合以往长文本聚类的研究,针对微博短文本不能直接使用传统的长文本聚类算法的问题,提出了基于微博评论文本的文本扩展和基于HowNet语义扩展的双重方案,评论文本扩展弥补了微博文本短小、表达多样化的缺点;HowNet语义扩展解决了扩展文本长度不均匀对

2、聚类结果的影响。同时,在基于微博评论的文本扩展处,提出了基于微博文本簇的评论筛选方法,并且针对不同类型的评论应用了不同的扩展方案。2、针对微博文本的特点,在层次聚类和基于划分的聚类算法的基础上提出了基于BIRCH算法初始化的K-means算法。该算法解决了K-means算法需要手动设置聚类参数k的问题,并优化了初始聚类中心的选择,有效的减少了K—means算法的迭代次数:并且由于BIRCH算法对噪声有很好的识别性,因而增强了算法整体的抗噪性。3、研究了微博热点话题的特征、传播过程,分析了影响微博热度的各个因素,并根据影响因素,结合用户分类,提出了

3、话题热度的评估模型和详尽的话题热度计算公式。论文最后根据上文提到的理论研究,使用JAVA设计实现了微博热点话题发现系统,并通过B/S模式对得出的热点话题进行了展示,通过对新浪微博数据的应用,可以得到较好的效果。论文的工作得到了国家自然科学基金(No.61172072,61271308)、北京市自然科学基金(No.4112045)、高等教育博士点基金(No.W11C100030)、北京科技计划(No.z121100000312024)和北京市教育委员会学科建设与研究生建设项目等课题的支持。关键词:微博短文本;聚类;热点话题分类号:TP391.1北京

4、交通大学硕士学位论文ABSTRACTABSTRACT:AsaproductofWEB2.0,micro-blogisdevelopingrapidlytheseyears.Moreandmoreinformationspreadonthemicro—blogbecauseofitshighspeedandconvenience,socialhotspotsandnewseventsincluded.Asaresult,discovering,extractionandanalyzinginformationbecomeresearchinghot

5、spots.Thispaperresearchabouthowtodiscoverhottopicsinthemicro-blogissignificant.Thispaperincludes:1.Bystudyingmicro—blogtextandlongtextcluster,thisarticledrawsaconclusionthattraditionalclusteralgorithmscannotbeusedtodiscovertopicsbecauseofthelengthoftext.Therefore,thisarticlep

6、roposesasolutionwhichisbasedontheexpansionofthecommentsandHowNetlexeme.Bythismethod,theshorttextanddiversifiedexpressionCanbeovercome.Besides,thisarticleproposesasolutionwhichisbasedontextcluster.2.Thisarticleresearchesfortraditionalclusteralgorithmsandanalysistheirfeatures.A

7、imingatmicro-text’Sfeatures,thisarticleproposesaK-meansalgorithmbasedonBIRCHinitialization.Thisalgorithmsolvestheproblemthatsettingtheparameterkmanuallyandoptimizestheoptionsoftheclustercenter.Furthermore,thenoiseimmunityofthealgorithmisimprovedandK-meansalgorithmreducesthein

8、fluenceoftheresultsfromtheinputordeL3.Thisarticlestudiesthefeatureso

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。