主题概率模型在微博主题挖掘方面的研究综述

主题概率模型在微博主题挖掘方面的研究综述

ID:34404915

大小:315.00 KB

页数:8页

时间:2019-03-05

主题概率模型在微博主题挖掘方面的研究综述_第1页
主题概率模型在微博主题挖掘方面的研究综述_第2页
主题概率模型在微博主题挖掘方面的研究综述_第3页
主题概率模型在微博主题挖掘方面的研究综述_第4页
主题概率模型在微博主题挖掘方面的研究综述_第5页
资源描述:

《主题概率模型在微博主题挖掘方面的研究综述》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、8主题概率模型在微博主题挖掘方面的研究综述陈静1*,刘琰1,王煦中2(1.解放军信息工程大学网络空间安全学院,河南省郑州市450001)(*1923542221@qq.com)摘要:近年来,微博凭借着自身的特点发展成为社会公共舆论的重要平台,对国家安全和社会发展产生了深远的影响,由此对微博文本主题提取显得格外重要。目前,文本主题挖掘的主流技术是主题概率模型。为此,首先对主题概率模型中LDA模型进行了详细地介绍;其次分析了微博的数据特点,从三个方面:存在噪音词汇、微博文本短小以及微博的时序性综述了主题概率模型在微博主题挖掘方面的研究;近一步,又综述了利用主题模型发现基于主题的

2、社团关系的研究;最后总结了未来主题模型在挖掘微博主题方面存在的挑战。关键词:微博;主题概率模型;主题;主题提取;社团发现;中图分类号:TP301  文献标志码:AResearchonApplicationofProbabilityTopicModelinMicroblogTopicMiningCHENJing1*,LIUYan1,WangXu-zhong1(1.CollegeofCyberspaceSafety,InformationEngineeringUniversityofthePeople’sLiberationArmy,Zhengzhou,450001,China

3、)Abstract:Inrecentyears,microbloghasbecomeanimportantplatformofsocialpublicopinionwithitsowncharacteristics,whichcaninfluencenationalsecurityandsocialdevelopment..Soitisveryimportanttoanalysisthetopicsofmicroblog.Currently,themaintechnologyoftopicminingintextisprobabilitytopicmodel.Firstly

4、,theLDAtopicmodelwasintroducedbriefly.Next,thepaperanalyzedthecharacteristicsofthemicroblogdataandsummarizedtheresearchworksonapplicationofprobabilitytopicmodelinmicroblogtopicminingfromthreeaspects:shorttext,noiseremovalandthetimingofmicroblogtext.Inaddition,theapplicationofprobabilitytop

5、icmodelinmicroblogcommunitydiscoverywasintroduced.Finally,someexistingchallengewerepointedout.Keywords:microblog;probabilitytopicmodel;topic;topicmining;communitydiscovery80引言近年来,随着以微博、社交网站为代表的社会媒体的出现和迅速发展,使得人类能够在互联网上“贡献”内容或分享数据。而微博由于其平台的开放性和内容简洁性等特征,正成为人类社会中社会关系维系和信息传播的重要渠道和载体。同时由于微博内容可以通

6、过各种通讯手段诸如手机等实时发布,容易在短时间内产生大量数据,通常这些数据杂乱无章,很难及时准确地获取感兴趣的信息。因此,微博主题提取的研究开始倍受关注。主题发现属于自然语言处理领域的一个新的研究方向,它能够将属于同一个主题下分散的信息有效的汇集并组织起来,从而帮助用户在大规模数据中快速准确地找到自己感兴趣的信息。虽然传统基于向量空间模型(VSM)的方法在主题提取方面得到了广泛地应用,且效果不错,但将其应用在大规模微博文本主题发现时仍然存在着不足。例如用特征词表示微博文本时会出现维度过高、稀疏等问题,由于向量空间的维度规模直接影响计算的复杂度,所以这样会导致复杂度过高。因此

7、,目前很多学者正尝试着将主题概率模型应到微博主题挖掘中。本文第1节对主题概率模型的主要内容进行归纳;第2节简单分析了微博的数据特点,第3节基于微博数据的特点从三个方面:文本短小性、噪音消除、微博的时序性总结了主题概率模型的在微博主题提取方面的研究现状,第4节总结了主题模型在微博基于主题的社团关系发现的拓展应用,最后指出了未来主题概率模型应到微博主题提取所面临的挑战。80主题概率模型简介主题概率模型当中,主题表现为一系列相关单词的条件概率分布。每篇文档是由多个主题混合而成的,即文档在所有主题上的概率分布,这样文档、词

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。