基于随机游走的微博数据社团挖掘与分析

基于随机游走的微博数据社团挖掘与分析

ID:33532299

大小:2.05 MB

页数:54页

时间:2019-02-26

基于随机游走的微博数据社团挖掘与分析_第1页
基于随机游走的微博数据社团挖掘与分析_第2页
基于随机游走的微博数据社团挖掘与分析_第3页
基于随机游走的微博数据社团挖掘与分析_第4页
基于随机游走的微博数据社团挖掘与分析_第5页
资源描述:

《基于随机游走的微博数据社团挖掘与分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、万方数据西安电子科技大学学位论文独创性(或创新性)声明秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同事对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。学位论文若有不实之处,本人承担一切法律责任。本人签名:日期:西安电子科技大学关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在

2、校攻读学位期间论文工作的知识产权属于西安电子科技大学。学校有权保留送交论文的复印件,允许查阅、借阅论文;学校可以公布论文的全部或部分内容,允许采用影印、缩印或其它复制手段保存论文。同时本人保证,结合学位论文研究成果完成的论文、发明专利等成果,署名单位为西安电子科技大学。保密的学位论文在年解密后适用本授权书。本人签名:导师签名:日期:日期:万方数据万方数据摘要摘要近年来,社交媒体的快速发展极大程度上影响了人们的日常生活和信息分享方式,特别是新浪微博这类社交媒体的兴起,使得传统人际交往从线下方式转移到线上,大量用户的使用,产生了丰富的用户行为数据,这些数据对用户推荐、电子商务研究起

3、到强大的推动作用,微博数据社团挖掘就是其中一项重要工作。目前社团挖掘研究多应用于生物网络、社交网络数据,而这些方法更多用于挖掘基于拓扑结构、控制关系等的节点集合,但微博数据有着自己独特的属性和研究背景:微博数据中话题热度服从典型幂律分布,这使得传统方法应用于微博数据存在无法挖掘真正需要推荐的话题,这是目前微博网络社团挖掘的根本问题。由于热点话题对用户并不具有良好的区分度,在社团挖掘过程中会影响用户倾向于加入热点话题的所属社团,本文通过分析话题热度分布,发现大部分的热点话题并不能对用户的个性化区分产生积极影响,所以将TF-IDF引入用户-话题关系更新其权重,增加具有较高区分度的话

4、题权重,这使得挖掘的社团更倾向于真正重要的话题及潜在推荐用户。本文根据微博网络用户兴趣和社交互动的多样性,在以用户和话题为结点的话题网络中挖掘重叠社团结构。由于该网络中同时存在用户-用户结构边和用户-话题属性边,引入重启随机游走算法将结构边与属性边统一起来,使得可以在异质网络中进行传统社团挖掘。为了对比分析加入不同信息对社团结构的影响,构建三个不同的话题网络,分别为结构边(用户关注与共同关注)和属性边、结构边(用户关注)和属性边(TF-IDF)、结构边(用户关注与共同关注)和属性边(TF-IDF),并在这三个网络上进行重叠社团挖掘,从不同角度分析得到的社团结构。在真实的微博数据

5、上做了实验仿真,完成了分词、话题提取系统。实验结果表明用户倾向于基于不同的兴趣形成不同的社交圈,不同信息的引入也会对社团的形成产生影响,证实引入TF-IDF修正可以对社团挖掘产生有效的引导,该方法框架能够高效合理的刻画数据集包含的重叠社团结构,并具有良好的可解释性。关键字:微博网络,话题,TF-IDF,重叠社团,随机游走I万方数据西安电子科技大学硕士学位论文II万方数据ABSTRACTABSTRACTInrecentyears,therapiddevelopmentofsocialmediahaveagreatinfluenceonthepeople'sdailylivesan

6、dthewayofsharinginformation,especiallytheriseofSinaWeibo,thetraditionalinterpersonalcommunicationshiftfromofflinetoonline,alargenumberofusersgeneraterichuserbehaviordata,whichpromotetheresearchofuserrecommendationande-commerce,communityminingonbloggingdataisoneoftheimportantwork.Atpresent,co

7、mmunitiesminingismoreusedonbiologicalnetworksorsocialnetwork,themethodsonthosenetworksismorelikelytofindsetofnodesbasedontopologyorcontrolrelationship,butbloggingdatahasitsownuniqueattributesandbackground:Topicinbloggingdataistypicalobeypowerlawdis

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。