微博属性相似度测量实证研究

微博属性相似度测量实证研究

ID:46304087

大小:225.66 KB

页数:3页

时间:2019-11-22

微博属性相似度测量实证研究_第1页
微博属性相似度测量实证研究_第2页
微博属性相似度测量实证研究_第3页
资源描述:

《微博属性相似度测量实证研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、剥嘲弱雕雕;霪l引:;雕;;{{!㈧黪雕瓢戮瓣㈦弼矧{

2、

3、

4、

5、

6、{

7、

8、

9、;

10、

11、

12、{缓㈧髓

13、

14、

15、;

16、剿㈦铡嘲糍骥DOI:10.39696.issn.1003-1154.2015.02.033微博属性相似度测量实证研究口刘铁英张小莉(河北大学计算中心,河北保定071002)[摘要]在对微博用户关系进行深入分析的基础上,得出了可以度量用户关系强度的背景信息、用户信息、社交信息和交互信息等四个影响因素,并提取了用户可量化变量,给出了微博属性相似度的计算方法,并且实证测量了算法的效果。实验结果显示:社交信息的相似度排

17、序准确率及P@N的实验效果是最佳的,实验结果的产生是由于文本信息的不完整性、随意性和兴趣特征抽取的难度性,以及微博结构性信息的特点造成的,其中文本信息的特点起消极作用,微博结构信息特点起积极促进作用。[关键词]微博;用户关系;社交信息[中图分类号]17272.7—39[文献标识码】A[文章编号]1003-1154(2015)02-0096-03新浪微博信息的传播用户和网民的影响越来越广泛,如何有针对性地为用户提供信息,又如何区分不用类别的用户,成了众多学者研究的问题,问题的关键所在,是微博属性相似度的精确测

18、量。黄或⋯将相似度度量的概念加以推广和扩充,从数据空间覆盖关系的角度,提出一种新的相似性度量方法,采取有序的树匹配思想,提出了基于页面结构相似性度量的WEB页面聚类方法,对微博属性相似度的测量有一定的借鉴性。为了提高微博属性相似度测量的精度,本文度量用户关系强度的背景信息、用户信息、社交信息和交互信息等四个影响因素,并提取了微博用户的地理位置、个人标签、个人描述、资料信息、社交信息、微博文本、关注信息、粉丝信息、转发信息和评论信息等可量化变量,在此基础上给出了微博属性相似度的计算方法,得到了更为精准的微博属

19、性相似度测量方法。一、微博用户关系概述新浪微博是中国最大的微博客平台,根据文献对互联拓扑结构的阐述r2],再结合微博用户之间的关系,可以发现微博用户之间的拓扑形式更为明朗。由于同一属性的微博用户有着一定范畴的信息传播,不同属性微博用户的信息传播存在着较大的差异性,为了对微博用户属性进行划分,并对这种属性用户进行分析研究,就面临着属性相似度的测量。因此,首先对微博用户之间的关系进行定性概述,以期为本文微博属性相似度测量奠定基础。[基金项目]国家自然科学基金面上项目(61272109)微博用户在社交网络信息传播

20、的传播结构可以看作是一个拓扑结构。本文数据从新浪微博数据库中提取。为了更为形象的表述微博用户关系分析的技术平台,以图1为微博用户关系分析技术平台示意图,图1中各符号的示意如表1所示。图1微博用户关系分析技术平台示意图表1图1中符号释义一览表符号释义符号释义符号释义A微博数据获取A2徽博爬虫D2徽博团体挖掘B徽博节点分析A3傲博数据库Bll背景信息C傲博关系分析BI微博用户信息B12散博文本D徽博网络分析B2微博用户表示B13社交信息O可视化输出Cl背景相似度B14交互行为SAC属性相似度计算(12文本相似度

21、C2l背景表示AC用户相似度计算C3社交相似度C22文本向量T傲博人物推荐c4交互性c23社交向量A1种子节点列表D1用户相似性网络c24交互频次向量二、微博属性相似度计算原理由图1和表1可知,微博属性相似度的计算分为囝管理现代化三个环节。环节l,数据的获取。首先选择一组微博用户作为种子节点,并将其加入待爬行节点队列。若待爬行队列超过了阈值,则退出,否则从队列中取出一个用户,然后利用新浪微博API访问函数,抓取该用户节点的个人信息,并将用户的背景信息、社交信息、微博文本和交互信息存人微博用户信息数据库,最后

22、扩展该节点,并将邻接节点加入待爬行队列,依次循环。其中:背景信息包括位置信息、标签信息和个人描述,社交信息包括关注信息和粉丝信息,交互信息包括转发信息和评论信息。此外微博用户的种子节点集合如式(1)所示,待爬行节点队列用Q表示{IDl,ID2,⋯,ID。}(1)环节2,节点的分析。对于节点分析的内容分别是背景信息Background(x)、文本信息Tweet(y)、社交信息Relation(z)和交互信息Interaction(u),上述四种信息的表达方式如式(2)所示:B(x)=Background(x)

23、=lPlace(x),r.g(x),Introduction(x)}R双(力z)抛=Rela以tio"n(《z)淼=Follo—we’笼e,,Follower(z,}㈣(:),)}l(u)=Interaction(u)={Retweet(u),Comment(u)}式(2)中Tweet(y)的每个特征词i的权重),。采用如式(3)所示的方法计算;在Relation(彳)中对用户进行O-n的编号,若用户z关注了编号

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。