基于语义相似度计算及twitter storm平台的微博检索研究

基于语义相似度计算及twitter storm平台的微博检索研究

ID:33567322

大小:3.33 MB

页数:72页

时间:2019-02-27

基于语义相似度计算及twitter storm平台的微博检索研究_第1页
基于语义相似度计算及twitter storm平台的微博检索研究_第2页
基于语义相似度计算及twitter storm平台的微博检索研究_第3页
基于语义相似度计算及twitter storm平台的微博检索研究_第4页
基于语义相似度计算及twitter storm平台的微博检索研究_第5页
资源描述:

《基于语义相似度计算及twitter storm平台的微博检索研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于语义相似度计(申请工学硕士学位论文)算及TwitterStorm基于语义相似度计算及TwitterStorm平台的微博检索研究平台的微博检索研究培养单位:计算机科学与技术学院学科专业:计算机应用技术肖慧研究生:肖慧璠璠指导老师:钟珞教授武汉理工2014年4月大学万方数据分类号密级UDC学校代码10497学位论文题目基于语义相似度计算及TwitterStorm平台的微博检索研究英文题目ResearchoftwitterretrievalbasedonsemanticsimilaritycomputingandTwitterStormpl

2、atform研究生姓名肖慧璠姓名钟珞职称教授学位博士指导教师单位名称计算机科学与技术学院邮编430070姓名李琳职称副教授学位博士副指导教师单位名称计算机科学与技术学院邮编430070申请学位级别硕士学科专业名称计算机应用技术论文提交日期2014年4月论文答辩日期2014年5月学位授予单位武汉理工大学学位授予日期答辩委员会主席邹承明评阅人袁景凌、宋华珠2014年5月万方数据独创性声明本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究

3、成果,也不包含为获得武汉理工大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名:日期:学位论文使用授权书本人完全了解武汉理工大学有关保留、使用学位论文的规定,即学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位论文的全部内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有关机构或论文数据库使用或收录本学位论文,并向社会公众提供信息服务

4、。(保密的论文在解密后应遵守此规定)研究生(签名):导师(签名):日期万方数据摘要随着互联网在国内外的飞速发展,微博作为一款在世界各地被广泛使用的互联网社交产品具有跨时代的意义。它在为用户提供开放和集中的互联网社交服务的同时,逐渐发展为具有较大影响力的新媒体。鉴于微博数据的大规模及实时的特点,如何在海量及动态更新的微博数据中为用户提供其感兴趣的内容显得尤为重要。本文所讨论的基于特征扩展和相似度计算的微博检索的内容包括:1、扩展微博短文本的内容,丰富微博的语义特征,为检索结果与检索关键字在语义上的相关性提供保障。2、利用WordNet机器语

5、义字典的网状结构得到较准确的微博语义相似度值。3、以相似度值的高低作为检索排序的标准来模拟一个实时的微博检索过程,能够完成对关键字的微博检索,并为每一个检索到的微博提供相关微博的列表。在丰富微博语义方面,本文提出基于维基百科的语义特征扩展方法,该方法将微博中的名词作为表达微博主题的关键词,对名词进行关联拓展以丰富微博的信息内容。具体地,本文将维基百科作为语义特征的扩展源,将名词词条中的“category”模块下所包含的类别作为扩展语义特征添加到原微博中来丰富微博语义,并通过实验证明使用该语义扩展方法能够在一定程度上提高相似度计算结果的质量

6、。在获取较高准确度的微博相似度值方面,本文利用了普林斯顿大学开发的英语词网数据库WordNet的网状结构得到基于微博语义的相似度。具体地,我们使用[37]中提出的基于路径长度的方法,同时考虑两个单词以及它们的最近公共节点在WordNet中距离根节点的路径长度(深度)来计算语义相似度,在实验中与基于VSM的余弦相似度方法做比较证明该方法能够在一定程度上提高找到相关微博的准确度与召回率。在模拟实时微博检索方面,本文研究了开源及实时的数据处理平台TwitterStorm的架构及应用,采用本地模式模拟数据的实时和分布式处理。具体地,本文定义了自己

7、的微博检索拓扑结构,并实现拓扑结构中的每个节点功能,包括twitter数据集的预处理、节点间信息传输、多节点的相似度的并行计算与相似度表的维护、基于相似度值的检索结果排序,以及为每个检索结果提供相关微博等,从而将微博检索排序嵌入到了TwitterStorm平台上。关键字:微博,语义扩展,相似度计算,WordNet,TwitterStormI万方数据AbstractWiththerapiddevelopmentoftheInternetindustry,micro-bloggingproductsaregainingpopularitybo

8、thathomeandabroad.Theyhavegraduallydevelopedintoanewtypeofmediaholdingincreasinglyhighinfluenceb

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。