基于实体的海量数据在线检索关键技术研究

基于实体的海量数据在线检索关键技术研究

ID:26765458

大小:1.75 MB

页数:71页

时间:2018-11-29

基于实体的海量数据在线检索关键技术研究_第1页
基于实体的海量数据在线检索关键技术研究_第2页
基于实体的海量数据在线检索关键技术研究_第3页
基于实体的海量数据在线检索关键技术研究_第4页
基于实体的海量数据在线检索关键技术研究_第5页
资源描述:

《基于实体的海量数据在线检索关键技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文基于实体的海量数据在线检索关键技术研究RESEARCHONONLINERETRIEVALTECHNIQUESFORMASSIVEDATABASEDONENTITY张晓东哈尔滨工业大学2014年6月万方数据国内图书分类号:TP315学校代码:10213 国际图书分类号:004.4密级:公开工学硕士学位论文基于实体的海量数据在线检索关键技术研究硕士研究生:张晓东导师:樊文飞申请学位:工学硕士学科:计算机科学与技术所在单位:计算机科学与技术学院答辩日期:2014年6月授予学位单位:哈尔滨工业大学万方数据ClassifiedIndex:

2、TP315U.D.C:004.4DissertationfortheMasterDegreeinEngineeringRESEARCHONONLINERETRIEVALTECHNIQUESFORMASSIVEDATABASEDONENTITYCandidate:XiaodongZhang Supervisor:WenfeiFanAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerScienceandTechnologyAffiliation:SchoolofCompu

3、terScienceandTechnologyDateofDefence:June,2014Degree-Conferring-Institution:HarbinInstituteofTechnology万方数据哈尔滨工业大学工学硕士学位论文摘要在网页信息迅速爆炸的时代,为提高用户的检索效率,对网络数据进行有效的整合成为了一个重要的研究课题。网络数据呈现半结构化状态,如商品数据、博客等,并且数据来自世界各地,语言习惯的不同导致描述方式也可能不一致,因此处理起来会比较困难。现有的实体识别方法多是针对文本形式的词组或是关系数据,无法处理网络数

4、据的问题,而专门针对网络数据设计的实体识别算法,如多数针对商品数据设计的实体分类算法,它们一般存在如下的不足:第一无法满足时间效率的要求,即这些方法如果用到实际工程系统中,用户需要经历很长的等待时间;第二对领域知识有较大的依赖,现有的方法无法做到领域无关且无先验知识的实际要求;第三实体识别效果不好,无法取得类似关系数据上的效果。针对以上问题,本文在以商品数据为研究对象的前提下,提出了一种基于实体的海量数据在线实体分类方法。本文采用属性提取的方法将半结构化的商品结构化,以此来计算商品间的相似度,在此基础上又提出了两种优化方案,即通过网络的分类

5、优化和基于用户反馈的分类优化。在属性提取方面,本文提出了基于模式和基于距离的两种方法,该方法无需先验知识且无需人为监督,最终提取出属性的同时还生成了两个本地知识库,用于优化后续的分类结果;针对提取的属性信息,本文提出了同义词发现算法,用于排除商品描述中的笔误以及用词习惯不同的问题;结合属性信息,本文提出了全新的相似度度量方法,并依此将商品按实体聚类;对于实体聚类的结果,本文提出了基于网络的优化方案,利用网络上的知识去识别跟多的商品属性信息;本文还提出了基于用户反馈的优化方案,提出了针对三种不同用户行为的优化方法;最后本文结合真实的商品数据,

6、通过大量的实验验证了本文算法的有效性,同时在理论研究的基础上搭建了一个基于实体的在线商品检索系统,验证了本文算法在工程上的实用性。关键词:实体识别;电子商务;用户反馈;信息检索-I-万方数据哈尔滨工业大学工学硕士学位论文AbstractWiththeincreasingofwebinformation,itisaseriousresearchissuetomakeaintegrationofwebsearchresultstoimproveusers’efficiencyofretrieval.Webinformationalwaysisi

7、nthestateofsemi-structured,suchasblog,products.Andit’sfromallovertheworldwithdifferentwritinghabitswhichmakesithardtorecognizethesameentitiesfromretrieveresults.Mostexistingentityresolutionmethodsareforstructureddataorrelationaldata.Somealgorithmsthatdesignedforwebdatasuch

8、asproducts,theyhavealotofshortages:first,theycannotmeettherequirementoftimeefficiency;sec

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。