面向大数据集成的实体识别关键技术研究

面向大数据集成的实体识别关键技术研究

ID:33876559

大小:9.48 MB

页数:79页

时间:2019-03-01

面向大数据集成的实体识别关键技术研究_第1页
面向大数据集成的实体识别关键技术研究_第2页
面向大数据集成的实体识别关键技术研究_第3页
面向大数据集成的实体识别关键技术研究_第4页
面向大数据集成的实体识别关键技术研究_第5页
资源描述:

《面向大数据集成的实体识别关键技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、万方数据分类号UDC密级学位论文面向大数据集成的实体识别关键技术研究作者姓名:李文杰指导教师:聂铁铮副教授东北大学信息科学与工程学院申请学位级别:硕士学科类别:工学学科专业名称:计算机软件与理论论文提交日期:学位授予日期:评阅人:2014年6月2014年7月寇月宋宝燕论文答辩日期:答懒链席:东北大学2014年6月申德荣万方数据AThesisinComputerSoftwareandTheorylIllllIIlllIlllllIlllIIIIlY2995144ResearchonKeyTechniquesofEntityResolutionforBigDataIntegrationbyLi

2、WenjieSupervisor:ProfessorNieTiezhengNortheasternUniversityJune2014万方数据独创性声明本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得的研究成果除加以标注和致谢的地方外,不包含其他人己经发表或撰写过的研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示诚挚的谢意。学位论文作者签名:/参夸勿日期:≥o』忱6.V砂学位论文版权使用授权书本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论文的规定:即学校有权保留并向国家有关部门或机构送交论

3、文的复印件和磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部或部分内容编入有关数据库进行检索、交流。作者和导师同意网上交流的时间为作者获得学位后:半年口一年口一年半口学位论文作者签名嬲签字日期:沙j咏6-1涉两镱∥导师签名:签字日期:咎次哆沙f牛.‘._砂万方数据东北大学硕士学位论文摘要面向大数据集成的实体识别关键技术研究摘要现代互联网每日产生大量的数据,引发了对大规模数据处理的需求。面对海量的数据,研究者们提出了新形式的分布式文件存储系统,并且基于文件系统之上提出了并行的计算方式解决大数据带来的计算效率的挑战。最具代表的是Google提出的MapReduce并行计算模型与

4、基于BSP计算模型的图数据处理引擎Pregel,使得很多基于大数据的最常见计算能够在大规模计算集群中得以高效的实现。实体识别(EntityResolution)是指在判断一个或多个数据源中两个不同记录是否描述同一实体,有时也被称作记录连接(RecordLinkage)。在数据集成中,实体识别被用于数据清洗(DataClean)的去重(Deduplication)和数据集合的相似连接(SimilarityJoins)等操作中。实体识别技术可被广泛应用于人口普查、引文识别、Web搜索、数据清洗以及剽窃检验等诸多领域。然而随着数据集规模的日益增大,集中式处理几百GB数据时已经出现性能瓶颈,更不用

5、说TB、PB级别。由于实体识别的关键技术可以采用并行计算模型进行分布式处理,因此采用MapReduce计算模型和BSP计算模型能够很好地处理大规模数据集上的实体识别问题,提高执行效率。本文针对实体识别的关键技术进行了研究,提出了基于MapReduce计算模型的实体匹配策略和基于BSP计算模型的相似子图构建策略。实体识别的处理过程可以分为两个阶段:实体匹配和实体合并。实体匹配从数据源中发现所有满足阈值约束的相似记录对。实体合并划分实体匹配过程发现的相似记录对,形成相似子图集合,合并相似子图记录。在实体匹配阶段,本文在PPJoin算法的基础上提出了基于映射表和基于二分查找的新方法,通过采用映射

6、表和二分查找替代倒排索引,在保持原有算法过滤效果的同时,加快了记录间相似度验证的速度,有效提高了记录匹配的效率。针对相似子图构建,本文提出了基于BSP计算模型的新方法,利用超步迭代取代了基于MapReduce计算模型的作业迭代,利用异步通信减少了迭代次数,通过节点数量控制实现了迭代控制,有效提高了相似子图构建的效率。对于提出的基于MapReduce计算模型的实体匹配策略和基于BSP计算模型的相似子图构建策略,本文基于Hadoop和Hama平台,采用ACM和DBLP的真实数据集进行了实验。针对实体匹配,我们比较了相同实验条件下基于映射表和基于二分查找的算法与PPJoin算法在Hadoop平台

7、上的性能,实验结果表明基于映射表和基于二分查找的算法相比较PPJoin算法在性能上有了很大提升,并且在不同相似度阈值的情况下表现稳万方数据东北大学硕士学位论文摘要定。对于相似子图构建,我们比较了基于MapReduce计算模型和基于BSP计算模型算法在Hadoop和Hama平台上的性能,实验结果表明基于BSP计算模型算法的性能要明显好于基于MapReduce计算模型算法的性能。关键词:实体识别;MapReduee;BSP;

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。