相似重复记录清理方法研究综述

相似重复记录清理方法研究综述

ID:46260225

大小:361.66 KB

页数:21页

时间:2019-11-22

相似重复记录清理方法研究综述_第1页
相似重复记录清理方法研究综述_第2页
相似重复记录清理方法研究综述_第3页
相似重复记录清理方法研究综述_第4页
相似重复记录清理方法研究综述_第5页
资源描述:

《相似重复记录清理方法研究综述》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、《现代图书情报技术》版权所有.欢迎下载引用!诸注明引用地址:相似重复记录淸理方法研究综述[J],现代图书情报技术,2010(9):56-66.情报分析与研究相似重复记录清理方法研究综述叶焕倬吴迪(中南财经政法人学信息与安全工程学院信息系武汉430073)【摘要】介绍相似重复数据清理的步骤、框架和衡暈标准。重点对检测和清除算法按照算法类型及相关改进思路进行分类综述,给出算法的适用范围和优缺点,概括现有的数据淸理工具(如Mere/ure)。对相似重笈记录清理领域的研究问题进行展與,将知识和语义的概念引入到数据清理框架中是未来重要

2、的发展趋势。【关键词】相似重复记录数据清洗检测算法清除算法【分类号】G202TP39.I.1ASurveyofApproxiat1Dup1catDatC1anigMetodYeHuanzuoWuDi(DeParmentofIfraton,SchooIoflfratonandSaftEngieerngZhongnanUnieriyofEconomisandLawWuhan430073,Chia【AbsractThipaperitoducestesepsfameworsandmetisofapprxiatldup1catdatc

3、1anig・Then,tedetctalortmsandteelmiatonalortmsarsreyedesentalyaccorigttpeandteiip『ycmentmctodsandtealortmsusgesopeandteiadvantgEsanddiadvantgesargien.Manydatc1anigto1arprsntd,schasMere/ure・Fial,idicusesteflrrsarhtpisidatclanigandpoitouttalleconceplofknowldgeandsmant

4、cusditefameworofdatc1anigwilbeaniporanttend・[KeywordsApprxiat1dup1catdatDatc1anigDetcta1ortmE1miata1ortm1引言随着信息技术的不断发展和信息化建设的不断深入,企事业单位、图书馆等在进行信息系统集成和重构时,数据库中积累了大盘的脏数据。如何将脏数据有效转化成高质盘的干净数据是系统要解决的首要问题,这涉及到数据清理的技术。数据清理(DatClanigDatClansng或DatScrbbi厂也称为数据清洗,目的是检测数据中存在的

5、错误和不一致,剔除或者改正它们,以提高数据的质就[门。脏数据按其不同的表现形式可具体概括为不完整数据、相似重复数据和错误数据三种类型n.2jo其中多数据源介并造成的信息重复是最关键的问题,因此重复信息的检测和清除成为一个研究的热点[3.4]。2相似重复记录清理概述2.1数拯质量问题的分类进行数据清理的最终目的是提高数据的质量,数据质量问题在微观层面分为单数据源(Sig1—Sou『)和多收稿日期:2010-07-12收修改稿日期:2010-08-18本文系国家自然科学基金资助项目“持续审计中智能数据处理及其应用框架研究”(项目

6、编号:70972138)和湖北省教育厅人文社会科学基金项目“基于SOA和MAS的金題监管信息系统总休框架研究”(项目编号:20096080)的研究成果之一。tvstL]snrht,rkrc9gihh••in1giheuvhg•hachrugpgnytshuueeeceienhrke1]omeyieeeehh♦ominomiey)nmeyiechdnoyhrm0h,Veoseieeeocneshhmtrgihinegih总第197期2010年第9期数据源(Muii-Soure)分别在榄式层(SchemaLeve1和实例层(Is

7、anceLevel上的问题[1,5]了单数据源和多数据源在实例层上错谋记录的具体实例,如无效的数据值、重复记录等。木文主要考虑实例层上重复数据的问题。2.2相似重复记永淸理的步骤其中t为正确识别岀的重复记录数(TrePostves),f为错误识别出的重复记录数(FalcPostvcs),f为未识别出的重复记录数(FaleNegatves)。所以t+f即为识別出的重复记录总数,t+f为实际的重复记录数。文献[7]对相似重复记录进行了定义,如果同一文献[15]在查全率和查准率的基础上增加了Te1888-12348881234个现

8、实实体在数据集合中用多条不完全相同的记录來表示,由于它们在格式、拼写上的差异,导致数据库管理系统不能正确识别。从狭义的角度看,如果两条记录在某些字段的值相等或足够相似,则认为这两条记录互为相似重复。相似重复记录的实例如衣1所示:表1相似重复记录的典型例子NumNameAddrsAJiKow

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。