基于数据仓库的数据清洗技术研究

基于数据仓库的数据清洗技术研究

ID:32973784

大小:1.87 MB

页数:45页

时间:2019-02-18

基于数据仓库的数据清洗技术研究_第1页
基于数据仓库的数据清洗技术研究_第2页
基于数据仓库的数据清洗技术研究_第3页
基于数据仓库的数据清洗技术研究_第4页
基于数据仓库的数据清洗技术研究_第5页
资源描述:

《基于数据仓库的数据清洗技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、河北工业大学硕士学位论文基于数据仓库的数据清洗技术研究姓名:杨宏娜申请学位级别:硕士专业:模式识别与智能系统指导教师:于明20061101河北工业大学硕士学位论文基于数据仓库的数据清洗技术研究摘要信息技术的飞速发展使组织的管理者进行决策分析时对数据的依赖性越来越强。于是在数据库的基础上产生了能够满足决策分析所需要的数据环境——数据仓库。但是从异构的数据源导入数据仓库的数据中会存在各种质量问题,使得应用于数据仓库前端的决策支持系统产生错误的分析结果,所以必须对其进行数据清洗来提高其质量。数据清洗正在成为数据仓库和数据挖掘领域的一个重要课题。本文对数据清洗的知识进行了全面的描述,介绍了数据清洗的

2、概念和国内外研究现状。对数据清洗技术的原理、方法、评价标准以及基本流程进行了分析。重点对重复记录清洗所用到的技术和各种算法进行了深入的研究与实验分析。在重复记录清洗中,首先介绍了重复记录清洗的相关知识和基本流程,然后分别就流程中各个步骤进行了深入的研究,对各种算法进行了复杂度分析,并针对部分算法中的缺陷进行了改进。主要工作大致包括:在预处理步骤中,本文基于越能最大限度的聚集相同记录,离散不同记录的属性其权重应该越大的思想分配属性的权重。对常见的字段匹配算法Levenshtein距离、SmithWaterman距离、Jaro_Winkler距离、TIsimilarity做了详细的算法说明分析。

3、在数据库级上对重复记录进行聚类的步骤中,就基于“排序-合并”思想的排序邻居法、多趟算法、优先队列法进行了详细的讨论和实验分析,并改进了传统的排序邻居法,实验结果表明,改进的排序邻居法在相同召回率的情况下,时间复杂度优于传统的算法。此外对canopy聚类方法进行了算法分析,并对优先队列算法和canopy聚类方法在重复记录检测方面的效率和性能也作了相关的实验分析。关键词:数据清洗,近似重复记录,字段匹配,记录匹配i基于数据仓库的数据清洗技术研究STUDYOFDATACLEANINGALGORITHMSBASEDONDATAWAREHOUSEABSTRACTTherapiddevelopmento

4、finformationtechnologymakesorganizationalmanagersmoreandmoredependentondatawhentheymakedecisions.Onthefoundationofdatabasethereappearsdatawarehousethatcansupportdecisionanalysis.Butwhendifferentdatasourcesareinputtedintoadatawarehouse,manydataqualityproblemsmayappearandleadtowronganalysis.Soinorder

5、toimprovedataquality,theusingofdatacleaningprocessisstronglyneeded.Datacleaningisbecominganimportanttopicinthefieldofdatawarehouseanddatamining.Inthispaper,theknowledgeofdatacleaningisshowedindetail,somerelevantconceptsandthecurrentresearchsituationathomeandabroadareintroduced.Importanttheories,met

6、hods,evaluationcriteriaandbasicworkflowofdatacleaningaresummarized.Especially,wefocusonthetechniquesandalgorithmsofapproximateduplicaterecordscleaningandanadvancedalgorithmisproposed.Inapproximateduplicaterecordscleaning,basicdatacleaningknowledgeandprocessarepresented.Detailanalysisofdatacleaninga

7、lgorithmsisalsogiven.Themainworkcanbedescribedasfollows:Inpreprocess,onthebasisofthethoughtthatthemoreafieldcanclusterthesamerecordsandscatterdifferentrecords,thebiggerthefield’sweightshouldbe,thispapergive

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。