多源异构增量数据抽取方法的研究和设计

多源异构增量数据抽取方法的研究和设计

ID:23804949

大小:1.63 MB

页数:71页

时间:2018-11-10

多源异构增量数据抽取方法的研究和设计_第1页
多源异构增量数据抽取方法的研究和设计_第2页
多源异构增量数据抽取方法的研究和设计_第3页
多源异构增量数据抽取方法的研究和设计_第4页
多源异构增量数据抽取方法的研究和设计_第5页
资源描述:

《多源异构增量数据抽取方法的研究和设计》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号:密级:UDC:编号:专业硕士学位论文(工程硕士)多源异构增量数据抽取方法研究与设计硕士研究生:贾艳凯指导教师:邢薇教授学位级别:工程硕士工程领域:软件工程所在单位:计算机科学与技术学院论文提交日期:2013年5月10日论文答辩日期:2013年6月13日学位授予单位:哈尔滨工程大学ClassifiedIndex:U.D.C:ADissertationfortheProfessionalDegreeofMaster(MasterofEngineering)ResearchandDesignonDa

2、taExtractioninMultipleDataSourcesCandidate:JiaYankaiSupervisor:Prof.XingWeiAcademicDegreeAppliedfor:MasterofEngineeringEngineeringField:SoftwareEngineeringDateofSubmission:May,Tenth,2013DateofOralExamination:June,Thirteenth,2013University:HarbinEngineer

3、ingUniversity哈尔滨工程大学学位论文原创性声明本人郑重声明:本论文的所有工作,是在导师的指导下,由作者本人独立完成的。有关观点、方法、数据和文献的引用已在文中指出,并与参考文献相对应。除文中已注明引用的内容外,本论文不包含任何其他个人或集体已经公开发表的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。作者(签字):日期:年月日哈尔滨工程大学学位论文授权使用声明本人完全了解学校保护知识产权的有关规定,即研究生在校攻读学位期间

4、论文工作的知识产权属于哈尔滨工程大学。哈尔滨工程大学有权保留并向国家有关部门或机构送交论文的复印件。本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编本学位论文,可以公布论文的全部内容。同时本人保证毕业后结合学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈尔滨工程大学。涉密学位论文待解密后适用本声明。本论文(□在授予学位后即可□在授予学位12个月后□解密后)由哈尔滨工程大学送交有关部门进行保存、汇编等。作者(签字):导师(签字):日期

5、:年月日年月日多源异构增量数据抽取方法研究与设计摘要随着信息管理系统的应用,从异构的多源数据中挖掘隐藏信息的难度越来越大。数据挖掘的前提是将数据抽取到指定的数据仓库,ETL(Extract-Transformation-Loading,即数据的抽取-转换-加载)过程完成了这一部分的工作。在ETL过程中,数据抽取是关键的一个阶段,因此,提高数据抽取的效率是建立数据仓库的重要工作。本文研究了多种增量数据抽取捕获机制,分析了每种捕获机制的优点与劣势,提出了异构环境下基于数据库事务日志文件的全表比对方式,简称

6、L-C增量抽取方式。在研究了数据库事务日志的记录过程,分析了事务日志可靠性,并详细研究全表比对与MD5校验码结合的思想之后,构建了L-C增量抽取方式模型。在理论上与其他增量捕获机制进行了时间复杂度比较,在实践中进行了设计、实现与比较分析。分析结果与实践结果都表明,L-C增量抽取方式相对现有的增量抽取机制在效率上更加高效,在性能上也较为稳定。解决了分布式异构环境下数据库间的数据抽取,提高了数据抽取的效率和性能,为数据仓库中数据挖掘提供了更加稳固的基础。关键词:数据仓库;数据抽取;事务日志;全表比对哈尔滨

7、工程大学硕士学位论文多源异构增量数据抽取方法研究与设计AbstractWiththeapplicationofinformationmanagementsystems,obtaininginformationfromthedataofheterogeneousmulti-datasourcesbydatamininghasbecomeincreasinglydifficult.Thepremiseofdataminingistointegratedatafromheterogeneousmulti-d

8、atasourcestodatawarehouse,andtheETL(Extract-Transformation-Loading)processesdidit.ThenintheETLprocess,data'sextractionistheinitialstageoftheETLprocess,thereforeimprovedefficiencyofthedata'sextractionbecametheimportantworkbuilding

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。