基于xml的web数据存储与数据清洗技术研究与实现

基于xml的web数据存储与数据清洗技术研究与实现

ID:32966161

大小:2.57 MB

页数:61页

时间:2019-02-18

基于xml的web数据存储与数据清洗技术研究与实现_第1页
基于xml的web数据存储与数据清洗技术研究与实现_第2页
基于xml的web数据存储与数据清洗技术研究与实现_第3页
基于xml的web数据存储与数据清洗技术研究与实现_第4页
基于xml的web数据存储与数据清洗技术研究与实现_第5页
资源描述:

《基于xml的web数据存储与数据清洗技术研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、武汉理工大学硕士学位论文基于XML的Web数据存储与数据清洗技术研究与实现姓名:邱英申请学位级别:硕士专业:计算机应用技术指导教师:胡燕20080401摘要随着互联网的快速发展,因特网大大地改变着人类的生活方式和商业模式,Web资源浩瀚如海而且廉价,使得越来越多的公司、机构以及组织希望从中挖掘出有价值的商用信息以应用于决策支持。然而数据挖掘、数据仓库的数据源往往来自于结构化的数据,如关系数据库等,数据需求的迫切与数据格式定义的不一致性,使得将Web信息转换成关系数据库的数据,并对转换后的数据进行处理,为决策支持提供

2、高质量的数据显得尤其重要。本文主要对Web数据存储和数据清洗技术进行了深入的学习和探讨,并利用数据清洗技术解决存储过程中因Web信息重复产生的数据冗余问题,本文主要的工作内容如下:1.在介绍XML和分析Web信息显示特点的基础上,探讨了XML作为Web信息与关系数据库转换中介的优势,在对XML与关系数据库相互映射规则研究的基础之上,构造了一个以XML为转换中介将Web数据存储到关系数据库,并将数据清洗技术应用于数据库的重复记录清洗的模型框架,同时将该模型框架应用于Web教学资源信息的存储与清洗,来验证其有效性和实用

3、性。2.深入学习和探讨了相似重复记录检测中的字段匹配算法,如基本字段匹配算法、Smith。Waterman(S.W)算法以及基于编辑距离的字段匹配算法。在分析字段匹配算法对于中文字段匹配的不足和重复字段特征的基础上,提出了基于字段关键字匹配优化方案,使得相似重复记录的召回率R(Recall)和查准率P(Precision)都能得到较好的满足。3.由于本文提出了基于字段关键字匹配的算法改进,所以本文对关键字的提取技术进行了研究,本文着重对基于词共现模型的自动摘要的关键字提取算法进行了深入的探讨,并对关键字的特性进行了

4、分析,提出了基于关键字特性的改进算法,并通过实验验证了改进的可行性。4.在将XML数据转换成关系数据库记录之前,将改进的关键字提取算法与DOM结合,提取XML文档节点的关键字,将提取到的关键字作为该节点的子节点回写XML,为数据清洗时采用基于字段关键字匹配的优化算法奠定基础。关键字:数据存储,数据清洗,自动摘要,XML,编辑距离AbstractWiththerapiddevelopmentofIntemet,Intemetgreatlyaffectspeople’Slivestyleandcommercialmod

5、el.TheresourceofWebisSOvastandlow-costthatincreasingcorporation、institutionsandorganizationsexpecttominethevaluablecommercialinformationtoapplytotheirdecision-making.However,datasourceofdatamininganddatawarehouseusuallycomesfromstructureddata,suchasrelationald

6、atabase,theinstancyofdatarequirementandinconsistentdefinitionofdataformatmaketheconverSionfromWebinformationtorecordsofrelationaldatabaseandhighqualitydatafordecision—makingbydisposingthetransformeddataparticularlyimportant.Thisdissertationmainlymakesanin·dept

7、hstudyanddiscussionontheWebdatastorageanddatacleaningtechnology,andsolvestheproblemofdataredundancybydatacleaningtechnology,whichisproducedinthecourseofthedataconversionbyreasonofduplicatedWebinformation.Themaincontributionsaboutthedissertationareasfollows:1.O

8、nthebasisofintroducingXMLandanalysingthedisplaycharacteristicofWebinformation,thedissertationdiscussesthedominanCd:oftheconversionfromWebinformationtorelationaldatabasebasedonXMLan

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。