web数据库重叠估计技术研究

web数据库重叠估计技术研究

ID:33097541

大小:4.41 MB

页数:53页

时间:2019-02-20

web数据库重叠估计技术研究_第1页
web数据库重叠估计技术研究_第2页
web数据库重叠估计技术研究_第3页
web数据库重叠估计技术研究_第4页
web数据库重叠估计技术研究_第5页
资源描述:

《web数据库重叠估计技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、苏州大学硕士学位论文Web数据库重叠估计技术研究姓名:苗忠义申请学位级别:硕士专业:计算机应用技术指导教师:崔志明20090501Web数据库重叠估计技术研究中文摘要集成DeepWeb中的数据信息是一项非常重要的工作,在这项工作中常会遇到信息冗余和记录去重问题,它们常成为集成工作成败的关键。估计web数据库重叠率,可以优化信息冗余和记录去重工作,减少集成的盲目性。本论文主要包含三部分内容:1.提出了在理想情况下的web数据库重叠估计方法,包括一种朴素方法和在朴素方法基础上的改进方法。朴素方法研究覆盖了从采样到估计的整个流程,但忽略了web的复杂性;改

2、进方法通过高频字采样,提高采样和估计效率。2.针对理想情况下的web数据库重叠估计方法省略掉的web数据库记录匹配问题,提出了web数据库重叠估计中的实体识别方法。根据Deepw.eb查询接1:3和返回记录的特点,引入领域知识和预处理,计算记录相似度,从工程的角度降低识别复杂度,提高识别准确性和效率。3.为了进一步提高重叠估计的适应性,提出了web数据库重叠估计的修正方法,通过回归分析建立数据库相似度和估计偏差之间的关系,利用数据库相似度预测估计偏差,提供真实值可能存在的范围。本文进行了大量的实验,验证提出的各种理论和方法,同时提出了有待进一步深入解

3、决的问题,展望该领域科研发展的方向和前景。关键词:DeepWeb,web数据库,重叠,估计,高频字作者:苗忠义指导老N-崔志明AbstractResearchonOverlapEstimationTechnologyforWebDatabasesResearchonOverlapEstimationTechnologyforWebDatabasesIntegratingdatainformationinDeepwebisaveryimportantjob,inthisworkpeopleoftenencountertheproblemofredund

4、antinformationandremovingtheduplicatedatabaserecords,theyoftenbecomethekeytotheSuccessorfailureofintegration.EstimatingtheoverlappingratebetweenWebdatabasescanhelptooptimizetheworkofresolvingredundantinformationandremovingtheduplicatedatabaserecords,toreducetheblindnessoftheint

5、egrationwork.Thethesiscontainsthreemainparts:1.Inthesecondchapter,weproposetheapproachofestimatingtheoverlapbetweenwebdatabasesintheidealcase,includingthenaiveapproachandtheimprovedapproachbasedonthenaiveapproach.Thenaiveapproachofestimatingtheoverlapofwebdatabasescoverstheesti

6、mationflowfromthefirststeptotheend,butignoresthecomplexityoftheWeb.Theimprovedapproachimprovestheefficiencyofsamplingandestimation、析ththemethodofhigh·frequencywordssampling.2.Contraposingtherecordsmatchingproblemofwebdatabasesignoredbytheoverlappingrateestimationapproachintheid

7、ealcase,weproposethemethodofentityrecognitionintheworkofestimatingtheOverlap—Ratebetweenwebdatabases.BasedondeepwebqueryinterfaceandreturncharacteristicsoftheRecord,weintroducedomainknowledgeandpre·processinginentityrecognition,andcalculatethesimilarityofthewebdatabaserecords.F

8、romthisengineeringpointofview,themethodCallreducetheco

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。