deep web集成系统中同类主题数据源选择方法研究

deep web集成系统中同类主题数据源选择方法研究

ID:9390616

大小:1.00 MB

页数:56页

时间:2018-04-29

deep web集成系统中同类主题数据源选择方法研究_第1页
deep web集成系统中同类主题数据源选择方法研究_第2页
deep web集成系统中同类主题数据源选择方法研究_第3页
deep web集成系统中同类主题数据源选择方法研究_第4页
deep web集成系统中同类主题数据源选择方法研究_第5页
资源描述:

《deep web集成系统中同类主题数据源选择方法研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、DeepWeb集成系统中同类主题数据源选择方法研究重庆大学硕士学位论文学生姓名:桑银邦指导教师:王成良教授专业:计算机软件与理论学科门类:工学重庆大学计算机学院二O一一年四月ResearchofDataSourceSelectionwithSimilarThemeinDeepWebIntegratedSystemAThesisSubmittedtoChongqingUniversityinPartialFulfillmentoftheRequirementfortheDegreeofMasterofEngineeringBySangYinbangS

2、upervisedbyProf.WangChengliangMajor:ComputerSoftwareandTheoryCollegeofComputerScienceofChongqingUniversity,Chongqing,ChinaApril2011重庆大学硕士学位论文摘要中文摘要使用DeepWeb集成系统获取隐藏在数据库中的高质量数据成为人们获取信息的重要途径之一。由于DeepWeb集成系统查询信息时需从Web上海量的数据源获取信息,因而系统获取信息所花费的代价随Web上数据源的增加而增加,同时这些数据源质量参差不齐,存在不能高效

3、地为用户从数据源中获取高质量数据的不足。在研究利用数据源质量指标来选择高质量数据源的基础上,本文提出了同类主题的DeepWeb数据源选择方法,该方法通过数据源差异性分析可有效判断出新数据源的内容与集成系统中已有内容的重复度,在此基础上利用表示数据源质量特征的准确性、时序性、权威性和数据源大小等质量指标从不同角度来评估数据源的质量。本文主要工作包括:①对DeepWeb技术的研究背景、国内外研究现状、实际应用意义、领域知识和DeepWeb集成框架相关技术进行了阐述和分析。②运用改进的数据源重复度估算方法获取三个及以上同类主题数据源的重复度。首先为数据源中

4、的记录选择关键属性集合,然后采用编辑距离方法实现单个数据源中的记录与集成系统中同类数据源的记录在对应属性上进行值的比较,最后使用FR(FrequentRecords)方法获取单个数据源与集成系统中同类数据源集的内容重复度,改善了传统方法只研究两个同类主题数据源的重复度的不足。③在查询结果集中,改进了记录相关性判别方法。通过探测查询等方式获取同类主题数据源查询结果集中重复记录出现的频率,若该频率超过给定阈值,则记录与查询相关。该方法能随阈值地变化而获取不同数量的相关性记录,并且消除了传统的记录相关性判别方法受查询接口属性类型限制的影响。④针对当前Dee

5、pWeb数据源质量评估时存在客观真实性差和准确性低等不足,本文采用准确性、时序性、数据源大小、权威性这4个质量指标,建立数据源质量估计模型来获得DeepWeb数据源的质量,从而为用户查询选择质量最高的N个DeepWeb数据源。在主流图书类网站上的实验结果表明,本文所提方法不仅可以减少系统的负担,也能有效地为同类主题数据源进行质量评估,从而获取质量较高的同类数据源。关键字:重复度估计,质量指标,DeepWeb,数据源选择,质量评估模型I重庆大学硕士学位论文英文摘要ABSTRACTThewaythatpeoplegethighqualitydatawh

6、ichishiddeninthedatabasebyusingDeepWebintegratedsystemisoneofimportantwaysforpeopletoobtaininformation.DeepWebintegratedsystemneedstogetinformationfrommassofdatasourcesonthewebwhenqueryingdata,sothemoreofdatasourcesontheweb,themorecostthatsystemobtainsinformation,thequalityofth

7、esedatasourcesisunevenatsametime,andthereisshortagethatitcan’tbeefficientforusertogethigh-qualitydatafromthedatasources.ThispaperpresentsaselectionmethodofDeepWebdatasourceswithsimilartheme,whichisbasedonstudyofusingdatasourcequalityindicatortoselecthigh-qualitydatasources.This

8、methodcaneffectivelycomputetherepeatabilityoftheconten

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。