浅论吃玩网中deep web数据集成研究

浅论吃玩网中deep web数据集成研究

ID:35157723

大小:4.67 MB

页数:71页

时间:2019-03-20

浅论吃玩网中deep web数据集成研究_第1页
浅论吃玩网中deep web数据集成研究_第2页
浅论吃玩网中deep web数据集成研究_第3页
浅论吃玩网中deep web数据集成研究_第4页
浅论吃玩网中deep web数据集成研究_第5页
资源描述:

《浅论吃玩网中deep web数据集成研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、山东大学硕士学位论文吃玩网中DeepWeb数据集成研究姓名:李继宝申请学位级别:硕士专业:计算机软件与理论指导教师:李庆忠20080405山东大学硕士学位论文摘要随着互联网的发展,涌现出大量同类网站(例如房产网、吃玩网、旅游网等),由于各个网站间信息的孤立性,人们为获得有效信息不得不游离于各个网站之间。虽然,像谷歌、雅虎、百度等(称为传统搜索引擎)提供搜索服务的网站也可以搜索出不同网站中的信息,但它们的爬虫只能从一个链接爬行到另一个链接。这样,新的网页要从旧的网页中发现,如果一个网页不被别的网页索引,那么就永远不能被发现,从而形

2、成TDeepWeb。传统搜索引擎爬虫的爬行特点决定对于DeepWeb中的信息一筹莫展,此外传统搜索引擎还存在信息主题性不强、信息冗余和爬行周期过长等问题。因而传统搜索引擎从一定程度上已经无法满足人们的需求。本文针对传统搜索引擎的种种不足,在信息集成的基础上,综合传统搜索引擎的技术,设计了基于领域本体的DeepWeb爬虫模型。并在此模型的基础上,提出了一个面向吃玩类网站DeepWeb数据集成框架--DWDIS。围绕着这个模型和框架,对其中涉及的若干关键问题进行了深入的研究,并对其设计和实现进行了初步的探讨,实现了一个基于DWDIS

3、的吃玩易搜系统,对DWDIS框架进行了初步的实现和应用验证。本文主要的研究内容和创新工作包括:1.建立了面向特定领域的DeepWeb爬虫的爬行模型,并以此为本文的理论基础。该模型在传统搜索引擎的爬虫模型基础上,根据搜索DeepWeb内容的需求,增加了特有的工作步骤。该爬虫的主要任务是分析网页中是否含有搜索表单,在本体的帮助下,对表单中的搜索表单进行识别、分析和试填提交,并且对返回的结果进行分析。而传统搜索引擎爬虫的任务是不断的从一个链接爬向另一链接,并在爬行过程中,对链接的网页下载,进行索引存储。2.在DeepWeb爬虫的模型基

4、础上,建立了一个面向用户的、应用于吃玩类网站DeepWeb数据集成框架一—DWDIS。该框架中广泛的应用了信息集成中的模块和技术,建立吃玩类商家本体,使系统能够在本体管理器的管理下顺利运行。山东大学硕十学位论文3.在DeepWeb爬虫模型内,对其中的环节进行了关键部分的实现工作,并讨论了关键部分的实现算法。在模型中,与传统爬虫相同的环节没有进行讨论,重点讨论了不同环节的实现。包括标签与表单元素的匹配算法、表单元素与本体属性的映射、表单填写的质量标准以及衡量方法。最后,还分析了结果返回页面信息抽取的困难以及克服困难的一些方法。。4

5、.对本文提出的模型和方法进行了关键部分的实现工作,建立了一个基于DWDIS的吃玩易搜系统,以吃玩类网站DeepWeb数据集成为应用背景,对本文工作进行了验证。通过这些实际的开发和验证工作,为进一步的研究,并使之在更多领域的广泛应用奠定了一定的实验基础。5.在基于DWDIS的吃玩易搜系统中提出了活动地图的概念,并对活动地图的生成显示以及用户交互进行了实现。为了方便用户的交互,本系统采用了异步刷新技术。使本系统通过修改本体,就可以运用在其它与地理信息相关的领域。本文针对解决传统搜索引擎的问题,对如何有效的搜索出吃玩类网站DeepWe

6、b中的信息进行了探索性的研究,希望为该问题的解决提供一种有效的思路和方法。本文的课题基础也是目前信息集成领域应用比较广泛的技术,不但为互联网领域的信息搜索提供了思路和方法,同时也为信息集成领域提供了一定的帮助。这使本文课题研究既具有探索性的理论研究价值,也具有较大的应用价值和现实意义。关键词:传统搜索引擎:爬虫;DeepWeb本体;匹配;信息集成II山东大学硕士学位论文ABSTRACTWiththedevelopmentoftheIntemet,alargenumberofVBa"iOUStypesofwebsiteswerea

7、ppearedinashorttime.Peoplehavetobeeffectiveinvariouswebsites,butspendagreatdealoftimeandefforttofindtheusefulinformation.Although,thesites,such私GOOGLE,Yahoo,Baidu(calledTraditionalSearchEngine),whichprovidesearchservices,canalsosearchinformationfromthedifferentsites.

8、Butthecrawlersoftraditionalsearchenginesonlycrawlfromalinktoanotherlink,SOnewwebmustbefoundfromtheoldweb.IfapageWaSnotbeindexed,the

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。