浅论吃玩网中deep web数据集成研究

ID：35157723

大小：4.67 MB

页数：71页

时间：2019-03-20

资源描述：

《浅论吃玩网中deep web数据集成研究》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、山东大学硕士学位论文吃玩网中DeepWeb数据集成研究姓名：李继宝申请学位级别：硕士专业：计算机软件与理论指导教师：李庆忠20080405山东大学硕士学位论文摘要随着互联网的发展，涌现出大量同类网站(例如房产网、吃玩网、旅游网等)，由于各个网站间信息的孤立性，人们为获得有效信息不得不游离于各个网站之间。虽然，像谷歌、雅虎、百度等(称为传统搜索引擎)提供搜索服务的网站也可以搜索出不同网站中的信息，但它们的爬虫只能从一个链接爬行到另一个链接。这样，新的网页要从旧的网页中发现，如果一个网页不被别的网页索引，那么就永远不能被发现，从而形

2、成TDeepWeb。传统搜索引擎爬虫的爬行特点决定对于DeepWeb中的信息一筹莫展，此外传统搜索引擎还存在信息主题性不强、信息冗余和爬行周期过长等问题。因而传统搜索引擎从一定程度上已经无法满足人们的需求。本文针对传统搜索引擎的种种不足，在信息集成的基础上，综合传统搜索引擎的技术，设计了基于领域本体的DeepWeb爬虫模型。并在此模型的基础上，提出了一个面向吃玩类网站DeepWeb数据集成框架--DWDIS。围绕着这个模型和框架，对其中涉及的若干关键问题进行了深入的研究，并对其设计和实现进行了初步的探讨，实现了一个基于DWDIS

3、的吃玩易搜系统，对DWDIS框架进行了初步的实现和应用验证。本文主要的研究内容和创新工作包括：1．建立了面向特定领域的DeepWeb爬虫的爬行模型，并以此为本文的理论基础。该模型在传统搜索引擎的爬虫模型基础上，根据搜索DeepWeb内容的需求，增加了特有的工作步骤。该爬虫的主要任务是分析网页中是否含有搜索表单，在本体的帮助下，对表单中的搜索表单进行识别、分析和试填提交，并且对返回的结果进行分析。而传统搜索引擎爬虫的任务是不断的从一个链接爬向另一链接，并在爬行过程中，对链接的网页下载，进行索引存储。2．在DeepWeb爬虫的模型基

4、础上，建立了一个面向用户的、应用于吃玩类网站DeepWeb数据集成框架一—DWDIS。该框架中广泛的应用了信息集成中的模块和技术，建立吃玩类商家本体，使系统能够在本体管理器的管理下顺利运行。山东大学硕十学位论文3．在DeepWeb爬虫模型内，对其中的环节进行了关键部分的实现工作，并讨论了关键部分的实现算法。在模型中，与传统爬虫相同的环节没有进行讨论，重点讨论了不同环节的实现。包括标签与表单元素的匹配算法、表单元素与本体属性的映射、表单填写的质量标准以及衡量方法。最后，还分析了结果返回页面信息抽取的困难以及克服困难的一些方法。。4

5、．对本文提出的模型和方法进行了关键部分的实现工作，建立了一个基于DWDIS的吃玩易搜系统，以吃玩类网站DeepWeb数据集成为应用背景，对本文工作进行了验证。通过这些实际的开发和验证工作，为进一步的研究，并使之在更多领域的广泛应用奠定了一定的实验基础。5．在基于DWDIS的吃玩易搜系统中提出了活动地图的概念，并对活动地图的生成显示以及用户交互进行了实现。为了方便用户的交互，本系统采用了异步刷新技术。使本系统通过修改本体，就可以运用在其它与地理信息相关的领域。本文针对解决传统搜索引擎的问题，对如何有效的搜索出吃玩类网站DeepWe

6、b中的信息进行了探索性的研究，希望为该问题的解决提供一种有效的思路和方法。本文的课题基础也是目前信息集成领域应用比较广泛的技术，不但为互联网领域的信息搜索提供了思路和方法，同时也为信息集成领域提供了一定的帮助。这使本文课题研究既具有探索性的理论研究价值，也具有较大的应用价值和现实意义。关键词：传统搜索引擎：爬虫；DeepWeb本体；匹配；信息集成II山东大学硕士学位论文ABSTRACTWiththedevelopmentoftheIntemet，alargenumberofVBa"iOUStypesofwebsiteswerea

7、ppearedinashorttime．Peoplehavetobeeffectiveinvariouswebsites，butspendagreatdealoftimeandefforttofindtheusefulinformation．Although，thesites，such私GOOGLE，Yahoo，Baidu(calledTraditionalSearchEngine)，whichprovidesearchservices，canalsosearchinformationfromthedifferentsites．

8、Butthecrawlersoftraditionalsearchenginesonlycrawlfromalinktoanotherlink，SOnewwebmustbefoundfromtheoldweb．IfapageWaSnotbeindexed,the

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 71



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

浅论吃玩网中deep web数据集成研究

浅论吃玩网中deep web数据集成研究

相关文章

相关标签