基于语义理解和动态网页的主题爬行研究

基于语义理解和动态网页的主题爬行研究

ID:33103908

大小:2.54 MB

页数:67页

时间:2019-02-20

基于语义理解和动态网页的主题爬行研究_第1页
基于语义理解和动态网页的主题爬行研究_第2页
基于语义理解和动态网页的主题爬行研究_第3页
基于语义理解和动态网页的主题爬行研究_第4页
基于语义理解和动态网页的主题爬行研究_第5页
资源描述:

《基于语义理解和动态网页的主题爬行研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号——UDC.........................学校代码!Q垒9Z学号!Q垒皇Z2Q912皇墨劣多萎理歹大署学位论文题目.叁士堡垫垄经垒盈查圈亟鲍圭塑盘堑盟窒多苣文E!Q£垡墨笪£丛!鲨!iDg基全墨皇坌匹b题目坠幽鲤墨巡曼幽堕p堂:研究生姓名涂津指导教师姓名—型盔卫职称j监学位—盗±l_单位名称盐笠垫盈鲎鱼垫盔鲎瞳邮编垒三QQZQ申请学位级别硕士论文提交日期至Q!至生垒旦论文答辩日期2Q!至生鱼旦一学位授予单位盛墨垄兰盘鲎学位授予日期答辩委员会主席鲤监越评阅人丝重盏叠垫2012年4

2、月■■■lllLe0IttS售tr。等S。·;Ir-▲-一-▲■■1●●●,』r,,I』■■■■■■I『t▲独创性声明一一——.、本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。期:型!至:竺,;j学位论文使用授权书本人完全了解武汉理工大学有

3、关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位论文的全部内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有关机构或论文数据库使用或收录本学位论文,并向社会公众提供信息服务。(保密的论文在解密后应遵守此规定)●-摘要随着互联网行业如火如荼的发展,WWW信息资源得到蓬勃的增长,近年来人们越来越关注搜索引擎的研究工作,传统的基于关键字的搜索策略

4、在目前已经发展得相当成熟,为了适应www飞速发展的步伐,主题爬行技术、基于语义理解的搜索策略和从Web数据库基础上发展起来的动态网页数据获取技术受到广大学者的关注,并已经在国内外展开了广泛的研究,取得了一定的研究成果。本文的目的是通过对主题爬行相关技术、用户查询关键词的语义扩展、动态网页DeepWeb数据获取关键技术这三个方面的具体研究,从搜索精度和搜索深度上考虑,提高传统搜索引擎的查全率和查准率,提出基于语义理解和动态网页的主题爬行模型,该模型面向旅游领域,主要分为三大功能模块:用户查询关键词的语义

5、扩展模块、动态网页DeepWeb数据获取模块、结果页面排序模块。本文的主要研究工作:1.主题相关性算法研究,在对通用网络爬虫和主题爬虫的基本原理的研究基础上,重点研究了基于向量空间模型的各种主题相关性算法,并在PageRank算法基础上提出了面向主题的T-PageRank算法。2.领域本体知识库的构建,本文指出领域本体知识库的构建原理和基本步骤,并初步构建旅游领域本体知识库,为用户查询关键词的语义扩展和动态网页DeepWeb数据获取提供了基础。3.用户查询关键词的语义扩展,通过对基于关键词的查询接口中

6、用户输入的查询关键词进行本体解析,并在旅游领域本体知识库的基础上进行语义扩展,获得更充分理解用户查询需求的扩展查询关键词。4.动态网页DeepWeb数据获取关键技术,指出动态网页数据获取的基本流程,并重点研究动态网页DeepWeb数据获取关键技术:DeepWeb查询接口form表单的发现技术、动态网页数据源的选择技术、动态网页DeepWeb查询接121模式抽取技术和查询结果页面信息抽取技术。5.基于语义理解和动态网页的主题爬行模型,该模型结合主题爬虫、语义理解、动态网页三大技术的优势:通过对用户查询关

7、键词的语义扩展,更好地理解用户的查询需求,提高了系统的查准率;通过动态网页数据获取技术挖掘深藏在Web数据库中的DeepWeb信息,扩宽了传统搜索引擎信息覆盖的范围,提高了系统的查全率;结合目前流行的垂直搜索◆引擎策略,抓取旅游领域内的Web信息,缩小了网络爬虫的爬行领域范围减少了不必要的网络资源浪费,提高了搜索引擎的整体性能。并通过测试来验证本文提出的基于语义理解和动态网页的主题爬行模型的搜索性能优于通用网络爬虫关键词·主题爬行领域本体库语义扩展DeepWebf^AbstractWimrapidde

8、velopmentoftheIntemetindustryandvigorousgrowthofWWWinformationresources,Inrecentyears,peoplepaymoreandmoreattentiontotheresearchofSearchEngine,thetraditionalsearchstrategiesbasedonkeywordshasgrownSOquitematurenowadays,Inordertoad

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。