基于协议驱动与事件驱动的综合聚焦爬虫研究与实现

基于协议驱动与事件驱动的综合聚焦爬虫研究与实现

ID:36796345

大小:3.62 MB

页数:78页

时间:2019-05-15

基于协议驱动与事件驱动的综合聚焦爬虫研究与实现_第1页
基于协议驱动与事件驱动的综合聚焦爬虫研究与实现_第2页
基于协议驱动与事件驱动的综合聚焦爬虫研究与实现_第3页
基于协议驱动与事件驱动的综合聚焦爬虫研究与实现_第4页
基于协议驱动与事件驱动的综合聚焦爬虫研究与实现_第5页
资源描述:

《基于协议驱动与事件驱动的综合聚焦爬虫研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、lIIILllllllll1lllllllllllllllllllllLIIllllLIIL110Y1523265分类号婴311=』工学硕士学位论文学号Q§煎11§2密级尘五基于协议驱动与事件驱动的综合聚焦爬虫研究与实现硕士生姓名袁小节学科领域计算机科学与技术研究方向计算机应用技术指导教师周斌副研究员国防科学技术大学研究生院二oo九年六月国防科学技术大学研究生院工学硕士学位论文摘要AJAX(AsynchronousJavaScriptandXML)技术可以动态地改变页面内容,是Web2.0应用中通常采用的技术。网页内容的延迟加载在提高用户

2、界面交互程度的同时,也大幅度增加了网络爬虫程序的页面提取难度。因此,分析JavaScript代码并抓取页面中的异步传输内容成为当前网络爬虫技术的研究课题。聚焦网络爬虫根据目标描述有选择地访问从网页中分析出的URL,当用户需求的数据模型包含多个网页时,聚焦网络爬虫应能够获得这些网页并快速准确地构建数据模型。本文采用基于协议驱动与事件驱动的综合聚焦爬行算法和基于易扩展向量模型的目标描述,实现多层网页关联聚焦爬行。主要工作包括:1、提出了多层网页关联聚焦爬行模型,根据用户预设的网页层和最优爬行路径,通过在地址模型中增加关联语义的方法,达到快速准

3、确获得数据模型的目的,实现多层网页关联聚焦爬行。2、提出了易扩展向量模型,用于聚焦爬虫的目标描述,不仅可以方便地实现增加和删除目标网站,而且能够快速地获得当前网页所在层的相关目标描述,有效地配合多层网页关联聚焦爬行算法的实现。3、提出了基于协议驱动与事件驱动的综合聚焦爬虫框架,详细设计了协议驱动模块、事件驱动模块、协同模块和通用模块的基本功能,重点研究了事件驱动模块获取异步传输内容时涉及的相关模型和定义。4、设计并实现了基于协议驱动与事件驱动的综合聚焦爬虫原型系统,针对新浪新闻评论数据,在综合聚焦爬虫框架中,使用易扩展向量模型实现二层网页

4、关联聚焦爬行。关键词:聚焦爬虫,AJAX,协议驱动,事件驱动,JavaScript,网页层,关联爬行第i页国防科学技术大学研究生院工学硕士学位论文ABSTRACTAJAXtechnologyisverypopularinWeb2.0applicationsbecauseitCallchangethepagecontentdynamically.Thedelayinloadingpagesimprovestheuserinterfaceinthedegreeofinteraction,butalsoincreasesthedifficult

5、ysignificantlyinthenetworkpagecrawlingprocess.Therefore,theanalysisofJavaScriptcodeandcrawlingpagecontenttransferedasynchronouslybecomearesearchtopic.FocusedcrawlerselectsURLfrompagestovisitbasedonfocusingdescription.Whendatamodelwantedbyuserincludespages,focusedcrawlerou

6、ghttogainthesepagesandconstructdatamodelfleetlyandaccurately.Weadoptthecombinedfocusedcrawlingalgorithmbasedonthecombinationofprotocol··drivenandevent·-drivenandeasyextensionalobjectdescriptiontorealizethemulti—pageassociationfocusedcrawling.Themaincontributionsofthisthes

7、iscanbesummarizedasfollows.1.Inthispaper,wesuggestamodelofmulti-pageassociationfocusedcrawling.Basedonthepagelayerandoptimalcrawlingpathinuserprofile,weaddassociatedsemanticintheaddressmodeltobringabouttheresultofgainingdatamodelfleetlyandaccuratelyandrealizationofmulti-p

8、ageassociationfocusedcrawling.2.Weproposeavectormodeleasytoextendforthegoaloffocusingdescription

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。