分布式聚焦网络爬虫系统的设计与实现.pdf

分布式聚焦网络爬虫系统的设计与实现.pdf

ID:52394870

大小:1.90 MB

页数:58页

时间:2020-03-27

分布式聚焦网络爬虫系统的设计与实现.pdf_第1页
分布式聚焦网络爬虫系统的设计与实现.pdf_第2页
分布式聚焦网络爬虫系统的设计与实现.pdf_第3页
分布式聚焦网络爬虫系统的设计与实现.pdf_第4页
分布式聚焦网络爬虫系统的设计与实现.pdf_第5页
资源描述:

《分布式聚焦网络爬虫系统的设计与实现.pdf》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、ADisertationSubmitedtoZhejiangUniversityfortheDegreeofUn1VerS1tytOrtneUegreeO士MasterofEngineering⑧TITLE:旦皇苎至g旦i望g垒卫鱼至堡乜!皇堡殳n主垒主呈Q旦Q至旦i§主!至坠坠主皇鱼EQQ坚苎金鱼g!垒堕里皇!§Y§主皇堡Author:,、‘3UDerVlSOr:Subject:College:SH工De—LaiSubmittedDate:2011—1—4浙江大学硕士学位论文摘要传统的通用搜索引擎不能满足人们对搜索引擎越来越个性化的需

2、求,提供某个专门领域搜索服务的垂直搜索引擎应运而生。垂直搜索引擎需要专门的聚焦网络爬虫按照其特定的要求从网络中抓取数据,同时还要求聚焦网络爬虫抓取范围的选择更精确、发现新页面更及时。本文在现有聚焦网络爬虫的理论基础上,根据新的应用趋势,结合实际需求实现了一个分布式的聚焦网络爬虫系统。该系统具有高性能易扩展的分布式架构、友好的web配置界面并实现了快速发现新页面的机制、精准提取页面字段的功能。该系统改进了传统的分布式聚焦网络爬虫的系统框架,将原有的文档服务器和抓取服务器合二而一,同时绕开管理服务器直接使用抓取服务器来进行URL除重。管理服

3、务器负责系统的管理、抓取任务的分配并提供简单易用的web配置界面,这使得普通用户也能使用该系统将网络上分散的信息聚合成格式化的数据。抓取服务器负责具体的页面抓取和处理,实现了动态扩展的URL除重机制,并能对页面字段进行精准地抽取,这使得该系统能够为垂直搜索引擎提供海量格式化的数据以提高其搜索体验。关键词:分布式系统,聚焦网络爬虫,网页字段抽取浙江大学硕士学位论文AbstractMoreandmorepeopleneedpersonalizcdsearchsen,ice.nleappe黜ceofVenicaLlsearch饥ginesat

4、isfiednlisl【indofrequirement.Venicalsearchengineusuallyneedfocusedcra州er,whichcancra、Ⅳltlle、^,ebpagebysomesllbjectsarldmles.SornepeopleeVenwanttoc01lectarldfomatspecialiIlf0咖ationf.rominterrletbyfocusedc“1wleLTKspaper锄∞ducesanewdi嘶hItedfocused蹦1wler,wmchl粥lli曲perI.ornlal

5、lceandscalablem吼eworkaIlduse如lmaIlagememint刊沁e.nmsocaIlex句嗡ctt11especificallytext丘eld自om、Vebpageinl【ofo吼anedda_ta.Chapteronei砷的duces也erese锄’hbackgroundoffocusedcrawler,mcludedi伍culties觚dmesolVings订ate醪Cl印tertw0iIltroducestlleoVeralldesi印ofSyst锄缸lIIle、Ⅳ0比Whjchconsistsofon

6、emallagementserveraIlds“eralcrawlerserverS.ChamertllreeandChapterfourm仃oducethehplememationofmaIlageInemseⅣcrarldseVeralcrawlerseⅣerS.ChapterfiVemakeasystemtestt0tllissystem.ChaptersiXsuImrlarizesthispaper锄dputf.oⅣ雕dS0mefeasiblei1:nproVeInemoftheSystem.K野啊ords:Distrib劬耐S

7、ystem,FocusedCrawler,Ex缸∞tW曲Field浙江大学硕士学位论文目录摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.iAbstract⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..ii第1章绪论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯l1.1课题背景⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.11.2研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.21.2.1聚焦网络爬虫⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯21.2.2聚焦网络爬虫的难点⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一41.2.

8、3聚焦网络爬虫的关键策略⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。51.3新的趋势⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.1l1.4本文的主要工作及组织结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。