网络爬虫的设计与实现文献综述

ID：12715550

大小：37.00 KB

页数：14页

时间：2018-07-18

资源描述：

《网络爬虫的设计与实现文献综述》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、---------------------------------------------------------------范文最新推荐------------------------------------------------------网络爬虫的设计与实现+文献综述13/14---------------------------------------------------------------范文最新推荐---------------------------------------

2、---------------摘要：随着互联网的高速发展，在互联网搜索服务中，搜索引擎扮演着越来越重要的角色。网络爬虫是搜索引擎系统中不可或缺的组成部分，是一种自动搜集互联网信息的程序,它负责从互联网中搜集网页，并将这些页面用于建立索引从而为搜索引擎提供支持。通过网络爬虫不仅能够为搜索引擎采集网络信息，而且可以作为定向信息采集器，定向采集某些网站显示的特定信息，如招聘信息，租房信息等。本文通过JAVA实现了一个基于广度优先算法的爬虫程序。本论文从网络爬虫的应用出发，探讨了网络爬虫在搜索引擎中的作用

3、和地位，提出了网络爬虫的功能和设计要求。在对网络爬虫系统结构和工作原理所作分析的基础上，研究了页面爬取、解析等策略和算法，并使用Java实现了一个网络爬虫的程序，并对其运行结果做了分析。通过这一爬虫程序，可以搜集某一站点或多个站点的URL。连接外网后，可以爬取中国大部分大型主流门户的网站，如：百度，新浪，网易等。7384关键词：搜索引擎；JAVA；广度优先.TheDesignandImplementationofDistributedWebCrawlerAbstract:Withtherapidd

4、evelopmentofInternet,searchenginesasthemainentranceoftheInternetplaysamoreandmoreimportantrole.Webcrawlerisaveryimportantpartofthesearchengines,aprogramwhichcanautocollectinformationformInternet,whichisresponsibletocollectwebpagesfromInternet.Thesepag

5、esareusedtobuildindexandprovidesupportforsearchengines.Spidercancollectdataforsearchengines,alsocanbeadirectionalinformationcollector,collectsspecificallyinformationsfromsomewebsites,suchasHRinformations,houserentinformations.Inthispaper,useJAVAimplem

6、entsabreadth-firstalgorithmSpider.The13/14---------------------------------------------------------------范文最新推荐------------------------------------------------------paper，discussingfromtheapplicationofthesearchengine，searchestheimportanceandfunctionof

7、WebCrawlerinthesearchengine,andputsforwarditsdemandoffunctionanddesign．OnthebaseofanalyzingWebCrawler’ssystemstrtuctureandworkingelements,thispaperalsoresearchesthemethodandstrategyofmultithreadingscheduler，WebpagecrawlingandHTMLparsing．Andthen,

8、aprogramofwebpagecrawlingbasedonJavaisappliedandanalyzed．ThroughthecrawlercancollectasiteormultiplesiteURL.Linksoutsidethenetwork,youcancrawlmostofChina’smajorlarge-scaleportalsites,suchas:Baidu,Sina,Netease.3.2.3功能需求133.313/14----------

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 14



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

网络爬虫的设计与实现文献综述

网络爬虫的设计与实现文献综述

相关文章

相关标签

网络爬虫的设计与实现 文献综述

网络爬虫的设计与实现 文献综述

相关文章

相关标签

网络爬虫的设计与实现文献综述

网络爬虫的设计与实现文献综述