网络爬虫技术分析

ID：7811461

大小：57.50 KB

页数：5页

时间：2018-02-26

资源描述：

《网络爬虫技术分析》由会员上传分享，免费在线阅读，更多相关内容在行业资料-天天文库。

1、网络爬虫技术分析与研究搜索引擎1.概念：从网络上获得网站网页资料，能够建立数据库并提供查询的系统。2.分类（按工作原理）：全文搜索引擎、分类目录。1>全文搜索引擎数据库是依靠网络爬虫通过网络上的各种链接自动获取大量网页信息内容，并按一定的规则分析整理形成的。（百度、Google）2>分类目录：按目录分类的网站链接列表而已，通过人工的方式收集整理网站资料形成的数据库。(国内的搜狐)网络机器人1.概念：它们是Web上独自运行的软件程序，它们不断地筛选数据，做出自己的决定，能够使用Web获取文本或者进行搜

2、索查询，按部就班地完成各自的任务。2.分类：购物机器人、聊天机器人、搜索机器人（网络爬虫）等。网络爬虫1.概念：网络爬虫也叫网络蜘蛛，它是一个按照一定的规则自动提取网页程序，其会自动的通过网络抓取互联网上的网页，这种技术一般可能用来检查你的站点上所有的链接是否是都是有效的。当然，更为高级的技术是把网页中的相关数据保存下来，可以成为搜索引擎。搜索引擎使用网络爬虫寻找网络内容，网络上的HTML文档使用超链接连接了起来，就像织成了一张网，网络爬虫也叫网络蜘蛛，顺着这张网爬行，每到一个网页就用抓取程序将这个

3、网页抓下来，将内容抽取出来，同时抽取超链接，作为进一步爬行的线索。网络爬虫总是要从某个起点开始爬，这个起点叫做种子，你可以告诉它，也可以到一些网址列表网站上获取。2.区别：网络爬虫分类通用爬虫聚集爬虫工作原理从一个或多个初始网页的URL开始，获取初始网页的URL，抓取网页的同时，从当前网页提取相关的URL放入队列中，直到满足程序的停止条件。根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接(爬行的范围是受控的)放到待抓取的队列中，通过一定的搜索策略从队列中选择下一步要抓取的URL，重复以上步

4、骤，直到满足程序的停止条件。不同点1.增加了一些网页分析算法和网页搜索策略2.对被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索，这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。缺点1.不同领域、不同背景的用户有不同的检索目的和需求，通用搜索引擎所返回的结果包含大量用户不关心的网页。2.通用引擎的目标是大的网络覆盖率。3.只支持关键字搜索，不支持根据语义的搜索。4.通用搜索引擎对一些像图片、音频等信息含量密集且具有一定结构的数据无法获取。1.对抓取

5、目标的描述或定义。2.对网页和数据的分析和过滤。3.对URL的搜索策略。以上三个是需要解决的问题。算法广度优先算法现有聚焦爬虫对抓取目标的描述可分为基于目标网页特征、基于目标数据模式和基于领域概念3种。基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。根据种子样本获取方式可分为：（1）预先给定的初始抓取种子样本；（2）预先给定的网页分类目录和与分类目录对应的种子样本，如Yahoo!分类结构等；（3）通过用户行为确定的抓取目标样例，分为：a)用户浏览过程中显示标注的抓取样本；b)通过用户

6、日志挖掘得到访问模式及相关样本。其中，网页特征可以是网页的内容特征，也可以是网页的链接结构特征，等等。3.算法/策略名称网页分析算法网页搜索策略分类1．基于网络拓扑结构1>网页粒度分析算法2>网站粒度分析算法3>网页块粒度分析算法2．基于网页内容1>针对以文本和超链接为主的网页2>针对从结构化的数据源动态生成的网页。3>针对数据介于第一类和第二类之间3．基于用户访问行为1．深度优先策略2．广度优先策略3．最佳优先策略一些算法的介绍1>网页分析算法1.1基于网络拓扑的分析算法　　基于网页之间的链接，

7、通过已知的网页或数据，来对与其有直接或间接链接关系的对象（可以是网页或网站等）作出评价的算法。又分为网页粒度、网站粒度和网页块粒度这三种。　　1.1.1网页(Webpage)粒度的分析算法　　PageRank和HITS算法是最常见的链接分析算法，两者都是通过对网页间链接度的递归和规范化计算，得到每个网页的重要度评价。PageRank算法虽然考虑了用户访问行为的随机性和Sink网页的存在，但忽略了绝大多数用户访问时带有目的性，即网页和链接与查询主题的相关性。针对这个问题，HITS算法提出了两个关键的概

8、念：权威型网页（authority）和中心型网页（hub）。　　基于链接的抓取的问题是相关页面主题团之间的隧道现象，即很多在抓取路径上偏离主题的网页也指向目标网页，局部评价策略中断了在当前路径上的抓取行为。文献[21]提出了一种基于反向链接（BackLink）的分层式上下文模型（ContextModel），用于描述指向目标网页一定物理跳数半径内的网页拓扑图的中心Layer0为目标网页，将网页依据指向目标网页的物理跳数进行层次划分，从外层网页指向内层网页的链接称为反向链

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 5



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

网络爬虫技术分析

网络爬虫技术分析

相关文章

相关标签