主题搜索引擎中网络爬虫的搜索策略研究

主题搜索引擎中网络爬虫的搜索策略研究

ID:9671393

大小:49.00 KB

页数:2页

时间:2018-05-05

主题搜索引擎中网络爬虫的搜索策略研究_第1页
主题搜索引擎中网络爬虫的搜索策略研究_第2页
资源描述:

《主题搜索引擎中网络爬虫的搜索策略研究》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、主题搜索引擎中网络爬虫的搜索策略研究主题搜索引擎中网络爬虫的搜索策略研究  一、引言  信息时代的发展,让越来越多的高新技术应用到网络中去。随着网络信息数据的海量增长,传统的搜索引擎功能已与当前人们多元化的信息需求不匹配,人们对于搜索引擎的要求更加细致、精确,传统的搜索引擎已无法满足人们个性化信息检索服务的需求[1]。近年来,主题型搜索引擎应运而生。所谓主题型搜索引擎,就是以构筑某一专题领域或学科领域的因特网信息资源库为目标,智能地在互联网上搜集符合设定专题或满足学科需要的信息资源[2]。在主题搜

2、索引擎的研究中,网络爬虫搜索策略主要研究以何种搜索策略访问.收集整理爬虫有效地实现网页信息的读取,让用户及时获得所需要的信息。  二、网络爬虫的概念  网络爬虫的概念有广义和狭义之分。狭义上的概念是指根据超链接和WEB文档检索万维网信息空间;广义上的概念是利用标准的HTTP协议检索Web文档,使用HTTP协议的软件称之为网络爬虫。网络爬虫能够自动提取网页??程序,能够从万维网搜索引擎下载网页,是搜索引擎的重要组成部分。网络爬虫不依靠用户干预,即可实现自动爬行搜索。  三、聚焦搜索策略  网络爬虫的

3、主题搜索引擎能够获取到的网页一般要多于100万面,同时获取网页用时较长,有时需要等待十秒以上的时间。随着人们对于搜索要求的提高,这些通用搜索引擎与人们的要求不相适应。因此,出现了聚焦爬虫策略,能够定向的获取主题网页,只挑出所需的特定主题页面来进行定向访问,图1即可显示聚焦爬虫的应用策略及规则。  图1聚焦搜索策略  聚焦爬虫给下载页面分配一个分数,然后根据得分排序,放入到确定的队列中去。通过队列对页面进行分析,以寻找最佳的页面。网络爬虫搜索策略的关键是如何评价链接,以显示链接的重要性,从而确定不同

4、的主题搜索策略。聚焦搜索策略主要包括基于内容评价的搜索策略、基于链接结构评价的搜索策略、基于巩固学习的聚焦搜索策略和基于语境图的聚焦搜索策略。基于巩固学习的聚焦搜索策略,是在强化学习的模型中,通过几个不相关页面的访问,获得主题页面的模式。把获得的主题相关页面称为未来的回报,未来回报的预测值表示未来回报的价值,用Q值来表示。这种方法的核心是要学会如何计算链路的Q值,根据未来的返回值,确定主题搜索目标的正确性。基于语境图的聚焦搜索策略,能够构建出WEB的语境图,来估算与目标页面的距离。但这种方式有一定

5、的局限性,不能够表现出客观的WEB结构。  四、宽度和深度优先搜索策略  搜索引擎所用的第一代网络爬虫主要是基于传统的图算法,如宽度优先或深度优先算法来索引整个Web,一个核心的URL集被用来作为一个种子集合,这种算法超的最终的目标是跟踪覆盖整个Web。这种策略通常用在通用搜索引擎中,因为通用搜索引擎获得的网页越多越好,没有特定的要求.如图2所示。  图2传统的图算法  网络爬虫的搜索引擎主要是基于传统的图算法,通过索引整个Web,由一个核心的URL集被用来作为种子集合,算法递归地跟踪超链接到其他

6、的页面,在运行中,通常不需要顾及页面的具体内容,因为最终的目标是要在整个WEB中实施跟踪策略,覆盖面通常是用在一般的搜索引擎中,因对一般的网页搜索引擎的要求是能够尽可能多的获得返回的页面,而没有相应的主题的要求,如图2为传统的图算法。其主要的方法包括宽度优先搜索算法和深度优先算法。在进行Web主题信息提取的实施过程中,所提取的URL已经通过了主题相关性判别。尽管如此,所提取的页面内容还是可能与设定的主题相差甚远。这种现象将影响主题页面信息的提取准确率。因此,在页面提取之后,需要对页面进行主题相关性

7、判别,以滤掉主题无关页面。深度优先搜索所遵循的搜索策略是尽可能深地搜索图。搜索的过程一直进行到所有节点已发现并确定源节点是否是最新的。如果还有未被发现的节点,然后选择源节点之一,并重复上述过程,直到所有的节点都被发现。  五、小结  随着人们对个性化信息检索服务需求的日益增长,面向主题的搜索引擎应运而生。在主题搜索引擎中,网络爬虫以何种策略访问Web能提高搜索效率,是近年来主题搜索引擎研究中的主要问题之一。面对人们越来越高的信息检索要求,各种专业主题搜索引擎应运而生,以满足不同用户群体的个性化需求

8、。基于主题的采集的核心问题就是采集时向主题页面群的引导和对无关页面的过滤问题,需要进一步研究出新算法。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。