主题搜索引擎中网络爬虫的实现研究

主题搜索引擎中网络爬虫的实现研究

ID:31364356

大小:107.50 KB

页数:6页

时间:2019-01-09

主题搜索引擎中网络爬虫的实现研究_第1页
主题搜索引擎中网络爬虫的实现研究_第2页
主题搜索引擎中网络爬虫的实现研究_第3页
主题搜索引擎中网络爬虫的实现研究_第4页
主题搜索引擎中网络爬虫的实现研究_第5页
资源描述:

《主题搜索引擎中网络爬虫的实现研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、主题搜索引擎中网络爬虫的实现研究  摘要:信息时代,互联网充斥着我们生活的方方面面,而搜索引擎的应用为我们的生活带来了极大的便利。对搜索引擎中网络爬虫的实现的研究,对于提升搜索引擎效率有着重要的意义。本文分析了面向主题的搜索引擎中网络爬虫的实现,并提出了相应的方法和手段。  关键词:搜索引擎;网络爬虫;实现;设计;主题  中图分类号:TP393文献标识码:A文章编号:1009-3044(2016)17-0023-02  Abstract:Intheinformationage,theInternetisfullofallaspectsofo

2、urlives,andtheapplicationofthesearchengineforourlifebroughtgreatconvenience.Theresearchontherealizationofwebcrawlerinsearchengineisofgreatsignificancetoimprovetheefficiencyofsearchengine.Thispaperanalyzestherealizationofthewebcrawlerinthesubjectorientedsearchengine,andputs

3、forwardthecorrespondingmethodsandmeasures.  Keywords:SearchEngine;WebCrawler;Implementation;Design;Theme  1概述6  使用搜索引擎,人们可以方便快捷地在网上获取有用信息。随着大数据时代的到来,传统的通用搜索引擎面临着索引规模、更新速度和个性化需求等多方面的挑战。主题搜索引擎以提供分类精细、数据全面、更新实时的搜索服务为目标。网络爬虫是搜索引擎的基础模块,是搜索引擎的重要基础。  网络爬虫是一种能自动提取网页内容的程序,利用网页信息格式进

4、行网页分析,也可以定期搜集某个或某些网站的内容,跟踪网站的发展历程。随着网络爬虫技术的快速进步,网络爬虫更加广泛地运用于网站结构分析、个性化信息获取以及用户兴趣挖掘等多种服务中。  2主题搜索引擎简述  搜索引擎是一种用来在万维网上检索资源文件的计算机程序。搜索引擎根据用户输入的检索关键词推测出用户的查询意图,然后快速地返回相关的查询结果信息供用户使用。  大数据时代互联网数据爆炸性地增长,急切地需要一种快速、准确细致、全面深入且更新及时的信息检索方法。主题搜索引擎克服了传统搜索引擎的诸多困难,使信息检索变得更加精确细致,使搜索到的信息更加

5、全面深入,同时使专题信息和学科信息的更新更加及时。  3网络爬虫简述  网络爬虫从一个初始URL队列开始,从中获取一个URL,获取网页,从网页中提取所有的URL,并将新的URL添加到URL队列中。然后网络爬虫从队列中获得另一个URL,重复前面的过程,直到达到停止条件。这种爬取资源的方式存在着网络连接不稳定、网页特征多样化、URL不规范等一些问题。  4网络爬虫分类6  第一个网络爬虫是美国麻省理工学院的学生MatthewGrey于1993年写成,后来改进了爬虫程序并将其引入到搜索引擎中。随着搜索引擎技术的不断进步,爬虫程序也越来越复杂,后来

6、产生了通用爬虫、限定爬虫和主题爬虫等几种不同类型的爬虫。  4.1通用爬虫  基本原理上文已分析,但爬取的范围过大,爬取顺序要求低,对爬取速度和存储空间要求较高。  4.2限定爬虫  限定爬虫是一种能爬取用户感兴趣的某一类网页的爬虫程序。但它不要求爬取所有的网页,只需爬取某些特定种类的网页即可。工作过程是:采用朴素贝叶斯方法用网页样本训练一个文本分类器,然后用这个文本分类器指导爬虫的偏好,从爬虫队列中选择出用户感兴趣的网页。  4.3主题爬虫  主题爬虫先确定一个或多个主题,根据一定的分析算法过滤与主题无关的URL,保留与主题相关的URL并

7、将其放入等待URLs队列中;然后使用某种搜索策略从等待队列中选择下一个要抓取的URL,并重复上述过程,直到达到某种停止条件。  首先主题爬虫需要判定当前抓取与设定的主题的相关性,其次主题爬虫采用按相似度大小抓取网页的策略来抓取网页。相比通用爬虫它极大地节约了硬件和网络资源,加快了爬取速度,还可以满足人们对特定领域的需求。  5主题爬虫的爬取策略6  主题爬虫以通用网络爬虫为基础,在此基础上进行优化和扩展,使其具备主题网络爬虫特有的功能,进而实现面向主题的网页信息提取。  主题爬虫尽可能搜集与主题相关的网页,减少下载无关网页的可能。主题爬虫与

8、通用爬虫相比需要解决以下问题:主题的描述和定义、网页内容与主题相关性的判定、链接重要程度的判定、如何提高主题爬虫资源覆盖率。  面向主题的信息采集系统可分为4个部分,即主题集选取

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。