主题搜索引擎中网络爬虫的实现研究

ID：31364356

大小：107.50 KB

页数：6页

时间：2019-01-09

资源描述：

《主题搜索引擎中网络爬虫的实现研究》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、主题搜索引擎中网络爬虫的实现研究　　摘要：信息时代，互联网充斥着我们生活的方方面面，而搜索引擎的应用为我们的生活带来了极大的便利。对搜索引擎中网络爬虫的实现的研究，对于提升搜索引擎效率有着重要的意义。本文分析了面向主题的搜索引擎中网络爬虫的实现，并提出了相应的方法和手段。　　关键词：搜索引擎；网络爬虫；实现；设计；主题　　中图分类号：TP393文献标识码：A文章编号：1009-3044（2016）17-0023-02　　Abstract：Intheinformationage，theInternetisfullofallaspectsofo

2、urlives，andtheapplicationofthesearchengineforourlifebroughtgreatconvenience.Theresearchontherealizationofwebcrawlerinsearchengineisofgreatsignificancetoimprovetheefficiencyofsearchengine.Thispaperanalyzestherealizationofthewebcrawlerinthesubjectorientedsearchengine，andputs

3、forwardthecorrespondingmethodsandmeasures.　　Keywords：SearchEngine；WebCrawler；Implementation；Design；Theme　　1概述6　　使用搜索引擎，人们可以方便快捷地在网上获取有用信息。随着大数据时代的到来，传统的通用搜索引擎面临着索引规模、更新速度和个性化需求等多方面的挑战。主题搜索引擎以提供分类精细、数据全面、更新实时的搜索服务为目标。网络爬虫是搜索引擎的基础模块，是搜索引擎的重要基础。　　网络爬虫是一种能自动提取网页内容的程序，利用网页信息格式进

4、行网页分析，也可以定期搜集某个或某些网站的内容，跟踪网站的发展历程。随着网络爬虫技术的快速进步，网络爬虫更加广泛地运用于网站结构分析、个性化信息获取以及用户兴趣挖掘等多种服务中。　　2主题搜索引擎简述　　搜索引擎是一种用来在万维网上检索资源文件的计算机程序。搜索引擎根据用户输入的检索关键词推测出用户的查询意图，然后快速地返回相关的查询结果信息供用户使用。　　大数据时代互联网数据爆炸性地增长，急切地需要一种快速、准确细致、全面深入且更新及时的信息检索方法。主题搜索引擎克服了传统搜索引擎的诸多困难，使信息检索变得更加精确细致，使搜索到的信息更加

5、全面深入，同时使专题信息和学科信息的更新更加及时。　　3网络爬虫简述　　网络爬虫从一个初始URL队列开始，从中获取一个URL，获取网页，从网页中提取所有的URL，并将新的URL添加到URL队列中。然后网络爬虫从队列中获得另一个URL，重复前面的过程，直到达到停止条件。这种爬取资源的方式存在着网络连接不稳定、网页特征多样化、URL不规范等一些问题。　　4网络爬虫分类6　　第一个网络爬虫是美国麻省理工学院的学生MatthewGrey于1993年写成，后来改进了爬虫程序并将其引入到搜索引擎中。随着搜索引擎技术的不断进步，爬虫程序也越来越复杂，后来

6、产生了通用爬虫、限定爬虫和主题爬虫等几种不同类型的爬虫。　　4.1通用爬虫　　基本原理上文已分析，但爬取的范围过大，爬取顺序要求低，对爬取速度和存储空间要求较高。　　4.2限定爬虫　　限定爬虫是一种能爬取用户感兴趣的某一类网页的爬虫程序。但它不要求爬取所有的网页，只需爬取某些特定种类的网页即可。工作过程是：采用朴素贝叶斯方法用网页样本训练一个文本分类器，然后用这个文本分类器指导爬虫的偏好，从爬虫队列中选择出用户感兴趣的网页。　　4.3主题爬虫　　主题爬虫先确定一个或多个主题，根据一定的分析算法过滤与主题无关的URL，保留与主题相关的URL并

7、将其放入等待URLs队列中；然后使用某种搜索策略从等待队列中选择下一个要抓取的URL，并重复上述过程，直到达到某种停止条件。　　首先主题爬虫需要判定当前抓取与设定的主题的相关性，其次主题爬虫采用按相似度大小抓取网页的策略来抓取网页。相比通用爬虫它极大地节约了硬件和网络资源，加快了爬取速度，还可以满足人们对特定领域的需求。　　5主题爬虫的爬取策略6　　主题爬虫以通用网络爬虫为基础，在此基础上进行优化和扩展，使其具备主题网络爬虫特有的功能，进而实现面向主题的网页信息提取。　　主题爬虫尽可能搜集与主题相关的网页，减少下载无关网页的可能。主题爬虫与

8、通用爬虫相比需要解决以下问题：主题的描述和定义、网页内容与主题相关性的判定、链接重要程度的判定、如何提高主题爬虫资源覆盖率。　　面向主题的信息采集系统可分为4个部分，即主题集选取

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 6



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

主题搜索引擎中网络爬虫的实现研究

主题搜索引擎中网络爬虫的实现研究

相关文章

相关标签