web信息采集系统的设计与实现

web信息采集系统的设计与实现

ID:30773250

大小:611.00 KB

页数:9页

时间:2019-01-03

web信息采集系统的设计与实现_第1页
web信息采集系统的设计与实现_第2页
web信息采集系统的设计与实现_第3页
web信息采集系统的设计与实现_第4页
web信息采集系统的设计与实现_第5页
资源描述:

《web信息采集系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、.基于主题的Web信息采集系统的设计与实现李盛韬,赵章界,余智华(中国科学院计算技术研究所软件研究室,北京100080)摘要:基于主题的Web信息采集是信息检索领域内一个新兴而有实用价值的方向,也是信息处理技术中的一个研究热点。本文分析了主题Web信息采集的基本问题,提出了难点以及相关的解决方案,并在此基础上设计实现了“天达”主题Web信息采集系统。关键词:信息采集;信息检索;信息处理;主题Email:lishengtao@software.ict.ac.cn;zhaozj@software.ict.

2、ac.cn;yzh@ict.ac.cn中图分类号:TP391文献表示码:A基金资助:中科院计算所领域前沿青年基金资助(资助号20016280-8)DesignandRealizationofFocusedWebCrawlerLISheng-tao,ZHAOZhang-jie,YUZhi-hua(SoftwareDivision,InstituteofComputingTechnology,ChineseAcademyofSciences,Beijing100080,China)Abstract:Foc

3、usedwebcrawlingisanewandpracticaldirectioninthefieldofinformationretrieval.Anditalsoisaresearchhotspotintheinformationprocessingtechnologies.Thispaperarguestheprinciples,difficultiesandmeasuresofthefocusedwebcrawler,andthendetailedlyanalysesthedesignofo

4、urSkyReachfocusedwebcrawler.KeyWords:WebCrawler;InformationRetrieval;InformationProcessing;FocusedCrawler1.引言随着Internet的迅速发展,网络正深刻地改变着我们的生活。截止到2000年7月,Internet上的网页数量就已经超过21亿,上网用户超过3亿,而且网页还在以每天700万的速度增加[8]。这给人们的生活提供了丰富的资源。然而,Web信息的急速膨胀,在给人们提供丰富信息的同时,又使人们

5、在对它们的有效使用方面面临一个巨大的挑战。因此,基于Web的信息采集、发布和相关的信息处理日益成为人们关注的焦点。传统的Web信息采集的目标就是尽可能多地采集信息页面,甚至是整个Web上的资源,而在这一过程中它并不太在意页面采集的顺序和被采集页面的相关主题。这样做的一个极大好处是能够集中精力在采集的速度和数量上,并且实现起来也相对简单,例如Google采集系统在并行4个采集器时的采集速度可以达到每秒100页。但是,这种传统的采集方法也存在着很多缺陷。随着WWW信息的爆炸性增长,信息采集的速度越来越不能

6、满足实际应用的需要。最近的试验表明,即使大型的信息采集系统,它对Web的覆盖率也只有30-40%。解决这一问题的办法有升级信息采集器的硬件设备、提高并行能力,但是它们的能力十分有限,带来的改善效果仍远不能满足人们的需要。主题采集则可以通过对整个Web按主题分块采集,并将不同块的采集结果整合到一起,来提高整个Web的采集覆盖率。对于传统的信息采集来说,待刷新页面数量的巨大使得很多采集系统刷新一遍需要数周到一个月的时间[1][2],这使得页面的失效率非常地巨大。Selberg和Etzioni在1995年的

7、调查发现,通过Internet中最常用的一些搜索引擎查询到的结果URL中,14.9%的目标页面已经失效了[5]。一个好的缓解办法就是采用主题采集,通过减小采集页面的数量,从而减小刷新一遍的时间,进而减小已采集页面的失效率。传统的信息采集需要采集的页面数量十分巨大,这需要消耗非常多的系统资源和网络资源,而对这些资源的消耗并没有换来采集到页面的较高利用率,事实上,它们中有相当大的一部分利用率很低。基于主题的采集有效地提高了采集到页面的利用效率。为此,我们开展了主题Web信息采集技术的研究,并设计实现了“天

8、达”...主题Web信息采集系统。全文的组织是这样的:第二章介绍主题Web信息采集的基本问题;第三章给出了“天达”主题Web信息采集系统的结构模型以及相关细节;在第四章里,我们给出了该系统的实现情况;最后,在第五章里展望了主题Web信息采集发展的动向。2.基于主题的Web信息采集的基本问题2.1基于主题的Web信息采集的定义在Web信息采集的大家庭中,有一类非常重要,它就是基于主题的Web信息采集(FocusedCrawling),也称为Topic-Sp

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。