侵略者_网页数据采集系统_技术白皮书

侵略者_网页数据采集系统_技术白皮书

ID:18511171

大小:452.00 KB

页数:15页

时间:2018-09-18

侵略者_网页数据采集系统_技术白皮书_第1页
侵略者_网页数据采集系统_技术白皮书_第2页
侵略者_网页数据采集系统_技术白皮书_第3页
侵略者_网页数据采集系统_技术白皮书_第4页
侵略者_网页数据采集系统_技术白皮书_第5页
资源描述:

《侵略者_网页数据采集系统_技术白皮书》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、致力于打造适用于海量信息采集的专业级网页采集系统www.invader.com.cn侵略者WEB数据采集系统V3.0.1技术白皮书Copyright©2005-2010AllRightsReserved侵略者软件www.invader.com.cn第15页致力于打造适用于海量信息采集的专业级网页采集系统www.invader.com.cn目录目录2一.概述3二.典型应用31.政府机关32.企业43.新闻媒体44.应用系统5三.系统构架51.工作过程描述52.采集管理服务器53.采集服务器群组6四.系统功能9五.技术特点10六.系统优势111.精确

2、度高112.易用性好123.灵活性强124.实施部署容易125.采集内容全面126.抓取速度快127.性能指标13七.维护管理监控13八.名词解释14九.系统环境要求15第15页致力于打造适用于海量信息采集的专业级网页采集系统www.invader.com.cn一.概述面对互联网海量的信息,政府机关、企事业单位和研究机构都迫切希望获取与自身工作相关的有价值信息,如何方便快捷地获取这些信息就变得至关重要了。如果采用原始的手工收集方式,费时费力且毫无效率,面对越来越多的信息资源,劳动强度和难度可想而知。因此,现代的政府和企业都迫切需要一种能够提供高质

3、量和高效运作的信息采集解决方案。本系统针对不同行业用户的应用需求,以抓取互联网或者内部网信息为目的,实现在用户自定义规则下,自动从互联网中抓取指定信息。抓取的信息可存入独立数据库或通过接口发送至其他系统,用于内部使用或外网发布,实现信息及时全面的共享。随着用户对信息获取速度的要求,很多网站开始做面向各行各业的垂直搜索引擎,垂直搜索引擎最核心的就是准确及时的获取数据源。本系统的设计目标就是为了满足这个需求。给垂直搜索引擎提供准确及时是数据采集服务。本系统同样能够给信息类网站提供内容采集服务,以快速提高网站的信息量。二.典型应用1.政府机关l实时跟踪

4、、采集与业务工作相关的信息来源。l全面满足内部工作人员对互联网信息的全局观测需求。l及时解决政务外网、政务内网的信息源问题,实现动态发布。l快速解决政府主网站对各地级子网站的信息获取需求。第15页致力于打造适用于海量信息采集的专业级网页采集系统www.invader.com.cnl全面整合信息,实现政府内部跨地区、跨部门的信息资源共享与有效沟通。l节约信息采集的人力、物力、时间,提高办公效率。1.企业l实时准确地监控、追踪竞争对手动态,是企业获取竞争情报的利器。l及时获取竞争对手的公开信息以便研究同行业的发展与市场需求。l为企业决策部门和管理层提

5、供便捷、多途径的企业战略决策工具。l大幅度地提高企业获取、利用情报的效率,节省情报信息收集、存储、挖掘的相关费用,是提高企业核心竞争力的关键。l提高企业整体分析研究能力、市场快速反应能力,建立起以知识管理为核心的“竞争情报数据仓库”,是提高企业核心竞争力的神经中枢。2.新闻媒体l快速准确地自动跟踪、采集数千家网络媒体信息,扩大新闻线索,提高采集速度。l支持每天对数万条新闻进行有效抓取。监控范围的深度、广度可以自行设定。l支持对所需内容的智能提取、审核。l实现互联网信息内容采集、浏览、编辑、管理、发布的一体化。第15页致力于打造适用于海量信息采集的

6、专业级网页采集系统www.invader.com.cn1.应用系统l垂直搜索应用l网络舆情监控l竞争情报系统l行业知识库l其它需要互联网海量信息作为数据源的应用系统二.系统构架1.工作过程描述采集的目的就是把对方网站上网页中的某块文字或者图片等资源下载到自己的数据库或其他的存储形式,这个过程需要做如下配置工作:下载网页配置,解析网页配置,修正结果配置,数据输出配置。如果数据符合自己要求,修正结果这步可省略。配置完毕后,把配置形成任务(任务以XML格式描述),发布到采集服务器群组,采集爬虫按照任务的描述开始工作,最终把采集到的结果存储到结果存储服务

7、器。然后用户自己的信息处理系统就可以到结果存储服务器上取到数据,作为自己的数据源。2.采集管理服务器运行采集管理平台,负责其他所有采集服务器的管理,监控,统计,分析和任务分配。与其他采集服务器采用HTTP协议发送查询命令,然后返回要查询的相关信息。第15页致力于打造适用于海量信息采集的专业级网页采集系统www.invader.com.cn1.采集服务器群组运行采集爬虫,每台服务器运行10个采集爬虫。每个爬虫负责多个采集任务,任务越多,数据更新的频率就越低。所以服务器越多,分配给每个进程的任务就越少,数据更新的频率就越高。数据采集的效率就越高。系统

8、部署图如下:第15页致力于打造适用于海量信息采集的专业级网页采集系统www.invader.com.cn第15页致力于打造适用于海量信息

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。