侵略者WEB数据采集系统_介绍

侵略者WEB数据采集系统_介绍

ID:41955178

大小:36.00 KB

页数:7页

时间:2019-09-05

侵略者WEB数据采集系统_介绍_第1页
侵略者WEB数据采集系统_介绍_第2页
侵略者WEB数据采集系统_介绍_第3页
侵略者WEB数据采集系统_介绍_第4页
侵略者WEB数据采集系统_介绍_第5页
资源描述:

《侵略者WEB数据采集系统_介绍》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、侵略者忖目录一.开发背景二功能介绍三.模块组成四.运行部署五.维护筲理监控六.软换件要求七性能分析八.名词解释一.开发背景随着用户对信息获取速度的要求,很多公司开始做面向各行各业的垂宜搜索引擎,垂宜搜索引擎最核心的就是准确及时的获取数据源。本系统的设计目标就是为了满足这个需求。给垂宜搜索引擎提供准确及时是数据采集服务。一.功能介绍本系统提供对互联网数据述行采集的服务。根据用八事先配置好的规则(网页下载规则,数据块解析规则筹),进行数据采集。当対方网站数据进行了更新,或者添加新数据时,系统自动会进行检测,并进行采集,然后更新到自己的数据库(或者别的存储方

2、式),这个过程不再需要人工干涉。本系统采用分布式处理,可以通过采集管理平台把采集任务发布到不同的服务器,能够进行对人暈数据源网站进行高频率的并行监控采集。对服务器群管理方便快捷,通过采集管理平台进行统一管理,监控,统计,分析。木系统主要适合于对数据量要求人的行业垂直搜索引擎和情报分析系统的数据采集,也适合于一些对数据量要求不高的信息发布网站。本系统采用插件方式,对采集来的数据可以进行修正。对输出方式可以通过插件口由定制。可扩展性高。二.模块组成1.网页下载配置负责制定网页下载规则,登录设置,下载策略设置。主要供网页下载进程使用。2.网页下载进程根据网页

3、下载配置的规则进行网页下载。等待网页解析进程进行解析3.网页解析配置负责制定网页解析规则,选择结果修止方法,并进行采集测试。1.网页解析进程根据网页解析配置对下载到的网页进行解析修止,然后通过插件输出到指定存储方式。2.采集任务配置把网页下载配置和网页解析配置(多选)组合起來,然灰设置输出方式(多选)。3.采集任务测试和分配可以对采集配置角色提交的任务进行测试检验,合格后发布到采集服务器上(通过XML格式配置文件)。4.角色管理对采集配置角色,任务分配角色,系统管理饬色三种角色的帐号管理。&采集服务器的管理,监控,统计,分析等通过对服务进程发命令的方式

4、,获取采集服务器的信息,进行管理,监控,统计,分析。9数据的导入,导出,备份等对己经配置好的采集任务以及其他数据进行数据库备份,对任务进行导入导出,以便发布到其他采集管理平台。10.插件管理发布对不断新增的插件进行上传,发布,管理。11.服务进程运行在每台采集服务器,响应采集管理平台的命令,负责对采集服务辭的管理和状态反馈。一.运行部署采集管理平台:运行在一台服务器,负责其他所有采集服务器的管理,监控,统计,分析和任务分配。为其他采集服务器采用HTTP协议发送查询命令,然后返回要查询的相关信息。采集进程:每台服务器运行10个采集进程。每个进程负责多个采

5、集任务,任务越多,数据更新的频率就越低。所以服务器越多,分配给每个进程的任务就越少,数据更新的频率就越高。数据采集的效率就越高。一.维护管理监控系统安装完毕后,维护主要通过基于WEB的采集管理平台。可以通过管理平台创建分配采集任务,监控每台服务器的运行状态,釆集数据的统计,以及性能分析。根据分析结果可以调整服务器的运行配置,以便于更充分的利用硬件资源。数据源网站的采集配置采用分用户的管理方式,用户分三种角色:采集配置角色,任务分配角色,系统管理角色。1.采集配置角色用户可以配置管理口己的采集工程,配置完成的工程才可以提交给任务分配角色。2.任务分配如色

6、对采集配置角色提交上来的丄程进行测试,测试成功后分配给采集服务器处理,否则驳回,另外具有服务器运行状态,数据统计,性能分析等权限,可以根据分析结果进行采集任务分配。3.系统管理角色具有以上两者所有权限,并具有用户帐号管理,系统参数数据管理等所有权限。另外对系统的稳定性和准确性采取如下措施:1.进程监控:対采集进程和管理进程的监控,采取在管理服务器定期対每个服务器进行检查的方式,发送一个检查指令,判断某台采集服务器上这两个进程的运行状态,出现异常则报警。2.采集监控:为了防止H标网站的网页模板变化,采取对采集结果进行监控的方式,如果长时间没有数据采集成功

7、,则进行报警。也可以通过命令服务进程检杳每个采集任务的状态。一.软硬件要求软件:跨平台,对操作系统无要求,建议使用Unix操作系统,安全稳定可靠。JVM5.0或以上。硬件:硬件要求低,能运行jnva虚拟机即可。建议高带宽,内存512以上,硬盘70G(根据采集站点的大小决定)以上。随数据抓取源网站数量的増加,可以不断添加新的采集服务器。二.性能分析采集的速度,主要受以下儿个因素影响:采集服务器性能采集服务器网络带宽要采集网站的带宽(R卩访问速度)要采集网页的平均大小常规情况下:如果以每台服务器运行10个采集进程,带宽在独享1M为准。在数据源网站不存在带宽

8、瓶颈的情况下,每小时采集大概7万个网页。对于人量的数据,建议采川分布式的服务器集群进行釆集。一

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。