抓站工具用户手册

抓站工具用户手册

ID:8448933

大小:892.50 KB

页数:71页

时间:2018-03-28

抓站工具用户手册_第1页
抓站工具用户手册_第2页
抓站工具用户手册_第3页
抓站工具用户手册_第4页
抓站工具用户手册_第5页
资源描述:

《抓站工具用户手册》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、益众网站信息抓取工具用户手册益众网站信息抓取工具用户手册第71页共71页益众网站信息抓取工具用户手册目录1.概述41.1.关于网站抓取工具41.2.特点52.软件安装52.1.安装环境52.1.1.硬件环境52.1.2.软件环境52.2.安装步骤62.2.1.安装JDK1.5.x62.2.2.安装数据库62.2.3.导入系统数据62.2.4.安装本系统72.2.5.Tomcat启动和停止93.术语104.使用说明114.1.辅助功能124.1.1.登录124.1.2.修改管理员信息124.1.3.系统参数配置124.1.4.入库数据表配置134.1.5.抓取统

2、计144.1.6.查看网页源码144.1.7.软件注册144.2.页面配置144.2.1.增加页面基本信息154.2.2.修改页面基本信息164.2.3.删除页面基本信息164.2.4.URL配置174.2.5.增加正文页URL及定位配置信息174.2.6.修改正文页URL及定位配置信息194.2.7.增加列表页URL配置信息194.2.8.修改列表页URL配置信息214.2.9.URL参数配置214.2.10.增加URL参数214.2.11.修改URL参数224.2.12.删除URL参数234.2.13.设置URL参数值234.2.14.增加URL参数值23

3、4.2.15.修改URL参数值244.2.16.删除URL参数值24第71页共71页益众网站信息抓取工具用户手册4.2.17.定位信息设置244.2.18.增加列表页定位配置信息254.2.19.修改列表页定位配置信息264.2.20.下级页面配置264.2.21.增加子页面274.2.22.修改子页面284.2.23.删除子页面284.2.24.设置抓取时间284.2.25.抓取304.3.页面解析304.3.1.增加页面解析配置信息304.3.2.修改页面解析配置信息344.3.3.删除页面解析配置信息344.3.4.值替换配置信息344.3.5.增加值替

4、换配置信息354.3.6.修改值替换配置信息354.3.7.删除值替换配置信息354.4.页面入库364.4.1.增加页面入库数据表信息364.4.2.修改页面入库数据表信息374.4.3.删除页面入库数据表信息374.4.4.字段对照值配置信息374.4.5.增加字段对照值384.4.6.修改字段对照值394.4.7.删除字段对照值395.配置样例395.1.登录405.2.入库数据表配置405.3.页面配置405.3.1.页面基本信息配置:415.3.2.URL配置:425.3.3.定位信息配置:435.4.页面解析445.5.下级页面配置465.6.下级

5、页面解析:485.7.入库配置:515.7.1.选定入库数据表515.7.2.字段对照值配置535.8.抓取:556.参考内容566.1.规则表达式566.2.JDBCURL587.服务支持60第71页共71页益众网站信息抓取工具用户手册1.概述1.1.关于网站抓取工具本工具可以抓取互联网上的任何网页,包括需要登录后才能访问的页面。对抓取到页面内容进行解析,得到结构化的信息,比如:新闻标题、作者、来源、正文等。支持列表页的自动翻页抓取,支持正文页多页合并,支持图片、文件的抓取,可以抓取静态网页,也可以抓取带参数的动态网页,功能极其强大。用户指定要抓取的网站、抓

6、取的网页类型(固定页面、分页显示的页面等等),并配置如何解析数据项(如新闻标题、作者、来源、正文等),系统可以根据配置信息自动实时抓取数据,启动抓取的时间也可以通过配置设定,真正做到“按需抓取,一次配置,永久抓取”。抓来的数据可以保存到数据库中。支持当前主流数据库,包括:Oracle、SQLServer、MySQL等。本工具完全可以替代传统的编辑手工处理信息的模式,能够实时、准确、一天24*60不间断为企业提供最新资讯,真正能为企业降低成本,提高竞争力。系统功能结构图如下图所示:第71页共71页益众网站信息抓取工具用户手册1.1.特点l适用范围广,可以抓取任何

7、网页(包括登录后才能访问的网页)l处理速度快,如果网络畅通,1小时可以抓取、解析10000个网页l采用独特的重复数据过滤技术,支持增量式数据抓取,可以抓取实时数据,如:股票交易信息、天气预报等l抓取信息的准确性高,系统提供了强大的数据校验功能,保证了数据的正确性l支持断点续抓,在当机或出现异常情况后可以恢复抓取,继续后续的抓取工作,提高了系统的抓取效率l对于列表页,支持翻页,可以抓取到所有列表页中的数据。对于正文页,可以对分页显示的内容自动进行合并;l支持页面深度抓取,页面间可以一级一级地抓下去。比如,通过列表页抓取到正文页URL,然后再抓取正文页。各级页面可

8、以分别入库;lWEB操作界面,一处安装

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。