网页抓取工具之数据预处理

网页抓取工具之数据预处理

ID:8854992

大小:31.67 KB

页数:3页

时间:2018-04-09

网页抓取工具之数据预处理_第1页
网页抓取工具之数据预处理_第2页
网页抓取工具之数据预处理_第3页
资源描述:

《网页抓取工具之数据预处理》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、网页抓取工具之数据预处理提取的数据还不能直接拿来用?文件还没有被下载?格式等都还不符合要求?别着急,网页抓取工具火车采集器自有应对方案——数据处理。网页抓取工具的数据处理功能包括三个部分,分别是内容处理、文件下载、内容过滤。下面依次给大家介绍:1、内容处理:对从内容页面提取的数据进行替换、标签过滤、分词等进一步处理,我们可以同时添加多个操作,但这里需要注意的是,有多个操作时是按照从上到下的顺序来执行,也就是说,上个步骤的结果会作为下个步骤的参数。下面来逐个介绍一下:①提取内容为空:如果通过前面的规则无法

2、准确提取或提取到的内容为空,则选择此项,此项应用后会使用正则匹配从原始页面中再次提取一次。②内容替换/排除:将采集到的内容进行字符串替换,如需排除,则替换为空字符串即可,功能很灵活。如下图,可直接对内容进行替换,也可对字符串进行参数替换等(区别于工具栏中的同义词替换)。③html标签过滤:过滤指定html标签,比如

3、(比如单一出现的文字)无法通过通用的内容替换来操作,那么则需要通过强大的正则表达式进行复杂的替换。如“火爆的美式餐厅都在这里”,我们将其替换为“美式餐厅”,正则表达式如下:⑥数据转换:包括将结果简转繁、将结果繁转简、自动转化为拼音和时间修正转化,共计四项处理。⑦智能提取:包括提取第一张图片、智能提取时间、智能提取邮箱、智能提取手机号码、智能提取电话号码。⑧高级功能:包括自动摘要、自动分词、自动分类、Http请求、字符编码转换、同义词替换、空内容缺省值、内容加前后缀、随机插入、运行C#代码、批量内容替换,

4、统计标签字符串长度等一系列功能。⑨补全单网址:将当前内容作为一个网址进行补全。2、文件下载:可以自动探测并下载文件,可设置下载路径和文件名样式。注意:文件下载中所指下载图片是源代码里有标准样式标签的图片地址。比如是一个直接的图片地址,或者不规则的图片源码,采集器将会视为文件下载。①将相对地址补全为绝对地址:勾选后会把标签采集到的相对地址补全为绝对地址。②下载图片:勾选后源代码里的含标准样式的代码图片将被下载。③探测文件真实地址但不下载:有时

5、候采集到的是附件下载地址,而非真实的下载地址,点击后会有跳转。这种情况下勾选此项会将真实地址采集出来,但是只是得到下载地址并不下载。④探测文件并下载:勾选后可以把采集到的任何格式的文件附件下载下来。3、内容过滤:对于一些不符合条件的记录,可以通过设置内容过滤来删除或标记为未采。内容过滤有以下几个处理方法:①内容不得包含和内容必须包含:可以设置多个词,支持选择所有条件都必须满足或满足其中一个条件即可。②采集结果不得为空:该功能可以让某个字段不出现空内容。③采集结果不得重复:该功能可以让某个字段不出现重复内

6、容。设置此项前请确保没有采集过数据,或者需先清空采集数据。④当内容长度小于(大于,等于,不等于)N时过滤:一个符号或一个字母或一个数字或一个汉字都计作一个。注意:对于满足上述四条中的任何一条或者多条的情况下,可以在采集器的其他设置功能里设置直接删除此条记录,或把此条记录标记为未采集下次运行任务时会再次采集。网页抓取工具火车采集器中配备一系列数据处理的好处是,当我们需要进行的只是一个很小的操作时,不需要再去写插件,去生成和编译,而是通过一步点击就可以将数据处理成我们需要的样子了。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。