基于java技术的网页内容智能抓取

基于java技术的网页内容智能抓取

ID:23196934

大小:105.50 KB

页数:11页

时间:2018-11-05

基于java技术的网页内容智能抓取_第1页
基于java技术的网页内容智能抓取_第2页
基于java技术的网页内容智能抓取_第3页
基于java技术的网页内容智能抓取_第4页
基于java技术的网页内容智能抓取_第5页
资源描述:

《基于java技术的网页内容智能抓取》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于JAVA技术的网页内容智能抓取目录基于JAVA技术的网页内容智能抓取1架构1核心技术1基本业务流程描述1目前缺陷功能描述2快速上手2目前功能描述2抓取目标定义2清除目标定义5处理过程定义7案例9抓取javaeye博客内容9架构完全基于java的技术核心技术XML解析,HTML解析,开源组件应用。应用的开源组件包括:lDOM4J:解析XML文件ljericho-html-2.5:解析HTML文件lcommons-httpclient:读取WEB页面内容工具其他必须的辅助引用包括:lcommons-codeclcommons-log

2、gingljaxen基本业务流程描述l通过XML文件定义抓取目标l通过DOM4J开源组件读取XML配置文件l根据配置文件执行抓取任务l对抓取到的内容根据定义进行解析与处理目前缺陷功能描述l抓取内容如果有分页,则无法获取下一分页l目标页面可能包含有想抓取的信息,但没有抓取的配置选项。如百度贴吧l目标页面链接定义不够灵活,对于百度贴吧的链接参数以50增加的只能手动定义l没有多线程支持l日志输出比较混乱l错误处理比较简单l程序架构不够清晰,代码略显凌乱l不支持抓取结果存入多个表,目前只能将结果放在一个表中l是否考虑写一个XML类,提供通用

3、的调用XML节点跟解析结果的方法?l规定任务文件的DTD?l通配符替换不支持多个替换快速上手l在http://code.google.com/p/playfish/上面将war包下载到本地,导入到eclipse中。l使用WebContent/sql下的wcc.sql文件建立一个范例数据库l修改src包下wcc.core的dbConfig.txt,将用户名与密码设置成你自己的mysql用户名密码。l运行SystemCore.java,运行时候会在控制台显示任务执行状况,无参数会执行默认的example.xml的配置文件,如果指定了运行

4、参数则会采用参数指定的配置文件名。目前功能描述抓取目标定义作用:批量的定义抓取目标,自动生成要抓取的网页的地址。系统通过这个定义,自动生成要抓取的目标。网页抓取的意义在于批量自动化抓取,不可能手动的输入网址一个个进行抓取,所以抓取目标的自动生成是必须的。抓取目标定义的XML文件范例:

5、ef="http://robbin.javaeye.com/?page=(*)"startpos="1"endpos="3"/>XML规则:1.必须包含target节点,target的encode与timeout属性如果采用默认,可以不设置2.multi-url与wildcard-url可以任选一个,也可以并存,最多2个。合理的情

6、况包括:只有一个multi-url,只有一个wildcard-url,一个multi-url和一个wildcard-url。注意,无论wildcard-url跟multi-url的顺序如何,系统都会从multi-url开始执行。1.multi-url下包含至少一个single-url元素,通过single-url元素的href属性设置url2.wildcard-url属性包括href,startpos,endpos,这3个属性都是必须的。目前只支持(*)通配,url中只能有一个(*),(*)将会被替换成startpos和endpos

7、之间的数字。3.target-regex属性包括root,该属性值将会被添加在通过这个正则匹配得到的url之前。主要针对相对url。相对url需要加上站点的根路径组成完整路径。而如果是绝对url的话,可以将root属性放空。注意,正则表达式需要放在CDATA标签内。因为正则包含特殊字符,必须放在CDATA内,否则很可能导致解析错误。解析过程:1.首先获得页面编码与超时设置,在接下来读取任何html页面的过程中,这2个参数都会被应用。默认的编码为UTF-8,默认的超时时限为5000ms。如果要抓取的网站访问很慢,响应时间特别长,那么这

8、个超时时限可以相应设置得高一点。如果在target中没有指定这2个值,那么系统会采用默认的编码跟超时设置。2.判断是否包含multi-url定义,包含的话调用相应的方法,如果target下定义了target-regex元素,那么mul

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。