八爪鱼爬虫模拟登录抓取数据.docx

八爪鱼爬虫模拟登录抓取数据.docx

ID:28504174

大小:1.42 MB

页数:13页

时间:2018-12-10

八爪鱼爬虫模拟登录抓取数据.docx_第1页
八爪鱼爬虫模拟登录抓取数据.docx_第2页
八爪鱼爬虫模拟登录抓取数据.docx_第3页
八爪鱼爬虫模拟登录抓取数据.docx_第4页
八爪鱼爬虫模拟登录抓取数据.docx_第5页
资源描述:

《八爪鱼爬虫模拟登录抓取数据.docx》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、八爪鱼使用cookie登陆网站采集数据(7.0版本)本文给大家演示,通过记录Cookie登录网站,再进行数据采集的方式。Cookie:某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)。在八爪鱼里,有些网站是需要登陆账号之后,才能进行采集数据。我们需要先做一个登录流程,登陆进网站,然后获取登陆后的Cookie,记住登陆状态,浏览器即会自动打开登陆后要采集的网址。登录网址:https://login.taobao.com/示例网址:https://s.taobao.com/list?spm=a217f.80519

2、07.312344.10.Xesvx1&style=grid&seller_type=taobao&cps=yes&cat=50000671我们需要先创建一个登录流程:在登录网址里面,输入用户名、密码,登陆网站。然后获取登陆后的Cookie,记住登陆状态。步骤1:打开网页1)登陆八爪鱼7.0采集器,点击新建任务,选择“自定义采集”,进入到任务配置页面2)然后输入登录网址,点击“保存网址”,系统会进入到流程设计页面并自动打开前面输入的登录网址Cookie登录方法(7.0)-图1步骤2:登录网站1)在浏览器中,用鼠标点击用户名输入框,输入自己的用户名。用同

3、样的方式输入密码Cookie登录方法(7.0)-图22)在浏览器中,用鼠标点击登陆按钮,在右边弹出的提示框里选择“点击该按钮”(或直接按键盘上的enter键也可)Cookie登录方法(7.0)-图33)浏览器会自动登陆,打开我们最终需要采集数据的网址。这时登陆流程便做好了步骤3:新建“打开网页”1)打开“流程”。在流程设计器中,拖入一个打开网页的步骤2)输入最终要采集的网址URL,点击“确定”。八爪鱼浏览器以登录后的状态打开了此URLCookie登录方法(7.0)-图43)在拖入“打开网页”的步骤之后,默认超时时间是空白的。我们需要给网站设置一个加载时

4、间,这里设置20秒即可Cookie登录方法(7.0)-图5步骤4:记录Cookie1)选中“打开网页”步骤,点开“缓存设置”,勾选“打开网页的自定义Cookie”,点击获取当前页面的Cookie(可以点一下旁边的箭头,查看是否获取了cookie)2)获取到登陆之后的Cookie之后,点击“确定”按钮。八爪鱼会记住这个Cookie状态,下次会以登陆之后的状态打开Cookie登录方法(7.0)-图6步骤5:删除多余步骤1)流程设计器里,把其他多余的步骤删掉Cookie登录方法(7.0)-图72)然后按照新手入门的方法提取数据。这里以随便提取一个字段为例,设

5、置好之后点击“确定”按钮进行保存Cookie登录方法(7.0)-图8步骤6:数据采集1)选择保存并启动,选择“启动本地采集”。系统将会在本地启动一个采集流程并执行采集规则Cookie登录方法(7.0)-图92)可以看到,数据采集正常进行。采集完成之后,选择导出数据Cookie登录方法(7.0)-图10本教程重点是教用户怎么通过记住Cookie登录网站,后面的数据采集步骤,按照之前的教程提取。具体可参考:分页列表信息采集分页列表详细信息采集AJAX点击和翻页(上)AJAX点击和翻页(下)AJAX滚动教程注意:cookie是有生命周期的,周期时间取决于采集

6、的网站。如果cookie到期了,就需要再重新获取一次登陆之后的cookie。另外如果需要切换账号,可以勾选打开浏览器前清理缓存,然后再取消cookie,重新设置其他账号即可。Cookie登录方法(7.0)-图11注意:有些网站,这个登录框其实是iframe的登录框。iframe即html标签,会创建包含另外一个文档的内联框架(即行内框架),含义是网页中的网页。例如上面天猫的登陆地址,八爪鱼获取的是当时操作时的iframe,但是天猫有防采集措施,如果登录框的xpath有变化的话,就需要通过下面的方式获取登录框的详细URL直接输入这个URL做登陆流程。我们

7、可以通过火狐获取登陆框的详细地址,然后直接输入这个详细的地址进行流程设计。在火狐浏览器上,用鼠标右键点击登录框,选择此框架,查看框架信息,地址。这个地址,即为登录框的真实地址。获取到这个地址之后,在八爪鱼里,输入这个地址做规则即可。Cookie登录方法(7.0)-图12:查看框架信息Cookie登录方法(7.0)-图13:复制地址栏中的URLCookie登录方法(7.0)-图14:在网页中打开复制的URL相关采集教程:天猫店铺采集黄页88数据采集搜狗微信文章采集八爪鱼——70万用户选择的网页数据采集器。1、操作简单,任何人都可以用:无需技术背景,会上网

8、就能采集。完全可视化流程,点击鼠标完成操作,2分钟即可快速入门。2、功能强大,任何网站都可以采

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。