如何基于node爬取网页源文件

如何基于node爬取网页源文件

ID:30810060

大小:88.68 KB

页数:4页

时间:2019-01-03

如何基于node爬取网页源文件_第1页
如何基于node爬取网页源文件_第2页
如何基于node爬取网页源文件_第3页
如何基于node爬取网页源文件_第4页
资源描述:

《如何基于node爬取网页源文件》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、如何基于node爬取网页源文件、初试牛刀:如何基于node爬取网页源文件大家好,我是何老师,今天给大家带来关于node爬虫的一个小案例。来我们直接进入主题:1•打开Hbuilder,新建项目,然后新建crawler,js文件。2.键入如下代码:varhttp二require("http");T引用http模块varurl二'http://cd.58.com/';//定义一个要爬的网页地址/**使用http对象的get方法获取url网页的内容,*第2个参数是冋调响应response的结果怎么处理*/http,get(url,functio

2、n(res){//定义一个html字符串varhtml二'';〃当respone由data事件触发的时候,通过函数冋调,把爬的数据组装到html字符串中。res.on('data/,function(data){html+=data})〃当response对象由end事件触发的时候,冋调函数实现向控制台输出html字符串的内容。res.on('end',functionO{console,log(html);})}).on(,error,,function(){//当触发error事件的时候,控制台输出''console.log(/z错

3、误〃)})3.在当前文件的路径下打开命令窗口,输入nodecrawler,js前端教材研丸网页布局教学案例ode.js案例弟爬虫>nodecrawler,jsIXX1n■A、■丄A运行结果:U®江路岀租武侯祠大街出fl

4、'href**7jinydngjie/chuzu/M>外双楠出W五大花园岀相<彳i>

5、二.逐步推进:如何爬取网页源文件中的具体信息。在服务器端解析html,可以在node环境屮安装cheerio模块,此模块类似于Jquery语法,可以方便快

6、捷进行html内容解析。安装语法如下:打开命令窗口npminsial1cheerio;端教材研几网页布局教:当案例odejo案例舒爬虫〉np・installcheerio):前端教林研丸网貝布局教学案例o“・j・案例耽爬虫•一cheerio80.22.0ceo-5«lect01.2.0IboolbaseQI.0.0Ic$s-what82.1.GI•♦・・do・utils@1・5.1I•・nth-ch®ckQ1.0.1dom-serializerQ0.1.0Idoa^len^nttypedl.1.3QntitiesS

7、I.1.1htnlparser2@3.9.2I**•・dooelementtyp^dl.3.BI4--dOBhandl«r62.3.6

8、inheritse2.6.3Ireddable-«tr9daQ2.2.2Ibuffer-ehi»s81.0.8Icore-util-isfil.0.2IiearrayQI.0.6Iproco«€-nextick・a厂1.8.7Istring.dccoderSO.16.31在hbulider中新建:crawler58.js键入以下代码:varhttp二require("http");//引用http模块v

9、archeerio二require("cheerio");//引用cheeriovarurl=http://cd.58.com/chuzu/?PGTTD=Odl00000-0006-6648-12lf-922flOOdf9e5&ClickTD二4';〃定义一个要爬的网页地址//获取网页文字相关内容functionfiltorContent(html){var$=cheerio.load(html);//varmeta二$("meta");//获取meta标签的数据//console・log(meta)varrooms=$(z/.list

10、Box.listUlli〃);//获収房源列表varroomsdata=[];rooms・each(function(item){varroom=$(this);varroomimgsrc=room.fin

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。