欢迎来到天天文库
浏览记录
ID:30810060
大小:88.68 KB
页数:4页
时间:2019-01-03
《如何基于node爬取网页源文件》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、如何基于node爬取网页源文件、初试牛刀:如何基于node爬取网页源文件大家好,我是何老师,今天给大家带来关于node爬虫的一个小案例。来我们直接进入主题:1•打开Hbuilder,新建项目,然后新建crawler,js文件。2.键入如下代码:varhttp二require("http");T引用http模块varurl二'http://cd.58.com/';//定义一个要爬的网页地址/**使用http对象的get方法获取url网页的内容,*第2个参数是冋调响应response的结果怎么处理*/http,get(url,functio
2、n(res){//定义一个html字符串varhtml二'';〃当respone由data事件触发的时候,通过函数冋调,把爬的数据组装到html字符串中。res.on('data/,function(data){html+=data})〃当response对象由end事件触发的时候,冋调函数实现向控制台输出html字符串的内容。res.on('end',functionO{console,log(html);})}).on(,error,,function(){//当触发error事件的时候,控制台输出''console.log(/z错
3、误〃)})3.在当前文件的路径下打开命令窗口,输入nodecrawler,js前端教材研丸网页布局教学案例ode.js案例弟爬虫>nodecrawler,jsIXX1n■A、■丄A运行结果:U®江路岀租武侯祠大街出fl4、'href**7jinydngjie/chuzu/M>外双楠出W五大花园岀相<彳i>5、二.逐步推进:如何爬取网页源文件中的具体信息。在服务器端解析html,可以在node环境屮安装cheerio模块,此模块类似于Jquery语法,可以方便快6、捷进行html内容解析。安装语法如下:打开命令窗口npminsial1cheerio;端教材研几网页布局教:当案例odejo案例舒爬虫〉np・installcheerio):前端教林研丸网貝布局教学案例o“・j・案例耽爬虫•一cheerio80.22.0ceo-5«lect01.2.0IboolbaseQI.0.0Ic$s-what82.1.GI•♦・・do・utils@1・5.1I•・nth-ch®ckQ1.0.1dom-serializerQ0.1.0Idoa^len^nttypedl.1.3QntitiesS7、I.1.1htnlparser2@3.9.2I**•・dooelementtyp^dl.3.BI4--dOBhandl«r62.3.68、inheritse2.6.3Ireddable-«tr9daQ2.2.2Ibuffer-ehi»s81.0.8Icore-util-isfil.0.2IiearrayQI.0.6Iproco«€-nextick・a厂1.8.7Istring.dccoderSO.16.31在hbulider中新建:crawler58.js键入以下代码:varhttp二require("http");//引用http模块v9、archeerio二require("cheerio");//引用cheeriovarurl=http://cd.58.com/chuzu/?PGTTD=Odl00000-0006-6648-12lf-922flOOdf9e5&ClickTD二4';〃定义一个要爬的网页地址//获取网页文字相关内容functionfiltorContent(html){var$=cheerio.load(html);//varmeta二$("meta");//获取meta标签的数据//console・log(meta)varrooms=$(z/.list10、Box.listUlli〃);//获収房源列表varroomsdata=[];rooms・each(function(item){varroom=$(this);varroomimgsrc=room.fin
4、'href**7jinydngjie/chuzu/M>外双楠出W五大花园岀相<彳i>5、二.逐步推进:如何爬取网页源文件中的具体信息。在服务器端解析html,可以在node环境屮安装cheerio模块,此模块类似于Jquery语法,可以方便快6、捷进行html内容解析。安装语法如下:打开命令窗口npminsial1cheerio;端教材研几网页布局教:当案例odejo案例舒爬虫〉np・installcheerio):前端教林研丸网貝布局教学案例o“・j・案例耽爬虫•一cheerio80.22.0ceo-5«lect01.2.0IboolbaseQI.0.0Ic$s-what82.1.GI•♦・・do・utils@1・5.1I•・nth-ch®ckQ1.0.1dom-serializerQ0.1.0Idoa^len^nttypedl.1.3QntitiesS7、I.1.1htnlparser2@3.9.2I**•・dooelementtyp^dl.3.BI4--dOBhandl«r62.3.68、inheritse2.6.3Ireddable-«tr9daQ2.2.2Ibuffer-ehi»s81.0.8Icore-util-isfil.0.2IiearrayQI.0.6Iproco«€-nextick・a厂1.8.7Istring.dccoderSO.16.31在hbulider中新建:crawler58.js键入以下代码:varhttp二require("http");//引用http模块v9、archeerio二require("cheerio");//引用cheeriovarurl=http://cd.58.com/chuzu/?PGTTD=Odl00000-0006-6648-12lf-922flOOdf9e5&ClickTD二4';〃定义一个要爬的网页地址//获取网页文字相关内容functionfiltorContent(html){var$=cheerio.load(html);//varmeta二$("meta");//获取meta标签的数据//console・log(meta)varrooms=$(z/.list10、Box.listUlli〃);//获収房源列表varroomsdata=[];rooms・each(function(item){varroom=$(this);varroomimgsrc=room.fin
5、二.逐步推进:如何爬取网页源文件中的具体信息。在服务器端解析html,可以在node环境屮安装cheerio模块,此模块类似于Jquery语法,可以方便快
6、捷进行html内容解析。安装语法如下:打开命令窗口npminsial1cheerio;端教材研几网页布局教:当案例odejo案例舒爬虫〉np・installcheerio):前端教林研丸网貝布局教学案例o“・j・案例耽爬虫•一cheerio80.22.0ceo-5«lect01.2.0IboolbaseQI.0.0Ic$s-what82.1.GI•♦・・do・utils@1・5.1I•・nth-ch®ckQ1.0.1dom-serializerQ0.1.0Idoa^len^nttypedl.1.3QntitiesS
7、I.1.1htnlparser2@3.9.2I**•・dooelementtyp^dl.3.BI4--dOBhandl«r62.3.6
8、inheritse2.6.3Ireddable-«tr9daQ2.2.2Ibuffer-ehi»s81.0.8Icore-util-isfil.0.2IiearrayQI.0.6Iproco«€-nextick・a厂1.8.7Istring.dccoderSO.16.31在hbulider中新建:crawler58.js键入以下代码:varhttp二require("http");//引用http模块v
9、archeerio二require("cheerio");//引用cheeriovarurl=http://cd.58.com/chuzu/?PGTTD=Odl00000-0006-6648-12lf-922flOOdf9e5&ClickTD二4';〃定义一个要爬的网页地址//获取网页文字相关内容functionfiltorContent(html){var$=cheerio.load(html);//varmeta二$("meta");//获取meta标签的数据//console・log(meta)varrooms=$(z/.list
10、Box.listUlli〃);//获収房源列表varroomsdata=[];rooms・each(function(item){varroom=$(this);varroomimgsrc=room.fin
此文档下载收益归作者所有