如何基于node爬取网页源文件

ID：30810060

大小：88.68 KB

页数：4页

时间：2019-01-03

资源描述：

《如何基于node爬取网页源文件》由会员上传分享，免费在线阅读，更多相关内容在工程资料-天天文库。

1、如何基于node爬取网页源文件、初试牛刀：如何基于node爬取网页源文件大家好，我是何老师，今天给大家带来关于node爬虫的一个小案例。来我们直接进入主题：1•打开Hbuilder,新建项目，然后新建crawler,js文件。2.键入如下代码：varhttp二require("http");T引用http模块varurl二'http://cd.58.com/';//定义一个要爬的网页地址/**使用http对象的get方法获取url网页的内容，*第2个参数是冋调响应response的结果怎么处理*/http,get(url,functio

2、n(res){//定义一个html字符串varhtml二'';〃当respone由data事件触发的时候，通过函数冋调，把爬的数据组装到html字符串中。res.on('data/,function(data){html+=data})〃当response对象由end事件触发的时候，冋调函数实现向控制台输出html字符串的内容。res.on('end',functionO{console,log(html);})}).on(，error，,function(){//当触发error事件的时候，控制台输出''console.log(/z错

3、误〃)})3.在当前文件的路径下打开命令窗口，输入nodecrawler,js前端教材研丸网页布局教学案例ode.js案例弟爬虫＞nodecrawler,jsIXX1n■A、■丄A运行结果:U®江路岀租武侯祠大街出fl

4、'href**7jinydngjie/chuzu/M>外双楠出W五大花园岀相<彳i>

5、二.逐步推进：如何爬取网页源文件中的具体信息。在服务器端解析html,可以在node环境屮安装cheerio模块，此模块类似于Jquery语法，可以方便快

6、捷进行html内容解析。安装语法如下：打开命令窗口npminsial1cheerio;端教材研几网页布局教:当案例odejo案例舒爬虫〉np・installcheerio)：前端教林研丸网貝布局教学案例o“・j・案例耽爬虫•一cheerio80.22.0ceo-5«lect01.2.0IboolbaseQI.0.0Ic$s-what82.1.GI•♦・・do・utils@1・5.1I•・nth-ch®ckQ1.0.1dom-serializerQ0.1.0Idoa^len^nttypedl.1.3QntitiesS

7、I.1.1htnlparser2@3.9.2I**•・dooelementtyp^dl.3.BI4--dOBhandl«r62.3.6

8、inheritse2.6.3Ireddable-«tr9daQ2.2.2Ibuffer-ehi»s81.0.8Icore-util-isfil.0.2IiearrayQI.0.6Iproco«€-nextick・a厂1.8.7Istring.dccoderSO.16.31在hbulider中新建：crawler58.js键入以下代码:varhttp二require("http");//引用http模块v

9、archeerio二require("cheerio");//引用cheeriovarurl=http://cd.58.com/chuzu/?PGTTD=Odl00000-0006-6648-12lf-922flOOdf9e5&ClickTD二4';〃定义一个要爬的网页地址//获取网页文字相关内容functionfiltorContent(html){var$=cheerio.load(html);//varmeta二$("meta");//获取meta标签的数据//console・log(meta)varrooms=$(z/.list

10、Box.listUlli〃)；//获収房源列表varroomsdata=[];rooms・each(function(item){varroom=$(this);varroomimgsrc=room.fin

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 / 4



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

如何基于node爬取网页源文件

如何基于node爬取网页源文件

相关文章

相关标签