nodejs爬取网站图片.....

nodejs来实现一个爬虫功能 ,爬取豆瓣图片

原理&＃xff1a;
爬虫是最明显的IO密集型应用场景&＃xff0c;显然用node&＃xff0c;使得I/O等待开销小数据挖掘比较方便

借助express模块来搭建node服务

并使用request模块获取目标页面的html代码

下载cheerio模块对html代码做处理(cheerio类似jQuery的语法&＃xff0c;所以好用又方便)

环境配置&＃xff1a;

npm install express request cheerio --save

(1)引入各个模块

var http &＃61; require(&＃39;http&＃39;); var request &＃61; require(&＃39;request); var cheerio &＃61; require(&＃39;cheerio&＃39;);var fs &＃61; require(&＃39;fs&＃39;); //用来操作文件var url &＃61; &＃39;https://movie.douban.com/cinema/nowplaying/beijing/&＃39; //定义要爬的页面

(2)发送请求

http.get(function(res){var html &＃61; &＃39;&＃39;;var titles &＃61; [];res.setEncoding(&＃39;utf-8&＃39;) //防止中文乱码res.on(&＃39;data&＃39;,function(chunk){html &＃43;&＃61; chrunk; //监听data事件每次取一块数据})res.on(&＃39;end&＃39;,function(){var $ &＃61; cheerio.load(html); //获取数据完成后&＃xff0c;解析html//将获取的图片存到images文件夹中$(&＃39;.mod-bd img&＃39;).each(function(index, item){//获取图片属性var imgName &＃61; $(this).parent().next().text().trimg()var imgfile &＃61; imgName &＃43; &＃39;.jpeg?s=#39;;var imgSrc &＃61; $(this).attr(&＃39;src&＃39;)//采用request模块&＃xff0c;向服务器发起请求获取图片资源request.head(imgSrc, function(error, res,body){if(error){console.log(&＃39;失败了&＃39;)}});//通过管道的方式用fs模块将图片写到本地的images文件下request(imgSrc).pipe.(fs.createWriteStream(&＃39;./images/&＃39; &＃43; imgfile));})}) })

每天进步一点点......