蚂蜂窝爬虫

作者：天使哥特式 | 来源：互联网 | 2024-10-18 16:30

Nodejs爬取蚂蜂窝文章的爬虫以及搭建第三方服务器如题，本项目用Nodejs实现了对蚂蜂窝网站的爬取，并将数据储存到MongoDB中，再

Nodejs爬取蚂蜂窝文章的爬虫以及搭建第三方服务器

如题&＃xff0c;本项目用Nodejs实现了对蚂蜂窝网站的爬取&＃xff0c;并将数据储存到MongoDB中&＃xff0c;再以Express作服务器端&＃xff0c;Angularjs作前端实现对数据的托管。
本项目Github地址&＃xff1a;https://github.com/golmic/mafengwo-spider
本项目线上地址&＃xff1a; http://mafengwo.lujq.me
本文介绍其中部分的技术细节。

获取数据

打开蚂蜂窝网站&＃xff0c;发现文章部分的数据是用Ajax获取的&＃xff0c;包括分页也是&＃xff0c;所以查看一下实际的请求路径&＃xff0c;为http://www.mafengwo.cn/ajax/ajax_article.php?start&＃61;1
所以程序应该向这个php文件发送请求&＃xff0c;用Nodejs的话直接http请求也是没问题的&＃xff0c;为了代码好看&＃xff0c;我使用request库封装一下。

1
2
3
4
5
6 7 8 9 10 11 12 13 14 15 16

每页是12篇文章&＃xff0c;每篇文字都是&＃xff08;伪&＃xff09;静态页面&＃xff0c;正则提取出其中的文章页Url。
对每个Url发送请求&＃xff0c;拿到源码。

1
2
3
4
5
6 7 8 9 10

接下来就是处理数据了。

这一段代码较长&＃xff0c;但是目的是非常明确的&＃xff0c;代码也很清晰。我们需要从这个页面中拿到文章的标题&＃xff0c;以及文章的内容。&＃xff08;文章作者以及发布时间由于时间关系我并没有处理&＃xff0c;不过也在代码以及数据库种预留了位置&＃xff0c;这个同理很容易完成。&＃xff09;
来&＃xff0c;我们分析一下这段代码。

1
2
3
4

var title, content, creator, created;
/*获取标题*/
title &＃61; data.match(/\s*.&＃43;\s*<\/h1>/).toString().replace(/\s*/g, "").replace(/$/g, "").replace(/\//g, "|").match(/>.&＃43;title &＃61; title.substring(1, title.length - 1);

先是正则获取标题&＃xff0c;然后把标题中的特殊符号做一下处理。

1
2
3
4
5
6 7 8 9 10 11

/*如果有背景音乐就获取背景音乐*/
if (data.indexOf("music_url") &＃39;music_auto_play&＃39;)) { mp3url &＃61; data.substring(data.indexOf("music_url"), data.indexOf(&＃39;music_auto_play&＃39;)); } else { mp3url &＃61; data.substring(data.indexOf("music_url"), data.indexOf(&＃39;is_new_note&＃39;)); }; mp3url &＃61; mp3url.match(/http.&＃43;\.mp3/); if (mp3url) { mp3url &＃61; mp3url.toString(); content &＃61; &＃39;&＃39;; };

然后在实际访问蚂蜂窝网站时发现大多数文章都配有背景音乐&＃xff0c;那我也给加上好了。于是这一段代码负责了获取背景音乐的直链地址。

1
2
3
4
5
6

/*获取文章内容&＃xff0c;发现有两种类型&＃xff0c;分别适配*/
if (data.indexOf(&＃39;a_con_text cont&＃39;) !&＃61; -1) { content &＃43;&＃61; data.substring(data.indexOf("a_con_text cont") &＃43; 296, data.indexOf(&＃39;integral&＃39;) - 12); } else { content &＃43;&＃61; data.substring(data.indexOf("ginfo_kw_hotel") &＃43; 16, data.indexOf(&＃39;vc_total&＃39;) - 19); };

获取文章内容&＃xff0c;在写这段代码时发现它的文章是有两种dom结构的&＃xff0c;所以分类处理了一下。

1
2
3
4
5
6

/*移除它给图片定义的父标签宽度以便响应式*/
content &＃61; content.replace(/width:\d*px/g, "");
/*把文中˚∫圖片作為在列表中顯示時的圖片*/ /*有的第一張圖片是表情.....處理一下..*/ imageUrl &＃61; data.match(/http.*\.(jpeg|png|jpg)"/).toString(); imageUrl &＃61; imageUrl.substring(0, imageUrl.indexOf(&＃39;"&＃39;));

这一段代码处理一下图片&＃xff0c;第一是文中的图片因为蚂蜂窝给定义了好多样式&＃xff0c;并不符合响应式规则&＃xff0c;我把与响应式冲突的部分给处理了一下。
然后为了美观&＃xff0c;把文章的第一张图片作为列表显示时的特色图片&＃xff0c;记录一下Url。

储存数据

事实上整个的任务到此就可以结束了。

1
2
3
4

fs.writeFile("html/" &＃43; title &＃43; ".html", content, function(e) { if (e) throw e; console.log(title); });

把每篇文章作为一个静态文件保存。然后遍历一下目录得到文章列表&＃xff0c;凭借Nginx对静态资源强大的处理能力&＃xff0c;这个网站也算是可以完工了。
出于后期管理文档以及把项目做得高大上点的目的&＃xff0c;还是采用NOsql的翘楚MongoDB作为数据库端的解决方案。

1
2
3
4
5
6

MongoClient.connect(&＃39;mongodb://localhost:27017/mean&＃39;, function(err, db) {
assert.equal(null, err); insertArticle(db, title, content, creator, mp3url, imageUrl, created, function() { db.close(); }); });

把数据储存到mean数据库中&＃xff0c;mean即MongoDB/Expressjs/Angularjs/Nodejs的js全栈实践。
这样数据的储存就完成了。

搭建服务器

目录结构

为了后期维护以及合作开发&＃xff0c;服务器端目录的结构与命名规则也需要注意下。

数据结构

为了后期管理员以及作者维护文章的考虑&＃xff0c;数据库中不止有Articles一个collection&＃xff0c;还有一个users的collection。
结构分别如下&＃xff1a;
文章&＃xff1a;

1
2
3
4
5
6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27

var ArticleSchema &＃61; new Schema({
created: {
type: Date, default: Date.now }, title: { type: String, default: &＃39;&＃39;, trim: true, required: &＃39;Title cannot be blank&＃39; }, content: { type: String, default: &＃39;&＃39;, trim: true }, mp3url:{ type:String }, imageUrl:{ type:String }, creator: { type: String, default: &＃39;golmic&＃39;, } });

用户&＃xff1a;

1
2
3
4
5
6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43

var UserSchema &＃61; new Schema({
firstName: String,
lastName: String, email: { type: String, // Validate the email format match: [/.&＃43;\&＃64;.&＃43;\..&＃43;/, "Please fill a valid email address"] }, username: { type: String, // Set a unique &＃39;username&＃39; index unique: true, // Validate &＃39;username&＃39; value existance required: &＃39;Username is required&＃39;, // Trim the &＃39;username&＃39; field trim: true }, password: { type: String, // Validate the &＃39;password&＃39; value length validate: [ function(password) { return password && password.length > 6; }, &＃39;Password should be longer&＃39; ] }, salt: { type: String }, provider: { type: String, // Validate &＃39;provider&＃39; value existance required: &＃39;Provider is required&＃39; }, providerId: String, providerData: {}, created: { type: Date, // Create a default &＃39;created&＃39; value default: Date.now } });

Nodejs驱动下&＃xff0c;很容易实现对文章以及用户的CRUD操作。这里只展示了对文章操作的代码。

1
2
3
4
5
6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43

exports.list &＃61; function(req, res) {
Article.find().sort(&＃39;-created&＃39;).exec(function(err, articles) { if (err) { return res.status(400).send({ message: getErrorMessage(err) }); } else { for(var i in articles){ articles[i].content&＃61;&＃39;&＃39;; }; res.json(articles); } }); }; exports.read &＃61; function(req, res) { res.json(req.article); }; exports.update &＃61; function(req, res) { var article &＃61; req.article; article.title &＃61; req.body.title; article.content &＃61; req.body.content; article.save(function(err) { if (err) { return res.status(400).send({ message: getErrorMessage(err) }); } else { res.json(article); } }); }; exports.delete &＃61; function(req, res) { var article &＃61; req.article; article.remove(function(err) { if (err) { return res.status(400).send({ message: getErrorMessage(err) }); } else { res.json(article); } }); };

路由规则

首页为文章列表&＃xff0c;然后每篇文章有一个url。前端规则很容易&＃xff0c;另外为了符合RESTful API的要求&＃xff0c;后端需要提供对CRUD操作的API。文章部分路由规则如下&＃xff1a;

1
2
3
4
5
6 7 8 9 10

module.exports &＃61; function(app) {
app.route(&＃39;/api/articles&＃39;) .get(articles.list) .post(users.requiresLogin, articles.create); app.route(&＃39;/api/articles/:articleId&＃39;) .get(articles.read) .put(users.requiresLogin, articles.hasAuthorization, articles.update) .delete(users.requiresLogin, articles.hasAuthorization, articles.delete); app.param(&＃39;articleId&＃39;, articles.articleByID); };

用户部分同理.

前端路由由Angular控制&＃xff1a;

1
2
3
4
5
6 7 8 9 10 11 12 13 14 15 16 17

angular.module(&＃39;articles&＃39;).config([&＃39;$routeProvider&＃39;,
function($routeProvider) { $routeProvider. when(&＃39;/&＃39;, { templateUrl: &＃39;articles/views/list-articles.client.view.html&＃39; }). when(&＃39;/articles/create&＃39;, { templateUrl: &＃39;articles/views/create-article.client.view.html&＃39; }). when(&＃39;/articles/:articleId&＃39;, { templateUrl: &＃39;articles/views/view-article.client.view.html&＃39; }). when(&＃39;/articles/:articleId/edit&＃39;, { templateUrl: &＃39;articles/views/edit-article.client.view.html&＃39; }); } ]);

前端用ngResource模块处理资源位置&＃xff1a;

1
2
3
4
5
6 7 8 9 10

angular.module(&＃39;articles&＃39;).factory(&＃39;Articles&＃39;, [&＃39;$resource&＃39;, function($resource) { // Use the &＃39;$resource&＃39; service to return an article &＃39;$resource&＃39; object return $resource(&＃39;api/articles/:articleId&＃39;, { articleId: &＃39;&＃64;_id&＃39; }, { update: { method: &＃39;PUT&＃39; } }); }]);

推荐阅读

request
在Node.js中利用SOCKS5代理进行HTTP请求

本文探讨了如何在Node.js环境中，通过Tor网络使用的SOCKS5代理执行HTTP请求。文中不仅提供了基础的实现方法，还介绍了几种常用的库和工具，帮助开发者解决遇到的问题。 ... [详细]

蜡笔小新 2024-12-17 15:05:06
python
2019年前端技术趋势及职业发展路径

本文探讨了2019年前端技术的发展趋势，包括工具化、配置化和泛前端化等方面，并提供了详细的学习路线和职业规划建议。 ... [详细]

蜡笔小新 2024-12-19 10:19:35
request
Node.js 入门指南（一）

本文介绍了Node.js的安装步骤、如何创建第一个应用程序、NPM的基本使用以及处理回调函数的方法。通过实际操作示例，帮助初学者快速掌握Node.js的基础知识。 ... [详细]

蜡笔小新 2024-12-16 12:31:46
timezone
PHP 5.2.5 安装与配置指南

本文详细介绍了 PHP 5.2.5 的安装和配置步骤，帮助开发者解决常见的环境配置问题，特别是上传图片时遇到的错误。通过本教程，您可以顺利搭建并优化 PHP 运行环境。 ... [详细]

蜡笔小新 2024-12-27 19:05:41
plugins
JQuery基础：省市联动与表单验证

本文介绍了如何使用JQuery实现省市二级联动和表单验证。首先，通过change事件监听用户选择的省份，并动态加载对应的城市列表。其次，详细讲解了使用Validation插件进行表单验证的方法，包括内置规则、自定义规则及实时验证功能。 ... [详细]

蜡笔小新 2024-12-27 17:10:48
get
Git 分布式版本控制系统：远程仓库的深入探讨

本文详细介绍了Git分布式版本控制系统中远程仓库的概念和操作方法。通过具体案例，帮助读者更好地理解和掌握如何高效管理代码库。 ... [详细]

蜡笔小新 2024-12-25 18:30:21
request
使用Fetch进行HTTP请求的基本示例

本文介绍了如何使用JavaScript的Fetch API与Express服务器进行交互，涵盖了GET、POST、PUT和DELETE请求的实现，并展示了如何处理JSON响应。 ... [详细]

蜡笔小新 2024-12-22 12:55:37
python
Python爬虫实战：51CTO学院IT课程数据抓取

本文将介绍如何利用Python爬虫技术抓取国内主流在线学习平台的数据，并以51CTO学院为例，进行详细的技术解析和实践操作。 ... [详细]

蜡笔小新 2024-12-17 11:53:33
request
WPF/E CTP与SDK即将发布，引领RIA新时代？

Microsoft即将发布WPF/E的CTP（Community Technology Preview）和SDK，标志着RIA（Rich Internet Application）技术的新里程碑。更多详情及下载链接请参见MSDN官方页面。 ... [详细]

蜡笔小新 2024-12-16 16:06:18
request
利用 Jest 和 Supertest 实现接口测试的全面指南

本文深入探讨了如何使用 Jest 和 Supertest 进行接口测试，通过实际案例详细解析了测试环境的搭建、测试用例的编写以及异步测试的处理方法。 ... [详细]

蜡笔小新 2024-12-14 19:04:38
get
在Linux环境中部署Node.js

本文详细介绍了如何在Linux系统中安装和配置Node.js，包括从官方下载、编译安装到运行基本示例的全过程。 ... [详细]

蜡笔小新 2024-12-06 14:27:59
request
C++网络编程：连接成功后的回调机制及前端视角下的异步编程解析

本文探讨了C++网络编程中连接成功后的回调机制，并从一个前端开发者的角度深入浅出地介绍了异步编程的基本概念及其重要性，特别强调了JavaScript中异步编程的各种实现方式。 ... [详细]

蜡笔小新 2024-12-06 12:38:36
cookie
如何在同一Express路由中同时使用'res.sendFile'和'res.json'

探讨了在Express应用中，如何实现同一路由下既返回HTML文件又发送JSON数据的技术挑战与解决方案。 ... [详细]

蜡笔小新 2024-12-04 23:48:49
plugins
基于Node.js、Express、MongoDB和Socket.io的实时聊天应用开发

本文详细介绍了使用Node.js、Express、MongoDB和Socket.io构建的实时聊天应用程序。涵盖项目结构、技术栈选择及关键依赖项的配置。 ... [详细]

蜡笔小新 2024-12-22 15:31:28
java
Spring Cloud学习指南：深入理解微服务架构

本文介绍了微服务架构的基本概念及其在Spring Cloud中的实现。讨论了微服务架构的主要优势，如简化开发和维护、快速启动、灵活的技术栈选择以及按需扩展的能力。同时，也探讨了微服务架构面临的挑战，包括较高的运维要求、分布式系统的复杂性、接口调整的成本等问题。最后，文章提出了实施微服务时应遵循的设计原则。 ... [详细]

蜡笔小新 2024-12-19 09:25:36