分享一种Python爬取网易云音乐热门评论的方法

作者：拍友2502921323 | 来源：互联网 | 2017-05-14 02:44

本文将详细介绍了Python获取网易云音乐热门评论的实例。具有很好的参考价值，下面跟着小编一起来看下吧

最近在研究文本挖掘相关的内容，所谓巧妇难为无米之炊，要想进行文本分析，首先得到有文本吧。获取文本的方式有很多，比如从网上下载现成的文本文档，或者通过第三方提供的API进行获取数据。但是有的时候我们想要的数据并不能直接获取，因为并不提供直接的下载渠道或者API供我们获取数据。那么这个时候该怎么办呢？有一种比较好的办法是通过网络爬虫，即编写计算机程序伪装成用户去获得想要的数据。利用计算机的高效，我们可以轻松快速地获取数据。

那么该如何写一个爬虫呢？有很多种语言都可以写爬虫，比如Java，php,python 等，我个人比较喜欢使用python。因为python不仅有着内置的功能强大的网络库，还有诸多优秀的第三方库，别人直接造好了轮子，我们直接拿过来用就可以了，这为写爬虫带来了极大的方便。不夸张地说，使用不到10行python代码其实就可以写一个小小的爬虫，而使用其他的语言可以要多写很多代码，简洁易懂正是python的巨大的优势。

好了废话不多说，进入今天的正题。最近几年网易云音乐火了起来，我自己就是网易云音乐的用户，用了几年了。以前用的是QQ音乐和酷狗，通过我自己的亲身经历来看，我觉得网易云音乐最优特色的就是其精准的歌曲推荐和独具特色的用户评论（郑重声明！！！这不是软文，非广告！！！仅代表个人观点，非喜勿喷！）。经常一首歌曲下面会有一些被点赞众多的神评论。加上前些日子网易云音乐将精选用户评论搬上了地铁，网易云音乐的评论又火了一把。所以我想对网易云的评论进行分析，发现其中的规律，特别是分析一些热评具有什么共同的特点。带着这个目的，我开始了对网易云评论的抓取工作。

python内置了两个网络库urllib和urllib2，但是这两个库使用起来不是特别方便，所以在这里我们使用一个广受好评的第三方库requests。使用requests只用很少的几行代码就可以实现设置代理，模拟登陆等比较复杂的爬虫工作。如果已经安装pip的话，直接使用pip install requests 即可安装。中文文档地址在此http://docs.python-requests.org/zh_CN/latest/user/quickstart.html，大家有什么问题可以自行参考官方文档，上面会有非常详细的介绍。至于urllib和urllib2这两个库也是比较有用的，以后如果有机会我会再给大家介绍一下。

在正式开始介绍爬虫之前，首先来说一下爬虫的基本工作原理，我们知道我们打开浏览器访问某个网址本质上是向服务器发送了一定的请求，服务器在收到我们的请求之后，会根据我们的请求返回数据，然后通过浏览器将这些数据解析好，呈现在我们的面前。如果我们使用代码的话，就要跳过浏览器的这个步骤，直接向服务器发送一定的数据，然后再取回服务器返回的数据，提取出我们想要的信息。但是问题是，有的时候服务器需要对我们发送的请求进行校验，如果它认为我们的请求是非法的，就会不返回数据，或者返回错误的数据。所以为了避免发生这种情况，我们有的时候需要把程序伪装成一个正常的用户，以便顺利得到服务器的回应。如何伪装呢？这就要看用户通过浏览器访问一个网页与我们通过程序访问一个网页之间的区别。通常来说，我们通过浏览器访问一个网页，除了发送访问的url之外，还会给服务发送额外的信息，比如headers（头部信息）等，这就相当于是请求的身份证明，服务器看到了这些数据，就会知道我们是通过正常的浏览器访问的，就会乖乖地返回数据给我们了。所以我们程序就得像浏览器一样，在发送请求的时候，带上这些标志着我们身份的信息，这样就能顺利拿到数据。有的时候，我们必须在登录状态下才能得到一些数据，所以我们必须要模拟登录。本质上来说，通过浏览器登录就是post一些表单信息给服务器（包括用户名，密码等信息），服务器校验之后我们就可以顺利登录了，利用程序也是一样，浏览器post什么数据，我们原样发送就可以了。关于模拟登录，我后面会专门介绍一下。当然事情有的时候也不会这么顺利，因为有些网站设置了反爬措施，比如如果访问过快，有时候会被封ip（典型的比如豆瓣）。这个时候我们还得要设置代理服务器，即变更我们的ip地址，如果一个ip被封了，就换另外一个ip，具体怎么做，这些话题以后慢慢再说。

最后，再介绍一个我认为在写爬虫过程中非常有用的一个小技巧。如果你在使用火狐浏览器或者chrome的话，也许你会注意到有一个叫作开发者工具（chrome）或者web控制台（firefox）的地方。这个工具非常有用，因为利用它，我们可以清楚地看到在访问一个网站的过程中，浏览器到底发送了什么信息，服务器究竟返回了什么信息，这些信息是我们写爬虫的关键所在。下面你就会看到它的巨大用处。

----------------------------------------------------正式开始的分割线---------------------------------------------------

首先打开网易云音乐的网页版，随便选择一首歌曲打开它的网页，这里我以周杰伦的《晴天》为例。如下图1

图9

至此，我们已经确定了方向了，即只需要确定params和encSecKey这两个参数值即可，这个问题困扰了我一下午，我弄了很久也没有搞清楚这两个参数的加密方式，但是我发现了一个规律，http://music.163.com/weapi/v1/resource/comments/R_SO_4_186016?csrf_token= 中 R_SO_4_后面的数字就是这首歌的id值，而对于不同的歌曲的param和encSecKey值，如果把一首歌比如A的这两个参数值传给B这首歌，那么对于相同的页数，这种参数是通用的，即A的第一页的两个参数值传给其他任何一首歌的两个参数，都可以获得相应歌曲的第一页的评论，对于第二页，第三页等也是类似。但是遗憾的是，不同的页数参数是不同的，这种办法只能抓取有限的几页（当然抓取评论总数和热门评论已经足够了），如果要想抓取全部数据，就必须搞明白这两个参数值的加密方式。以为没有搞明白，昨天晚上我带着这个问题去知乎搜索了一下，居然真的被我找到了答案。到此为止，如何抓取网易云音乐的评论全部数据就全部讲完了。

按照惯例，最后上代码，亲测有效：

#!/usr/bin/env python2.7
# -*- coding: utf-8 -*-
# @Time : 2017/3/28 8:46
# @Author : Lyrichu
# @Email : 919987476@qq.com
# @File : NetCloud_spider3.py
&＃39;&＃39;&＃39;
@Description:
网易云音乐评论爬虫，可以完整爬取整个评论
部分参考了@平胸小仙女的文章(地址:https://www.zhihu.com/question/36081767)
post加密部分也给出了，可以参考原帖：
作者：平胸小仙女
链接：https://www.zhihu.com/question/36081767/answer/140287795
来源：知乎
&＃39;&＃39;&＃39;
from Crypto.Cipher import AES
import base64
import requests
import json
import codecs
import time

# 头部信息
headers = {
 &＃39;Host&＃39;:"music.163.com",
 &＃39;Accept-Language&＃39;:"zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3",
 &＃39;Accept-Encoding&＃39;:"gzip, deflate",
 &＃39;Content-Type&＃39;:"application/x-www-form-urlencoded",
 &＃39;COOKIE&＃39;:"_ntes_nnid=754361b04b121e078dee797cdb30e0fd,1486026808627; _ntes_nuid=754361b04b121e078dee797cdb30e0fd; JSESSIONID-WYYY=yfqt9ofhY%5CIYNkXW71TqY5OtSZyjE%2FoswGgtl4dMv3Oa7%5CQ50T%2FVaee%2FMSsCifHE0TGtRMYhSPpr20i%5CRO%2BO%2B9pbbJnrUvGzkibhNqw3Tlgn%5Coil%2FrW7zFZZWSA3K9gD77MPSVH6fnv5hIT8ms70MNB3CxK5r3ecj3tFMlWFbFOZmGw%5C%3A1490677541180; _iuqxldmzr_=32; vjuids=c8ca7976.15a029d006a.0.51373751e63af8; vjlast=1486102528.1490172479.21; __gads=ID=a9eed5e3cae4d252:T=1486102537:S=ALNI_Mb5XX2vlkjsiU5cIy91-ToUDoFxIw; vinfo_n_f_l_n3=411a2def7f75a62e.1.1.1486349441669.1486349607905.1490173828142; P_INFO=m15527594439@163.com|1489375076|1|study|00&99|null&null&null#hub&420100#10#0#0|155439&1|study_client|15527594439@163.com; NTES_CMT_USER_INFO=84794134%7Cm155****4439%7Chttps%3A%2F%2Fsimg.ws.126.net%2Fe%2Fimg5.cache.netease.com%2Ftie%2Fimages%2Fyun%2Fphoto_default_62.png.39x39.100.jpg%7Cfalse%7CbTE1NTI3NTk0NDM5QDE2My5jb20%3D; usertrack=c+5+hljHgU0T1FDmA66MAg==; Province=027; City=027; _ga=GA1.2.1549851014.1489469781; __utma=94650624.1549851014.1489469781.1490664577.1490672820.8; __utmc=94650624; __utmz=94650624.1490661822.6.2.utmcsr=baidu|utmccn=(organic)|utmcmd=organic; playerid=81568911; __utmb=94650624.23.10.1490672820",
 &＃39;Connection&＃39;:"keep-alive",
 &＃39;Referer&＃39;:&＃39;http://music.163.com/&＃39;
}
# 设置代理服务器
proxies= {
 &＃39;http:&＃39;:&＃39;http://121.232.146.184&＃39;,
 &＃39;https:&＃39;:&＃39;https://144.255.48.197&＃39;
 }

# offset的取值为:(评论页数-1)*20,total第一页为true，其余页为false
# first_param = &＃39;{rid:"", offset:"0", total:"true", limit:"20", csrf_token:""}&＃39; # 第一个参数
second_param = "010001" # 第二个参数
# 第三个参数
third_param = "00e0b509f6259df8642dbc35662901477df22677ec152b5ff68ace615bb7b725152b3ab17a876aea8a5aa76d2e417629ec4ee341f56135fccf695280104e0312ecbda92557c93870114af6c9d05c4f7f0c3685b7a46bee255932575cce10b424d813cfe4875d3e82047b97ddef52741d546b8e289dc6935b3ece0462db0a22b8e7"
# 第四个参数
forth_param = "0CoJUm6Qyw8W8jud"

# 获取参数
def get_params(page): # page为传入页数
 iv = "0102030405060708"
 first_key = forth_param
 second_key = 16 * &＃39;F&＃39;
 if(page == 1): # 如果为第一页
 first_param = &＃39;{rid:"", offset:"0", total:"true", limit:"20", csrf_token:""}&＃39;
 h_encText = AES_encrypt(first_param, first_key, iv)
 else:
 offset = str((page-1)*20)
 first_param = &＃39;{rid:"", offset:"%s", total:"%s", limit:"20", csrf_token:""}&＃39; %(offset,&＃39;false&＃39;)
 h_encText = AES_encrypt(first_param, first_key, iv)
 h_encText = AES_encrypt(h_encText, second_key, iv)
 return h_encText

# 获取 encSecKey
def get_encSecKey():
 encSecKey = "257348aecb5e556c066de214e531faadd1c55d814f9be95fd06d6bff9f4c7a41f831f6394d5a3fd2e3881736d94a02ca919d952872e7d0a50ebfa1769a7a62d512f5f1ca21aec60bc3819a9c3ffca5eca9a0dba6d6f7249b06f5965ecfff3695b54e1c28f3f624750ed39e7de08fc8493242e26dbc4484a01c76f739e135637c"
 return encSecKey

# 解密过程
def AES_encrypt(text, key, iv):
 pad = 16 - len(text) % 16
 text = text + pad * chr(pad)
 encryptor = AES.new(key, AES.MODE_CBC, iv)
 encrypt_text = encryptor.encrypt(text)
 encrypt_text = base64.b64encode(encrypt_text)
 return encrypt_text

# 获得评论json数据
def get_json(url, params, encSecKey):
 data = {
 "params": params,
 "encSecKey": encSecKey
 }
 respOnse= requests.post(url, headers=headers, data=data,proxies = proxies)
 return response.content

# 抓取热门评论，返回热评列表
def get_hot_comments(url):
 hot_comments_list = []
 hot_comments_list.append(u"用户ID 用户昵称 用户头像地址 评论时间 点赞总数 评论内容\n")
 params = get_params(1) # 第一页
 encSecKey = get_encSecKey()
 json_text = get_json(url,params,encSecKey)
 json_dict = json.loads(json_text)
 hot_comments = json_dict[&＃39;hotComments&＃39;] # 热门评论
 print("共有%d条热门评论!" % len(hot_comments))
 for item in hot_comments:
 comment = item[&＃39;content&＃39;] # 评论内容
 likedCount = item[&＃39;likedCount&＃39;] # 点赞总数
 comment_time = item[&＃39;time&＃39;] # 评论时间(时间戳)
 userID = item[&＃39;user&＃39;][&＃39;userID&＃39;] # 评论者id
 nickname = item[&＃39;user&＃39;][&＃39;nickname&＃39;] # 昵称
 avatarUrl = item[&＃39;user&＃39;][&＃39;avatarUrl&＃39;] # 头像地址
 comment_info = userID + " " + nickname + " " + avatarUrl + " " + comment_time + " " + likedCount + " " + comment + u"\n"
 hot_comments_list.append(comment_info)
 return hot_comments_list

# 抓取某一首歌的全部评论
def get_all_comments(url):
 all_comments_list = [] # 存放所有评论
 all_comments_list.append(u"用户ID 用户昵称 用户头像地址 评论时间 点赞总数 评论内容\n") # 头部信息
 params = get_params(1)
 encSecKey = get_encSecKey()
 json_text = get_json(url,params,encSecKey)
 json_dict = json.loads(json_text)
 comments_num = int(json_dict[&＃39;total&＃39;])
 if(comments_num % 20 == 0):
 page = comments_num / 20
 else:
 page = int(comments_num / 20) + 1
 print("共有%d页评论!" % page)
 for i in range(page): # 逐页抓取
 params = get_params(i+1)
 encSecKey = get_encSecKey()
 json_text = get_json(url,params,encSecKey)
 json_dict = json.loads(json_text)
 if i == 0:
 print("共有%d条评论!" % comments_num) # 全部评论总数
 for item in json_dict[&＃39;comments&＃39;]:
 comment = item[&＃39;content&＃39;] # 评论内容
 likedCount = item[&＃39;likedCount&＃39;] # 点赞总数
 comment_time = item[&＃39;time&＃39;] # 评论时间(时间戳)
 userID = item[&＃39;user&＃39;][&＃39;userId&＃39;] # 评论者id
 nickname = item[&＃39;user&＃39;][&＃39;nickname&＃39;] # 昵称
 avatarUrl = item[&＃39;user&＃39;][&＃39;avatarUrl&＃39;] # 头像地址
 comment_info = unicode(userID) + u" " + nickname + u" " + avatarUrl + u" " + unicode(comment_time) + u" " + unicode(likedCount) + u" " + comment + u"\n"
 all_comments_list.append(comment_info)
 print("第%d页抓取完毕!" % (i+1))
 return all_comments_list

# 将评论写入文本文件
def save_to_file(list,filename):
 with codecs.open(filename,&＃39;a&＃39;,encoding=&＃39;utf-8&＃39;) as f:
 f.writelines(list)
 print("写入文件成功!")

if __name__ == "__main__":
 start_time = time.time() # 开始时间
 url = "http://music.163.com/weapi/v1/resource/comments/R_SO_4_186016/?csrf_token="
 filename = u"晴天.txt"
 all_comments_list = get_all_comments(url)
 save_to_file(all_comments_list,filename)
 end_time = time.time() #结束时间
 print("程序耗时%f秒." % (end_time - start_time))

我利用上述代码跑了一下，抓了两首周杰伦的热门歌曲《晴天》（有130多万评论）和《告白气球》（有20多万评论），前者跑了大概有20多分钟，后者有6600多秒（也就是将近2个小时），截图如下：

注意我是按照空格来分隔的，每一行分别有用户ID 用户昵称用户头像地址评论时间点赞总数评论内容。

以上就是分享一种Python爬取网易云音乐热门评论的方法的详细内容，更多请关注第一PHP社区其它相关文章！

推荐阅读

text
Python3 中使用 lxml 模块解析 XPath 数据详解

XPath 是一种用于在 XML 文档中查找信息的路径语言，同样适用于 HTML 文件的搜索。本文将详细介绍如何利用 Python 的 lxml 模块通过 XPath 技术高效地解析和抓取网页数据。 ... [详细]

蜡笔小新 2024-12-20 11:23:22
php
Git 分布式版本控制系统：远程仓库的深入探讨

本文详细介绍了Git分布式版本控制系统中远程仓库的概念和操作方法。通过具体案例，帮助读者更好地理解和掌握如何高效管理代码库。 ... [详细]

蜡笔小新 2024-12-25 18:30:21
text
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
text
Python爬虫实战：豆瓣电影Top250数据抓取

本文详细介绍了如何使用Python编写爬虫程序，从豆瓣电影Top250页面抓取电影信息。文章涵盖了从基础的网页请求到处理反爬虫机制，再到多页数据抓取的全过程，并提供了完整的代码示例。 ... [详细]

蜡笔小新 2024-12-27 16:55:07
php
Python 爬虫基础教程及代码实例

根据最新发布的《互联网人才趋势报告》，尽管大量IT从业者已转向Python开发，但随着人工智能和大数据领域的迅猛发展，仍存在巨大的人才缺口。本文将详细介绍如何使用Python编写一个简单的爬虫程序，并提供完整的代码示例。 ... [详细]

蜡笔小新 2024-12-26 10:42:40
text
自己用过的一些比较有用的css3新属性【HTML】

web前端|html教程自己用过的一些比较用的css3新属性web前端-html教程css3刚推出不久，虽然大多数的css3属性在很多流行的浏览器中不支持，但我个人觉得还是要尽量开 ... [详细]

蜡笔小新 2024-12-24 19:26:54
int
使用Python urllib模块实现POST请求并爬取百度翻译结果

本文详细解析了如何使用Python的urllib模块发起POST请求，并通过实例展示如何爬取百度翻译的翻译结果。 ... [详细]

蜡笔小新 2024-12-24 18:49:24
io
JSON 解析失败问题排查

在PHP后端开发中遇到一个难题：通过第三方类文件发送短信功能返回的JSON字符串无法解析。本文将探讨可能的原因并提供解决方案。 ... [详细]

蜡笔小新 2024-12-21 18:39:23
php
推荐几款高效测量图片像素的工具

本文介绍了几款适用于Web前端开发的工具，这些工具可以帮助用户在图片上绘制线条并精确测量其像素长度。对于需要进行图像处理或设计工作的开发者来说非常实用。 ... [详细]

蜡笔小新 2024-12-20 19:17:07
uri
QUIC协议：快速UDP互联网连接

QUIC（Quick UDP Internet Connections）是谷歌开发的一种旨在提高网络性能和安全性的传输层协议。它基于UDP，并结合了TLS级别的安全性，提供了更高效、更可靠的互联网通信方式。 ... [详细]

蜡笔小新 2024-12-28 12:33:18
object
FastJSON解析与数据提取技巧

探讨如何高效使用FastJSON进行JSON数据解析，特别是从复杂嵌套结构中提取特定字段值的方法。 ... [详细]

蜡笔小新 2024-12-27 19:49:07
php
如何在PHPcms网站中添加广告

本文详细介绍了在PHPcms网站后台添加广告的方法，涵盖多种常见的广告形式，如百度广告和Google广告，并提供了相关设置的步骤。同时，文章还探讨了优化网站流量的SEO策略。 ... [详细]

蜡笔小新 2024-12-27 17:13:07
perl
Perl基础爬虫：从丁香园获取意大利新冠数据

本文介绍如何使用Perl编写一个简单的爬虫，从丁香园网站获取意大利的新冠病毒感染情况。通过LWP::UserAgent模块模拟浏览器访问并解析网页内容，最终提取所需数据。 ... [详细]

蜡笔小新 2024-12-25 12:06:26
io
并发编程 12—— 任务取消与关闭之 shutdownNow 的局限性

Java并发编程实践目录并发编程01——ThreadLocal并发编程02——ConcurrentHashMap并发编程03——阻塞队列和生产者-消费者模式并发编程04——闭锁Co ... [详细]

蜡笔小新 2024-12-21 12:39:07
text
使用JS、HTML5和C3创建自定义弹出窗口

本文介绍如何结合JavaScript、HTML5和C3.js来实现一个功能丰富的自定义弹出窗口。通过具体的代码示例，详细讲解了实现过程中的关键步骤和技术要点。 ... [详细]

蜡笔小新 2024-12-20 21:22:27

拍友2502921323

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章