当前位置: 开发笔记 > 编程语言 > 正文

Python3+scrapy爬取喜马拉雅音乐音乐和歌名最简单的爬虫

作者：氣質正妹_384 | 来源：互联网 | 2023-08-30 12:07

Python3+scrapy爬取喜马拉雅音乐音乐和歌名最简单的爬虫,Go语言社区,Golang程序员人脉社

初学scrapy并爬取喜马拉雅音乐想和大家分享分享

一、分析数据
二、分析完啦话不多说给各位看官上代码！
具体代码如下
这就是一个简单的爬虫爬取喜马拉雅的歌曲 ? 本人仍在继续爬着！！！！！！
详细项目代码见gitup https://github.com/kong11213613/python3-

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。

其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。

一、分析数据

1 https://www.ximalaya.com/yinyue/liuxing/p1/ 这个网址就是我们要爬取的的喜马拉雅网址
在这里插入图片描述

2 是要点击右键分析数据你可以看到在这里插入图片描述

3. 我把这个地址打开以后就会发现这是json数据

4、我们看一下去掉会是什么样子

5 看到那个后面的id 我还好像在哪见过那对啦就是在在这里插入图片描述

6 简单的分析结束啦开始我们的代码之旅吧！

二、分析完啦话不多说给各位看官上代码！

1、这是我们需要的模块需要引一下 import scrapy import re import json import requests

2

创建一个类并继承最初的爬虫类并在start_urls 里添加最初的URL 并将结果交给 parse 函数

class www_ximalaya_com(scrapy.Spider): name = "www_ximalaya_com" start_urls = [ "https://www.ximalaya.com/yinyue/liuxing/p1/" ]

3 接到网页数据之后开始解析我们要的首先是每个歌曲集合的id 还有下一页的 URL 并将获取的数据传到要掉用的parses 函数

页的URL 返回给本身并进行下一次爬取

def parse(self, response): """ 该函数负责提取下一页的a链接并提取歌曲集合的id 拼接url 获取json数据 :param response: 将数据返回给回调函数 parses :return: """ #提取下一页的href 数据 '/yinyue/liuxing/p2/' a = response.css("li.page-next a.page-link::attr(href)").extract()[0] #拼接下一页的url a = "https://www.ximalaya.com" + a #提取歌曲集合的a链接的href 并进行正则提取id /yinyue/460941/ 这是一个列表 nums = response.css(" div.album-wrapper-card a::attr(href)").extract() # 循环列表进行正则和拼接URL for val in nums: # 正则提取id 460941 s = re.search("d+",val,re.S) numd = s.group() #拼接URL url = "https://www.ximalaya.com/revision/play/album?albumId=" + numd #发起请求并移交给回调函数 parses yield scrapy.Request(url,callback=self.parses) #页数 count = 2 #循环页数 while count <= 34: #拼接下一页的URL url = "https://www.ximalaya.com/yinyue/liuxing/p%d/" % count # 发去请求并移交给本身 yield scrapy.Request(url,callback=self.parse) count += 1

4 接到 parses 函数的调用时解析 json数据并保存文件

def parses(self,response): """ 该函用于解析数据提取数据发起请求获取数据并将音乐保存在文件当中 :param response: :return: """ # 获取数据 jsOns= response.text #解析json数据 jslod = json.loads(jsons) #循环数据 for val in jslod["data"]["tracksAudioPlay"]: #获取URL url = val["src"] #获取歌名 name = val["trackName"] file_name = val["albumName"] lists = [] #设置列表 lists.append(file_name) lists.append(url) lists.append(name) # #判断 URL是否为None if lists[1] != None: 判断目录是否存在 if os.path.isdir(lists[0]) == False: #不存在就创建目录 os.mkdir(lists[0]) #目录写入文件 with open("./"+ lists[0] + "/" + lists[2] + ".mp3", "wb+") as f: #发起URL请求并获取内容 r = requests.get(lists[1]) #写入文件 f.write(r.content) #生成错误日志 self.log("保存文件" + name) else: #如果存在直接打开目录写入文 with open("./" + lists[0] + "/" + lists[2] + ".mp3", "wb+") as f: # 发起URL请求并获取内容 r = requests.get(lists[1]) # 写入文件 f.write(r.content) # 生成错误日志 self.log("保存文件" + name)

5

结果就是这样的分目录存放

具体代码如下

import scrapy import re import json import requests import os class www_ximalaya_com(scrapy.Spider): name = "www_ximalaya_com" start_urls = [ "https://www.ximalaya.com/yinyue/liuxing/p1/" ] def parse(self, response): """ 该函数负责提取下一页的a链接并提取歌曲集合的id 拼接url 获取json数据 :param response: 将数据返回给回调函数 parses :return: """ #提取下一页的href 数据 '/yinyue/liuxing/p2/' a = response.css("li.page-next a.page-link::attr(href)").extract()[0] #拼接下一页的url a = "https://www.ximalaya.com" + a #提取歌曲集合的a链接的href 并进行正则提取id /yinyue/460941/ 这是一个列表 nums = response.css(" div.album-wrapper-card a::attr(href)").extract() # 循环列表进行正则和拼接URL for val in nums: # 正则提取id 460941 s = re.search("d+",val,re.S) numd = s.group() #拼接URL url = "https://www.ximalaya.com/revision/play/album?albumId=" + numd #发起请求并移交给回调函数 yield scrapy.Request(url,callback=self.parses) # 页数 count = 2 #循环页数 while count <= 34: #拼接下一页的URL url = "https://www.ximalaya.com/yinyue/liuxing/p%d/" % count # 发去请求并移交给本身 yield scrapy.Request(url,callback=self.parse) count += 1 def parses(self,response): """ 该函用于解析数据提取数据发起请求获取数据并将音乐保存在文件当中 :param response: :return: """ # 获取数据 jsOns= response.text #解析json数据 jslod = json.loads(jsons) #循环数据 for val in jslod["data"]["tracksAudioPlay"]: #获取URL url = val["src"] #获取歌名 name = val["trackName"] file_name = val["albumName"] lists = [] #设置列表将歌曲集合 URL 歌名追加进列表 lists.append(file_name) lists.append(url) lists.append(name) # #判断 URL是否为None if lists[1] != None: #打开文件 if os.path.isdir(lists[0]) == False: os.mkdir(lists[0]) with open("./"+ lists[0] + "/" + lists[2] + ".mp3", "wb+") as f: #发起URL请求并获取内容 r = requests.get(lists[1]) #写入文件 f.write(r.content) #生成错误日志 self.log("保存文件" + name) else: with open("./" + lists[0] + "/" + lists[2] + ".mp3", "wb+") as f: # 发起URL请求并获取内容 r = requests.get(lists[1]) # 写入文件 f.write(r.content) # 生成错误日志 self.log("保存文件" + name)

这就是一个简单的爬虫爬取喜马拉雅的歌曲 ? 本人仍在继续爬着！！！！！！

详细项目代码见gitup https://github.com/kong11213613/python3-

推荐阅读

random
探索聚类分析中的K-Means与DBSCAN算法及其应用

聚类分析是一种用于解决样本或特征分类问题的统计分析方法，也是数据挖掘领域的重要算法之一。本文主要探讨了K-Means和DBSCAN两种聚类算法的原理及其应用场景。K-Means算法通过迭代优化簇中心来实现数据点的划分，适用于球形分布的数据集；而DBSCAN算法则基于密度进行聚类，能够有效识别任意形状的簇，并且对噪声数据具有较好的鲁棒性。通过对这两种算法的对比分析，本文旨在为实际应用中选择合适的聚类方法提供参考。 ... [详细]

蜡笔小新 2024-11-04 13:20:39
char
如何高效启动大数据应用之旅？

在前一篇文章中，我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目，涵盖关键步骤和最佳实践，帮助读者快速踏上大数据之旅。 ... [详细]

蜡笔小新 2024-11-04 18:30:38
uri
投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元

投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元 ... [详细]

蜡笔小新 2024-11-05 04:56:42
go
Java 并发编程：深入解析 AtomicInteger 和 CAS 无锁算法

在多线程并发环境中，普通变量的操作往往是线程不安全的。本文通过一个简单的例子，展示了如何使用 AtomicInteger 类及其核心的 CAS 无锁算法来保证线程安全。 ... [详细]

蜡笔小新 2024-11-12 16:40:04
java
Spring详解（六）AOP

原文网址：https:www.cnblogs.comysoceanp7476379.html目录1、AOP什么？2、需求3、解决办法1:使用静态代理4 ... [详细]

蜡笔小新 2024-11-12 14:40:40
list
python解决CSF布料模拟滤波的批处理问题（解决获取多个点云数据las数据）

解决问题：1、批量读取点云las数据2、点云数据读与写出3、csf滤波分类参考：https:github.comsuyunzzzCSF论文题目ÿ ... [详细]

蜡笔小新 2024-11-12 11:32:15
char
InfluxDB、collectd与Grafana的详细安装与配置指南

本文详细介绍了 InfluxDB、collectd 和 Grafana 的安装与配置流程。首先，按照启动顺序依次安装并配置 InfluxDB、collectd 和 Grafana。InfluxDB 作为时序数据库，用于存储时间序列数据；collectd 负责数据的采集与传输；Grafana 则用于数据的可视化展示。文中提供了 collectd 的官方文档链接，便于用户参考和进一步了解其配置选项。通过本指南，读者可以轻松搭建一个高效的数据监控系统。 ... [详细]

蜡笔小新 2024-11-11 19:54:24
js
如何在Nginx服务器上轻松配置CertBot以实现SSL证书自动化管理

为了确保iOS应用能够安全地访问网站数据，本文介绍了如何在Nginx服务器上轻松配置CertBot以实现SSL证书的自动化管理。通过这一过程，可以确保应用始终使用HTTPS协议，从而提升数据传输的安全性和可靠性。文章详细阐述了配置步骤和常见问题的解决方法，帮助读者快速上手并成功部署SSL证书。 ... [详细]

蜡笔小新 2024-11-10 08:42:08
java
com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例

com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 10:47:33
uri
应用链时代，详解 Avalanche 与 Cosmos 的差异

应用链时代，详解 Avalanche 与 Cosmos 的差异 ... [详细]

蜡笔小新 2024-11-13 09:37:19
version
MDT2010实验部署手册（一）

MicrosoftDeploymentToolkit2010部署培训实验手册V1.0目录实验环境说明3实验环境虚拟机使用信息3注意：4实验手册正文说 ... [详细]

蜡笔小新 2024-11-12 20:02:27
list
Python 3 Scrapy 框架执行流程详解

本文详细介绍了如何在 Python 3 环境下安装和使用 Scrapy 框架，包括常用命令和执行流程。Scrapy 是一个强大的 Web 抓取框架，适用于数据挖掘、监控和自动化测试等多种场景。 ... [详细]

蜡笔小新 2024-11-12 10:51:15
list
第三节 Sqoop：实现数据的精准控制与高效导入

通过使用Sqoop导入工具，可以精确控制并高效地将表数据的特定子集导入到HDFS中。具体而言，可以通过在导入命令中添加WHERE子句来指定所需的数据范围，从而在数据库服务器上执行相应的SQL查询，并将查询结果高效地存储到HDFS中。这种方法不仅提高了数据导入的灵活性，还确保了数据的准确性和完整性。 ... [详细]

蜡笔小新 2024-11-11 22:58:51
list
在Windows系统中安装TensorFlow GPU版的详细指南与常见问题解决

在Windows系统中安装TensorFlow GPU版是许多深度学习初学者面临的挑战。本文详细介绍了安装过程中的每一个步骤，并针对常见的问题提供了有效的解决方案。通过本文的指导，读者可以顺利地完成安装并避免常见的陷阱。 ... [详细]

蜡笔小新 2024-11-11 19:02:49
go
全新发布的自我修复与自我更新的Linux版本，专为云计算环境设计！

全新发布的自我修复与自我更新的Linux版本，专为云计算环境设计！ ... [详细]

蜡笔小新 2024-10-30 10:53:23

氣質正妹_384

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章

Python3+scrapy爬取喜马拉雅音乐音乐和歌名最简单的爬虫

初学scrapy并爬取 喜马拉雅音乐想和大家分享分享

二 、分析完啦 话不多说 给各位看官上代码！

初学scrapy并爬取喜马拉雅音乐想和大家分享分享

二、分析完啦话不多说给各位看官上代码！