当前位置: 开发笔记 > 编程语言 > 正文

python爬取喜马拉雅收费_Python中使用requests和parsel爬取喜马拉雅电台音频

作者：天高云淡-tgyd | 来源：互联网 | 2023-09-18 09:28

场景喜马拉雅电台：找到一步小说音频，这里以下面为例实现找到下载地址使用谷歌浏览器打开上面网址，按F12打开调试，点击播放按钮

场景

喜马拉雅电台：

找到一步小说音频，这里以下面为例

实现

找到下载地址

使用谷歌浏览器打开上面网址，按F12打开调试，点击播放按钮后，然后找到Network下的Media下的Headers下的RequestURL,然后选中在新窗口中打开

打开之后就可以点击三个点出来之后的下载按钮，便可以下载

使用代码下载

打开PyCharm，新建一个Python项目

导入requests库，然后为了防止其反扒机制，找到浏览器上Headers下的Requests

Headers下的User-Agent,复制出来。

#能发送http请求的库

import requests

headers={&＃39;User-Agent&＃39;: &＃39;Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36&＃39;}

media_url= &＃39;http://audio.cos.xmcdn.com/group47/M0A/34/EA/wKgKm1tHj6GwgeWBAFehkfjyvKI181.m4a&＃39;respOnse= requests.get(media_url,headers =headers); with open(&＃39;badao.mp4&＃39;,mode=&＃39;wb&＃39;) asf: f.write(response.content)

下载成功之后

下载地址获取

上面只是获取一个音频的下载地址，怎样获取每一集的下载地址

还是刚才的调试页面，我们点击放大镜样的搜索按钮，出来搜索框之后，输入刚才下载地址的文件名

点击第一个返回json数据的接口url,找到其Headers下的RequestURL。

然后在新窗口打开

可以看到是通过这个API返回的Json数据中的下载地址。

那么这个API需要传递什么参数。通过其Headers底部的请求参数可以看到需要一个id参数和pytype参数。

通过对比每一集的接口的请求参数得知，pytype是固定的，id是每一集对应的链接中的id相对应的。

所以要是循环下载多集的话，需要在目录页面获取超链接的href属性中对应的id。

这里我们定义一个请求下载地址json数据的方法

defmedia_api(track_id):

api_url=f&＃39;https://www.ximalaya.com/revision/play/v1/audio?id={track_id}&ptype=1&＃39;;

respOnse= requests.get(api_url,headers =headers)

print(response.json())

media_api(98791745)

运行下打印json数据

提取下载地址

那么就需要根据传递的id参数通过这个接口返回json数据，并从json数据中提取src对应的url数据

def media_api(track_id):

api_url=f&＃39;https://www.ximalaya.com/revision/play/v1/audio?id={track_id}&ptype=1&＃39;;

respOnse= requests.get(api_url,headers =headers)

#print(response.json())

#json返回字典类型提取使用[]

data_json=response.json()

src= data_json[&＃39;data&＃39;][&＃39;src&＃39;]returnsrc

media_api(98791745)

这样就能根据id获取每一集的下载地址，然后再将下载地址传递给上面第一步下载的方法中进行下载即可。

接下来就是怎样获取每一集的id。

parsel解析网页获取id

首先需要导入parsel模块

import parsel

如果没有安装则需要安装

pip install parsel

我们来到其目录页

在Elemnts下可以看到每一集是一个a标签，我们获取a标签的href属性中的最后面的id。

我们再定义一个方法，此方法能根据页面的url获取当前页的所有集的id。

def get_total_page(page_url):

#请求页面

respOnse= requests.get(page_url,headers =headers)

print(response.text)

#获取页面html的内容

sel=parsel.Selector(response.text)

print(sel)

#通过css选择器找到a标签 .sound-list代表 class属性为sound-list 然后下面的ul 下的li 下的a

sound_list= sel.css(&＃39;.sound-list ul li a&＃39;)

print(sound_list)

#只有前30个是页面链接截取前30个for sound in sound_list[:30]:

#extract_first()将对象中的文字提取出来

#获取a标签的href属性的内容

media_url= sound.css(&＃39;a::attr(href)&＃39;).extract_first()

#/youshengshu/16411402/98791745 --只去最后面的id

media_url= media_url.split(&＃39;/&＃39;)[-1]

# 获取a标签的title属性的内容

media_name= sound.css(&＃39;a::attr(title)&＃39;).extract_first()

#用yield将整个循环的内容返回yield media_url,media_name

下载一页的音频

我们在main方法中调用获取当前页所有的集的id和名字，然后循环将拿到的id去请求api获取下载的地址，然后将下载地址传递给下载的方法去下载

if __name__ == &＃39;__main__&＃39;:

meidas= get_total_page(&＃39;https://www.ximalaya.com/youshengshu/16411402/&＃39;)for media_id,media_name inmeidas:

#print(media_url, media_name)

media_url=media_api(media_id)

download_meida(media_url, media_name)

运行程序将一页下载完

下载所有页

我们点击第二页看到url中追加了一个p2，依次类推，p+相应的页数。

这样就可以将页面url改造成传参的

if __name__ == &＃39;__main__&＃39;:

#循环页数下载 range代表下载的页数范围for page in range(2,3):

meidas= get_total_page(f&＃39;https://www.ximalaya.com/youshengshu/16411402/p{page}&＃39;)for media_id,media_name inmeidas:

#print(media_url, media_name)

media_url=media_api(media_id)

download_meida(media_url, media_name)

那么在range中就可以输入要下载的页数的范围。

如果输入(1,31)就是下载所有的30页，这里只下载第二页，所以range是(2,3)

代码下载

关注公众号：

霸道的程序猿

回复：

爬取喜马拉雅

推荐阅读

utf-8
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
input
DVWA学习笔记系列：深入理解CSRF攻击机制

DVWA学习笔记系列：深入理解CSRF攻击机制 ... [详细]

蜡笔小新 2024-11-11 13:19:51
range
网页图像抓取技术学习心得：从零开始掌握爬虫技巧

在今天的实践中，我深入学习了网页图像抓取技术，通过编写爬虫程序批量获取网站上的图片资源。具体来说，我选择了一个包含大量高质量图片的网站作为练习对象，并成功实现了将这些图片批量下载到本地存储。这一过程不仅提升了我对爬虫技术的理解，还增强了我的编程能力。 ... [详细]

蜡笔小新 2024-11-03 19:35:28
request
利用爬虫技术抓取数据，结合Fiddler与Postman在Chrome中的应用优化提交流程

本文探讨了如何利用爬虫技术抓取目标网站的数据，并结合Fiddler和Postman工具在Chrome浏览器中的应用，优化数据提交流程。通过详细的抓包分析和模拟提交，有效提升了数据抓取的效率和准确性。此外，文章还介绍了如何使用这些工具进行调试和优化，为开发者提供了实用的操作指南。 ... [详细]

蜡笔小新 2024-11-09 09:05:16
python
利用Python高效抓取微博文本与动态网页图像数据

本文介绍了使用 Python 编程语言高效抓取微博文本和动态网页图像数据的方法。通过详细的示例代码，展示了如何利用爬虫技术获取微博内容和动态图片，为数据采集和分析提供了实用的技术支持。对于对网络数据抓取感兴趣的读者，本文具有较高的参考价值。 ... [详细]

蜡笔小新 2024-10-31 14:48:38
request
Spring Boot 中配置全局文件上传路径并实现文件上传功能

本文介绍如何在 Spring Boot 项目中配置全局文件上传路径，并通过读取配置项实现文件上传功能。通过这种方式，可以更好地管理和维护文件路径。 ... [详细]

蜡笔小新 2024-11-13 11:19:38
range
c/c++常用代码doc,ppt,xls文件格式转PDF格式[转]

[转]doc,ppt,xls文件格式转PDF格式http:blog.csdn.netlee353086articledetails7920355确实好用。需要注意的是#import ... [详细]

蜡笔小新 2024-11-12 16:19:40
post
如何在PHP中计算腾讯云接口签名，实现人脸核身接口的对接与签名配置

在PHP中实现腾讯云接口签名，以完成人脸核身功能的对接与签名配置时，需要注意将文档中的POST请求改为GET请求。具体步骤包括：使用你的`secretKey`生成签名字符串`$srcStr`，格式为`GET faceid.tencentcloudapi.com?`，确保参数正确拼接，避免因请求方法错误导致的签名问题。此外，还需关注API的其他参数要求，确保请求的完整性和安全性。 ... [详细]

蜡笔小新 2024-11-08 21:58:28
request
深入解析Ajax的工作机制及其在现代Web开发中的应用

本文深入探讨了Ajax的工作机制及其在现代Web开发中的应用。Ajax作为一种异步通信技术，改变了传统的客户端与服务器直接交互的模式。通过引入Ajax，客户端与服务器之间的通信变得更加高效和灵活。文章详细分析了Ajax的核心原理，包括XMLHttpRequest对象的使用、数据传输格式（如JSON和XML）以及事件处理机制。此外，还介绍了Ajax在提升用户体验、实现动态页面更新等方面的具体应用，并讨论了其在当前Web开发中的重要性和未来发展趋势。 ... [详细]

蜡笔小新 2024-11-07 14:11:10
request
Spring – Bean Life Cycle

Spring – Bean Life Cycle ... [详细]

蜡笔小新 2024-11-13 13:24:40
range
大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式

大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式 ... [详细]

蜡笔小新 2024-11-11 19:05:59
input
利用Struts1构建简易计算器：采用DispatchAction处理请求，动态Form优化开发流程，提供用户友好的错误提示

本文介绍了如何利用Struts1框架构建一个简易的四则运算计算器。通过采用DispatchAction来处理不同类型的计算请求，并使用动态Form来优化开发流程，确保代码的简洁性和可维护性。同时，系统提供了用户友好的错误提示，以增强用户体验。 ... [详细]

蜡笔小新 2024-11-09 19:48:22
process
优化Hadoop 2.7.2源代码以支持Snappy压缩和解压功能的Native编译

为了在Hadoop 2.7.2中实现对Snappy压缩和解压功能的原生支持，本文详细介绍了如何重新编译Hadoop源代码，并优化其Native编译过程。通过这一优化，可以显著提升数据处理的效率和性能。此外，还探讨了编译过程中可能遇到的问题及其解决方案，为用户提供了一套完整的操作指南。 ... [详细]

蜡笔小新 2024-11-09 19:45:36
range
C++ 开发实战：实用技巧与经验分享

C++ 开发实战：实用技巧与经验分享 ... [详细]

蜡笔小新 2024-11-07 20:31:03
request
解决 Fetch 请求扇贝 API 时遇到的跨域问题及优化方案

解决 Fetch 请求扇贝 API 时遇到的跨域问题及优化方案 ... [详细]

蜡笔小新 2024-11-04 14:26:56

天高云淡-tgyd

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章