当前位置: 开发笔记 > 编程语言 > 正文

Python爬虫进阶之爬取某视频并下载，没有广告的视频看起来不爽吗？

作者：谁的板砖在飞 | 来源：互联网 | 2023-09-03 09:58

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理本文章来着腾讯云作者：python学习教程意外的挖掘到了一个资源

Python爬虫进阶之爬取某视频并下载，没有广告的视频看起来不爽吗？[Python基础]

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理

本文章来着腾讯云作者：python学习教程
在这里插入图片描述

意外的挖掘到了一个资源网站（你懂得），但是网速慢广告多下载不了种种原因让我突然萌生了爬虫的想法。

下面说说流程：

一、网站分析

首先进入网站，F12检查，本来以为这种低端网站很好爬取，是我太低估了web主。可以看到我刷新网页之后，出现了很多js文件，并且响应获取的代码与源代码不一样，这就不难猜到这个网站是动态加载页面。
在这里插入图片描述
目前我知道的动态网页爬取的方法只有这两种：

1、从网页响应中找到JS脚本返回的JSON数据；

2、使用Selenium对网页进行模拟访问。

二、写代码

导入相关模块

import requestsfrom datetime import datetimeimport re#import jsonimport timeimport os #视频分类和视频列表URL的前一段url = "http://xxxxxxx/api/?d=pc&c=video&"#m3u8文件和ts文件的URL前一段m3u8_url ="https://xxxxxxxxxxxxx/videos/cherry-prod/2020/03/01/2dda82de-5b31-11ea-b5ae-1c1b0da2bc3f/hls/480/"#构造请求头信息header = {"user-agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.57.2 (KHTML, like Gecko) Version/5.1.7 Safari/534.57.2"}#创建空列表存放视频信息vediomassag=""#返回当前时间戳TimeStamp = int(datetime.timestamp(datetime.now()))

2.定义函数，获取网站首页分类列表信息

#自定义函数获取分类def get_vediocategory(url, TimeStamp):cgURL = url + "m=categories×tamp=" + str(TimeStamp) + "&"respOnse= requests.get(cgURL, headers=header)category = response.text# strrr=""%s""%category# return strrrreturn category

3.定义函数，通过上一个函数返回的分类信息，根据分类对应的id，输入id并传输到当前URL中以便获取分类下的视频列表信息

#获取分类后的视频列表def get_vedioList(url, TimeStamp, tagID):listURL = url + "m=lists×tamp=" + str(TimeStamp) + "&" + "page=1&tag_id=" + str(tagID) + "&sort_type=&is_vip=0"respOnse= requests.get(listURL, headers=header)vedioLists = response.textreturn vedioLists

4.在视频列表信息中获取视频对应的id，获取单个视频详细信息的URL

#获取单个视频的详细信息def get_vediomassages(url, TimeStamp, vedioID):videoURL = url + "m=detail×tamp=" + str(TimeStamp) + "&" + "&id=" + str(vedioID)respOnse= requests.get(videoURL, headers=header)vediomassag = response.textreturn vediomassag

5.在视频详细信息中找到m3u8文件的下载地址，并将文件保存到创建的文件中

#将下载的m3u8文件放进创建的ts列表文件中def get_m3u8List(m3u8_url,vediomassag):lasturl = r""m3u8_720_url":"(.*?)","download_url"last_url =re.findall(lasturl,vediomassag)lastURL=m3u8_url+str(last_url)respOnse= requests.get(lastURL, headers=header)tsList = response.textcur_path="E:files" #在指定路径建立文件夹try:if not os.path.isdir(cur_path): #确认文件夹是否存在os.makedirs(cur_path) #不存在则新建except:print("文件夹存在")filename=cur_path+" 2.txt" #在文件夹中存放txt文件f = open(filename,"a", encoding="utf-8")f.write(tsList)f.closeprint("创建%s文件成功"%(filename))return filename

6.将m3u8文件中的ts单个提取出来放进列表中。

# 提取ts列表文件的内容，逐个拼接ts的url，形成listdef get_tsList(filename):ls = []with open(filename, "r") as file:line = f.readlines()for line in lines:if line.endswith(".ts

"):ls.append(line[:-1])return ls

7.遍历列表获取单个ts地址，请求下载ts文件放进创建的文件夹中

# 批量下载ts文件def DownloadTs(ls):length = len(ls)root="E:mp4"try:if not os.path.exists(root):os.mkdir(root)except:print("文件夹创建失败")try:for i in range(length):tsname = ls[i][:-3]ts_URL=url+ls[i]print(ts_URL)r = requests.get(ts_URL)with open(root, "a") as f:f.write(r.content)f.close()print("" + tsname + " -->OK ({}/{}){:.2f}%".format(i, length, i * 100 / length), end="")print("下载完毕")except:print("下载失败")

代码整合

import requestsfrom datetime import datetimeimport re#import jsonimport timeimport os url = "http://xxxxxxxx/api/?d=pc&c=video&"m3u8_url ="https://xxxxxxxxxxxxxxx/videos/cherry-prod/2020/03/01/2dda82de-5b31-11ea-b5ae-1c1b0da2bc3f/hls/480/"header = {"user-agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.57.2 (KHTML, like Gecko) Version/5.1.7 Safari/534.57.2"}vediomassag=""TimeStamp = int(datetime.timestamp(datetime.now())) #自定义函数获取分类def get_vediocategory(url, TimeStamp):cgURL = url + "m=categories×tamp=" + str(TimeStamp) + "&"respOnse= requests.get(cgURL, headers=header)category = response.text# strrr=""%s""%category# return strrrreturn category #获取分类后的视频列表def get_vedioList(url, TimeStamp, tagID):listURL = url + "m=lists×tamp=" + str(TimeStamp) + "&" + "page=1&tag_id=" + str(tagID) + "&sort_type=&is_vip=0"respOnse= requests.get(listURL, headers=header)vedioLists = response.textreturn vedioLists #获取单个视频的详细信息def get_vediomassages(url, TimeStamp, vedioID):videoURL = url + "m=detail×tamp=" + str(TimeStamp) + "&" + "&id=" + str(vedioID)respOnse= requests.get(videoURL, headers=header)vediomassag = response.textreturn vediomassag #将下载的m3u8文件放进创建的ts列表文件中def get_m3u8List(m3u8_url,vediomassag):lasturl = r""m3u8_720_url":"(.*?)","download_url"last_url =re.findall(lasturl,vediomassag)lastURL=m3u8_url+str(last_url)respOnse= requests.get(lastURL, headers=header)tsList = response.textcur_path="E:files" #在指定路径建立文件夹try:if not os.path.isdir(cur_path): #确认文件夹是否存在os.makedirs(cur_path) #不存在则新建except:print("文件夹存在")filename=cur_path+" 2.txt" #在文件夹中存放txt文件f = open(filename,"a", encoding="utf-8")f.write(tsList)f.closeprint("创建%s文件成功"%(filename))return filename # 提取ts列表文件的内容，逐个拼接ts的url，形成listdef get_tsList(filename):ls = []with open(filename, "r") as file:line = f.readlines()for line in lines:if line.endswith(".ts

"):ls.append(line[:-1])return ls # 批量下载ts文件def DownloadTs(ls):length = len(ls)root="E:mp4"try:if not os.path.exists(root):os.mkdir(root)except:print("文件夹创建失败")try:for i in range(length):tsname = ls[i][:-3]ts_URL=url+ls[i]print(ts_URL)r = requests.get(ts_URL)with open(root, "a") as f:f.write(r.content)f.close()print("" + tsname + " -->OK ({}/{}){:.2f}%".format(i, length, i * 100 / length), end="")print("下载完毕")except:print("下载失败") """# 整合所有ts文件，保存为mp4格式（此处函数复制而来未做实验，本人直接在根目录命令行输入copy/b*.ts 文件名.mp4,意思是将所有ts文件合并转换成自己命名的MP4格式文件。）def MergeMp4():print("开始合并")path = "E://mp4//"outdir = "output"os.chdir(root)if not os.path.exists(outdir):os.mkdir(outdir)os.system("copy /b *.ts new.mp4")os.system("move new.mp4 {}".format(outdir))print("结束合并")"""if __name__ == "__main__":# 将获取的分类信息解码显示出来# print(json.loads(get_vediocategory(url, TimeStamp)))print(get_vediocategory(url, TimeStamp))tagID = input("请输入分类对应的id")print(get_vedioList(url, TimeStamp, tagID))vedioID = input("请输入视频对应的id")get_vediomassages(url, TimeStamp, vedioID)get_m3u8List(m3u8_url,vediomassag)get_tsList(filename)DownloadTs(ls)# MergeMp4()

此时正在下载

在这里插入图片描述

推荐阅读

utf-8
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
utf-8
网络爬虫的规范与限制

本文探讨了网络爬虫引发的问题及其解决方案，重点介绍了Robots协议的作用和使用方法，旨在为网络爬虫的合理使用提供指导。 ... [详细]

蜡笔小新 2024-11-13 15:45:41
blob
浅析python实现布隆过滤器及Redis中的缓存穿透原理_python

本文带你了解了位图的实现，布隆过滤器的原理及Python中的使用，以及布隆过滤器如何应对Redis中的缓存穿透，相信你对布隆过滤 ... [详细]

蜡笔小新 2024-11-13 16:43:07
controller
SpringMVC 入门指南：快速上手 Java Web 开发

本文将带你快速了解 SpringMVC 框架的基本使用方法，通过实现一个简单的 Controller 并在浏览器中访问，展示 SpringMVC 的强大与简便。 ... [详细]

蜡笔小新 2024-11-13 14:22:01
instance
Spring Boot 中配置全局文件上传路径并实现文件上传功能

本文介绍如何在 Spring Boot 项目中配置全局文件上传路径，并通过读取配置项实现文件上传功能。通过这种方式，可以更好地管理和维护文件路径。 ... [详细]

蜡笔小新 2024-11-13 11:19:38
python
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
instance
c/c++常用代码doc,ppt,xls文件格式转PDF格式[转]

[转]doc,ppt,xls文件格式转PDF格式http:blog.csdn.netlee353086articledetails7920355确实好用。需要注意的是#import ... [详细]

蜡笔小新 2024-11-12 16:19:40
instance
Framework7：构建跨平台移动应用的高效框架

Framework7 是一个开源免费的框架，适用于开发混合移动应用（原生与HTML混合）或iOS&Android风格的Web应用。此外，它还可以作为原型开发工具，帮助开发者快速创建应用原型。 ... [详细]

蜡笔小新 2024-11-12 14:47:56
version
Delphi 7下最小化到系统托盘（主要是WM_TRAYMSG和WM_SYSCOMMAND消息）

在Delphi7下要制作系统托盘，只能制作一个比较简单的系统托盘，因为ShellAPI文件定义的TNotifyIconData结构体是比较早的版本。定义如下：1234 ... [详细]

蜡笔小新 2024-11-12 12:32:15
version
开机自启动的几种方式

0x01快速自启动目录快速启动目录自启动方式源于Windows中的一个目录，这个目录一般叫启动或者Startup。位于该目录下的PE文件会在开机后进行自启动 ... [详细]

蜡笔小新 2024-11-12 11:16:30
spring
JavaWeb文件上传：前端实现与后端处理详解

在JavaWeb开发中，文件上传是一个常见的需求。无论是通过表单还是其他方式上传文件，都必须使用POST请求。前端部分通常采用HTML表单来实现文件选择和提交功能。后端则利用Apache Commons FileUpload库来处理上传的文件，该库提供了强大的文件解析和存储能力，能够高效地处理各种文件类型。此外，为了提高系统的安全性和稳定性，还需要对上传文件的大小、格式等进行严格的校验和限制。 ... [详细]

蜡笔小新 2024-11-11 19:50:46
require
XAMPP 遇到 404 错误：无法找到请求的对象

在使用 XAMPP 时遇到 404 错误，表示请求的对象未找到。通过详细分析发现，该问题可能由以下原因引起：1. `httpd-vhosts.conf` 文件中的配置路径错误；2. `public` 目录下缺少 `.htaccess` 文件。建议检查并修正这些配置，以确保服务器能够正确识别和访问所需的文件路径。 ... [详细]

蜡笔小新 2024-11-11 18:20:00
require
Webpack 初探：Import 和 Require 的使用

本文介绍了 Webpack 中 Import 和 Require 的基本概念和使用方法，帮助读者更好地理解和应用模块化开发。 ... [详细]

蜡笔小新 2024-11-13 16:34:13
python
操作系统如何通过进程控制块管理进程

本文详细介绍了操作系统如何通过进程控制块（PCB）来管理和控制进程。PCB是操作系统感知进程存在的重要数据结构，包含了进程的标识符、状态、资源清单等关键信息。 ... [详细]

蜡笔小新 2024-11-13 16:14:39
instance
基于iSCSI的SQL Server 2012群集测试(一)SQL群集安装

一、测试需求介绍与准备公司计划服务器迁移过程计划同时上线SQLServer2012，引入SQLServer2012群集提高高可用性，需要对SQLServ ... [详细]

蜡笔小新 2024-11-13 15:49:49

谁的板砖在飞

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章