当前位置: 开发笔记 > 编程语言 > 正文

如何爬取ajax实时加载多个ts文件的视频

作者：yanghuimin | 来源：互联网 | 2023-07-27 17:46

参考http:blog.sina.com.cnsblog_81bdf4030102y4fa.html尝试的linux环境1.安装python3，原先安装了pyth

参考http://blog.sina.com.cn/s/blog_81bdf4030102y4fa.html

尝试的linux环境

1.安装python3&＃xff0c;原先安装了python2.7.这里需要ln -s 更改下软连接(改之前移除2.7链接)&＃xff0c;使得用python命令的时候调用的是python3的而不是python2.7

2.用pip3 安装Crypto 用来解密文件&＃xff08;.ts的视频需要解密&＃xff0c;无法直接播放&＃xff09;

3.找到m3u8文件&＃xff0c;此步骤需要我们手动操作&＃xff1a;

刷新视频页面即可找到index.m3u8文件&＃xff0c;然后按f12查看控制台&＃xff0c;

找到后右键复制地址到下面代码中的_url变量即可

解释&＃xff1a;m3u8文件记录了ts视频的解码KEY地址和各视频切片的文件名&＃xff0c;该网址网大的m3u8文件格式如下

爬取ZY网大TS视频流

不同网站的m3u8文件格式可能不一样。

此处我们需要提取解码key&＃xff0c;并拼接出各个视频文件的地址即可&＃xff0c;代码中已经实现&＃xff0c;无需操作。

4.视频处理-合并视频

程序将提取到的小切片ts视频&＃xff0c;合并成一个大的ts文件。这种格式可以直接使用 windows media player 播放&＃xff0c;但是用QQ视频播放的话会没有声音。

再把ts转诚mp4

linux:安装ffmpeg 工具进行转换。

yum安装的时候提示没有这个安装包&＃xff0c;需要先安装下epel-release.再用yum 安装就有了。

然后根据上诉逻辑的python代码如下&＃xff08;针对windows的&＃xff0c;所以目录还不对&＃xff09;

# -*- coding: UTF-8 -*-
import os
import sys
import requests
import datetime
from Crypto.Cipher import AES

def download(url):
    download_path &＃61; os.getcwd() &＃43; "/download" #os.getcwd()返回当前工作目录
    if not os.path.exists(download_path):
        os.mkdir(download_path)

    #新建日期文件夹
    file_time&＃61;datetime.datetime.now().strftime(&＃39;%Y%m%d_%H%M%S&＃39;)
    download_path &＃61; os.path.join(download_path, file_time)
    #print download_path
    os.mkdir(download_path)

    all_content &＃61; requests.get(url).text  # 获取第一层M3U8文件内容
    fd &＃61; open(download_path&＃43;&＃39;/indexs.txt&＃39;, &＃39;w&＃39;) #把所有的.ts文件名称都放在这个文件。

    if "#EXTM3U" not in all_content:
        raise BaseException("非M3U8的链接")

    if "EXT-X-STREAM-INF" in all_content:  # 第一层
        file_line &＃61; all_content.split("\n")
        for line in file_line:
            if &＃39;.m3u8&＃39; in line:
                url &＃61; url.rsplit("/", 1)[0] &＃43; "/" &＃43; line # 拼出第二层m3u8的URL
                all_content &＃61; requests.get(url).text

    file_line &＃61; all_content.split("\n")

    unknow &＃61; True
    key &＃61; ""
    for index, line in enumerate(file_line): # 第二层
        if "#EXT-X-KEY" in line:  # 找解密Key
            method_pos &＃61; line.find("METHOD")
            comma_pos &＃61; line.find(",")
            method &＃61; line[method_pos:comma_pos].split(&＃39;&＃61;&＃39;)[1]
            print ("Decode Method&＃xff1a;", method)

            uri_pos &＃61; line.find("URI")
            quotation_mark_pos &＃61; line.rfind(&＃39;"&＃39;)
            key_path &＃61; line[uri_pos:quotation_mark_pos].split(&＃39;"&＃39;)[1]
            print (key_path)
            key_url&＃61;key_path
            res &＃61; requests.get(key_url)
            key &＃61; res.content
            print ("key&＃xff1a;" , key)
        if "EXTINF" in line: # 找ts地址并下载
            unknow &＃61; False
            pd_url &＃61; url.rsplit("/", 1)[0] &＃43; "/" &＃43; file_line[index &＃43; 1] # 拼出ts片段的URL
            print (pd_url)
            res &＃61; requests.get(pd_url)
            c_fule_name &＃61; file_line[index &＃43; 1].rsplit("/", 1)[-1]
            fd.write(&＃39;file  \&＃39;&＃39;&＃43;c_fule_name&＃43;&＃39;\&＃39;\n&＃39;)
            print(c_fule_name)
            if len(key): # AES 解密
                cryptor &＃61; AES.new(key, AES.MODE_CBC, key)
                with open(os.path.join(download_path, c_fule_name), &＃39;ab&＃39;) as f:
                    f.write(cryptor.decrypt(res.content))
            else:
                with open(os.path.join(download_path, c_fule_name), &＃39;ab&＃39;) as f:
                    f.write(res.content)
                    f.flush()
    if unknow:
        raise BaseException("未找到对应的下载链接")
    else:
        print ("下载完成")


    fd.close()
    merge_file(download_path)

def merge_file(path):
    os.chdir(path) #进入到这个目录
    os.system(&＃39;ffmpeg -f concat -i indexs.txt -c copy new.ts&＃39;) #把文件合并成一个文件
    os.system(&＃39;ffmpeg -i new.ts -q 1 -c copy output.mp4&＃39;) #转换ts为mp4格式
    os.system(&＃39;del /Q *.ts&＃39;)

if __name__ &＃61;&＃61; &＃39;__main__&＃39;:
    _url&＃61;"https://wangda.andedu.net/default/M00/00/61/...../index.m3u8" #这里的链接需要换成要爬取的m3u8文件地址。
    download(_url)

还存在小问题&＃xff0c;&＃xff0c;&＃xff0c;&＃xff0c;目前

推荐阅读

ffmpeg
Python程序安全运行的三个条件及预防措施

Python已成为全球最受欢迎的编程语言之一，然而Python程序的安全运行存在一定的风险。本文介绍了Python程序安全运行需要满足的三个条件，即系统路径上的每个条目都处于安全的位置、"主脚本"所在的目录始终位于系统路径中、若python命令使用-c和-m选项，调用程序的目录也必须是安全的。同时，文章还提出了一些预防措施，如避免将下载文件夹作为当前工作目录、使用pip所在路径而不是直接使用python命令等。对于初学Python的读者来说，这些内容将有所帮助。 ... [详细]

蜡笔小新 2023-12-09 10:20:23
datetime
Python自动提取文本中的时间（包含中文日期）及特殊时间识别方法

本文介绍了在处理不规则数据时如何使用Python自动提取文本中的时间日期，包括使用dateutil.parser模块统一日期字符串格式和使用datefinder模块提取日期。同时，还介绍了一段使用正则表达式的代码，可以支持中文日期和一些特殊的时间识别，例如'2012年12月12日'、'3小时前'、'在2012/12/13哈哈'等。 ... [详细]

蜡笔小新 2023-12-12 12:09:33
object
YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程

本文介绍了关于人工智能、神经网络和深度学习的知识点，并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说，YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容，以及选择模型的优化思路。 ... [详细]

蜡笔小新 2023-12-14 18:28:01
object
OC学习笔记之@property和@synthesize

本文介绍了OC学习笔记中的@property和@synthesize，包括属性的定义和合成的使用方法。通过示例代码详细讲解了@property和@synthesize的作用和用法。 ... [详细]

蜡笔小新 2023-12-14 12:05:06
join
使用 Ubuntu 中的 Python 获取浏览器历史记录

使用Ubuntu中的Python获取浏览器历史记录原文: ... [详细]

蜡笔小新 2023-12-14 08:57:59
join
Python瓦片图下载、合并、绘图、标记的代码示例

本文提供了Python瓦片图下载、合并、绘图、标记的代码示例，包括下载代码、多线程下载、图像处理等功能。通过参考geoserver，使用PIL、cv2、numpy、gdal、osr等库实现了瓦片图的下载、合并、绘图和标记功能。代码示例详细介绍了各个功能的实现方法，供读者参考使用。 ... [详细]

蜡笔小新 2023-12-13 12:14:55
utf-8
基于dlib的人脸68特征点提取(眨眼张嘴检测)python版本

文章目录引言开发环境和库流程设计张嘴和闭眼的检测引言(1)利用Dlib官方训练好的模型“shape_predictor_68_face_landmarks.dat”进行68个点标定 ... [详细]

蜡笔小新 2023-12-12 13:27:42
utf-8
Composer依赖管理的重要性及使用方法

本文介绍了Composer依赖管理的重要性及使用方法。对于现代语言而言，包管理器是标配，而Composer作为PHP的包管理器，解决了PEAR的问题，并且使用简单，方便提交自己的包。文章还提到了使用Composer能够避免各种include的问题，避免命名空间冲突，并且能够方便地安装升级扩展包。 ... [详细]

蜡笔小新 2023-12-11 17:06:18
input
NotSupportedException无法将类型“System.DateTime”强制转换为类型“System.Object”

本文介绍了在使用LINQ to Entities时出现的NotSupportedException异常，该异常是由于无法将类型“System.DateTime”强制转换为类型“System.Object”所导致的。同时还介绍了相关的错误信息和解决方法。 ... [详细]

蜡笔小新 2023-12-11 13:41:31
input
开源Keras Faster RCNN模型介绍及代码结构解析

本文介绍了开源Keras Faster RCNN模型的环境需求和代码结构，包括FasterRCNN源码解析、RPN与classifier定义、data_generators.py文件的功能以及损失计算。同时提供了该模型的开源地址和安装所需的库。 ... [详细]

蜡笔小新 2023-12-10 17:44:07
input
Python工具安装教程及注意事项

本文介绍了在Windows系统下安装Python、setuptools、pip和virtualenv的步骤，以及安装过程中需要注意的事项。详细介绍了Python2.7.4和Python3.3.2的安装路径，以及如何使用easy_install安装setuptools。同时提醒用户在安装完setuptools后，需要继续安装pip，并注意不要将Python的目录添加到系统的环境变量中。最后，还介绍了通过下载ez_setup.py来安装setuptools的方法。 ... [详细]

蜡笔小新 2023-12-10 16:46:45
join
超级简单加解密工具的方案和功能

本文介绍了一个超级简单的加解密工具的方案和功能。该工具可以读取文件头，并根据特定长度进行加密，加密后将加密部分写入源文件。同时，该工具也支持解密操作。加密和解密过程是可逆的。本文还提到了一些相关的功能和使用方法，并给出了Python代码示例。 ... [详细]

蜡笔小新 2023-12-10 16:38:34
join
文件路径的生成及其在文件操作中的应用

本文介绍了文件路径的生成方法及其在文件操作中的应用。在进行文件操作时，需要知道文件的具体位置才能打开文件。文件的位置有绝对路径和相对路径之分。绝对路径通常只在特定电脑上有效，不同电脑上的文件存放路径可能不同，导致程序报错。相对路径是解决这个问题的最好方式，它不依赖于文件的具体存放位置，只需要按照统一的规范进行文件存放即可。使用相对路径可以避免冗余和麻烦，特别适用于大项目和团队维护代码的情况。 ... [详细]

蜡笔小新 2023-12-10 01:05:54
join
从批量eml文件中提取附件的Python代码实现方法

本文介绍了使用Python代码从批量eml文件中提取附件的实现方法，包括获取eml附件信息、递归文件夹下所有文件、创建目的文件夹等步骤。通过该方法可以方便地提取eml文件中的附件，并保存到指定的文件夹中。 ... [详细]

蜡笔小新 2023-12-09 07:17:30
join
协程greenletyieldasyncioasync / await协程意义异步编程事件循环快速上手awaitTask对象

本文介绍了协程的概念和意义，以及使用greenlet、yield、asyncio、async/await等技术实现协程编程的方法。同时还介绍了事件循环的作用和使用方法，以及如何使用await关键字和Task对象来实现异步编程。最后还提供了一些快速上手的示例代码。 ... [详细]

蜡笔小新 2023-12-09 01:35:03

yanghuimin

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章