当前位置: 开发笔记 > 编程语言 > 正文

我用Python写了一个下载网站所有内容的软件，可见即可下，室友表示非常好用

作者：铱雯_213 | 来源：互联网 | 2023-10-12 13:45

Python 写一个下载网站内容的GUI工具&＃xff0c;所有内容都能下载&＃xff0c;真的太方便了&＃xff01;前言本次要实现的功能效果展示代码实战获取数据GUI部分最后前言哈喽大家好&＃x

Python 写一个下载网站内容的GUI工具&＃xff0c;所有内容都能下载&＃xff0c;真的太方便了&＃xff01;

前言
本次要实现的功能
效果展示
代码实战
- 获取数据
GUI部分
最后

前言

哈喽大家好&＃xff0c;我是轻松。

今天我们分享一个用Python写下载视频&＃43;弹幕&＃43;评论的代码。

之前自游写了采集视频、弹幕、评论的代码&＃xff0c;还录了视频。

我当时就问他&＃xff0c;你就不能把这些写成GUI&＃xff0c;把这些功能放到一起不是别人用起来更方便么&＃xff1f;

本来他还想反抗&＃xff0c;当时我就直接叫他看着办&＃xff01;

他哪受得了这种委屈&＃xff0c;当时就乖乖写代码去了&＃xff0c;现在我把代码分享给大家。

本次要实现的功能

咱们本次先简单的实现一下

评论
弹幕
视频

效果展示

我们来看看实现效果吧

代码实战

主要代码分为界面和采集部分

获取数据

网址我屏蔽了&＃xff0c;防止误杀。

获取视频

import requests import re import json from pprint import pprint import subprocess import osdef Video(bv_id):url &＃61; f&＃39;https://www.***.com/video/{bv_id}&＃39;headers &＃61; {# 防盗链&＃39;referer&＃39;: &＃39;https://www.***.com/video/&＃39;,# 浏览器基本身份标识表示浏览器&＃39;user-agent&＃39;: &＃39;Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36&＃39;}# 发送请求 ---> 响应对象, 200状态码表示请求成功response &＃61; requests.get(url&＃61;url, headers&＃61;headers)# 获取视频标题title &＃61; re.findall(&＃39;"title":"(.*?)","pubdate"&＃39;, response.text)[0].replace(&＃39; &＃39;, &＃39;&＃39;)# 获取视频数据信息前端标签两个两个一起html_data &＃61; re.findall(&＃39;&＃39;, response.text)[0]# 转换数据类型字符串数据转成json字典数据类型json_data &＃61; json.loads(html_data)# print打印字典数据, 输出一行内容 print(json_data)# pprint 打印字典数据, 格式化输出展开效果 pprint(json_data)# 字典数据 B站数据音频和视频分开的根据冒号左边的内容, 提取冒号右边的内容键值对取值audio_url &＃61; json_data[&＃39;data&＃39;][&＃39;dash&＃39;][&＃39;audio&＃39;][0][&＃39;baseUrl&＃39;]video_url &＃61; json_data[&＃39;data&＃39;][&＃39;dash&＃39;][&＃39;video&＃39;][0][&＃39;baseUrl&＃39;]# 403 Forbidden 没有访问权限.....audio_content &＃61; requests.get(url&＃61;audio_url, headers&＃61;headers).contentvideo_content &＃61; requests.get(url&＃61;video_url, headers&＃61;headers).contentif not os.path.exists(&＃39;video\\&＃39;):os.mkdir(&＃39;video\\&＃39;)with open(&＃39;video\\&＃39; &＃43; title &＃43; &＃39;.mp3&＃39;, mode&＃61;&＃39;wb&＃39;) as audio:audio.write(audio_content)with open(&＃39;video\\&＃39; &＃43; title &＃43; &＃39;.mp4&＃39;, mode&＃61;&＃39;wb&＃39;) as video:video.write(video_content)# 获取音频内容以及视频画面内容cmd &＃61; f"ffmpeg -i video\\{title}.mp4 -i video\\{title}.mp3 -c:v copy -c:a aac -strict experimental video\\{title}output.mp4"subprocess.run(cmd, shell&＃61;True)os.remove(f&＃39;video\\{title}.mp4&＃39;)os.remove(f&＃39;video\\{title}.mp3&＃39;)return title

采集弹幕

import requests import re import osdef get_response(html_url):headers &＃61; {&＃39;user-agent&＃39;: &＃39;Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36&＃39;}response &＃61; requests.get(url&＃61;html_url, headers&＃61;headers)response.encoding &＃61; response.apparent_encodingreturn responsedef get_Dm_url(bv_id):link &＃61; f&＃39;https://www.***.com/video/{bv_id}/&＃39;html_data &＃61; get_response(link).textDm_url &＃61; re.findall(&＃39;弹幕&＃39;, html_data)[0]title &＃61; re.findall(&＃39;, html_data)[-1]return Dm_url, titledef get_Dm_content(Dm_url, title):html_data &＃61; get_response(Dm_url).textcontent_list &＃61; re.findall(&＃39;(.*?)&＃39;, html_data)if not os.path.exists(&＃39;弹幕\\&＃39;):os.mkdir(&＃39;弹幕\\&＃39;)for content in content_list:with open(f&＃39;弹幕\\{title}弹幕.txt&＃39;, mode&＃61;&＃39;a&＃39;, encoding&＃61;&＃39;utf-8&＃39;) as f:f.write(content)f.write(&＃39;\n&＃39;)def main(bv_id):Dm_url, title &＃61; get_Dm_url(bv_id)get_Dm_content(Dm_url, title)

采集评论

import requests import re import osdef get_response(html_url, params&＃61;None):headers &＃61; {&＃39;user-agent&＃39;: &＃39;Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36&＃39;}response &＃61; requests.get(url&＃61;html_url, params&＃61;params, headers&＃61;headers)return responsedef get_oid(bv_id):link &＃61; f&＃39;https://www.***.com/video/{bv_id}/&＃39;html_data &＃61; get_response(link).textoid &＃61; re.findall(&＃39;window.__INITIAL_STATE__&＃61;{"aid":(\d&＃43;),&＃39;, html_data)[0]title &＃61; re.findall(&＃39;"title":"(.*?)","pubdate"&＃39;, html_data)[0].replace(&＃39; &＃39;, &＃39;&＃39;)return oid, titledef get_content(oid, page, title):content_url &＃61; &＃39;https://***.com/x/v2/reply/main&＃39;data &＃61; {&＃39;csrf&＃39;: &＃39;6b0592355acbe9296460eab0c0a0b976&＃39;,&＃39;mode&＃39;: &＃39;3&＃39;,&＃39;next&＃39;: page,&＃39;oid&＃39;: oid,&＃39;plat&＃39;: &＃39;1&＃39;,&＃39;type&＃39;: &＃39;1&＃39;,}json_data &＃61; get_response(content_url, data).json()content &＃61; &＃39;\n&＃39;.join([i[&＃39;content&＃39;][&＃39;message&＃39;] for i in json_data[&＃39;data&＃39;][&＃39;replies&＃39;]])if not os.path.exists(&＃39;评论\\&＃39;):os.mkdir(&＃39;评论\\&＃39;)with open(f&＃39;评论\\{title}评论.txt&＃39;, mode&＃61;&＃39;a&＃39;, encoding&＃61;&＃39;utf-8&＃39;) as f:f.write(content)def main(bv_id):oid, title &＃61; get_oid(bv_id)for page in range(1, 6):try:get_content(oid, page, title)except:pass
GUI部分

模块

import tkinter as tk from tkinter import ttk import tkinter.messagebox from Video import Video import Barrage import Comment

下载完成提示

def get_content():result &＃61; number_int_var.get()if result &＃61;&＃61; &＃39;视频&＃39;:bv_id &＃61; bv_va.get()title &＃61; Video(bv_id)tk.messagebox.showinfo(title&＃61;&＃39;温馨提示&＃39;, message&＃61;f&＃39;{title}下载完成&＃39;)elif result &＃61;&＃61; &＃39;弹幕&＃39;:bv_id &＃61; bv_va.get()Barrage.main(bv_id)tk.messagebox.showinfo(title&＃61;&＃39;温馨提示&＃39;, message&＃61;f&＃39;弹幕下载完成&＃39;)elif result &＃61;&＃61; &＃39;评论&＃39;:bv_id &＃61; bv_va.get()Comment.main(bv_id)tk.messagebox.showinfo(title&＃61;&＃39;温馨提示&＃39;, message&＃61;f&＃39;评论下载完成&＃39;)

主界面部分

root &＃61; tk.Tk() root.title(&＃39;B站视频下载软件&＃39;) root.geometry(&＃39;367x134&＃43;200&＃43;200&＃39;) # 透明度的值:0~1 也可以是小数点&＃xff0c;0&＃xff1a;全透明&＃xff1b;1&＃xff1a;全不透明 # 完整源码自取q裙:708525271 root.attributes("-alpha", 0.9) # ------------------------------------------------------- tk.Label(root, text&＃61;&＃39;完整源码领取&＃43;扣裙708525271&＃39;, font&＃61;(&＃39;黑体&＃39;, 13), fg&＃61;"red").grid(row&＃61;0, column&＃61;1) # 我已经把这个工具打包成了exe可执行文件&＃xff0c;直接加这个裙获取。 # ------------------------------------------------------- text_label_1 &＃61; tk.Label(root, text&＃61;&＃39;选择: &＃39;, font&＃61;(&＃39;黑体&＃39;, 15)) text_label_1.grid(row&＃61;1, column&＃61;0, padx&＃61;5, pady&＃61;5) # ------------------------------------------------------- number_int_var &＃61; tk.StringVar() # 创建一个下拉列表 numberChosen &＃61; ttk.Combobox(root, textvariable&＃61;number_int_var, width&＃61;26) # 设置下拉列表的值 numberChosen[&＃39;values&＃39;] &＃61; (&＃39;视频&＃39;, &＃39;弹幕&＃39;, &＃39;评论&＃39;) # 设置其在界面中出现的位置 column代表列 row 代表行 numberChosen.grid(row&＃61;1, column&＃61;1, padx&＃61;5, pady&＃61;5) # 设置下拉列表默认显示的值&＃xff0c;0为 numberChosen[&＃39;values&＃39;] 的下标值 numberChosen.current(0) # ------------------------------------------------------- text_label &＃61; tk.Label(root, text&＃61;&＃39;BV号:&＃39;, font&＃61;(&＃39;黑体&＃39;, 15)) text_label.grid(row&＃61;2, column&＃61;0, padx&＃61;5, pady&＃61;5)bv_va &＃61; tk.Variable() entry_1 &＃61; tk.Entry(root, font&＃61;(&＃39;黑体&＃39;, 15), textvariable&＃61;bv_va) entry_1.grid(row&＃61;2, column&＃61;1)Button_1 &＃61; tk.Button(root, text&＃61;&＃39;下载&＃39;, font&＃61;(&＃39;黑体&＃39;, 13), command&＃61;get_content) Button_1.grid(row&＃61;2, column&＃61;2, padx&＃61;5, pady&＃61;5) # ------------------------------------------------------- root.mainloop()
最后

像评论、弹幕咱们获取到以后&＃xff0c;还能做成词云图等等&＃xff0c;视频下载下来有水印&＃xff0c;也能用Python直接去除视频水印&＃xff0c;非常方便。

大家还可以把代码打包成exe可执行文件&＃xff0c;这样就能直接把软件分享给小伙伴一起用了。

或者直接找我要也可以。

大家觉得有用的话可以来个免费的点赞&＃43;收藏&＃43;关注&＃xff0c;防止下次我悄悄更新了好东西却不知道&＃xff01;

推荐阅读

cookie
深入理解Cookie与Session会话管理

本文详细介绍了如何通过HTTP响应和请求处理浏览器的Cookie信息，以及如何创建、设置和管理Cookie。同时探讨了会话跟踪技术中的Session机制，解释其原理及应用场景。 ... [详细]

蜡笔小新 2024-12-27 18:20:43
get
Python爬虫实战：豆瓣电影Top250数据抓取

本文详细介绍了如何使用Python编写爬虫程序，从豆瓣电影Top250页面抓取电影信息。文章涵盖了从基础的网页请求到处理反爬虫机制，再到多页数据抓取的全过程，并提供了完整的代码示例。 ... [详细]

蜡笔小新 2024-12-27 16:55:07
get
使用 Azure Service Principal 和 Microsoft Graph API 获取 AAD 用户列表

本文介绍了一段通用代码示例，该代码不仅能够操作 Azure Active Directory (AAD)，还可以通过 Azure Service Principal 的授权访问和管理 Azure 订阅资源。Azure 的架构可以分为两个层级：AAD 和 Subscription。 ... [详细]

蜡笔小新 2024-12-27 16:07:12
get
HTTP请求与响应机制详解

本文深入探讨了HTTP请求和响应对象的使用，详细介绍了如何通过响应对象向客户端发送数据、处理中文乱码问题以及常见的HTTP状态码。此外，还涵盖了文件下载、请求重定向、请求转发等高级功能。 ... [详细]

蜡笔小新 2024-12-23 20:40:08
get
Servlet 表单处理：GET 和 POST 请求的深入解析

本文详细探讨了HTML表单中GET和POST请求的区别，包括它们的工作原理、数据传输方式、安全性及适用场景。同时，通过实例展示了如何在Servlet中处理这两种请求。 ... [详细]

蜡笔小新 2024-12-23 18:09:59
get
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
get
深入理解Tornado模板系统

本文详细介绍了Tornado框架中模板系统的使用方法。Tornado自带的轻量级、高效且灵活的模板语言位于tornado.template模块，支持嵌入Python代码片段，帮助开发者快速构建动态网页。 ... [详细]

蜡笔小新 2024-12-27 19:22:16
version
DNN Community 和 Professional 版本的主要差异

本文详细解析了 DotNetNuke (DNN) 的两种主要版本：Community 和 Professional。通过对比两者的功能和附加组件，帮助用户选择最适合其需求的版本。 ... [详细]

蜡笔小新 2024-12-27 13:14:08
get
如何在ASP.NET中操作没有runat='server'属性的HTML元素

本文探讨了在不使用服务器控件的情况下，如何通过多种方法获取并修改页面中的HTML元素值。除了常见的AJAX方式，还介绍了其他可行的技术方案。 ... [详细]

蜡笔小新 2024-12-27 06:30:46
get
解决网站乱码问题的综合指南

本文总结了导致网站乱码的常见原因，并提供了详细的解决方案，包括文件编码、HTML元标签设置、服务器响应头配置、数据库字符集调整以及PHP与MySQL交互时的编码处理。 ... [详细]

蜡笔小新 2024-12-25 14:57:54
get
PHP数组平均值计算方法详解

本文详细介绍了如何在PHP中计算数组的平均值，涵盖基本概念、具体实现步骤及示例代码。通过本篇文章，您将掌握使用PHP函数array_sum()和count()来求解数组元素的平均值。 ... [详细]

蜡笔小新 2024-12-25 14:20:56
get
构建个人博客站点：基于LAMP环境的WordPress部署指南

本文详细介绍如何利用已搭建的LAMP（Linux、Apache、MySQL、PHP）环境，快速创建一个基于WordPress的内容管理系统（CMS）。WordPress是一款流行的开源博客平台，适用于个人或小型团队使用。 ... [详细]

蜡笔小新 2024-12-23 20:23:57
get
Python处理Word文档的高效技巧

本文详细介绍了如何使用Python处理Word文档，涵盖从基础操作到高级功能的各种技巧。我们将探讨如何生成文档、定义样式、提取表格数据以及处理超链接和图片等内容。 ... [详细]

蜡笔小新 2024-12-23 10:40:32
get
如何在 Angular 6 HttpClient 中获取响应头

本文介绍如何使用 Angular 6 的 HttpClient 模块来获取 HTTP 响应头，包括代码示例和常见问题的解决方案。 ... [详细]

蜡笔小新 2024-12-22 15:33:55
get
PyCharm下载与安装指南

本文详细介绍如何从官方渠道下载并安装PyCharm集成开发环境（IDE），涵盖Windows、macOS和Linux系统，同时提供详细的安装步骤及配置建议。 ... [详细]

蜡笔小新 2024-12-28 09:42:41

铱雯_213

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章