python爬取B站视频弹幕分析并制作词云

作者：唯1色彩黄 | 来源：互联网 | 2023-09-01 16:20

1.分析网页视频地址：www.bilibili.comvideoBV19E…本身博主同时也是一名up主，虽然已经断更好久了，但是不妨碍我

1.分析网页

视频地址&＃xff1a; www.bilibili.com/video/BV19E… 本身博主同时也是一名up主&＃xff0c;虽然已经断更好久了&＃xff0c;但是不妨碍我爬取弹幕信息来分析呀。这次我选取的是自己 唯一的爆款视频 。就是下面这个。

很多人学习python&＃xff0c;不知道从何学起。
很多人学习python&＃xff0c;掌握了基本语法过后&＃xff0c;不知道在哪里寻找案例上手。
很多已经做案例的人&＃xff0c;却不知道如何去学习更加高深的知识。
那么针对这三类人&＃xff0c;我给大家提供一个好的学习平台&＃xff0c;免费领取视频教程&＃xff0c;电子书籍&＃xff0c;以及课程的源代码&＃xff01;
QQ群&＃xff1a;101677771

希望大家能够多多支持up&＃xff0c;up在这里谢过大家了。打开网址我们能够发现弹幕信息是存储在这一块的。

本来以为是可以直接爬到的&＃xff0c;但是当我点开F12检查网页的时候却发现&＃xff1a;

他很明显只加载了一部分的弹幕信息&＃xff0c;那么怎么获取呢&＃xff0c;别急下面有一个查看历史弹幕信息&＃xff0c;我们点击一下试试看。

既然知道了信息是藏在哪里的&＃xff0c;那么接下来就是简单分析一下他的 url地址的格式

了。

可以看到重点其实就在date上&＃xff0c;只要更换date就能获得那一天的弹幕了&＃xff0c;所以我们基本确定我们的URL地址。接下来就是爬虫了。

2.爬虫&＃43;jieba分词&＃43;制作词云

2.1爬虫

首先是简单的先获取整个网页信息&＃xff0c;但是获取的过程中&＃xff0c;出现了这个错误。

这个大家都懂是啥意思&＃xff0c;那么我们怎么解决的&＃xff1f;很简单&＃xff0c;我们将账号信息带进去就行了&＃xff0c;那么怎么带呢&＃xff1f;这里我选择的是直接将 COOKIE信息

放入请求头之中。这个COOKIE信息大家需要根据自己的浏览返回的信息进行选择。

像这样&＃xff0c;放入headers中。

headers&＃61;{"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36","COOKIE": "_uuid&＃61;32558797-D0FE-C0F7-536C-63AF0D8AE40770652infoc; buvid3&＃61;3DB514DE-EAB4-4ED9-B597-BCDD98AF986240968infoc; sid&＃61;hwpgj1q2; DedeUserID__ckMd5&＃61;e16b5b4e38e97a2b; CURRENT_FNVAL&＃61;16; rpdid&＃61;|(JYl~Yuukl~0J&＃39;ulmR|uuukk; LIVE_BUVID&＃61;AUTO7915950709280947; CURRENT_QUALITY&＃61;64; UM_distinctid&＃61;173a99a3d29656-0dfad7ca6e9865-3b634404-1fa400-173a99a3d2a9f0; bili_jct&＃61;69d8904981c02268b8880fc10dc2abac; bp_t_offset_103134642&＃61;420625431706221182; SESSDATA&＃61;048bf530%2C1611830350%2C409d1*81; DedeUserID&＃61;103134642; PVID&＃61;1; bp_video_offset_103134642&＃61;422972760179214717; bfe_id&＃61;6f285c892d9d3c1f8f020adad8bed553"}

这样我们便能爬取到了

接下来获取弹幕信息。这里很简单通过xpath就能获取到。

parse&＃61;parsel.Selector(html)
links&＃61;parse.xpath("//d/text()").getall()
print(links)

既然已经获取到弹幕了&＃xff0c;我们就需要将这些信息存储起来&＃xff0c;用于我们接下来的操作。这里我们选择将它存储到CSV文件中具体操作其实和之前的文件下载操作相差不大。

for i in links:with open(r&＃39;C:\Users\瓤瓤\Desktop\B站弹幕.csv&＃39;,&＃39;a&＃39;,newline&＃61;&＃39;&＃39;,encoding&＃61;&＃39;utf-8-sig&＃39;) as f:writer&＃61;csv.writer(f)links&＃61;[]links.append(i)writer.writerow(links)

打开之后就是这样的&＃xff1a;

2.2jieba分词

文件都存储好了&＃xff0c;那么我接下来的第一步就是将我们的弹幕进行jieba分词&＃xff0c;拆解成一个一个的词语

f &＃61;open(r&＃39;C:\Users\瓤瓤\Desktop\B站弹幕.csv&＃39;,encoding&＃61;&＃39;utf-8&＃39;)#打开文件
text&＃61;f.read() #读取文件
text_list&＃61;jieba.analyse.extract_tags(text,topK&＃61;40)#进行jieba分词&＃xff0c;并且取频率出现最高的40个词
text_list&＃61;" ".join(text_list)#用空格将这些字符串连接起来
print(text_list)

效果&＃xff1a;

2.3制作词云

既然词我们已经准备好了&＃xff0c;那么我们接下来就是将它制作成词云。

#创建自定义图片样式
img&＃61;plt.imread(&＃39;./img/huge.jpg&＃39;)
w&＃61;wordcloud.WordCloud(width&＃61;1500,height&＃61;1000,font_path&＃61;"STXIHEI.TTF",#设置字体的格式字体所在位置C:\Windows\Fontsbackground_color&＃61;"white",scale&＃61;50,contour_width&＃61;5,contour_color&＃61;"red",mask&＃61;img,#图片遮罩层#设置屏蔽词stopwords&＃61;{"00","天下第一","bgm","周董","真的","胡是","你币","肖战","游记","周杰伦","陈奕迅","这个"}
)
w.generate_from_text(text_list)#绘制图片
fig&＃61;plt.figure(1)
plt.imshow(w)
plt.axis("off")
plt.show() #显示生成的词云文件

在设置字体样式的过程中千万要 选用能够识别中文的字体样式 &＃xff0c;否则会变成一堆方框。字体所在位置字体所在位置 C:\Windows\Fonts 接着只要耐心等程序运行完就行了。

3.成品展示

4.完整代码

import requests
import parsel
import csv
import jieba.analyse
import wordcloud
from matplotlib import pylab as plt
url&＃61;&＃39;https://api.bilibili.com/x/v2/dm/history?type&＃61;1&oid&＃61;160472309&date&＃61;2020-08-12&＃39;
headers&＃61;{"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36","COOKIE": "_uuid&＃61;32558797-D0FE-C0F7-536C-63AF0D8AE40770652infoc; buvid3&＃61;3DB514DE-EAB4-4ED9-B597-BCDD98AF986240968infoc; sid&＃61;hwpgj1q2; DedeUserID__ckMd5&＃61;e16b5b4e38e97a2b; CURRENT_FNVAL&＃61;16; rpdid&＃61;|(JYl~Yuukl~0J&＃39;ulmR|uuukk; LIVE_BUVID&＃61;AUTO7915950709280947; CURRENT_QUALITY&＃61;64; UM_distinctid&＃61;173a99a3d29656-0dfad7ca6e9865-3b634404-1fa400-173a99a3d2a9f0; bili_jct&＃61;69d8904981c02268b8880fc10dc2abac; bp_t_offset_103134642&＃61;420625431706221182; SESSDATA&＃61;048bf530%2C1611830350%2C409d1*81; DedeUserID&＃61;103134642; PVID&＃61;1; bp_video_offset_103134642&＃61;422972760179214717; bfe_id&＃61;6f285c892d9d3c1f8f020adad8bed553"}
response&＃61;requests.get(url,headers&＃61;headers)
html&＃61;response.content.decode("utf-8")
# print(html)
parse&＃61;parsel.Selector(html)
links&＃61;parse.xpath("//d/text()").getall()
# print(links)
for i in links:with open(r&＃39;C:\Users\瓤瓤\Desktop\B站弹幕.csv&＃39;,&＃39;a&＃39;,newline&＃61;&＃39;&＃39;,encoding&＃61;&＃39;utf-8-sig&＃39;) as f:writer&＃61;csv.writer(f)links&＃61;[]links.append(i)writer.writerow(links)# #制作词云图
f &＃61;open(r&＃39;C:\Users\瓤瓤\Desktop\B站弹幕.csv&＃39;,encoding&＃61;&＃39;utf-8&＃39;)
text&＃61;f.read()
text_list&＃61;jieba.analyse.extract_tags(text,topK&＃61;40)
text_list&＃61;" ".join(text_list)
print(text_list)
#
img&＃61;plt.imread(&＃39;./img/huge.jpg&＃39;)
w&＃61;wordcloud.WordCloud(width&＃61;1500,height&＃61;1000,font_path&＃61;"STXIHEI.TTF",background_color&＃61;"white",scale&＃61;50,contour_width&＃61;5,contour_color&＃61;"red",mask&＃61;img,stopwords&＃61;{"00","天下第一","bgm","周董","真的","胡是","你币","肖战","游记","周杰伦","陈奕迅","这个"}
)
w.generate_from_text(text_list)#绘制图片
fig&＃61;plt.figure(1)
plt.imshow(w)
plt.axis("off")
plt.show() #显示生成的词云文件

推荐阅读

go
爬虫05 /scrapy框架

目录爬虫06scrapy框架1.scrapy概述安装2.基本使用3.全栈数据的爬取4.五大核心组件对象5.适当提升scrapy爬取数据的效率6.请求传参爬虫06scrapy框架1. ... [详细]

蜡笔小新 2023-10-13 22:01:54
cmd
Scrapy 爬取图片

1.创建Scrapy项目scrapystartprojectCrawlMeiziTuscrapygenspiderMeiziTuSpiderhttps:movie.douban.c ... [详细]

蜡笔小新 2023-10-14 15:02:27
php
Windows7企业版怎样存储安全新功能详解

本文介绍了电脑公司发布的GHOST WIN7 SP1 X64 通用特别版 V2019.12，软件大小为5.71 GB，支持简体中文，属于国产软件，免费使用。文章还提到了用户评分和软件分类为Win7系统，运行环境为Windows。同时，文章还介绍了平台检测结果，无插件，通过了360、腾讯、金山和瑞星的检测。此外，文章还提到了本地下载文件大小为5.71 GB，需要先下载高速下载器才能进行高速下载。最后，文章详细解释了Windows7企业版的存储安全新功能。 ... [详细]

蜡笔小新 2023-12-10 14:45:37
php
深入理解CSS中的margin属性及其应用场景

本文主要介绍了CSS中的margin属性及其应用场景，包括垂直外边距合并、padding的使用时机、行内替换元素与费替换元素的区别、margin的基线、盒子的物理大小、显示大小、逻辑大小等知识点。通过深入理解这些概念，读者可以更好地掌握margin的用法和原理。同时，文中提供了一些相关的文档和规范供读者参考。 ... [详细]

蜡笔小新 2023-12-12 18:01:10
go
Hive常用命令及其用途

本文介绍了Hive常用命令及其用途，包括列出数据表、显示表字段信息、进入数据库、执行select操作、导出数据到csv文件等。同时还涉及了在AndroidManifest.xml中获取meta-data的value值的方法。 ... [详细]

蜡笔小新 2023-12-09 09:30:10
php
机器学习算法代码实现——线性回归

前言：拿到一个案例，去分析：它该是做分类还是做回归，哪部分该做分类，哪部分该做回归，哪部分该做优化，它们的目标值分别是什么。再挑影响因素，哪些和分类有关的影响因素，哪些和回归有关的 ... [详细]

蜡笔小新 2023-10-17 19:58:52
get
Python爬虫_HTTP标准

文章目录简介HTTP请求过程HTTP状态码含义HTTP头部信息Cookie状态管理HTTP请求方式简介HTTP协议（超文本传输协议）是用于从WWW服务 ... [详细]

蜡笔小新 2023-10-15 14:59:43
get
Python-图片和视频文件爬虫

最近在学Python，看了不少资料、视频，对爬虫比较感兴趣，爬过了网页文字、图片、视频。文字就不说了直接从网页上去根据标签分离出来就好了。图片和视频则需要在获取到相应的链接之后取做下载。以下是图片和视 ... [详细]

蜡笔小新 2023-10-15 09:28:43
get
ASP.NET Tips: 获取插入记录的ID的方法详解

本文详细介绍了在ASP.NET中获取插入记录的ID的几种方法，包括使用SCOPE_IDENTITY()和IDENT_CURRENT()函数，以及通过ExecuteReader方法执行SQL语句获取ID的步骤。同时，还提供了使用这些方法的示例代码和注意事项。对于需要获取表中最后一个插入操作所产生的ID或马上使用刚插入的新记录ID的开发者来说，本文提供了一些有用的技巧和建议。 ... [详细]

蜡笔小新 2023-12-13 17:03:18
get
使用正则表达式爬取36Kr网站首页新闻的操作步骤和代码示例

本文介绍了使用正则表达式来爬取36Kr网站首页所有新闻的操作步骤和代码示例。通过访问网站、查找关键词、编写代码等步骤，可以获取到网站首页的新闻数据。代码示例使用Python编写，并使用正则表达式来提取所需的数据。详细的操作步骤和代码示例可以参考本文内容。 ... [详细]

蜡笔小新 2023-12-12 19:16:21
cmd
MySQL语句大全：创建、授权、查询、修改等【MySQL】的使用方法详解

本文详细介绍了MySQL语句的使用方法，包括创建用户、授权、查询、修改等操作。通过连接MySQL数据库，可以使用命令创建用户，并指定该用户在哪个主机上可以登录。同时，还可以设置用户的登录密码。通过本文，您可以全面了解MySQL语句的使用方法。 ... [详细]

蜡笔小新 2023-12-11 15:34:14
php
介绍一个免费的具备数据显示/录入/更新/删除功能的asp.net控件

本文介绍了一个免费的asp.net控件，该控件具备数据显示、录入、更新、删除等功能。它比datagrid更易用、更实用，同时具备多种功能，例如属性设置、数据排序、字段类型格式化显示、密码字段支持、图像字段上传和生成缩略图等。此外，它还提供了数据验证、日期选择器、数字选择器等功能，以及防止注入攻击、非本页提交和自动分页技术等安全性和性能优化功能。最后，该控件还支持字段值合计和数据导出功能。总之，该控件功能强大且免费，适用于asp.net开发。 ... [详细]

蜡笔小新 2023-12-11 09:41:26
get
Android实战——jsoup实现网络爬虫，糗事百科项目的起步

本文介绍了Android实战中使用jsoup实现网络爬虫的方法，以糗事百科项目为例。对于初学者来说，数据源的缺乏是做项目的最大烦恼之一。本文讲述了如何使用网络爬虫获取数据，并以糗事百科作为练手项目。同时，提到了使用jsoup需要结合前端基础知识，以及如果学过JS的话可以更轻松地使用该框架。 ... [详细]

蜡笔小新 2023-12-11 09:19:45
php
ORACLE空间管理实验5：块管理之ASSM下高水位的影响

数据库|mysql教程ORACLE,空间,管理,实验,ASSM,下高,水位,影响,数据库-mysql教程易语言黑客软件源码,vscode左侧搜索,ubuntu怎么看上一页,ecs搭 ... [详细]

蜡笔小新 2023-10-17 17:53:14
main
为什么三角形与菜单背景的颜色不同？ - Why is the triangle a different colour shade to the menu background?

Imnotunderstandingastowhythetrianglewhichappearswhenthemousehoversoverthemenuitem, ... [详细]

蜡笔小新 2023-10-16 11:26:13

唯1色彩黄

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章