当前位置: 开发笔记 > 编程语言 > 正文

毕业设计题目：基于大数据的B站分析弹幕情感分析

作者：手机用户2502897095 | 来源：互联网 | 2023-08-17 12:38

文章目录1数据分析流程2数据预处理3数据清洗3.1导入数据分析库3.2合并弹幕数据3.3重复值、缺失值等处理3.4数据去重3.5特殊字符过滤4数据可视化4.1整体弹幕词云4.2主演

文章目录

1 数据分析流程
2 数据预处理
3 数据清洗
- 3.1 导入数据分析库
- 3.2 合并弹幕数据
- 3.3 重复值、缺失值等处理
- 3.4 数据去重
- 3.5 特殊字符过滤
4 数据可视化
- 4.1 整体弹幕词云
- 4.2 主演提及
5 文本挖掘&＃xff08;NLP&＃xff09;
- 5.1 情感分析
- - 5.1.1 整体情感倾向
  - 5.1.2 观众对主演的情感倾向
  - 5.1.3 主题分析
6 最后-毕设帮助

1 数据分析流程

运用文本挖掘技术&＃xff0c;对最近热播剧《沉默的真相》弹幕数据进行深入分析
在这里插入图片描述

2 数据预处理

B站数据爬虫代码Demo

## 作者&＃xff1a;丹成学长 Q746876041 import requests,csv,time import sys from bs4 import BeautifulSoup as BSfirst_barrage_url &＃61; "视频地址"&＃39;&＃39;&＃39;获取网页内容&＃39;&＃39;&＃39; def request_get_comment(url):headers &＃61; {&＃39;User-Agent&＃39;: &＃39;Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)&＃39;,&＃39;COOKIE&＃39;: &＃39;LIVE_BUVID&＃61;AUTO7215383727315695; stardustvideo&＃61;1; rpdid&＃61;kwxwwoiokwdoskqkmlspw; &＃39;&＃39;fts&＃61;1540348439; sid&＃61;alz55zmj; CURRENT_FNVAL&＃61;16; _uuid&＃61;08E6859E-EB68-A6B3-5394-65272461BC6E49706infoc; &＃39;&＃39;im_notify_type_64915445&＃61;0; UM_distinctid&＃61;1673553ca94c37-0491294d1a7e36-36664c08-144000-1673553ca956ac; &＃39;&＃39;DedeUserID&＃61;64915445; DedeUserID__ckMd5&＃61;cc0f686b911c9f2d; SESSDATA&＃61;7af19f78%2C1545711896%2Cb812f4b1; &＃39;&＃39;bili_jct&＃61;dc9a675a0d53e8761351d4fb763922d5; BANGUMI_SS_5852_REC&＃61;103088; &＃39;&＃39;buvid3&＃61;AE1D37C0-553C-445A-9979-70927B6C493785514infoc; finger&＃61;edc6ecda; CURRENT_QUALITY&＃61;80; &＃39;&＃39;bp_t_offset_64915445&＃61;199482032395569793; _dfcaptcha&＃61;44f6fd1eadc58f99515d2981faadba86&＃39;}response &＃61; requests.get(url&＃61;url,headers&＃61;headers)soup &＃61; BS(response.text.encode(response.encoding).decode(&＃39;utf8&＃39;),&＃39;lxml&＃39;)result &＃61; soup.find_all(&＃39;d&＃39;)if len(result) &＃61;&＃61; 0:return resultall_list &＃61; []for item in result:barrage_list &＃61; item.get(&＃39;p&＃39;).split(",")barrage_list.append(item.string)barrage_list[4] &＃61; time.ctime(eval(barrage_list[4]))all_list.append(barrage_list)return all_list&＃39;&＃39;&＃39;将秒转化为固定格式&＃xff1a;"时&＃xff1a;分&＃xff1a;秒"&＃39;&＃39;&＃39; def sec_to_str(second):second &＃61; eval(second)m,s &＃61; divmod(second,60)h,m &＃61; divmod(m,60)dtEventTime &＃61; "%02d:%02d:%02d" % (h,m,s)return dtEventTime&＃39;&＃39;&＃39;主函数&＃39;&＃39;&＃39; def main():sys.setrecursionlimit(1000000)url_list &＃61; []cid_list &＃61; [16980576,16980597,16548432,16483358,16740879,17031320,17599975,18226264,17894824,18231028,18491877,18780374]tableheader &＃61; [&＃39;弹幕出现时间&＃39;, &＃39;弹幕格式&＃39;, &＃39;弹幕字体&＃39;, &＃39;弹幕颜色&＃39;, &＃39;弹幕时间戳&＃39;,&＃39;弹幕池&＃39;,&＃39;用户ID&＃39;,&＃39;rowID&＃39;,&＃39;弹幕信息&＃39;]&＃39;&＃39;&＃39;最新弹幕文件&＃39;&＃39;&＃39;for i in range(12):url &＃61; "https://comment.bilibili.com/%d.xml" % cid_list[i]url_list.append(url)file_name &＃61; "now{}.csv".format(i &＃43; 1)with open(file_name,&＃39;w&＃39;,newline&＃61;&＃39;&＃39;,errors&＃61;&＃39;ignore&＃39;) as fd:comment &＃61; request_get_comment(url)writer &＃61; csv.writer(fd)# writer.writerow(tableheader)if comment:for row in comment:print(row)#writer.writerow(row)del comment&＃39;&＃39;&＃39;按照集数&＃xff0c;取出弹幕链接&＃xff0c;进行爬虫&＃xff0c;获取弹幕记录&＃xff0c;并保存到csv文件&＃39;&＃39;&＃39;for i in range(12):file_name &＃61; "d{}.csv".format(i&＃43;1)for j in range(1,13):for date in range(2):barrage_url &＃61; first_barrage_url.format(cid_list[i],"%02d" % j,"%02d" % (1 &＃43; date * 14))with open(file_name,&＃39;a&＃39;,newline&＃61;&＃39;&＃39;,errors&＃61;&＃39;ignore&＃39;) as fd :writer &＃61; csv.writer(fd)writer.writerow(tableheader)final_list &＃61; request_get_comment(barrage_url)if final_list:for row in final_list:writer.writerow(row)del (final_list)if __name__ &＃61;&＃61; "__main__":main()

3 数据清洗

3.1 导入数据分析库

#数据处理库import numpy as npimport pandas as pdimport globimport reimport jieba#可视化库import stylecloudimport matplotlib.pyplot as pltimport seaborn as sns%matplotlib inlinefrom pyecharts.charts import *from pyecharts import options as optsfrom pyecharts.globals import ThemeType from IPython.display import Image#文本挖掘库from snownlp import SnowNLPfrom gensim import corpora,models

3.2 合并弹幕数据

《沉默的真相》共12集&＃xff0c;分集爬取&＃xff0c;共生成12个csv格式的弹幕数据文件&＃xff0c;保存在danmu文件夹中。通过glob方法遍历所有文件&＃xff0c;读取数据并追加保存到danmu_all文件中。

csv_list &＃61; glob.glob(&＃39;/danmu/*.csv&＃39;)print(&＃39;共发现%s个CSV文件&＃39;% len(csv_list))print(&＃39;正在处理............&＃39;)for i in csv_list:fr &＃61; open(i,&＃39;r&＃39;).read()with open(&＃39;danmu_all.csv&＃39;,&＃39;a&＃39;) as f:f.write(fr)print(&＃39;合并完毕&＃xff01;&＃39;)

3.3 重复值、缺失值等处理

#error_bad_lines参数可忽略异常行df &＃61; pd.read_csv("./danmu_all.csv",header&＃61;None,error_bad_lines&＃61;False)df &＃61; df.iloc[:,[1,2]] #选择用户名和弹幕内容列df &＃61; df.drop_duplicates() #删除重复行df &＃61; df.dropna() #删除存在缺失值的行df.columns &＃61; ["user","danmu"] #对字段进行命名

清洗后数据如下所示&＃xff1a;

在这里插入图片描述

3.4 数据去重

机械压缩去重即数据句内的去重&＃xff0c;我们发现弹幕内容存在例如"啊啊啊啊啊"这种数据&＃xff0c;而实际做情感分析时&＃xff0c;只需要一个“啊”即可。

在这里插入图片描述

#定义机械压缩去重函数def yasuo(st):for i in range(1,int(len(st)/2)&＃43;1):for j in range(len(st)):if st[j:j&＃43;i] &＃61;&＃61; st[j&＃43;i:j&＃43;2*i]:k &＃61; j &＃43; iwhile st[k:k&＃43;i] &＃61;&＃61; st[k&＃43;i:k&＃43;2*i] and k<len(st): k &＃61; k &＃43; ist &＃61; st[:j] &＃43; st[k:] return styasuo(st&＃61;"啊啊啊啊啊啊啊")

应用以上函数&＃xff0c;对弹幕内容进行句内去重。

df["danmu"] &＃61; df["danmu"].apply(yasuo)

3.5 特殊字符过滤

另外&＃xff0c;我们还发现有些弹幕内容包含表情包、特殊符号等&＃xff0c;这些脏数据也会对情感分析产生一定影响。

在这里插入图片描述
特殊字符直接通过正则表达式过滤&＃xff0c;匹配出中文内容即可。

df[&＃39;danmu&＃39;] &＃61; df[&＃39;danmu&＃39;].str.extract(r"([\u4e00-\u9fa5]&＃43;)")df &＃61; df.dropna() #纯表情直接删除

另外&＃xff0c;过短的弹幕内容一般很难看出情感倾向&＃xff0c;可以将其一并过滤。

df &＃61; df[df["danmu"].apply(len)>&＃61;4]df &＃61; df.dropna()

4 数据可视化

数据可视化分析部分代码本公众号往期原创文章已多次提及&＃xff0c;本文不做赘述。从可视化图表来看&＃xff0c;网友对《沉默的真相》还是相当认可的&＃xff0c;尤其对白宇塑造的正义形象江阳&＃xff0c;提及频率远高于其他角色。

4.1 整体弹幕词云

在这里插入图片描述

4.2 主演提及

在这里插入图片描述

5 文本挖掘&＃xff08;NLP&＃xff09;

5.1 情感分析

情感分析是对带有感情色彩的主观性文本进行分析、处理、归纳和推理的过程。按照处理文本的类别不同&＃xff0c;可分为基于新闻评论的情感分析和基于产品评论的情感分析。其中&＃xff0c;前者多用于舆情监控和信息预测&＃xff0c;后者可帮助用户了解某一产品在大众心目中的口碑。目前常见的情感极性分析方法主要是两种&＃xff1a;基于情感词典的方法和基于机器学习的方法。

本文主要运用Python的第三方库SnowNLP对弹幕内容进行情感分析&＃xff0c;使用方法很简单&＃xff0c;计算出的情感score表示语义积极的概率&＃xff0c;越接近0情感表现越消极&＃xff0c;越接近1情感表现越积极。

df[&＃39;score&＃39;] &＃61; df["danmu"].apply(lambda x:SnowNLP(x).sentiments)df.sample(10) #随机筛选10个弹幕样本数据

在这里插入图片描述

5.1.1 整体情感倾向

plt.rcParams[&＃39;font.sans-serif&＃39;] &＃61; [&＃39;SimHei&＃39;] # 设置加载的字体名plt.rcParams[&＃39;axes.unicode_minus&＃39;] &＃61; False # 解决保存图像是负号&＃39;-&＃39;显示为方块的问题plt.figure(figsize&＃61;(12, 6)) #设置画布大小rate &＃61; df[&＃39;score&＃39;]ax &＃61; sns.distplot(rate,hist_kws&＃61;{&＃39;color&＃39;:&＃39;green&＃39;,&＃39;label&＃39;:&＃39;直方图&＃39;},kde_kws&＃61;{&＃39;color&＃39;:&＃39;red&＃39;,&＃39;label&＃39;:&＃39;密度曲线&＃39;},bins&＃61;20) #参数color样式为salmon&＃xff0c;bins参数设定数据片段的数量ax.set_title("弹幕整体情感倾向绘图&＃xff1a;「菜J学Python」公众号")plt.show

在这里插入图片描述

5.1.2 观众对主演的情感倾向

mapping &＃61; {&＃39;jiangyang&＃39;:&＃39;白宇|江阳&＃39;, &＃39;yanliang&＃39;:&＃39;廖凡|严良&＃39;, &＃39;zhangchao&＃39;:&＃39;宁理|张超&＃39;,&＃39;lijing&＃39;:&＃39;谭卓|李静&＃39;, &＃39;wengmeixiang&＃39;:&＃39;李嘉欣|翁美香&＃39;}for key, value in mapping.items():df[key] &＃61; df[&＃39;danmu&＃39;].str.contains(value)average_value &＃61; pd.Series({key: df.loc[df[key], &＃39;score&＃39;].mean() for key in mapping.keys()})print(average_value.sort_values())

由各主要角色情感得分均值可知&＃xff0c;观众对他们都表现出积极的情感。翁美香和李静的情感得分均值相对高一些&＃xff0c;难道是男性观众偏多&＃xff1f;江阳的情感倾向相对较低&＃xff0c;可能是观众对作为正义化身的他惨遭各种不公而鸣不平吧。

在这里插入图片描述

5.1.3 主题分析

这里的主题分析主要是将弹幕情感得分划分为两类&＃xff0c;分别为积极类&＃xff08;得分在0.8以上&＃xff09;和消极类&＃xff08;得分在0.3以下&＃xff09;&＃xff0c;然后再在各类里分别细分出5个主题&＃xff0c;有助于挖掘出观众情感产生的原因。

首先&＃xff0c;筛选出两大类分别进行分词。

#分词data1 &＃61; df[&＃39;danmu&＃39;][df["score"]>&＃61;0.8]data2 &＃61; df[&＃39;danmu&＃39;][df["score"]<0.3]word_cut &＃61; lambda x:&＃39; &＃39;.join(jieba.cut(x)) #以空格隔开data1 &＃61; data1.apply(word_cut)data2 &＃61; data2.apply(word_cut)print(data1)print(&＃39;----------------------&＃39;)print(data2)123456789首先&＃xff0c;筛选出两大类分别进行分词。#去除停用词stop &＃61; pd.read_csv("/菜J学Python/stop_words.txt",encoding&＃61;&＃39;utf-8&＃39;,header&＃61;None,sep&＃61;&＃39;tipdm&＃39;)stop &＃61; [&＃39; &＃39;,&＃39;&＃39;] &＃43; list(stop[0])#print(stop)pos &＃61; pd.DataFrame(data1)neg &＃61; pd.DataFrame(data2)pos["danmu_1"] &＃61; pos["danmu"].apply(lambda s:s.split(&＃39; &＃39;))pos["danmu_pos"] &＃61; pos["danmu_1"].apply(lambda x:[i for i in x if i.encode(&＃39;utf-8&＃39;) not in stop])#print(pos["danmu_pos"])neg["danmu_1"] &＃61; neg["danmu"].apply(lambda s:s.split(&＃39; &＃39;))neg["danmu_neg"] &＃61; neg["danmu_1"].apply(lambda x:[i for i in x if i.encode(&＃39;utf-8&＃39;) not in stop])

其次&＃xff0c;对积极类弹幕进行主题分析。

#正面主题分析pos_dict &＃61; corpora.Dictionary(pos["danmu_pos"]) #建立词典#print(pos_dict)pos_corpus &＃61; [pos_dict.doc2bow(i) for i in pos["danmu_pos"]] #建立语料库pos_lda &＃61; models.LdaModel(pos_corpus,num_topics&＃61;5,id2word&＃61;pos_dict) #LDA模型训练print("正面主题分析&＃xff1a;")for i in range(5):print(&＃39;topic&＃39;,i&＃43;1)print(pos_lda.print_topic(i)) #输出每个主题print(&＃39;-&＃39;*50)

结果如下&＃xff1a;

在这里插入图片描述

最后&＃xff0c;对消极类弹幕进行主题分析。

#负面主题分析neg_dict &＃61; corpora.Dictionary(neg["danmu_neg"]) #建立词典#print(neg_dict)neg_corpus &＃61; [neg_dict.doc2bow(i) for i in neg["danmu_neg"]] #建立语料库neg_lda &＃61; models.LdaModel(neg_corpus,num_topics&＃61;5,id2word&＃61;neg_dict) #LDA模型训练print("负面面主题分析&＃xff1a;")for j in range(5):print(&＃39;topic&＃39;,j&＃43;1)print(neg_lda.print_topic(j)) #输出每个主题print(&＃39;-&＃39;*50)

结果如下&＃xff1a;

在这里插入图片描述

6 最后-毕设帮助

毕设帮助&＃xff0c;开题指导&＃xff0c;技术解答 &＃x1f1f6;746876041

请添加图片描述

推荐阅读

utf-8
Scrapy 爬取图片

1.创建Scrapy项目scrapystartprojectCrawlMeiziTuscrapygenspiderMeiziTuSpiderhttps:movie.douban.c ... [详细]

蜡笔小新 2023-10-14 15:02:27
main
Android开发实现的计时器功能示例

本文分享了Android开发实现的计时器功能示例，包括效果图、布局和按钮的使用。通过使用Chronometer控件，可以实现计时器功能。该示例适用于Android平台，供开发者参考。 ... [详细]

蜡笔小新 2023-12-12 22:51:19
python
爬虫05 /scrapy框架

目录爬虫06scrapy框架1.scrapy概述安装2.基本使用3.全栈数据的爬取4.五大核心组件对象5.适当提升scrapy爬取数据的效率6.请求传参爬虫06scrapy框架1. ... [详细]

蜡笔小新 2023-10-13 22:01:54
future
YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程

本文介绍了关于人工智能、神经网络和深度学习的知识点，并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说，YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容，以及选择模型的优化思路。 ... [详细]

蜡笔小新 2023-12-14 18:28:01
future
Spring源码解密之默认标签的解析方式分析

本文分析了Spring源码解密中默认标签的解析方式。通过对命名空间的判断，区分默认命名空间和自定义命名空间，并采用不同的解析方式。其中，bean标签的解析最为复杂和重要。 ... [详细]

蜡笔小新 2023-12-14 17:24:50
int
Linux重启网络命令实例及关机和重启示例教程

本文介绍了Linux系统中重启网络命令的实例，以及使用不同方式关机和重启系统的示例教程。包括使用图形界面和控制台访问系统的方法，以及使用shutdown命令进行系统关机和重启的句法和用法。 ... [详细]

蜡笔小新 2023-12-14 15:52:52
int
android listview OnItemClickListener失效原因

最近在做listview时发现OnItemClickListener失效的问题，经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效，还会导致单击后listview每个item的背景改变，使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况，并提供了解决方法。 ... [详细]

蜡笔小新 2023-12-14 14:25:50
int
关于cuowu类的错误提示和使用AdjustmentListener的问题

本文讨论了一个关于cuowu类的问题，作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案，并给出了两个可能导致错误的原因。 ... [详细]

蜡笔小新 2023-12-13 22:09:56
main
python创建一个窗口_等一个大佬啊要求用python创建一个窗口，窗口按钮功能是创建一个球体或立方体。明天上课之前交给我...

展开全部下面的代码是创建一个立方体Thisexamplescreatesanddisplaysasimplebox.#Thefirstlineloadstheinit_disp ... [详细]

蜡笔小新 2023-12-13 16:26:09
int
Android 7自学笔记总结、移动架构视频、安卓面试真题、项目实战源码讲义

本文介绍了Android 7的学习笔记总结，包括最新的移动架构视频、大厂安卓面试真题和项目实战源码讲义。同时还分享了开源的完整内容，并提醒读者在使用FileProvider适配时要注意不同模块的AndroidManfiest.xml中配置的xml文件名必须不同，否则会出现问题。 ... [详细]

蜡笔小新 2023-12-13 10:06:58
install
使用cacti监控mssql 2005运行资源情况的操作步骤

本文介绍了使用cacti监控mssql 2005运行资源情况的操作步骤，包括安装必要的工具和驱动，测试mssql的连接，配置监控脚本等。通过php连接mssql来获取SQL 2005性能计算器的值，实现对mssql的监控。详细的操作步骤和代码请参考附件。 ... [详细]

蜡笔小新 2023-12-12 13:57:58
int
Python 可视化 | Seaborn5 分钟入门 (六)——heatmap 热力图

微信公众号：「Python读财」如有问题或建议，请公众号留言Seaborn是基于matplotlib的Python可视化库。它提供了一个高级界面来绘制有吸引力的统计图形。Seabo ... [详细]

蜡笔小新 2023-10-17 17:48:15
int
[BUUCTF] xman_2019_nooocall

xman_2019_nooocall总结可以输入shellcode，但是又不能使用任何系统调用。因此，可以使用侧信道攻击，通过一些现象、反馈等猜测出flag。侧信道常用的反馈有错误 ... [详细]

蜡笔小新 2023-10-17 11:47:31
int
KVM配置调整

一内存CPU调整1.1增大虚拟机内存[root@k8s-01~]#virshshutdownvm01-centos7域vm01-centos7被关闭[root@k8s-01~]#v ... [详细]

蜡笔小新 2023-10-14 18:10:27
python
whitepages 爬取_爬取新笔趣阁小说！适合新手入门的小案例

爬取笔趣阁小说(搜索爬取)首先看看最终效果(gif)：实现步骤：1.探查网站“http:www.xbiquge.la”，看看网站的实现原理 ... [详细]

蜡笔小新 2023-10-13 11:41:31

手机用户2502897095

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章