热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

回归树模型分析纪录片播放量影响因素|数据分享

原文链接:http:tecdat.cn?p26131 原文出处:拓端数据部落公众号纪录片能够真实、详尽地反映一个地区的风貌,展示经济发展和社会进步。2018年,纪录片发展迅猛,出现

原文链接:http://tecdat.cn/?p=26131 

原文出处:拓端数据部落公众号

纪录片能够真实、详尽地反映一个地区的风貌,展示经济发展和社会进步。2018年,纪录片发展迅猛,出现了几部大热作品,加之BBC纪录片造假的舆论导向,让人们对纪录片更加关注。本文所用的纪录片数据来自哔哩哔哩网站,是目前主流视频网站上最丰富、最接近的数据来源。

数字特征和文本特征相结合,分析影响播放量的因素。采用回归树模型分析自变量对播放量的影响。


纪录片播放量分布

视频播放量是检验视频质量和视频热度的一个直观媒介。内容质量高、话题性强的视频自然会引起广泛关注。对于没有与平台签约的UP主来说,通过视频创作激励计划和奖励机制(充值计划),播放量与他们的收入直接挂钩。探讨影响纪录片播放量的因素,有助于更好地理解如何提高纪录片视频的关注度,以及如何更好地创作出令人愉悦的自制微纪录片。

纪录片的播放量与它的内容主题有关,有些主题很受欢迎,有些则很小众。不同的人有不同的兴趣点,会体现在弹幕、金币、分享等指标上,所以不同类别下的纪录片分布也会有所不同。

为了便于观察,图中只显示了播放量低于7000的纪录片。从图中可以看出,四类纪录片的播放量分布存在明显差异,人文●历史类纪录片的播放量总体上高于其余三类,且呈右偏态(数据集中的所有定量变量都是右偏态的)。军事类和社会食品类纪录片的分布则比较接近。旅游类纪录片的分布比较接近,总的来说,四类纪录片的播放量差异很大,因此不能用同一个模型进行分析。有必要对参数进行区分,并对每个类别下的纪录片进行不同的分析。


纪录片高频词特点

以下是对各个纪实分类下的文本的词频特征的分析。哔哩哔哩网站上最相关的纪录片细分类别是社会和旅游类,该类别的纪录片文本的高频词比较生活化。下图是对该细分领域的纪录片视频文本进行细分过滤后得到的高频词的词频图。

图中显示了社会和旅游纪录片文本中的12个高频词。其中,"旅游 "以1118次排名第一,与 "旅游 "相关的 "旅游 "和 "旅游摄影 "分别排名第4和第6位。"食品 "以1111次排名第二,与 "食品 "相关的 "食品 "排名第11。"人文 "以607次排名第五,而与之相关的 "纪录片 "则排名第八。

此外,"中国"、"日本 "和 "世界 "的出现频率也很高。文字是由UP主编辑的,目的是让用户更好地理解视频内容,国家类高频词的出现表明,纪录片内容发生的国家是观众决定是否观看视频的重要决定。

词频分析显示了高频词在纪录片中的分布情况,但不能仅根据词频给出纪录片的选择建议。


播放量的影响因素分析

接下来,我们研究变量对播放量的影响。回归树模型被用来确定自变量对播放量的影响程度。

对回归树进行模拟,在RMSE折线图的拐点处确定最优的树深为7,叶子节点的最小样本数设为25,分支节点的最小数量设为50。

进行十折交叉验证,建立回归树,下图为回归树的模型结构。

在图中,观察叶子节点的框线图可以发现,大部分纪录片的播放量都很低,这些纪录片位于树状图的左侧,其判别变量是评论数和弹幕数。树状图的最右边的叶子节点划分了具有高播放量的纪录片,其判别变量是评论数和弹出窗口数,其次是相邻的左边叶子节点,其父节点有评论数、弹出窗口数和硬币数的分类变量。因此,与播放次数密切相关的变量是弹幕数、评论数和金币数,它们对高播放次数的影响更大。从右侧的叶子节点可以看出,如果评论数、弹幕数和金币数越高,那么播放量也就越高。在建立回归树模型时,自变量的重要性依次为:评论数(44)、弹幕数(18)、金币数(17)、分享数(8)、粉丝数(6)、收藏数(6)和提交数(1)。最重要的变量是观众与纪录片视频和UP主之间的互动程度,UP主在制作视频和选择能产生强烈互动的内容材料时,可以考虑到这一点。但是,这一点比较主观,没有量化的调整方案,也无法控制,无法确认所选的主题素材是否会带来高数量的评论和弹幕。

本文章中的所有信息(包括但不限于分析、预测、建议、数据、图表等内容)仅供参考,拓端数据(tecdat不因文章的全部或部分内容产生的或因本文章而引致的任何损失承担任何责任。



最受欢迎的见解

1.从决策树模型看员工为什么离职

2.R语言基于树的方法:决策树,随机森林

3.python中使用scikit-learn和pandas决策树

4.机器学习:在SAS中运行随机森林数据分析报告

5.R语言用随机森林和文本挖掘提高航空公司客户满意度

6.机器学习助推快时尚精准销售时间序列

7.用机器学习识别不断变化的股市状况——隐马尔可夫模型的应用

8.python机器学习:推荐系统实现(以矩阵分解来协同过滤)

9.python中用pytorch机器学习分类预测银行客户流失

▍关注我们

【大数据部落】第三方数据服务提供商,提供全面的统计分析与数据挖掘咨询服务,为客户定制个性化的数据解决方案与行业报告等。

▍咨询链接:http://y0.cn/teradat

▍联系邮箱:3025393450@qq.com



推荐阅读
  • 本文回顾了作者在求职阿里和腾讯实习生过程中,从最初的迷茫到最后成功获得Offer的心路历程。文中不仅分享了个人的面试经历,还提供了宝贵的面试准备建议和技巧。 ... [详细]
  • 探讨了一个包含纯虚函数的C++代码片段,分析了其中的语法错误及逻辑问题,并提出了修正方案。 ... [详细]
  • 本文探讨了异步编程的发展历程,从最初的AJAX异步回调到现代的Promise、Generator+Co以及Async/Await等技术。文章详细分析了Promise的工作原理及其源码实现,帮助开发者更好地理解和使用这一重要工具。 ... [详细]
  • 尽管在WPF中工作了一段时间,但在菜单控件的样式设置上遇到了一些基础问题,特别是关于如何正确配置前景色和背景色。 ... [详细]
  • 本文详细介绍如何在 Apache 中设置虚拟主机,包括基本配置和高级设置,帮助用户更好地理解和使用虚拟主机功能。 ... [详细]
  • ASP.NET 进度条实现详解
    本文介绍了如何在ASP.NET中使用HTML和JavaScript创建一个动态更新的进度条,并通过Default.aspx页面进行展示。 ... [详细]
  • 本文探讨了如何在 Spring MVC 框架下,通过自定义注解和拦截器机制来实现细粒度的权限管理功能。 ... [详细]
  • 利用Node.js实现PSD文件的高效切图
    本文介绍了如何通过Node.js及其psd2json模块,快速实现PSD文件的自动化切图过程,以适应项目中频繁的界面更新需求。此方法不仅提高了工作效率,还简化了从设计稿到实际应用的转换流程。 ... [详细]
  • 本文详细介绍了如何在最新版本的Xcode中重命名iOS项目,包括项目名称、应用名称及相关的文件夹和配置文件。通过本文,开发者可以轻松完成项目的重命名工作。 ... [详细]
  • MITM(中间人攻击)原理及防范初探(二)
    上一篇文章MITM(中间人攻击)原理及防范初探(一)给大家介绍了利用ettercap进行arp欺骗及劫持明文口令,后来我发现好友rootoorotor的文章介绍比我写的更透彻,所以基础利用大家可以参看 ... [详细]
  • 本文探讨了使用lightopenid库实现网站登录,并在用户成功登录后,如何获取其姓名、电子邮件及出生日期等详细信息的方法。特别针对Google OpenID进行了说明。 ... [详细]
  • 如何在Win10系统下通过VMware 14 Pro安装CentOS 7
    本文详细介绍了在Windows 10操作系统中使用VMware Workstation 14 Pro搭建CentOS 7虚拟环境的步骤,包括所需工具、安装过程及系统配置等。 ... [详细]
  • 本文探讨了如何利用RxJS库在AngularJS应用中实现对用户单击和拖动操作的精确区分,特别是在调整区域大小的场景下。 ... [详细]
  • 本文提供了一种有效的方法来解决当Android Studio因电脑意外重启而导致的所有import语句出现错误的问题。通过清除缓存和重建项目结构,可以快速恢复开发环境。 ... [详细]
  • 探讨如何在映射文件中处理重复的属性字段,以避免数据操作时出现错误。 ... [详细]
author-avatar
W于小北B
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有