热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

数据到底如何搞定电影票房预测?

转载自:http:www.dataguru.cnarticle-4071-1.html摘要:基于对搜索行为、社交媒体等数据的深入分析,可以测量亿万用户的情绪变化、描绘用户的行为模式、挖掘用户的

转载自:http://www.dataguru.cn/article-4071-1.html

摘要: 基于对搜索行为、社交媒体等数据的深入分析,可以测量亿万用户的情绪变化、描绘用户的行为模式、挖掘用户的潜在需求——数据的价值就是这么挖出来的。

怎样利用微博数据从股市中掘金?气象台怎样预报天气并发布预警?Google如何通过搜索行为预报流感爆发?这些有趣的问题背后,其实都隐藏着大数据的影子。基于对搜索行为、社交媒体等数据的深入分析,可以测量亿万用户的情绪变化、描绘用户的行为模式、挖掘用户的潜在需求,最终发掘出数据中蕴含的真正价值。

2009年Google在《Nature》上公布了其利用搜索数据对全球流感疫情近乎实时评估的技术(参考1)

2012年微软纽约研究院经济学家 David Rothschild在51个选区中准确预测了50个选区的总统大选结果(参考2)

美国印第安纳大学和曼彻斯特大学的三位学者依靠Twitter的情绪分析预测未来3-4天道琼斯指数的涨跌 ,准确率高达87.6%(参考3)

与此同时,大数据技术还被广泛应用于道路拥堵、彩虹甚至地震等领域的预测。

搜狗搜索在大数据研究方面已经有一定收获。自2013年开始,我们决定研发一个有挑战性的社会化预测系统,命名为#深思#(这个名字来源于《银河系漫游指南》中的一部超级计算机),在不同领域进行趋势预测,期望通过这个综合系统来发现隐藏在大数据背后的奥秘。

本文以搜狗为案例,分析其电影票房预测的相关技术,其他领域的研究成果将陆续发布。

 

票房预测:需求与现实

从1896年西洋影戏传入上海徐园,到1905年中国拍摄首部国产电影《定军山》,再到2013年全国电影票房 突破200亿 大关,(4)有着百余年历史的中国电影产业,在近几年呈现出飞跃式发展的态势,无论是影片质量、院线建设还是投资规模都有了长足的发展。与此同时,随着 “大数据”时代的到来,电影观影群体、观影偏好与心理、电影信息传播和获取方式也都在发生着深刻的变化。

毋庸置疑,多样化资本的加入是中国电影不可或缺的发展引擎,然而,电影行业以投资回报率难以预测著称,大投入未必有大产出,票房预测工具的缺失使得 投资者无法有效对冲投资风险,华人著名导演吴宇森的《风语者》就拖累了米高梅公司最终走向破产。因此制作与发行公司不得不考虑所有对票房有影响的因素:辣 妈李小璐对《私人订制》票房贡献几何;《风暴》票房为何远低于其金牌制片人江志强预期;被吐槽“烂片”的《富山春居图》和《小时代》缘何票房却一路走红; 成龙大叔的《警察故事2013》有无必要拍成3D;《泰囧》的“报复性”观影效应能否复现……这一切的一切其实都可以从“大数据”中找到答案。因为网络上 的每一次浏览、查询乃至点击所汇聚成的群体智慧都“蝴蝶效应”般地影响着电影的最终票房。

2013年Google在一份名为《Quantifying Movie Magic with Google Search》(5) 的白皮书中公布了其电影票房预测模型,该模型主要利用搜索、广告点击数据以及院线排片来预测票房,Google宣布其模型预测票房与真实票房的吻合程度达 到了94%,但并未见其公开对未上映电影的预测结果。

搜狗公司借助“深思”系统,建立了更为复杂的模型,用于预测国内电影票房,并在新浪微博上提前发布了2013年12月国内上映电影的首周票房预测结果。很高兴到目前为止预测结果与真实数据非常接近,同时,我们的模型还可以用于对影响票房的因素进行定量分析。

 

搜索查询量的奥秘

搜狗搜索每天都响应上亿次的搜索请求,查询词的分布和变化趋势能够很好的反映出中国网民的兴趣点和关注指向。与 Google的研究类似,我们也发现,电影上映前相关查询词的搜索次数与票房收入有着很强的关联性。这一点很好理解,用户的主动搜索行为体现了用户对这部 电影的潜在兴趣。

我们选取了2013年1-11月国内上映的180部电影的票房和上映前的搜索量数据作为训练集,用于训练一个基础的线性回归模型。实验发现,单纯利 用搜索量训练得到的模型,预测得到的首周票房与真实票房的相关度R方值仅为68%,这与Google仅用搜索数据得到的结果70%很接近。(注:R方值取 值为0至1,值越大表示模型预测效果越好),这个结果也说明无论在中国还是美国,用户的搜索行为是很相似的。

用搜索量来进行预测票房是一个好的开始,但是准确度还远远不够。同时很多搜索词还存在歧义的情况,比如《生化危机》,既是电影也是游戏,混在一起会 造成票房预测值偏高。进一步研究发现,游戏意图的查询请求量较为平稳,但电影意图的查询请求在上映前则有一个高峰,也可以通过用户点击的URL来进一步确 认用户的搜索意图。因此模型需要再引入查询量的变化趋势和用户点击的分布情况。修正后的模型可以达到74%的准确度,这时模型已经可以对电影票房进行一个 粗略的估计。

 

社交媒体:用户的情感分析

社交媒体数据对票房预测也会有一定帮助。假设你是某个明星的粉丝,打算去看他主演的电影,那么你很可能会提前转 发该电影的相关微博给你的朋友。国外已经有很多预测项目都是在针对Twitter数据做研究,这里我们主要采用国内部分微博网站的数据来进行预测。通过自 然语言理解技术,分析出用户对未上映影片的情感倾向,从而转换为用户的观影需求。进一步可以考虑的因素包括微博转发深度、评论活跃程度,以及相关微博数量 随电影上映日期临近的变化趋势,这些数据都可以被有效的提炼为特征并加入到模型中。

微博数据的加入使得准确率超过了80%。


基于垂直媒体的预测

为了衡量电影发行公司的宣传发行力度以及用户对宣传的关注程度,我们也引入了一些垂直媒体的数据来增强预测能 力。这里选择了一些知名电影站点和频道进行统计,其中包括视频类站点(搜狐视频、优酷土豆、爱奇艺、腾讯视频),娱乐类站点(搜狐娱乐、新浪娱乐、腾讯娱 乐、凤凰娱乐、网易娱乐)和电影资讯类站点(豆瓣电影、电影网m1905、时光网)。这些网站中电影的相关新闻数、预告片播放情况、用户评论情况都可以通 过定向抓取获得,这些都是影响电影票房的重要相关因素。显而易见,中小成本电影往往由于资金有限,不可能做到大范围的宣传,而大制作电影的宣传就会铺天盖 地。

从统计分析来看,豆瓣电影对票房转换率的贡献要高于其它站点,这可能跟站点的用户构成相关。引入了垂直媒体的数据后,准确率从80%上升到了86%,提升效果显著。

知立方:挖掘数据的秘密武器

知立方是国内搜索引擎行业中首家知识库搜索产品,它引入了语义理解技术,整合、抽取互联网碎片化信息,构建了海 量知识库,包含所有我们需要的导演、演员、编剧的各种信息。在知立方数据支持下,我们引入知名度指数(CelebrityRank)来衡量一个名人所具有 的票房号召力。知名度指数完美地解决了跨领域出演(导演)电影的名人票房号召力无法得以体现的问题。

例如,郭敬明在导演电影《小时代》之前未曾执导,如按传统方法计算其导演票房号召力则应该为零,这显然是不合理的。而知名度指数由于考虑了郭敬明是 畅销书作家,故其指数值很高,可以充分体现他作为新晋导演所具有的强大票房号召力。这种情况,从赵薇首导《致青春》、徐铮首导《泰囧》、李小璐从电视圈参 演电影《私人订制》等例子中都有非常具体的体现。基于知立方的数据,可以大致评估出每个演员/导演对票房的影响力,查询每部电影的属性,还可以有效的消除 同名概念间的歧义。

 

其它对票房有影响的因素

影响一部电影票房的因素非常繁杂,从电影导演、演员、编剧的票房号召力,到制片与发行公司的投资规模以及宣发成本,再到电影类型、产地、拍摄技术 (3D,IMAX)以及是否续集,最后到上映时间、节假日、档期、竞争影片、院线排片以及上映前后的观众关注度、口碑传播效应甚至天气都可以影响到一部电 影的最终票房。

除了前面已经介绍过的因素外,模型中实际采用的特征还包括:

 档期的电影竞争情况。我们发现以往公开的票房预测模型中对每部电影都是独立预测,没有考虑电影间的竞争关系,这显然是不合理的。我们采用了独有的算法来估计同档期的其它影片对市场份额造成的影响。

 电影类型。有意思的是,通过对比实验发现,科幻片最能提高票房,动作片和犯罪片次之,而文艺片、传记片和动画片在模型中表现最差。

 电影产地。电影产地为好莱坞的电影,在其他因素与国产片相近的情况下,对票房大约有3000万到1.2亿不等的提升。

 档期。特定档期对票房有额外的加成作用,这个也比较符合预期。

 是否3D。出人意料的是,在其它因素相近的情况下,是否3D对票房的影响非常小,没有显著差异。看来“伪3D”们可以省点后期3D制作费啦。

 预告片。通过视频搜索预告片的趋势也可以提前反映影片的受关注程度。

我们成功的把以上技术都整合到“深思”中,对用作训练的2013年1-11月的电影首周票房数据,最新的模型能够在交叉验证的情况下达到95.5%的准确率。

因为训练集电影的总数较少(180部),我们做了大量的额外工作以确保最后的模型不会出现过拟合(over fitting)的情况。此时的“深思”已经做好了对即将上映电影进行票房预测的准备。

 

实际预测效果

在实际研究过程中,12月份的电影上映前均使用“深思”系统预测了首周(7天)的电影票房,预测结果发布在一位团队成员的微博上。预测效果如下,在已经预测的9部电影中,前4部大片的预测票房与真实票房很接近,比我们的预期还要略好一点。

 

 

结语

预测专家纳特·西尔弗在《信号与噪声:大数据时代预测的科学与艺术》一书中提到,大数据时代的预测更容易失败,大部分失败的预测都源于一种盲目的自信,用精确的预测来冒充准确的预测。

对此我们有着清醒的认识,目前的票房预测模型还有若干需要改进的方向。首先,目前模型的主要思想是通过电影上映前的用户关注度来推算首周票房,这实 际上没有考虑电影上映后的口碑对票房的影响;其次,模型较为依赖历史数据,可能难以识别一些上映后脱颖而出的小成本“黑马”电影;再次,目前的技术只能提 前10天预报出首周票房,还可以更加超前。

总体而言,“深思”系统代表了搜狗公司在社会化预测方面一些新的尝试。我们试着从繁杂的海量数据中筛选出真正的信号,努力穿越不确定性的迷雾,区分 出未来图景的哪些部分可以预测,哪些不可预测。通向这个未来的道路还在探索之中,但目前工作已经取得了一些不错的进展,并给予了我们更大的信心。

 

参考注释:

(1)http://www.nature.com/nature/journal/v457/n7232/full/nature07634.html

(2)http://spectrum.ieee.org/podcast/at-work/innovation/microsoft-researcher-predicts-obama-to-win

(3)http://arxiv.org/abs/1010.3003

(4)http://roll.sohu.com/20131210/n391554290.shtml

(5)http://www.google.com/think/research-studies/quantifying-movie-magic.html



推荐阅读
  • TypeScript 实战分享:Google 工程师深度解析 TypeScript 开发经验与心得
    TypeScript 实战分享:Google 工程师深度解析 TypeScript 开发经验与心得 ... [详细]
  • 获得所需要的信息数据几乎成为大部分人工作中重要的一个部分,这篇文章总结和收集了一些常用的方法,用于自查和分享。活用搜索引擎常用搜索引擎搜索引擎是信息 ... [详细]
  • 深入探讨:Java 8 中 HashMap 链表为何选择红黑树而非 AVL 树
    深入探讨:Java 8 中 HashMap 链表为何选择红黑树而非 AVL 树 ... [详细]
  • 投融资周报 | Circle 达成 4 亿美元融资协议,唯一艺术平台 A 轮融资超千万美元 ... [详细]
  • 深入浅出解读奇异值分解,助你轻松掌握核心概念 ... [详细]
  • 本文详细探讨了Java集合框架的使用方法及其性能特点。首先,通过关系图展示了集合接口之间的层次结构,如`Collection`接口作为对象集合的基础,其下分为`List`、`Set`和`Queue`等子接口。其中,`List`接口支持按插入顺序保存元素且允许重复,而`Set`接口则确保元素唯一性。此外,文章还深入分析了不同集合类在实际应用中的性能表现,为开发者选择合适的集合类型提供了参考依据。 ... [详细]
  • Go语言中的高效排序与搜索算法解析
    在探讨Go语言中高效的排序与搜索算法时,本文深入分析了Go语言提供的内置排序功能及其优化策略。通过实例代码,详细讲解了如何利用Go语言的标准库实现快速、高效的排序和搜索操作,为开发者提供了实用的编程指导。 ... [详细]
  • PyCharm 作为 JetBrains 出品的知名集成开发环境(IDE),提供了丰富的功能和强大的工具支持,包括项目视图、代码结构视图、代码导航、语法高亮、自动补全和错误检测等。本文详细介绍了 PyCharm 的高级使用技巧和程序调试方法,旨在帮助开发者提高编码效率和调试能力。此外,还探讨了如何利用 PyCharm 的插件系统扩展其功能,以满足不同开发场景的需求。 ... [详细]
  • 为了评估精心优化的模型与策略在实际环境中的表现,Google对其实验框架进行了全面升级,旨在实现更高效、更精准和更快速的在线测试。新的框架支持更多的实验场景,提供更好的数据洞察,并显著缩短了实验周期,从而加速产品迭代和优化过程。 ... [详细]
  • 本文深入探讨了 hCalendar 微格式在事件与时间、地点相关活动标记中的应用。作为微格式系列文章的第四篇,前文已分别介绍了 rel 属性用于定义链接关系、XFN 微格式增强链接的人际关系描述以及 hCard 微格式对个人和组织信息的描述。本次将重点解析 hCalendar 如何通过结构化数据标记,提高事件信息的可读性和互操作性。 ... [详细]
  • 构建用户可查询的员工信息管理系统(上篇)
    构建用户可查询的员工信息管理系统(上篇)旨在设计一个安全且易于使用的员工信息查询平台。该系统要求实现以下功能:1. 用户必须通过身份验证才能访问系统;2. 员工信息表应包含关键字段,如ID、姓名、部门和电话号码;3. 身份验证成功后,用户能够准确查询到所需信息。此外,系统还应具备数据加密和权限管理等高级功能,以确保信息安全和合规性。 ... [详细]
  • 在Python编程中,探讨了并发与并行的概念及其区别。并发指的是系统同时处理多个任务的能力,而并行则指在同一时间点上并行执行多个任务。文章详细解析了阻塞与非阻塞操作、同步与异步编程模型,以及IO多路复用技术的应用。通过模拟socket发送HTTP请求的过程,展示了如何创建连接、发送数据和接收响应,并强调了默认情况下socket的阻塞特性。此外,还介绍了如何利用这些技术优化网络通信性能和提高程序效率。 ... [详细]
  • 循环结构与零钱问题:多题型综合解析与应用
    循环结构与零钱问题:多题型综合解析与应用 ... [详细]
  • 特斯拉的盈利之谜:净利润未必源自汽车销售
    近日,特斯拉因客户投诉再度成为舆论焦点。一位车主反映其购买仅6天的Model 3在使用官方超级充电桩时突然断电,引发了对特斯拉产品质量和售后服务的质疑。然而,特斯拉的盈利模式并不仅限于汽车销售,其净利润可能更多地来自其他业务板块,如能源服务、自动驾驶技术和软件订阅等。这些多元化收入来源为特斯拉的财务表现提供了更多支撑。 ... [详细]
  • 《网络营销》实验报告实验名称网站搜索引擎友好性分析实验室实验日期2020-04-03网络营销实验二网站搜索引擎友好性分析实验课程时间安排:在学习完第5章“资源积累能力与 ... [详细]
author-avatar
平凡文学女
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有