热门标签 | HotTags
当前位置:  开发笔记 > 人工智能 > 正文

今日头条的引擎是怎么样工作的?

把媒体内容分发给用户,“你关心的才是头条”,对于今日头条这个产品,相信大家都不陌生。那么,你是否好奇过,今日头

把媒体内容分发给用户,“你关心的才是头条”,对于今日头条这个产品,相信大家都不陌生。那么,你是否好奇过,今日头条是如何做到,向每个读者推送不一样的、据称是符合读者每个人不同兴趣的内容的呢?今日头条算数中心执行总监刘志毅在日前于深圳北京大学汇丰商学院举行的“数据之美”论坛上做了介绍。

首先,数据从哪里来?

虽然对于头条来讲,其用户量、用户的粘性时间已经足够大了,但是,要怎么样精细,怎么样的数据才是可信赖的,怎么样的数据是可复用的?

对于数据所产生和获取的流程,今日头条算数中心执行总监刘志毅抛出一道小问题来介绍:

现在面前有很多颗糖果,然后有两个人要把这个糖果的数量数清楚,有一个人他会加减乘除地来数,3颗3颗数,5颗5颗地;还有一个人就很笨,只会一颗一颗,永远一颗一颗地数,那问一下,是哪一个人能够先把这一大堆糖果数清楚啊?

事实上,按正常的逻辑确实应该回答“第一个”的,“但是在互联网公司,答案是第二个,因为虽然是一颗一颗地数,但他一秒种可以数一万个,所以他更直接更快速。”这是机器学习发展到今天的成果,机器分发的效率一定大于人工分发。在2016年的年终,易观发布的第三方数据显示,如今机器分发的比例已经超过了人工分发。

今日头条的引擎是怎么样工作的?

分发糖果与分发内容逻辑是一样的。那么,这背后,头条具体的引擎是怎么样工作的?这时候需要把文章和用户两端的数据连接起来。

据刘志毅解释,

首先文章进入机器引擎后,头条需要机器识别它们的关键词,识别其涉及到的内容领域,用户对它们的反应,然后把结果放到一个特征向量空间中。



与此同时,用户端也发生了同样的变化。

“然后我们去看这两个向量,怎么样匹配度最高,然后就推送给他。”

具体来说,这些用以匹配的数据变量可能包括几个大方面的特征:

首先,这个用户,他的性别兴趣,年龄地域用的手机是什么?

家乡是哪里?关注什么东西?会点什么样的广告?

然后他目前处在什么样的环境?今天有没有下雨?用WiFi还是用3G,4G,2G?

这个文章本身是一分钟之内的快消息,还是几年之内看都不算失效的消息?用户的反馈对他们是什么样?

这个文章有什么样的关键词……等等

这些数据将产生一个百亿级别的特征,今日头条最终根据特征判断用户的需求,把内容呈现到每一个人不同的手机屏幕上。

今日头条的引擎是怎么样工作的?

但是,这还不是最技术范的地方。数据部门真正做的事情是,“从刚刚所描述的这个过程中积累出来一些东西,然后让他去发挥价值,”刘志毅说道,这才是数据挖掘的价值所在。

这只是我所想要表达的数据维度的1%,”

用户点击什么文章?没有点击什么文章?

点赞还是点踩?

阅读速度快不快?完成多少比例?

对某一个话题产生了持续性的还是短暂的影响?读完之后有没有讲到什么评论?

那他用的是什么样的手机在读你的东西?是什么样的手机的什么型号?去年用这个型号,今年是不是还用这个型号?

……

刘志毅称,“这样的信息都会作为这个用户的组合特征的一部分,然后我们去提取这一部分来把它作为数据的样本进行分析。”

数据到哪里去?

知道了数据怎么来之后,数据要到哪里去,产生怎样的价值?这又是一场好戏了。

据雷锋网(公众号:雷锋网)了解,今日头条曾推出了“今日头条媒体实验室”,这个实验室的作用,相当于差异化内容创作的“参谋”。就是说,其将通过每一篇文章的传播数据去告诉不同的内容的写作者创作者,假如想要影响某一个特定的人群,需要怎么样创作内容,并且在什么样的平台上,以什么样的方式在什么样的时间点发布是效率最大化的。

刘志毅举了这样一个例子:以美国总统选举为例,在中国希拉里一直热度是领先,但是跟美国人投票不一样。最后希拉里败选,但是她败选之后,在头条平台上面的热度也降得非常快,这个可能跟中国人对美国时政事件的关心规律有关系,那么,媒体则会依据这个来进行内容创作。

另外一个是,数据也许可以呈现出人类作者意想不到的角度:在今日头条与南方周末的合作中,大家都关心学区房房价的问题,但数据显示——在这些事实之外,跟学区房同时出现的概率最高的词中间,“离婚”排在前3位。

这就是计算机辅助报道的一种方式,也是大数据、AI带给传统行业的变革。

AI带给商业市场更多机会

除了反哺媒体创作,阅读数据还有哪些想象力呢?

透视市场潜力

雷锋网此前报道,在一些数据密集型的产业,都成为了AI产业应用孵化的首选之地。接下来看了OPPO和vivo的案例,你就不会奇怪了。

众所周知,去年,手机市场一个关注度颇高的话题是:大家发现主流手机品牌不那么景气了,包括苹果,但是有两家厂商非常受关注——OPPO和Vivo。

“OPPO跟Vivo做了一件很有意思的事情,他们在345线城市的用户很多,但是他们请了很多跟一二线城市的口味更匹配的代言人来作为宣传他们品牌的代言人。这是他们根据通过阅读数据产生的决定。他们充分把握住了345线城市对于手机的需求。”

雷锋网了解到,根据头条阅读的数据发现,345线城市对于手机的具体参数、性价比方面表现得不那么敏感,但对于手机的体验的介绍,却是阅读量远高于一二线城市的。“所以当OPPO没有把大部分的推广和宣传经费放到线下的渠道去影响345线城市的时候,他后面的成功,也是在阅读数据上能够发现的奇妙的地方。”

总的来说,刘志毅表示,AI之所以影响人类各行各业,是因为,“阅读其实是一种人们对于自我归类的一种方式,所以头条上面阅读数据其实是人在不同的组别中间自我归类的一些信息,这些规律的信息产生了我刚才所说到的所有的价值。”

封面图来自网络


本文作者:温晓桦

本文转自雷锋网禁止二次转载,原文链接



推荐阅读
  • 吴石访谈:腾讯安全科恩实验室如何引领物联网安全研究
    腾讯安全科恩实验室曾两次成功破解特斯拉自动驾驶系统,并远程控制汽车,展示了其在汽车安全领域的强大实力。近日,该实验室负责人吴石接受了InfoQ的专访,详细介绍了团队未来的重点方向——物联网安全。 ... [详细]
  • 【转】强大的矩阵奇异值分解(SVD)及其应用
    在工程实践中,经常要对大矩阵进行计算,除了使用分布式处理方法以外,就是通过理论方法,对矩阵降维。一下文章,我在 ... [详细]
  • 自然语言处理(NLP)——LDA模型:对电商购物评论进行情感分析
    目录一、2020数学建模美赛C题简介需求评价内容提供数据二、解题思路三、LDA简介四、代码实现1.数据预处理1.1剔除无用信息1.1.1剔除掉不需要的列1.1.2找出无效评论并剔除 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • 在机器学习领域,深入探讨了概率论与数理统计的基础知识,特别是这些理论在数据挖掘中的应用。文章重点分析了偏差(Bias)与方差(Variance)之间的平衡问题,强调了方差反映了不同训练模型之间的差异,例如在K折交叉验证中,不同模型之间的性能差异显著。此外,还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡,以提高模型的泛化能力。 ... [详细]
  • 本文整理了关于Sia去中心化存储平台的重要网址和资源,旨在为研究者和用户提供全面的信息支持。 ... [详细]
  • 近期,微信公众平台上的HTML5游戏引起了广泛讨论,预示着HTML5游戏将迎来新的发展机遇。磊友科技的赵霏,作为一名HTML5技术的倡导者,分享了他在微信平台上开发HTML5游戏的经验和见解。 ... [详细]
  • Python 3 Scrapy 框架执行流程详解
    本文详细介绍了如何在 Python 3 环境下安装和使用 Scrapy 框架,包括常用命令和执行流程。Scrapy 是一个强大的 Web 抓取框架,适用于数据挖掘、监控和自动化测试等多种场景。 ... [详细]
  • K-均值聚类算法是一种经典的划分方法,广泛应用于数据挖掘和机器学习领域。该算法通过将数据集划分为多个互斥的簇,确保每个对象仅归属于一个簇。然而,这种严格的归属要求忽略了潜在的离群点和数据的复杂性,限制了其在某些场景下的适用性。为了提高算法的鲁棒性和灵活性,研究者们提出了多种改进方法,如引入模糊隶属度和基于密度的聚类技术。这些改进不仅提升了算法的性能,还扩展了其在实际问题中的应用范围。 ... [详细]
  • 在本文中,我们将详细介绍如何构建一个用于自动回复消息的XML类。当微信服务器接收到用户消息时,该类将生成相应的自动回复消息。以下是具体的代码实现:```phpclass We_Xml { // 代码内容}```通过这个类,开发者可以轻松地处理各种消息类型,并实现高效的自动回复功能。我们将深入探讨类的各个方法和属性,帮助读者更好地理解和应用这一技术。 ... [详细]
  • OSChina 周末闲谈 —— 程序员的浪漫情话
    在OSChina的周末闲谈栏目中,探讨了程序员特有的浪漫情话。本文不仅分享了一些程序员如何用代码表达爱意的有趣例子,还推荐了一首适合程序员聆听的歌曲——李克勤的《啜泣》。对于喜欢在编程之余享受音乐的朋友们,不妨点击链接试听一下。 ... [详细]
  • 本文详细介绍了一种利用 ESP8266 01S 模块构建 Web 服务器的成功实践方案。通过具体的代码示例和详细的步骤说明,帮助读者快速掌握该模块的使用方法。在疫情期间,作者重新审视并研究了这一未被充分利用的模块,最终成功实现了 Web 服务器的功能。本文不仅提供了完整的代码实现,还涵盖了调试过程中遇到的常见问题及其解决方法,为初学者提供了宝贵的参考。 ... [详细]
  • ROG 5侧边按键如何自定义?实现六指操控详细教程 ... [详细]
  • 极壹S路由器的安装与使用指南
    极壹S路由器的安装与使用指南 ... [详细]
  • TCP三次握手过程详解与图示解析
    本文详细解析了TCP三次握手的过程,并通过图示清晰展示了各个状态的变化。同时,文章还介绍了四次挥手的图解,解释了在TIME_WAIT状态中,客户端最后一次发送的ACK包的作用和重要性。 ... [详细]
author-avatar
越野之族_205
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有