热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

信息流产品是怎么做的

如今,信息流的产品形态已经贯穿到我们的生活中,与一切都息息相关。每日清晨打开今日头条,齐刷刷的热点资讯等着大家去阅读;休息时

如今,信息流的产品形态已经贯穿到我们的生活中,与一切都息息相关。每日清晨打开今日头条,齐刷刷的热点资讯等着大家去阅读;休息时点开小红书,无数条种草点评映入眼帘;一到饭点饥肠辘辘时点击大众点评,不计其数的同城餐厅等待我们去挑选……在现今的移动互联网时代,平台通过成熟精密的召回算法和排序规则来聚合内容,用户在一个页面内就可以高效流畅地获取自己感兴趣的内容。

在以往文章中,我们讲述过关于信息流内容产品的指标搭建、常见分析思路和优化方法。那么,构建一个最基础的信息流产品,需要哪些部分?每个模块具体如何操作以及它的作用是什么呢?今天的这篇文章里,大家就能知道想要的答案啦。

一个最基础的信息流产品,涵盖了哪些部分?

1、内容:内容生产、内容理解、内容加工

2、用户:用户理解

3、策略:召回/推荐策略、分发策略、生态策略

图示是构建信息流产品所需的基础大框架,接下来逐个分析各模块具体操作及对应作用。

  一、内容生产

内容生产即内容的供给,有需求就要有供给,只有供给充足,用户才能消费到足够多样精彩的内容。通常有以下几个方式生产内容:

1、自然创作者在站内发布内容

2、签约媒体及MCN等机构购买一些创作者/内容资源

3、抓取其他平台符合调性的内容。

在不同的产品目标阶段,不同来源类型的内容配比会不同。一些成熟的平台已经有非常完善的创作者生命周期管理和创作者激励/分成体系,由此可激励创作者发布更多更优质的内容。可见,内容供给就是内容型产品的根本。

二、内容理解

内容理解即给内容打标签。标签——描述内容本身的特征,可以更好地理解内容,将合适的内容推荐给合适的用户。基于内容理解的标签有非常多的用途,除了作新用户的内容推荐外,可以作基于相似标签的相关内容推荐,也可以作个性化的内容推荐。内容通过海量标签生产内容特征,和用户的偏好进行匹配,形成千人千面的内容分发方式。

内容理解需要大量NLP方法,以及大量人工标注,用以确保标签的准确性。通常可以从内容本身和发布内容作者属性/行为来理解内容。例如一个短视频作品,它的标签就可以涵盖:

1、基础属性:时长、封图、标题、关键词、城市、来源等

2、类别属性:城市新闻、娱乐、猫狗等

3、预测类属性:原创度、风险分、内容评级、内容时效性、女生偏好、年轻人偏好等

三、内容加工

不论任何渠道抓取、站点抽取或者平台作者自主发文的内容,通常都需要经过层层加工过滤。首先进行通用消重,然后通过机器审核的一些模型及人工审核过滤掉黑名单、低质内容、抄袭内容、不完整内容、涉黄涉暴等不适合在平台内展现的内容。然后在内容分发过滤时根据对应规则,设定对应特征的内容可以分发给对应特征的用户等规则,例如用户评级评分、垂类等进行分发过滤。到了前端展示侧,根据频道主Feed页的推荐位进行个性化推荐分配,展示给用户。最后内容展示一定时间后会丧失其时效性,便不再展示。

四、用户理解

用户理解即精准地去刻画用户,涵盖用户的基础信息,职业、年龄、性别等,以及基于用户过往行为数据兴趣偏好标签,从这些数据中,我们可以获取大量的用户特征,对用户有更深层次的认知,例如这个用户喜欢什么类型的内容?更偏好什么类型的账号发文?活跃时间在每天的几点?基于此可以从不同的维度去刻画一个用户,我们刻画得越精准越详细,就越能精准地发现并挖掘用户的需求,把用户所需内容推荐给目标用户,内容转化效率将会变得更高。

五、推荐与分发策略

推荐策略是基于海量数据分析基础上,通过内容及用户的多维度特征组合分数,进行计算,将个性化内容推荐给对应用户,解决信息过载的问题。推荐通常分为两个阶段,即召回和排序。召回是根据用户的一些特征偏好或者一些特殊规则,在偌大的内容池中挑选出一个内容集合,圈定推送内容。常用的召回方法有:基于FM模型组合特征召回、基于行为的item协同过滤、基于行为的user协同过滤等手段等。召回池中都是用户感兴趣的内容,而排序阶段会在此基础上进行更精确计算,对每个内容进行打分,从召回池的内容中挑选出用户最感兴趣的少量内容。

内容的分发方式除了推荐算法外,还应该考虑内容多样性等因素,我们可以基于内容生态的考量,对内容创作者从不同的维度进行打压与推优,把更多的流量分配给优质内容的创作者,提高流量的利用效率和被消费内容的质量。例如我们会对原创评级更高、质量评级更高的作者给予更多的流量。此外,还可以基于社交进行分发(抖音的关注页频道),与地理位置的分发(抖音的同城频道、以及热榜内容分发)。

 

六、生态策略

早期产品做冷启动时,内容和创作者数量都远远不足,需要通过外部手段来激活站内生态,由此不得不抓取大量的站外内容到站内,相应就无法保证内容质量。但随着产品的发展,亟需一批优质+原创的内容来替换原始抓取的内容,借此让站内拥有更多的真人优质创作者,来构建更加健康可持续发展的作者及内容生态。促进UGC的生产可以通过一些运营活动、签约MCN/官方招募、社区内容引导等方式。同时设计相应策略保证头部生产者的内容权益,对底层劣质创作者的内容进行打压,通过针对不同程度的劣质/违规进行不同的手段打击,最终让站内保持一个良性的循环生态。

我们不仅要处理站内的违规用户和违规内容,还要针对一些擦边的生态问题制订对应的干预策略。如果站内若存在大量的低俗内容、负能量内容、炒作搏眼球内容等,虽然这些内容并不违规,若其量级够大则严重影响用户的浏览体验。根据我们目前的产品阶段及调性,通过模型及人工方式对不同的生态类问题内容进行识别,实施相应的处置及规则设定,以维护站内健康正向的内容生态。

以上,就是我理解一个信息流内容产品的主要框架,还有非常多的细节点,如果有感兴趣的朋友,欢迎讨论。谢谢大家的阅读,欢迎点个赞和在看喔,关注小洛的公众号,一起交流数据分析话题~                                               

     


推荐阅读
  • 软件测试工程师,需要达到什么水平才能顺利拿到 20k+ 无压力?
    前言最近看到很多应届生晒offer,稍有名气点的公司给出的价格都是一年30多W或者月薪20几k,相比之下工作几年的自己薪资确实很寒酸.根据我自己找工作经历,二线城市一般小公司招聘 ... [详细]
  • Linux服务器密码过期策略、登录次数限制、私钥登录等配置方法
    本文介绍了在Linux服务器上进行密码过期策略、登录次数限制、私钥登录等配置的方法。通过修改配置文件中的参数,可以设置密码的有效期、最小间隔时间、最小长度,并在密码过期前进行提示。同时还介绍了如何进行公钥登录和修改默认账户用户名的操作。详细步骤和注意事项可参考本文内容。 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • “你永远都不知道明天和‘公司的意外’哪个先来。”疫情期间,这是我们最战战兢兢的心情。但是显然,有些人体会不了。这份行业数据,让笔者“柠檬” ... [详细]
  • GPT-3发布,动动手指就能自动生成代码的神器来了!
    近日,OpenAI发布了最新的NLP模型GPT-3,该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB,参数个数高达1750亿,训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站,用户只需用英语描述需求,前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年,OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型,在限定条件下以2:0完胜人类冠军。 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 本文介绍了Python语言程序设计中文件和数据格式化的操作,包括使用np.savetext保存文本文件,对文本文件和二进制文件进行统一的操作步骤,以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]
  • 腾讯安全平台部招聘安全工程师和数据分析工程师
    腾讯安全平台部正在招聘安全工程师和数据分析工程师。安全工程师负责安全问题和安全事件的跟踪和分析,提供安全测试技术支持;数据分析工程师负责安全产品相关系统数据统计和分析挖掘,通过用户行为数据建模为业务决策提供参考。招聘要求包括熟悉渗透测试和常见安全工具原理,精通Web漏洞,熟练使用多门编程语言等。有相关工作经验和在安全站点发表作品的候选人优先考虑。 ... [详细]
  • 【疑难杂症】allennlp安装报错:Installing build dependencies ... error
    背景:配置PURE的算法环境,安装allennlp0.9.0(pipinstallallennlp0.9.0)报错ÿ ... [详细]
  • 推荐 :以数据驱动的方式讲故事
    直觉vs数据首先,你有思考过一个问题吗?当你的直觉与你所掌握的数据矛盾的时候,你是听从于直觉还是相信你所掌握的数据呢?201 ... [详细]
  • 干货 | 携程AI推理性能的自动化优化实践
    作者简介携程度假AI研发团队致力于为携程旅游事业部提供丰富的AI技术产品,其中性能优化组为AI模型提供全方位的优化方案,提升推理性能降低成本࿰ ... [详细]
  • 本文介绍了Redis的基础数据结构string的应用场景,并以面试的形式进行问答讲解,帮助读者更好地理解和应用Redis。同时,描述了一位面试者的心理状态和面试官的行为。 ... [详细]
  • FineReport平台数据分析图表显示部分系列接口的应用场景和实现思路
    本文介绍了FineReport平台数据分析图表显示部分系列接口的应用场景和实现思路。当图表系列较多时,用户希望可以自己设置哪些系列显示,哪些系列不显示。通过调用FR.Chart.WebUtils.getChart("chartID").getChartWithIndex(chartIndex).setSeriesVisible()接口,可以获取需要显示的系列图表对象,并在表单中显示这些系列。本文以决策报表为例,详细介绍了实现方法,并给出了示例。 ... [详细]
  • 本文介绍了简书APP的PRD文档规范写法及内容概述。PRD文档的要求因公司、团队或产品而异,本文总结了简书APP的PRD文档框架,包括版本信息、文档说明、产品简介、产品特色、用户分析和产品架构等内容。简书APP致力于提供最好的分享体验,为写作者打造最优秀的写作软件,为阅读者打造最优雅的阅读社区。主要用户为喜欢分享交流、爱生活拥有文艺气息的年轻人,喜爱文字并想在喧嚣网络中沉淀文字的读写人。产品架构包括了主要模块,并应展开至最小用户可见单元。 ... [详细]
author-avatar
msf6688
PHP小白,请大神 们多多关照!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有