热门标签 | HotTags
当前位置:  开发笔记 > 人工智能 > 正文

深度解读《互联网信息服务算法推荐管理规定(征求意见稿)》by傅一平

2018年的时候,自己写过一篇文章《谈谈大数据时代的《别被算法困在“信息茧房”》》,提到了推荐算法“投其所好”可能导致的社会问题。3年后的今天ÿ

2018年的时候,自己写过一篇文章《谈谈大数据时代的《别被算法困在“信息茧房”》》,提到了推荐算法“投其所好”可能导致的社会问题。

3年后的今天,国家互联网信息办公室发布《互联网信息服务算法推荐管理规定(征求意见稿)》(以下简称《意见稿》)并公开征求意见,目的是规范互联网信息服务算法推荐活动,维护国家安全和社会公共利益,保护公民、法人和其他组织的合法权益,促进互联网信息服务健康发展。

《意见稿》共30条,自己读完后,有五点思考:

第一、《意见稿》是继《网络安全法》、《数据安全法》及《个人信息保护法》颁布后又一个具有里程碑意义的跟数据相关的法律法规,算法推荐服务被从互联网应用中单独剥离出来,为其单独制定管理规范,这在业界是第一次,国际上也没见过。

第二、《意见稿》是官方针对算法推荐造成的“信息茧房”、“大数据杀熟”、“饭圈文化”、“网络沉溺”、“舆情控制”等诸多不良网络现象的一种正式回应,表明了治理的决心。

第三、《意见稿》中对于算法推荐服务的规定事无巨细,将会对以算法驱动的公司产生很大影响,短视频、新闻、微博、网约车等信息服务领域将被重点监管。

第四、算法推荐服务相对于其他服务,具有标准规范缺失、技术门槛高等特点,监管难度之大可想而知,管理规定之下的操作细则更是重中之重。

第五、《意见稿》将进一步推进实名认证在更多的信息服务领域落地。

下面针对《意见稿》30条规定中的重点条目做一解读,理解了这个规定,用户就可以拿起这个武器,更好的维护自己的权益。

第二条 在中华人民共和国境内应用算法推荐技术提供互联网信息服务(以下简称算法推荐服务),适用本规定。法律、行政法规另有规定的,依照其规定。前款所称应用算法推荐技术,是指应用生成合成类、个性化推送类、排序精选类、检索过滤类、调度决策类等算法技术向用户提供信息内容。

本规定适用的算法推荐技术主要包括五类,简单解释如下:

1、生成合成类:指利用合成技术生成推荐内容,比如AI换脸。

2、个性化推送类:指千人前面的推荐,比如我登录天猫看到的推荐商品跟你看到的不一样。

3、排序精选类:典型的如排行榜。

4、检索过滤类:典型的如你输入一个关键词,检索出的内容会有优先级排序。

5、调度决策类:典型的如滴滴派单。

第四条 算法推荐服务提供者提供算法推荐服务,应当遵守法律法规,尊重社会公德和伦理,遵守商业道德和职业道德,遵循公正公平、公开透明、科学合理和诚实信用的原则。

该规定描述了算法推荐服务要遵循的系列原则,包括:

1、遵守法律法规:比如传播色情淫秽的内容肯定受法律制约。

2、尊重社会公德和伦理:举个例子,“困在算法里”的外卖平台骑手们,面对不断压缩的订单送达时间,他们没有选择,只能遵循算法的设计逻辑,看着手机上一条直线的数字地图,在现实的道路上“与死神赛跑,和交警较劲,和红灯做朋友”,这种算法推荐就有违社会公德和伦理。

3、遵循公正公平:大数据杀熟就是反面典型,消费软件很懂你,时间一长却发现老用户比新用户花的钱更多。

4、遵循公开透明:通过公开算法原理是实现公正公平的一种手段,比如IT领域为了确保应用安全,往往会有代码审核一说。

5、遵循科学合理:算法训练有一套科学方法,比如对样本的合理性要做评估,对算法训练过程中产生的过拟合或欠拟合现象要做纠正,否则算法推荐就不科学,举一个例子,粉丝集中刷榜产生的异常数据对于算法的推荐就有很大影响,因此要对原始数据做清洗过滤。

第五条 鼓励相关行业组织加强行业自律,建立健全自律制度和行业准则,组织制定行业标准,督促指导算法推荐服务提供者建立健全服务规范、依法提供服务并接受社会监督。

国家在制定法规的同时也认识到自身的局限性,因此鼓励各个行业遵循大原则的前提下,制定出符合本行业实际的算法标准和操作细则,同个行业大家知根知底,行业标准的建立也有利行业的健康发展,防止劣币驱逐良币现象的发生。

第六条 算法推荐服务提供者应当坚持主流价值导向,优化算法推荐服务机制,积极传播正能量,促进算法应用向上向善。算法推荐服务提供者不得利用算法推荐服务从事危害国家安全、扰乱经济秩序和社会秩序、侵犯他人合法权益等法律、行政法规禁止的活动,不得利用算法推荐服务传播法律、行政法规禁止的信息。

算法推荐本身不区分善恶,但在法律法规和伦理道德要求向善的约束下,未来算法不能独善其身,也没有中立一说,只要有可能推荐恶的内容,算法推荐服务提供者就有责任去调整算法逻辑,从而抑制恶的内容的产生。

比如一般算法会基于相关关系去做推荐,看了动漫就会推荐动漫,但如果看了色情暴力的,也会推荐偏色情暴力的其他内容,以前这叫算法中立,现在不行了。

第八条 算法推荐服务提供者应当定期审核、评估、验证算法机制机理、模型、数据和应用结果等,不得设置诱导用户沉迷或者高额消费等违背公序良俗的算法模型。

“不得设置诱导用户沉迷或者高额消费等违背公序良俗的算法模型”这句话的力量很大,界定的难度也很大,举个例子大家会有个感性认识:

“7月13日,国家网信办发布通知,宣布为期2个月的“清朗”未成年人暑期网络环境专项整治启动。本次整治行动将在诱导未成年人无底线追星、饭圈互撕等价值导向不良的信息和行为等方面进行重点整治,严厉打击诱导未成年人在社交平台、音视频平台的热搜榜、排行榜、推荐位等重点区域应援打榜、刷量控评、大额消费等行为”

以前整治靠专项行动,有了此规定就属于非法,谁都可以投诉。

第九条 算法推荐服务提供者应当加强信息内容管理,建立健全用于识别违法和不良信息的特征库,完善入库标准、规则和程序。发现未作显著标识的算法生成合成信息的,应当作出显著标识后,方可继续传输。发现违法信息的,应当立即停止传输,采取消除等处置措施,防止信息扩散,保存有关记录,并向网信部门报告。发现不良信息的,应当按照网络信息内容生态治理有关规定予以处置。 

算法推荐的基础是数据(信息内容),基于这些数据可以构建出特征库,而用什么样的特征库就会训练出什么样的算法推荐模型,比如用一堆暴力特征的视频数据去训练视频推荐算法,训练出来的算法更可能推荐暴力的视频。

原来的算法推荐服务提供者采用什么样的数据来构建特征库是不受监管的,现在对于算法训练的原始信息内容提出了管理要求,这样就堵住了信息源头,没有恶的信息内容的输入,算法就不大可能产生恶的内容输出,这叫治本。

面对海量的信息内容,现在基于AI鉴别信息内容合规性的手段渐趋成熟,使得非法信息的智能化识别和拦截有了可能。

但这还不够,因为现在很多信息内容可以用机器生成,不需要现实中真实存在,因此这里对基于算法(比如对抗算法)合成信息内容(比如AI换脸)也做了规范,即合成内容的这个算法也要接受监管,杜绝不合规的算法自己创造垃圾内容。

第十条 算法推荐服务提供者应当加强用户模型和用户标签管理,完善记入用户模型的兴趣点规则,不得将违法和不良信息关键词记入用户兴趣点或者作为用户标签并据以推送信息内容,不得设置歧视性或者偏见性用户标签。

第十条是第九条的加强,一般在做推荐算法的时候,首先需要针对原始内容信息进行处理、建模,建模的结果往往是客户标签,比如年龄、性别、是否有车、是否高收入等等,然后基于这些标签提供推荐服务,这里对客户标签做了规范,要求标签不能带有违法、不良信息关键词,不得设置歧视性标签等等。

比如常见的电商、外卖等场景的“大数据杀熟”,属于算法歧视,对新老用户打不同标签,并进行价格上的区别对待,这种就可以算是歧视性或者偏见性用户标签了,但如果这些标签只是用于客户特征分析目的,则不能算作歧视性标签,实际还是要结合标签应用场景来判断的,这对于未来的监管挑战很大。

第十一条 算法推荐服务提供者应当加强算法推荐服务版面页面生态管理,建立完善人工干预和用户自主选择机制,在首页首屏、热搜、精选、榜单类、弹窗等重点环节积极呈现符合主流价值导向的信息内容。

该条规定用于加强推荐页面内容的配置能力,使得推荐内容的管理更加快捷方便,比如一旦发现重大推荐信息内容问题,可以一键关闭,而不要去做修改、下线等耗时的操作;

同时给予了用户关闭推荐服务的权利,这对于用户是巨大的利好,现在很多网站会推荐不良信息,但用户不得不忍受。

第十二条 算法推荐服务提供者应当综合运用内容去重、打散干预等策略,并优化检索、排序、选择、推送、展示等规则的透明度和可解释性,避免对用户产生不良影响、引发争议纠纷。

该条规定是从推荐服务体验的角度来讲的:

一是不要重复推荐和集中推荐,比如有时候打开一个网页,会发现广告推荐的内容比正式内容都多,喧宾夺主,体验极差,所谓的信息流广告有时成了信息流内容了。

二是对于推荐的规则要有透明性和可解释性,比如我观看了某网站后转到另一网站就有原网站的推荐内容,显然两个网站达成了某种默契,但这种信息交换是否符合法律法规,是否要经过个人授权,也要经得起检验。

第十三条 算法推荐服务提供者不得利用算法虚假注册账号、非法交易账号、操纵用户账号,或者虚假点赞、评论、转发、网页导航等,实施流量造假、流量劫持;不得利用算法屏蔽信息、过度推荐、操纵榜单或者检索结果排序、控制热搜或者精选等干预信息呈现,实施自我优待、不正当竞争、影响网络舆论或者规避监管。

算法推荐服务提供者往往是作为第三方为广告客户提供精准投放服务,但有些算法推荐服务者为了获取收益,会通过各种流量造假的手段虚构流量,严重损坏客户利益,扰乱流量市场,劣币驱逐良币的事情很多了。

如果说前面几条规定都侧重于对于算法推荐服务进行一定程度的“干预”,从而确保推荐服务合法合规,那么这条规定就反过来了,要求算法推荐服务者不能为了自身利益对于算法进行人为干预,控制算法推荐的结果,从而导致不正当竞争、影响网络舆论或者规避监管。

第十四条 算法推荐服务提供者应当以显著方式告知用户其提供算法推荐服务的情况,并以适当方式公示算法推荐服务的基本原理、目的意图、运行机制等。

为了监督必须要让算法推荐具备透明性,但算法跟其他的服务还有所不同,因为算法大多时候是个黑盒,很多不具备可解释性,对于非专业背景的用户要理解算法更是挑战,这样就失去了公示算法的意义,同时公示算法也涉及到知识产权问题。

第十五条 算法推荐服务提供者应当向用户提供不针对其个人特征的选项,或者向用户提供便捷的关闭算法推荐服务的选项。用户选择关闭算法推荐服务的,算法推荐服务提供者应当立即停止提供相关服务。(1)算法推荐服务提供者应当向用户提供选择、修改或者删除用于算法推荐服务的用户标签的功能。(2)用户认为算法推荐服务提供者应用算法对其权益造成重大影响的,有权要求算法推荐服务提供者予以说明并采取相应改进或者补救措施。

这一条在第十四条的基础上更进一步,不仅算法推荐要透明化,还要允许客户能干预算法推荐服务,就拿允许用户关闭算法推荐服务来说,这的确是个巨大的进步,但也会对算法推荐服务者的商业模式造成冲击,当然算法服务提供者可以规避这条规定,比如将关闭选项藏的很深,因此实操层面远不是那么简单。

算法推荐服务者允许用户选择、修改或者删除用户标签,看似简单,实际操作也是非常困难,因为推荐服务采用的标签跟最终的推荐结果之间没有直接关系,用户以为把某个标签关闭就可以提升推荐服务体验,实际情况可能更糟;一个推荐服务涉及的标签变量可能成百上千,业务解释非常复杂,放给用户选择不一定合适。

用户有权要求算法推荐服务提供者改进算法,想法挺好,但算法推荐服务相对于其他的服务,存在算法评判规则缺失、算法服务数量巨大、算法服务好坏判定复杂及服务提供者水平参差不齐等系列问题,用户投诉电话打不通可以描述清楚,但算法怎么个不好法用户可能说不清楚,算法服务提供者也可能理解不了,改进算法更是成本巨大,远不是投诉一就能解决一那么简单。

第十六条 算法推荐服务提供者向未成年人提供服务的,应当依法履行未成年人网络保护义务,并通过开发适合未成年人使用的模式、提供适合未成年人特点的服务等方式,便利未成年人获取有益身心健康的信息内容。算法推荐服务提供者不得向未成年人用户推送可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好等可能影响未成年人身心健康的信息内容,不得利用算法推荐服务诱导未成年人沉迷网络。

2019年14岁女孩模仿“办公室小野”用易拉罐做爆米花的短视频导致意外身亡,当初关于此事件的责任归属存在争议,本条规定就是用来保护未成年人的。

“不得向未成年推送不良信息内容”意味着算法推荐服务提供者要对推荐的内容进行分层分级;“不得利用算法推荐服务诱导未成年人沉迷网络”则直指短视频等信息服务,自己以前为了防止沉迷短视频直接卸载了事,更不用说对未成年人的诱惑了。

为了实现该条,估计后续对于主流推荐服务应用会提出实名注册要求,就好比对未成年人限制游戏一样,力度可能非常大。

第十七条 算法推荐服务提供者向劳动者提供工作调度服务的,应当建立完善平台订单分配、报酬构成及支付、工作时间、奖惩等相关算法,履行劳动者权益保障义务。

本条显然是为了规范网约车平台的算法推荐服务的,自己多次听到网约车司机对平台调度不合理,分成不合理等的抱怨,不管描述是否属实,但司机在面对平台算法时还是处于弱势地位,这一条可以让网约车司机的投诉有据可循。

第十八条 算法推荐服务提供者向消费者销售商品或者提供服务的,应当保护消费者合法权益,不得根据消费者的偏好、交易习惯等特征,利用算法在交易价格等交易条件上实行不合理的差别待遇等违法行为。

这条规定明确不允许大数据杀熟,如果前面众多关于算法透明化、可解释性的要求能够落地,那判定算法是否属于大数据杀熟也多了些依据。

从第十九条至第二十六条,《意见稿》主要针对具有舆论属性或者社会动员能力的算法推荐服务提供者给出了管理要求,包括报备、公示、安全评估、整改配合等等。第二十七条至第二十九条则给出了违反规定的惩罚措施。

在解读《意见稿》的时候,自己还是发现了一些偏理想化的管理规定,究其根本,还是因为算法推荐服务相对其他一般服务有些差别,比如不可解释性,这样就不能完全套用统一的服务管理办法,希望《意见稿》能更多的吸收各方意见和建议,早日完成修订,从而为互联网信息服务健康发展保驾护航。

    1. 企业数字化转型与运营策略(120页PPT)

      企业数字化转型战略完整指南

      研究了半天,终于把数字孪生内涵搞清楚了 by 傅一平

      企业数字化市场:产品向左,服务向右

      点击左下角“阅读原文”查看更多精彩文章,公众号推送规则变了,如果您想及时收到推送,麻烦右下角点个在看或者把本号置顶! 



    推荐阅读
    • 优化ListView性能
      本文深入探讨了如何通过多种技术手段优化ListView的性能,包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]
    • 1:有如下一段程序:packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]
    • 2023年京东Android面试真题解析与经验分享
      本文由一位拥有6年Android开发经验的工程师撰写,详细解析了京东面试中常见的技术问题。涵盖引用传递、Handler机制、ListView优化、多线程控制及ANR处理等核心知识点。 ... [详细]
    • 【行业专题报告】 人力资源专题资料
      每项专题报告都是从2019开始更新到至今,后续将持续更新如需查看完整报告和报告下载或了解更多,公众号:参一江湖今天为大家分享专题 ... [详细]
    • 最近团队在部署DLP,作为一个技术人员对于黑盒看不到的地方还是充满了好奇心。多次咨询乙方人员DLP的算法原理是什么,他们都以商业秘密为由避而不谈,不得已只能自己查资料学习,于是有了下面的浅见。身为甲方,虽然不需要开发DLP产品,但是也有必要弄明白DLP基本的原理。俗话说工欲善其事必先利其器,只有在懂这个工具的原理之后才能更加灵活地使用这个工具,即使出现意外情况也能快速排错,越接近底层,越接近真相。根据DLP的实际用途,本文将DLP检测分为2部分,泄露关键字检测和近似重复文档检测。 ... [详细]
    • 网易严选Java开发面试:MySQL索引深度解析
      本文详细记录了网易严选Java开发岗位的面试经验,特别针对MySQL索引相关的技术问题进行了深入探讨。通过本文,读者可以了解面试官常问的索引问题及其背后的原理。 ... [详细]
    • 三星W799在2011年的表现堪称经典,以其独特的双屏设计和强大的功能引领了双模手机的潮流。本文详细介绍其配置、功能及锁屏设置。 ... [详细]
    • 本文探讨了Hive中内部表和外部表的区别及其在HDFS上的路径映射,详细解释了两者的创建、加载及删除操作,并提供了查看表详细信息的方法。通过对比这两种表类型,帮助读者理解如何更好地管理和保护数据。 ... [详细]
    • 新冠肺炎疫情期间,各大银行积极利用手机银行平台,满足客户在金融与生活多方面的需求。线上服务不仅激活了防疫相关的民生场景,还推动了银行通过互联网思维进行获客、引流与经营。本文探讨了银行在找房、买菜、打卡、教育等领域的创新举措。 ... [详细]
    • 网络攻防实战:从HTTP到HTTPS的演变
      本文通过一系列日记记录了从发现漏洞到逐步加强安全措施的过程,探讨了如何应对网络攻击并最终实现全面的安全防护。 ... [详细]
    • 本文详细介绍了macOS系统的核心组件,包括如何管理其安全特性——系统完整性保护(SIP),并探讨了不同版本的更新亮点。对于使用macOS系统的用户来说,了解这些信息有助于更好地管理和优化系统性能。 ... [详细]
    • 帝国CMS多图上传插件详解及使用指南
      本文介绍了一款用于帝国CMS的多图上传插件,该插件通过Flash技术实现批量图片上传功能,显著提升了多图上传效率。文章详细说明了插件的安装、配置和使用方法。 ... [详细]
    • 深入理解Redis的数据结构与对象系统
      本文详细探讨了Redis中的数据结构和对象系统的实现,包括字符串、列表、集合、哈希表和有序集合等五种核心对象类型,以及它们所使用的底层数据结构。通过分析源码和相关文献,帮助读者更好地理解Redis的设计原理。 ... [详细]
    • 脑机接口(BCI)技术正逐步将科幻变为现实,从帮助听障人士恢复听力到使瘫痪者重新站立,甚至可能将多年的学习过程压缩至瞬间。本文探讨了这一前沿技术的现状、挑战及其未来前景。 ... [详细]
    • 本文深入探讨了 Redis 的两种持久化方式——RDB 快照和 AOF 日志。详细介绍了它们的工作原理、配置方法以及各自的优缺点,帮助读者根据具体需求选择合适的持久化方案。 ... [详细]
    author-avatar
    愤怒的黑皮_165
    这个家伙很懒,什么也没留下!
    PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
    Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有