热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

策略模式应用场景_京麒沙龙|网易严选风控业务负责人苏跃:风控策略体系amp;图的风控场景业务应用...

撰稿|流苏编辑|图图2020年9月23日,京东安全与安在联合举办的“京麒沙龙第三期之智能风控”专场直播活动圆满落幕。为了满足粉丝的文字阅读需求,促进安全
05dc9a5885b4cd0342b5aa1ffcdd2962.gif撰稿 | 流苏编辑 | 图图

2020年9月23日,京东安全与安在联合举办的“京麒沙龙第三期之智能风控”专场直播活动圆满落幕。为了满足粉丝的文字阅读需求,促进安全圈进一步交流,安在特别整理了三位大咖的直播实录,分三次在安在公众号上发布,以飨读者。

本次分享的是网易严选风控业务负责人苏跃,演讲主题为“风控策略体系&图的风控场景业务应用”。

以下为直播实录。

网易严选风控业务负责人苏跃:风控策略体系&图的风控场景业务应用

93713ab7c761d4a5c6a9254ef870bd8e.png

一、网易严选五大业务风险挑战

从风险的角度来看,自营电商跟平台电商相比可能不存在平台治理或商户类的风险,因此更多的是在自营电商本身的营销资金风险,而且会贯穿于整个营销业务中的正向、逆向和横向的业务流程中。

第一是营销风险,也是风险管理的重点,包括红包优惠券、社交裂变和代购羊毛党;第二是流量风险,包括渠道流量流量、虚假投放;第三是恶意风险,包括破坏商城秩序、恶意锁库;第四是内容风险,包括非法内容评论和代购商品评论;第五是逆向物流风险,包括恶意消退套利,投诉欺诈逆等。

以上五大风险挑战每一部分都是单独的风险领域,今天的分享将更多聚焦于营销风险。

二、严选业务风险管理体系

b06dcac58e722693ef7f4d0bcf04c08b.png

如上图所示,这是网易严选风控体系偏技术层的架构,从下到上可以为分为4层。

最底层的是风险数据层,包括风险数据和设备指纹,往上是识别层,包括由风险指标、特征标签和算法模型,在往上是业务层,包括业务场景、处罚策略和风险规则,最上一层是产品层。

我们从最底层讲起。

这一层主要是风险数据的采集和设备的唯一指标,主要包括用户业务事件的接入、用户行为数据,以及一些鼠标活动的数据,都会在这一数据层里面。

识别层主要是在风险数据的基础上,基于算法的整体风险识别模块。为了解决模型输出的问题,我们在这一层做了风险指标和特征标签,实现风险识别与风控策略的无缝对接。

业务层主要包括了三块,包括业务场景、处罚策略和风险规则,更多的还是面向业务,面向风险刻画和风险处罚。在这一层,我们通过网易的严选风控平台来承载整个风险运营的工作流。

在风控体系架构的最上层是产品层,这也是严选一直比较想做的“风险+”的事情。而在这部分严选主要做的事情是针对用户做一些多维的分层。这部分会前置到营销产品设计里面,做一些营销策略的差异化和精细化。

接下来分享严选在风险解决方案的演进。其实严选在早期的整体识别、风控方案更多的是基于专家模型,里面更多的是以专家判断、业务规则或者评估规则为准。

专家模型解决方案是一种常见的见效最快的风险管理的方式,但是随着业务慢慢发展,严选发现如果只用专家模型,整体风险识别能力的衰减的速度非常快。于是严选开始考虑通过算法模型来替代专家模型来做风险解决方案。

刚开始的时候,严选希望能够做一个大而全风险覆盖的模型来解决所有的业务、产品风险问题,这种方案下,无论是从模型的研发还是后期的维护来看,它的成本非常小。

而随着严选整体业务产品越来越细化、营销玩法越来越多样化,慢慢发现这种大而全的模型没办法满足精细化的风险运营。于是开始尝试第三种方案,场景化的风控解决方案。当然这并非是不用模型的方式解决问题,而是对风控模型的定位发生了改变,不再是解决风险问题,更多的聚焦在风险刻画和风险特征,而把风险决策放在整个业务场景的私域中,敏捷化风险决策、风险处罚。

简单来说,场景化风控解决方案其实就是让模型负责风险特征,让模型做最专长的事情,而不是解决偏业务风险决策的问题。严选是把整个识别和产品应用做了解耦,将业务的风险场景交给场景化风险运营来解决,通过这样的风险精细化运营方式来替代大而全的风险方案。

场景化解决方案的最大优势在于,针对单独业务域场景或特殊化的场景,都可以快速进行风险配置,敏捷的风险输出。

在现有风险识别能力覆盖的范围内,我们可以进行风险管理,但对于识别能力之外的未知风险,又该如何处理?所以严选在三个风险方案的基础上,又增加了一个自动风险发现。通过实时风险审核监测,发现现有的风险体系,不论是专家模型、算法模型还是场景化解决方案的盲点。

这个方案已经上了第一个版本,在实际应用中也产生了业务效果,发现了之前的几种模型没覆盖到一些风险场景和风险手法。不过,严选自动风险发现和之前林博士分享的智能风险解决方案还不太一样,严选的方案偏业务一点,应用在现有的风险识别体系,基于风险水位LSTM模型输出黑样本,通过现有的专家模型、算法模型做二次训练,最终实现整体风险识别能力迭代向上提升。

bde84424222fb0b877986832da730174.png

上面这张图是严选风控总监2017年画的,很好地表达了严选风控一直以来的风险管控理念——护城河理念。通过严选整体的风控体系,希望能够将90%的风险阻拦在护城河防线,减轻整个城墙也就是事中风险管控的压力。这样事中风险管控就可以聚焦在实时风险监测上,包括实时业务模型、团伙风险模型等,并实现实时风险干预。在这两道防线的基础上,我们还配置了事后风险处置,比如事后客群连通图风险监测,犹豫期风险订单处置等。

这就是严选整体的护城河理念。

接下来和大家分享一下严选风控几个核心的技术。严选用到更多的是严选内容水平输出的一些数据的工具,基于这些数据工具和核心技术的基础上打造整体的风控体系,这里简单进行介绍。

一是ES数据统一存储,包括实现多源数据存储的问题,同时在ES层面实现统一存储,而且支持多维度快速检索。

二是风控实时模型,通过flink可实现实时计算引擎,通过风险标签库实现半自动化更新,同时还做了一个模型结果统一标签库。

三是超级规则引擎,包括接口\产品隔离,规则逻辑动态加载和drools规则容器。

四是频控计数核心,主要有redis大集群,异步计数+实时管控和可配置化时间窗口。

五是用户关系网络,基于graph embedding做用户关系网络,更多的发现商务间的账户的社群关系,都是基于用户分析网络核心技术以及服务上的输出。

三、关系网络的风控应用实践

图非常适用于风控的场景,而且是极其强有力的一种风控手段。如果把黑产比作电商领域的狼人或者吸血鬼,那图就是风控业务的银色子弹。

图实际上是点、边组合的一种结构,在应用的时候还会被称作知识图谱、复杂网络、关联网络等。知识图谱主要应用于自然语言处理的实体关系领域,复杂网络更适用于自适应和幂律分布的场景。例如新冠感染和风控业务中提到的图更偏向如何在复杂网络中寻找紧密关联的群体,也就是关联网络。

之所以说图天然适用于风控场景,是因为无论在什么领域,欺诈黑产和羊毛党等群体为了成本最小化,收入最大化,都会逐渐往团伙化的方向发展。

比如批量注册垃圾账号领取新人福利,复用终端设备等。黑产使用的信息节点越多,形成的图关联就更紧密。风控业务如果能利用好这些图所隐含的信息,不仅能识别单个对手,还能一锅端识别整个黑产或羊毛党群体。

在实际应用中,有效的图应用必须依赖于有效的图构建。

首先要结合业务确定合适的图需要包含什么类型的节点,边需要什么属性,是有向图还是无向图,节点和边的权重怎么迭代等。

cb53ac2da569f5332224b62295897d51.png

右下方的图就是严选在注册下单等环节需要考虑的一些点边关系。有的时候图的信息,包括安装节点的清洗,关系的底层数据梳理,会耗费大量的人力时间,同时还需要考虑更新的效率等。

构建好图以后,应用主要包括两个方面,第一是图查询。使用图数据库存储演变的关系进行查询会比常用的关系型数据库要快很多。例如可视化就是最直接的一种图查询的应用,可以呈现一个节点的联系人,查询的图指标既可以直接用于业务决策,也可以当作模型的输入变量。

第二是图计算,这里需要注意,图计算的数据不一定要使用图数据库存储,图计算主要包括常用的聚类算法,社区发现算法。图计算算法的核心思想是通过迭代策略,临近的节点聚成一群,或者把一个大题拆分成联系紧密的织图。

下面分享严选的图技术。

953f4414c9cf1a86e5032993202aefa9.png

如图所示,从底层数据采集到输出的服务应用包含了5层。首先数据采集包括实施的组单请求、静态数据表和底层风控日志。存储传输层包括三部分,包括Kafka、DataHub、Redis、HBase、Neo4j Hive。加工处理层是一些工具和开发语言,负责对数据进行加工和处理。模型分析层主要是基础应用方向,包括图计算、社区发现、图表示学习等,输出服务层就不需要多讲了。

接下来分享严选的应用案例。严选目前不仅实现了包含上一节点和关系的图的实时更新,并且在日常需要承载上万的实施图查询情况下,图谱的返回时效一直控制在毫秒级,即使在双11等情况下,也从未发生查询堆积、访问崩溃等事故,系统稳定性高达99.999%。

严选怎么做到的呢?严选采用的方式有两个要点,一个是更新和搜索同步进行,第二个是离线图计算去协助实时图搜索。

e3f588468eb8a0d50053822dbc819c30.png

图指标仅能反映团伙的规模,或者根据条件去细分团伙的组成情况,但还不算充分利用了图结构所隐藏的信息图,表示学习则是一种数字化去表示图的结构信息方法。严选利用了图表示方法做的一系列工作,比如无监督的学习到图里面每个用户的数字化向量,可直接应用到账户价值分子模型中。因为越相似的向量表示这些用户越详实,也可以作为有监督算法的实时特征输入到其他模型中,证明了这些图相关的变量可以实质性的提升模型效果。

最后展望一下神经网络。图表示学习学习的是图内各节点的数字表示,在同一个团伙里的账户具有相似的数字表示,而图神经网络学习的是整个图的结构,相似的团伙有相似的表示,这时候我们就可以去识别采用相似的作案手法,那是不同的团伙,也就是实现了从这团火到未知团伙的挖掘。

总而言之,不管算法怎么日新月异,风控不能忘记最核心的原则。如果图构建的不合理,或者图表式学习的东西没有用,那么直白的来讲,这种图是没有体现出他本来的价值的。

问答环节

1.规则是机器识别,还是机器混和人工?

苏跃:在严选,规则全部交给人工来进行配置,机器只是负责风险特征以及风险因子的输出。就像我前面讲的,风控的运营更多的是做策略性的事情,机器算法层更多的是给人工运营输出风险因子或者风险特征。

2.营销优惠券裂变场景中,怎么应对真人真机的众包薅羊毛?

苏跃:真人真机薅羊毛问题,确实是营销业务中一个很头疼的风险场景,我们用常规机器行为检测、还是云手机检测,都没办法解决这个问题。严选在营销裂变产品中也碰到了真人真机众包薅羊毛的问题。

我们是换了另外一个方式、思路来解决这个问题。第一,基于裂变关系我们做了一个传播关系网,分析正常人的裂变关系、众包裂变关系的差异,通过异常裂变传播关系的特征,定位出众包薅羊毛的裂变群体。针对这一群体的风险管控,严选采用了非阻拦的管控方式——裂变福利差异化,例如提高众包羊毛人群的优惠券使用门槛,改直减券为高满低减券,通过这种营销策略差异化的方式把整个场景的营销毛利率控制在正常范围。

3.风控是在业务前置好还是后置好?业务方希望风控前置,让风控挡在最前面,风控喜欢后置这样收集的信息更多。

苏跃:风控分为风控识别和风控处置,风控识别肯定是前置的,比如在领取优惠券、红包等的节点就部署风控识别,但我们整个风险处置都会在产生资损的节点才会进行用户干预,其实站在业务的角度也是风险前置识别。对于零售业务来说,只要风险识别或者风险账号甄别的准确率能够达到业务方的预期,其实这些都不是问题。

推荐阅读


京麒沙龙 | 京东安全博士林元晟:京东智能风险监测实战

c8ebb803aa0049d8b1d1fefef540f21c.gife2eef9c9a89668b08fe47869fd5db7e2.png

齐心抗疫 与你同在 8383c03f145ee7157c8356289f392464.png

064c49ce95c0cdba0710a558353d4635.png

点【在看】的人最好看e7411cf1e19dc95c051106280b4e4b0a.gif



推荐阅读
  • 马蜂窝数据总监分享:从数仓到数据中台,大数据演进技术选型最优解
    大家好,今天分享的议题主要包括几大内容:带大家回顾一下大数据在国内的发展,从传统数仓到当前数据中台的演进过程;我个人认为数 ... [详细]
  • Java开发实战讲解!字节跳动三场技术面+HR面
    二、回顾整理阿里面试题基本就这样了,还有一些零星的问题想不起来了,答案也整理出来了。自我介绍JVM如何加载一个类的过程,双亲委派模型中有 ... [详细]
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • 图解redis的持久化存储机制RDB和AOF的原理和优缺点
    本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件,恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘,实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点,帮助读者更好地理解redis的持久化存储策略。 ... [详细]
  • 一次上线事故,30岁+的程序员踩坑经验之谈
    本文主要介绍了一位30岁+的程序员在一次上线事故中踩坑的经验之谈。文章提到了在双十一活动期间,作为一个在线医疗项目,他们进行了优惠折扣活动的升级改造。然而,在上线前的最后一天,由于大量数据请求,导致部分接口出现问题。作者通过部署两台opentsdb来解决问题,但读数据的opentsdb仍然经常假死。作者只能查询最近24小时的数据。这次事故给他带来了很多教训和经验。 ... [详细]
  • 2021最新总结网易/腾讯/CVTE/字节面经分享(附答案解析)
    本文分享作者在2021年面试网易、腾讯、CVTE和字节等大型互联网企业的经历和问题,包括稳定性设计、数据库优化、分布式锁的设计等内容。同时提供了大厂最新面试真题笔记,并附带答案解析。 ... [详细]
  • 面试经验分享:华为面试四轮电话面试、一轮笔试、一轮主管视频面试、一轮hr视频面试
    最近有朋友去华为面试,面试经历包括四轮电话面试、一轮笔试、一轮主管视频面试、一轮hr视频面试。80%的人都在第一轮电话面试中失败,因为缺乏基础知识。面试问题涉及 ... [详细]
  • 你知道Kafka和Redis的各自优缺点吗?一文带你优化选择,不走弯路 ... [详细]
  • Hbase1.2.0cdh5.16.2使用PREFIX_TREE编码导致集群压缩队列异常
    Hbase1.X版本中PREFIX_TREE作为BlockEncoding存在bug,会造成RegionServer节点compactionqueue持续升高,甚至影响fl ... [详细]
  • 数据库进入全新时代,腾讯云发布五大数据库提前布局
    8月28日,腾讯云数据库在京正式启动战略升级,宣布未来将聚焦云原生、自治、超融合三大战略方向,以用户为中心,联接未来。并在现场面向全球用户同步发布五大战略级新品,包括数据库智能管家 ... [详细]
  • 数据库异常智能分析与诊断
    数据库,异常, ... [详细]
  • 开发笔记:大数据之布隆过滤器学习
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了大数据之布隆过滤器学习相关的知识,希望对你有一定的参考价值。 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • 本文介绍了Java工具类库Hutool,该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装,并提供了各种Util工具类。同时,还介绍了Hutool的组件,包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码,提高开发效率。 ... [详细]
  • 玩转直播系列之消息模块演进(3)
    一、背景即时消息(IM)系统是直播系统重要的组成部分,一个稳定的,有容错的,灵活的,支持高并发的消息模块是影响直播系统用户体验的重要因素。IM长连接服务在直播系统有发挥着举足轻重的 ... [详细]
author-avatar
懿子vae_742
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有