热门标签 | HotTags
当前位置:  开发笔记 > 人工智能 > 正文

谁是狼人:模型的建立与应用

相信很多小伙伴们都玩过狼人杀的游戏,今天,作者将从狼人杀这款游戏出发,来和大家一起谈讨下数据与模型。

相信很多小伙伴们都玩过狼人杀的游戏,今天,作者将从狼人杀这款游戏出发,来和大家一起谈讨下数据与模型。

谁是狼人:模型的建立与应用

数据挖掘1:谁是狼人

玩过狼人杀的小伙伴们知道,狼人杀的魅力就是妥善利用各种信息,并加以推断,找到狼人玩家。对于新手而言,拿到狼人牌后,多半会显得紧张、结巴、语无伦次,甚至直接会在话语中暴露出狼人身份,坐实狼人身份。

而高玩在拿到狼人牌时,会很好隐藏自己身份,使得普通玩家难以判断。那么问题来了,谁是狼人?

谁是狼人:模型的建立与应用

现实中,这样的“狼人”并不少见。

在信贷场景下,借贷者借钱后可能会恶意逾期不还,成为一个“狼人”。

“引狼入室”是借贷机构所不愿见到的,因此他们也想出了一些办法来识别借贷者的身份,比如人工验证借贷者的学历、收入、征信等信息。一段时间后,机构开始顶不住了,借钱的人太多了,审核不过来。而且由于审核方式单一,很多“狼人”巧妙利用各种方式通过审核,继续坑钱。

虽然一定程度上可以对审核规则进行更新,但“狼人”总能找到新的缺口,通过审核。这可愁坏了借贷机构,这造成的损失谁顶得住啊!

模型本质2:机器学习

不过,再会玩的狼人都会在言行上透露出狼人的本质。他们一言一行中总会给出细微但有价值的信息,积少成多,最终帮助我们揪出他的狼尾巴。只是,我们如何利用好这些信息呢?

谁是狼人:模型的建立与应用

随着大数据的崛起和机器学习的应用,借贷场景下的“狼人”开始无所遁形,我们可以掌握其更多维度的信息,帮助我们去判断借贷者的好坏身份,比如app安装偏好、地理位置等信息。

然后合理的运用机器学习建模方法,就可以将这些信息妥善利用起来,让“狼人”露出原形。这可乐坏了借贷机构,终于有解决办法啦!

模型3:逻辑与统计的胜利

狼人杀本就是个逻辑推理游戏,需要参与者能够准确抓住那些有助于我们判断的信息,并理性、客观地分析,最后找到狼人。只有这样,我们才能锻炼出“神预言家”的能力,并在不同对局中,都能准确找到“狼人”。

谁是狼人:模型的建立与应用

模型的运作就像一个机械化工厂,不同于人工审核(手工作坊)的方式,它更精密、准确,面对海量、多维度、弱特征的信息(如网络行为特征、地理信息等)时,仍可以高效率完成判别,大大提高工作效率,并且保证质量。

模型基础之一4:数据

纸上得来终觉浅,绝知此事要躬行,光知道玩法是不行的。

要想成为狼人杀推理高手,最重要的就是多玩、多分析。一方面,要进行大量对局,加深我们对狼人杀游戏玩法的理解;另一方面,也要和不同的人对局,获得足够多的玩家信息,便于我们了解玩家。

谁是狼人:模型的建立与应用

同样的,模型再好也需要数据支撑,数据的好坏是决定模型效果的最重要一环。一般情况下,对于已有的海量数据,我们都需要进行处理,如填补变量缺失值、组合变量、衍生变量等。

1. 特征筛选

由于狼人杀局内信息繁多,我们只需要挑选比较有价值的信息进行分析,场外信息和无关信息需要过滤,否则会降低我们分析的严谨性和可信度,从而不被其他玩家信任,这对于自诩“高玩”的我们肯定是太不能接受了。

谁是狼人:模型的建立与应用

游戏尚且如此,建模就更不能马虎了。建模中,必须要对样本特征进行严格的筛选,把对业务上有解释意义的变量纳入模型。

否则,面对你的建模结果,别人会一脸渴(meng)求(bi)地问:身高怎么就对一个人的逾期率产生了影响?实际操作中,我们会对诸如手机号、设备所在经纬度这样的变量进行剔除,选择个人兴趣偏好、多头得分等有解释意义的变量进入模型。

2. 样本与标签选择

苦练之下,终有所成,我们的狼人杀技术已经相当厉害了。正准备一展才华时,才发现他们要玩斗地主。慌乱之下,被地主打的落花流水,郁闷难当。

总结经验,就是先明确要玩什么,再去做准备。

谁是狼人:模型的建立与应用

建模也是一样。我们的建模是基于信贷场景下的。并且,根据不同的业务需求,建模所需准备也不同。对于贷前、贷中和贷后三个场景,我们对于“狼人”的定义和认知也是不同的。

贷前阶段,我们不知道借贷者是否是“狼人”,只是用模型去判断他的身份,避免“引狼入室”,但总会有遗漏;贷中和贷后阶段,我们发现了那些溜进来的“狼人”,这时,就需要对他们坏的程度进行确定,以采取进一步的手段和措施。

这里,发现“狼人”和判断“狼人”有多坏需要用到不同维度的信息,这就要求在建模中要选择同业务需求相一致的样本数据。

模型基础之二5:算法

终于,我们愉快的进行了几场狼人杀游戏。并且发现,每个人的思考逻辑、分析角度都不太一样。有的人只根据当前轮次的发言进行分析,有的人则倾向于将多轮次的发言综合起来分析,也有人选择划水,使得分析的结果也各不相同。

谁是狼人:模型的建立与应用

面对同样的业务需求,我们也可采用不同的建模方法。当然,不同建模方法之间互有优劣,具体如何采用,需要结合实际,妥善选择。信贷建模最为常用的当属LR,但其在大数据应用方面稍显逊色。实际中,我们更倾向于使用GBDT进行建模。

模型评估6:谁是“神预言家”

愉快的时光总是短暂的,游戏结束了。但这是否是几场高质量的对局?谁会是那个“神预言家”?

一般而言,需要通过多次对局、甚至和不同玩家多次对局才能判断玩家的推断能力。该玩家在某局推测的准确性多高?是否在不同局中都能保持这样的准确率?

谁是狼人:模型的建立与应用

模型完成后,也需要验证其准确性和稳定性,看它在其他样本(测试集、跨时间窗口样本)上的效果是否准确、稳定。

如果效果不好,则需要考虑重新调整样本(变量再筛选、再组合等)、模型参数,直到模型表现好为止。很多时候,这并不是一蹴而就的事,需要多次反复进行。

模型之痛7:巧妇难为无米之炊

经过废寝忘食的练习,我们终于成为了狼人杀高手。本以为会在游戏中练就火眼金睛,铲除狼人,带领队友走向胜利,却发现,己方全是“猪队友”,身为平民的我,无法获取足够信息,导致判断失误,痛输对局。或许此时,我们已经不能再玩低端局了。

虽然我们可能对建模方法的使用了如指掌,但没有足够有效的数据,我们也很难训练出一个好的模型。当前虽然是大数据时代,但对于很多小微企业、甚至很多大企业而言,如何获得数据都是他们所无法解决的痛点,即便掌握优秀的建模技能,但缺乏数据验证,也难以做出好的模型。

题图来自 Unsplash,基于CC0协议。


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 我们


推荐阅读
  • 数据结构与算法的重要性及基本概念、存储结构和算法分析
    数据结构与算法在编程领域中的重要性不可忽视,无论从事何种岗位,都需要掌握数据结构和算法。本文介绍了数据结构与算法的基本概念、存储结构和算法分析。其中包括线性结构、树结构、图结构、栈、队列、串、查找、排序等内容。此外,还介绍了图论算法、贪婪算法、分治算法、动态规划、随机化算法和回溯算法等高级数据结构和算法。掌握这些知识对于提高编程能力、解决问题具有重要意义。 ... [详细]
  • Python入门后,想要从事自由职业可以做哪方面工作?1.爬虫很多人入门Python的必修课之一就是web开发和爬虫。但是这两项想要赚钱的话 ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • 本文详细介绍了商汤科技面试中涉及的CV算法面经内容,包括CornerNet的介绍与CornerPooling的解决方案、Mimic知识蒸馏的实现方式、MobileNet的特点、普通卷积和DW PW卷积的计算量推导、Residual结构的来源等。同时还讨论了在人脸关键点和检测中的mimic实现方式、pose对人脸关键点的提升作用、目标检测中可能遇到的问题以及处理检测类别冲突的方法。此外,还涉及了对机器学习的了解程度和相似度分析的问题。 ... [详细]
  • GPT-3发布,动动手指就能自动生成代码的神器来了!
    近日,OpenAI发布了最新的NLP模型GPT-3,该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB,参数个数高达1750亿,训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站,用户只需用英语描述需求,前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年,OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型,在限定条件下以2:0完胜人类冠军。 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 建立分类感知器二元模型对样本数据进行分类
    本文介绍了建立分类感知器二元模型对样本数据进行分类的方法。通过建立线性模型,使用最小二乘、Logistic回归等方法进行建模,考虑到可能性的大小等因素。通过极大似然估计求得分类器的参数,使用牛顿-拉菲森迭代方法求解方程组。同时介绍了梯度上升算法和牛顿迭代的收敛速度比较。最后给出了公式法和logistic regression的实现示例。 ... [详细]
  • 前言:拿到一个案例,去分析:它该是做分类还是做回归,哪部分该做分类,哪部分该做回归,哪部分该做优化,它们的目标值分别是什么。再挑影响因素,哪些和分类有关的影响因素,哪些和回归有关的 ... [详细]
  • cs231n Lecture 3 线性分类笔记(一)
    内容列表线性分类器简介线性评分函数阐明线性分类器损失函数多类SVMSoftmax分类器SVM和Softmax的比较基于Web的可交互线性分类器原型小结注:中文翻译 ... [详细]
  • PRML读书会第十四章 Combining Models(committees,Boosting,AdaBoost,决策树,条件混合模型)...
    主讲人网神(新浪微博:豆角茄子麻酱凉面)网神(66707180)18:57:18大家好,今天我们讲一下第14章combiningmodel ... [详细]
  • 支持向量机训练集多少个_25道题检测你对支持向量机算法的掌握程度
    介绍在我们学习机器算法的时候,可以将机器学习算法视为包含刀枪剑戟斧钺钩叉的一个军械库。你可以使用各种各样的兵器,但你要明白这些兵器是需要在合适的时间合理 ... [详细]
  • plt python 画直线_机器学习干货,一步一步通过Python实现梯度下降的学习
    GradientDescent-梯度下降梯度下降法(英语:Gradientdescent)是一个一阶最优化算法,通常也称为最速下降法。要使用梯度下降法找 ... [详细]
  • 人工智能推理能力与假设检验
    最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发,逻辑推理,发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]
  • 马尔可夫决策过程Markov Decision Process,MDPKintoki
    Originalurl:http:www.tuicool.comarticlesb6BjAva1.马尔可夫模型的几类子模型我想大家一定听说过马尔科夫链(MarkovChain)& ... [详细]
  • 机器学习——KMeans算法
    相似度或距离假设有$m$个样本,每个样本由$n$个属性的特征向量组成,样本合集可以用矩阵$X$表示$X[x_{ij}]_{mn}\begin{bmatrix}x_{11}& ... [详细]
author-avatar
陈佩儒61473
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有