当前位置: 开发笔记 > 大数据 > 正文

深度学习用户画像_一文告诉你什么是用户画像

作者：书友8649571 | 来源：互联网 | 2023-09-04 23:01

什么是用户画像用户画像，英文又叫UserProfile，我们经常看到在PPT中展现出高大上的用户画像，展现的方式是采用标签云的方式绘制一个

什么是用户画像

用户画像&＃xff0c;英文又叫 User Profile&＃xff0c;我们经常看到在 PPT 中展现出高大上的用户画像&＃xff0c;展现的方式是采用标签云的方式绘制一个人的形状&＃xff0c;或者在一个人物形象旁边列出若干人口统计学属性&＃xff0c;以此来表达“用户画像”这个概念。

上面这种方式看上去非常炫酷&＃xff0c;但实际上这么做的目的只是为了对外展现&＃xff0c;用户画像最应该是给机器看&＃xff0c;而不是给人看。如果要给机器看&＃xff0c;那每个用户的画像应该就是一个向量。

用户向量化后的结果&＃xff0c;就是 User Profile&＃xff0c;俗称“用户画像”。所以&＃xff0c;用户画像不是推荐系统的目的&＃xff0c;而是在构建推荐系统的过程中产生的一个关键环节的副产品。

通常大型推荐系统一般都分为召回和排序两个阶段&＃xff0c;因为全量物品通常数量非常大&＃xff0c;无法为一个用户(User)逐一计算每一个物品(Item)的评分&＃xff0c;这时候就需要一个召回阶段&＃xff0c;其实就是预先筛选一部分物品(Item)&＃xff0c;从而降低计算量&＃xff0c;用户画像除了用于最终匹配评分&＃xff0c;还要用在召回。所以&＃xff0c;构建用户画像就要以这两个阶段为目的。

用户画像关键因素

建立用户画像有两个关键点&＃xff0c;一个是维度&＃xff0c;另一个是量化。这里举个简单的例子来说明下。比如有以下几家旅店&＃xff0c;旅店的属性(标签)如下:

名称价格环境距离A100/晚中5km

B200/晚优2km

C150/晚差10km

D150/晚优1km

对价格、环境、距离分别映射一个评分。假定都分为三个级别&＃xff0c;价格越低评分越高&＃xff0c;环境越好评分越高&＃xff0c;距离越近评分越高&＃xff0c;那么映射后的结果如下&＃xff1a;

名称价格环境距离A322

B133

C211

D233

映射后生成旅店的特征矩阵(维度矩阵)&＃xff0c;每个旅店都对应一个向量&＃xff0c;比如旅店A对应的向量就是 [1, 2, 2]。接下来需要对人也映射一个向量&＃xff0c;映射方法就是看你多在意这几个因素&＃xff0c;比如我对价格不敏感(不缺钱)&＃xff0c;但是非常在意环境和距离&＃xff0c;那我这个人对应的向量就是[1, 3, 3]。然后将物品的矩阵与人的向量相乘&＃xff0c;得到这个人对每个物品的评分。

可以看到&＃xff0c;最后会有一个评分列表&＃xff0c;分别表示我对每个旅店的预估评分。了解了上面的例子后&＃xff0c;再来看下用户画像中关键的两个因素&＃xff1a;维度和量化。

上面例子中选择的维度分别是&＃xff1a;价格、环境、距离。这几个维度有以下几个特点&＃xff1a;维度名称都是可解释的

维度的数量是拍脑袋拍出来的

选择什么维度也是拍脑袋拍出来的

在实际生产环境中&＃xff0c;维度名称并不一定需要由可解释性&＃xff0c;维度数量以及选择什么维度也不应该都以主观意愿来决定。

再来看下量化&＃xff0c;实际生产环境中&＃xff0c;用户画像每个维度的量化&＃xff0c;应该交给机器&＃xff0c;而且以目标为导向&＃xff0c;以推荐效果好坏来反向优化出用户画像才有意义。像前面的例子中的先行主观量化而不考虑推荐效果时非常不合理的。

所以用户画像的量化是和第三个关键元素“效果”息息相关的。前面已经说过&＃xff0c;不要为了用户画像而用户画像&＃xff0c;它只是推荐系统的一个副产品&＃xff0c;所以要根据使用效果(排序好坏、召回覆盖等指标)来指导用户画像的量化。

用户画像构建方法

按照对用户向量化的手段来分&＃xff0c;用户画像构建方法分成三类&＃xff1a;

1. 查户口

查户口的意思就是说直接使用原始数据作为用户画像&＃xff0c;比如注册资料中包含的人口统计学信息&＃xff0c;或者浏览历史、购买历史&＃xff0c;除了数据清洗等工作外&＃xff0c;数据本身没有做任何抽象和处理。通常对于用户冷启动等场景非常有用。

2. 堆数据

堆数据的意思就是说从历史数据中统计过出需要的结果&＃xff0c;常见的兴趣标签就属于这类&＃xff1a;从历史行为数据中去挖掘出标签&＃xff0c;然后在标签维度上做数据统计&＃xff0c;用统计结果作为量化结果。一般非常炫酷的用户画像都是通过这种方法制作的。

3. 黑盒子

黑盒子的意思是说使用机器学习方法&＃xff0c;学习出人类无法直观理解的稠密向量&＃xff0c;也最不被非技术人员重视&＃xff0c;但实际上在推荐系统中承担的作用非常大。

比如使用潜语义模型构建用户阅读兴趣&＃xff0c;或者使用矩阵分解得到的隐因子&＃xff0c;或者使用深度学习模型学习用户的 Embedding 向量。这一类用户画像数据因为通常是不可解释&＃xff0c;不能直接被人看懂。

总结

用户画像应该是让机器看的&＃xff0c;所以就需要是一种结构化的数据&＃xff0c;可以认为是用户信息的向量化结果。用户画像的关键元素有维度和量化&＃xff0c;量化时需要以推荐系统的效果为指导。通常构建用户画像的方法有三种&＃xff1a;采用原始信息(查户口)、使用统计结果(可被理解)、使用机器学习方法(无法被人理解&＃xff0c;但是很重要)。

推荐阅读

机器学习
Python张量流中的device spec make_merged_spec()方法使用说明

本文介绍了在Python张量流中使用make_merged_spec()方法合并设备规格对象的方法和语法，以及参数和返回值的说明，并提供了一个示例代码。 ... [详细]

蜡笔小新 2023-12-11 12:15:19
机器学习
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
数据分析
揭秘阿里云WAF背后神秘的AI智能防御体系

背景应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]

蜡笔小新 2023-12-11 01:30:52
数据分析
建立分类感知器二元模型对样本数据进行分类

本文介绍了建立分类感知器二元模型对样本数据进行分类的方法。通过建立线性模型，使用最小二乘、Logistic回归等方法进行建模，考虑到可能性的大小等因素。通过极大似然估计求得分类器的参数，使用牛顿-拉菲森迭代方法求解方程组。同时介绍了梯度上升算法和牛顿迭代的收敛速度比较。最后给出了公式法和logistic regression的实现示例。 ... [详细]

蜡笔小新 2023-12-09 10:22:15
数据分析
【论文】ICLR 2020 九篇满分论文！！！

点击上方，选择星标或置顶，每天给你送干货！阅读大概需要11分钟跟随小博主，每天进步一丢丢来自：深度学习技术前沿 ... [详细]

蜡笔小新 2023-10-17 18:45:53
数据分析
老牌医药收割AI红利：先投个15亿美元抢中国人才

萧箫发自凹非寺量子位报道|公众号QbitAI没想到，一场大会把我的“刻板印象”攻破了。2021世界人工智能大会现场，能看见不少熟悉的身影， ... [详细]

蜡笔小新 2023-10-17 17:40:25
数据分析
python打卡记录去重_Python零基础学习笔记与记录之一（了解Python这个小伙伴）

本人学习笔记，知识点均摘自于网络，用于学习和交流(如未注明出处，请提醒，将及时更正，谢谢)OS:我学习是为了上 ... [详细]

蜡笔小新 2023-10-17 16:05:58
数据分析
人工智能推理能力与假设检验

最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发，逻辑推理，发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]

蜡笔小新 2023-10-17 10:01:37
数据分析
2017亚马逊人工智能奖公布：他们的AI有什么不同？

事实上，在我们周围，“人工智能”让一切都变得更“智能”极具讽刺意味。随着人类与机器智能之间的界限变得模糊，我们的世界正在变成一个机器 ... [详细]

蜡笔小新 2023-10-16 19:50:15
数据分析
Two Sigma人均22万英镑~

近期原创文章： ... [详细]

蜡笔小新 2023-10-16 14:54:24
数据分析
三元组法矩阵加法java_机器学习第三章：矩阵(含有笔记)

目录：一、矩阵的维度二、矩阵元素表示方法三、列向量索引方法四、矩阵的加法五、矩阵乘除加减基本运算六、矩阵乘法七、利用矩阵计算八、矩阵与矩阵相乘九、矩阵相乘不符合交换律 ... [详细]

蜡笔小新 2023-12-13 17:24:39
数据分析
分享2款网站程序源码/主题等后门检测工具

本文介绍了2款用于检测网站程序源码和主题中是否存在后门的工具，分别是WebShellkiller和D盾_Web查杀。WebShellkiller是一款支持webshell和暗链扫描的工具，采用多重检测引擎和智能检测模型，能够更精准地检测出已知和未知的后门文件。D盾_Web查杀则使用自行研发的代码分析引擎，能够分析更为隐藏的WebShell后门行为。 ... [详细]

蜡笔小新 2023-12-13 09:10:23
数据分析
【机器学习手册】日期和时区操作的重要性及应用

本文介绍了机器学习手册中关于日期和时区操作的重要性以及其在实际应用中的作用。文章以一个故事为背景，描述了学童们面对老先生的教导时的反应，以及上官如在这个过程中的表现。同时，文章也提到了顾慎为对上官如的恨意以及他们之间的矛盾源于早年的结局。最后，文章强调了日期和时区操作在机器学习中的重要性，并指出了其在实际应用中的作用和意义。 ... [详细]

蜡笔小新 2023-12-12 17:40:14
数据分析
词袋模型的通俗介绍

词,袋, ... [详细]

蜡笔小新 2023-12-12 08:20:03
数据分析
绕过WAF的XSS检测机制及构建XSS payload的方法

本文介绍了绕过WAF的XSS检测机制的方法，包括确定payload结构、测试和混淆。同时提出了一种构建XSS payload的方法，该payload与安全机制使用的正则表达式不匹配。通过清理用户输入、转义输出、使用文档对象模型（DOM）接收器和源、实施适当的跨域资源共享（CORS）策略和其他安全策略，可以有效阻止XSS漏洞。但是，WAF或自定义过滤器仍然被广泛使用来增加安全性。本文的方法可以绕过这种安全机制，构建与正则表达式不匹配的XSS payload。 ... [详细]

蜡笔小新 2023-12-11 19:42:30

书友8649571

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章