推荐系统系列1基于skipgram做推荐系统的想法

作者：明年夏天1314520 | 来源：互联网 | 2023-09-15 13:15

一、人工智能之自然语言处理自然语言处理（NaturalLanguageProcessing,NLP），是人工智能的分支科学，

一、人工智能之自然语言处理

自然语言处理&＃xff08;Natural Language Processing, NLP&＃xff09;&＃xff0c;是人工智能的分支科学&＃xff0c;意图是使计算机具备处理人类语言的能力。

“处理人类语言的能力”要达到什么效果呢&＃xff1f;举个例子&＃xff01;班主任问路班长&＃xff1a;“你能把粉笔递过来么&＃xff1f;”。这句话有两层意思&＃xff0c;第一层&＃xff1a;你能不能把粉笔递过来&＃xff1b;第二层&＃xff1a;把粉笔递过来。Get到第一层&＃xff0c;班长回答“能”&＃xff0c;Get到第二层意思&＃xff0c;班长递上粉笔。倘若班长仅回答了“能”&＃xff0c;情景略尴尬。

对于人类来说&＃xff0c;Get到两层意思没什么问题&＃xff0c;但是要计算机Get到第二层意思就不那么简单。因为人类语言囊括了许多主观意识&＃xff0c;是人从出生开始不断学习而形成的技能&＃xff0c;如果想要计算机达到这样的效果&＃xff0c;也需要有一个学习的过程。基于这样一个出发点&＃xff0c;自然语言处理应运而生。

二、自然语言处理之word2vec

计算机智能保存0、1这样的数据&＃xff0c;不会保存kitty、tom、jerry、舒克这样的文本&＃xff0c;那么该如何表达文本呢&＃xff1f;

1、 one-hot编码

又称独热编码、一位有效编码。直观来说就是有多少个状态就有多少比特&＃xff0c;而且只有一个比特为1&＃xff0c;其他全为0的一种码制&＃xff0c;如图一&＃xff1a;

kitty	1	0	0	0
tom	0	1	0	0
jerry	0	0	1	0
舒克	0	0	0	1

图一

举个例子&＃xff1a;我们用{1&＃xff0c;0&＃xff0c;0&＃xff0c;0}表示kitty&＃xff0c;用{0&＃xff0c;0&＃xff0c;0&＃xff0c;1}表示tom。这样kitty与tom之间的区分程度就可以用数学中的向量距离来表示。

但是one-hot有一个弊端&＃xff0c;就是表达方式太冗余&＃xff0c;仅仅利用了一个位置&＃xff0c;其他位置全部浪费了。上面4个单词用了4列&＃xff0c;其中3列为0&＃xff0c;如果有1000个单词&＃xff0c;那么就会有999列为0。因此需要一种更好的表达方式。

2、 Embeddings

是一组广泛应用于预测NLP建模的特征工程技术&＃xff0c;是比one-hot更有效率的一种表达方式&＃xff0c;如图二&＃xff1a;

	Cat	Mouse
kitty	0.8	0.2
tom	0.9	0.1
jerry	0.2	0.8
舒克	0.3	0.7

图二

我们使用Cat和Mouse两个特征&＃xff0c;kitty{0.8&＃xff0c;0.2}与tom{0.9&＃xff0c;0.1}之间的距离要小于kitty{0.8&＃xff0c;0.2}与jerry{0.2&＃xff0c;0.8}之间的距离&＃xff0c;与直观上的感受是一致的&＃xff0c;也可以达到区分的目的。而且空间占用相比于one-hot减小了一倍。

三、word2vec之skip-gram

首先我们要有一个直观的感受&＃xff0c;来看下面四个句子&＃xff1a;

1、武磊在西班牙足球甲级联赛打入首粒入球&＃xff1b;

2、武磊确认为西班牙人足球队本场比赛的首发&＃xff1b;

3、湖人5连胜&＃xff0c;詹姆斯三双再刷NBA历史纪录&＃xff1b;

4、詹姆斯又创NBA里程悲,湖人还有办法吗?

上面四个句子&＃xff0c;我们可以发现&＃xff1a;当“武磊”出现时&＃xff0c;大概率会出现“足球”、“西班牙”&＃xff0c; 小概率出现“NBA”&＃xff1b;当“詹姆斯”出现时&＃xff0c;大概率会出现“NBA”、“湖人”&＃xff0c;小概率出现“足球”。

上述问题可以换一种抽象的描述&＃xff1a;当X出现时&＃xff0c;Y1、Y2、Y3…Yn会以较大概率出现。Skip-Gram-Naïve-Softmax模型可以处理这种情况&＃xff0c;如图三&＃xff1a;

图三

假设我们的输入是最左边的one-hot-vector向量&＃xff0c;经过VxD维矩阵M1映射为1xD的Vc向量&＃xff0c;再经过DxV维矩阵M2映射&＃xff0c;最后经过SoftMax成为公式一

公式1

公式1可以用来用来表示的具体信息&＃xff0c;我们暂不讨论数学公式&＃xff0c;仅从直观上分析&＃xff1a;要找到一种情景S使公式1最大&＃xff0c;从而最有效的对矩阵M1、M2进行训练&＃xff08;参考神经网络相关知识&＃xff09;。

那么情景S如何选取呢&＃xff0c;Skip-gram将情景S定义为单词的上下文&＃xff0c;即距离目标单词Wi物理位置较近的Wi-1&＃xff0c;Wi&＃43;1等等。比如说本节的例子&＃xff0c;“武磊”附近大概率出现“足球”、“西班牙”&＃xff0c;“詹姆斯”附近大概率出现“NBA”、“湖人“。

通过符合情景S的训练集&＃xff0c;对图中的矩阵M1、M2进行训练&＃xff0c;就可以得的单词的Embeddings表示&＃xff0c;进而计算不同单词之间的距离。

代码实现、数据集&＃xff1a;https://github.com/dongguadan/recommender-system.git

查询单词&＃xff1a;kenya

相似度排名&＃xff1a;

Colonialism:0.71

Sheeny:0.67

Score:0.65

Religious:0.64

Estereotyped:0.64

Africa:0.63

Maputo:0.63

Jodorowsky:0.61

Tankjacking:0.61

Cambodia:0.61

图四

四、Skip-gram应用于推荐系统

上面的数据集是基于影视评论的统计&＃xff0c;通过计算于目标单词相似度最近的单词&＃xff0c;可以找到与评论者近似的评论&＃xff0c;进而对评论者的兴趣进行评估、做友好推荐。

五、参考

https://github.com/DSKSD/DeepNLP-models-Pytorch

https://www.jianshu.com/p/8e291e4ba0da

转:https://www.cnblogs.com/dongguadan/p/10505600.html

推荐阅读

io
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
range
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
python
2019年斯坦福大学CS224n课程笔记：深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析

本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理（NLP）领域的应用，重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析，深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]

蜡笔小新 2024-10-29 10:37:07
import
自然语言处理(NLP)——LDA模型:对电商购物评论进行情感分析

目录一、2020数学建模美赛C题简介需求评价内容提供数据二、解题思路三、LDA简介四、代码实现1.数据预处理1.1剔除无用信息1.1.1剔除掉不需要的列1.1.2找出无效评论并剔除 ... [详细]

蜡笔小新 2024-11-14 18:21:21
split
pytorch(一)：torch构建数据集并训练一个神经网络

目录预备知识导包构建数据集神经网络结构训练测试精度可视化计算模型精度损失可视化输出网络结构信息训练神经网络定义参数载入数据载入神经网络结构、损失及优化训练及测试损失、精度可视化qu ... [详细]

蜡笔小新 2024-11-14 13:06:38
php
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12
chat
2018年热门趋势：轻松几步构建高效智能聊天机器人

2018年，构建高效智能聊天机器人的简易步骤成为行业焦点。作为AI领域的关键应用，聊天机器人不仅被视为企业市场智能化转型的重要工具，也是技术变现的主要途径之一。随着自然语言处理技术的不断进步，越来越多的企业开始重视并投资于这一领域，以期通过聊天机器人提升客户服务体验和运营效率。 ... [详细]

蜡笔小新 2024-10-28 12:59:49
split
在Matlab中自主构建与仿真神经网络模型 - Building and Simulating Neural Network Models Independently in Matlab

在Matlab中，我尝试构建了一个神经网络模型，用于预测函数 y = x^2。为此，我设计并实现了一个拟合神经网络，并对其进行了详细的仿真和验证。通过调整网络结构和参数，成功实现了对目标函数的准确估计。此外，还对模型的性能进行了全面评估，确保其在不同输入条件下的稳定性和可靠性。 ... [详细]

蜡笔小新 2024-10-27 11:21:21
split
复旦大学自然语言处理学习案例：中文词汇分割技术解析

本文通过复旦大学自然语言处理课程中的一个具体案例，详细解析了中文词汇分割技术的实现方法。该案例利用Java编程语言，结合词典和算法模型，展示了如何高效地进行中文文本的词汇分割，为相关研究和应用提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-10-25 16:52:41
int
第三届人工智能、网络与信息技术国际学术会议（AINIT 2022)

20223rdInternationalSeminaronArtificialIntelligence,NetworkingandInformationTechnology第三届 ... [详细]

蜡笔小新 2024-10-21 09:26:13
python
python绘制拟合回归散点图_机器学习之利用Python进行简单线性回归分析

前言：在利用机器学习方法进行数据分析时经常要了解变量的相关性，有时还需要对变量进行回归分析。本文首先对人工智能机器学习深度学习、相关分析因果分析回归分析 ... [详细]

蜡笔小新 2024-10-15 16:59:18
python
中文分词_中文分词技术小结几大分词引擎的介绍与比较

篇首语：本文由编程笔记#小编为大家整理，主要介绍了中文分词技术小结几大分词引擎的介绍与比较相关的知识，希望对你有一定的参考价值。笔者想说：觉得英文与中文分词有很大的区别， ... [详细]

蜡笔小新 2024-10-13 12:29:25
chat
pytorch（网络模型训练）

上一篇目录标题网络模型训练小插曲训练模型数据训练GPU训练第一种方式方式二：查看GPU信息完整模型验证网络模型训练小插曲区别importtorchatorch ... [详细]

蜡笔小新 2024-10-13 11:08:13
chat
优化Hadoop 2.7.2源代码以支持Snappy压缩和解压功能的Native编译

为了在Hadoop 2.7.2中实现对Snappy压缩和解压功能的原生支持，本文详细介绍了如何重新编译Hadoop源代码，并优化其Native编译过程。通过这一优化，可以显著提升数据处理的效率和性能。此外，还探讨了编译过程中可能遇到的问题及其解决方案，为用户提供了一套完整的操作指南。 ... [详细]

蜡笔小新 2024-11-09 19:45:36
python
PyTorch常见预训练模型的下载链接及使用指南

本文提供了PyTorch框架中常用的预训练模型的下载链接及详细使用指南，涵盖ResNet、Inception、DenseNet、AlexNet、VGGNet等六大分类模型。每种模型的预训练参数均经过精心调优，适用于多种计算机视觉任务。文章不仅介绍了模型的下载方式，还详细说明了如何在实际项目中高效地加载和使用这些模型，为开发者提供全面的技术支持。 ... [详细]

蜡笔小新 2024-10-27 13:57:42

明年夏天1314520

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章