当前位置: 开发笔记 > 后端 > 正文

推荐系统中的矩阵压缩

作者：睡眠女孩在外面的世界_988 | 来源：互联网 | 2023-06-05 10:50

推荐系统中存在大量的数据稀疏的情况。比如有几亿用户，几千万的商品。他们的交互数据可以用一个巨大的矩阵来表示。直接保存这么大的矩阵，是不现实的。在这个大大矩阵中，绝大部分都是零值。而

推荐系统中存在大量的数据稀疏的情况。

比如有几亿用户，几千万的商品。他们的交互数据可以用一个巨大的矩阵来表示。

直接保存这么大的矩阵，是不现实的。

在这个大大矩阵中，绝大部分都是零值。

而我们需要数据为矩阵中的非零值和非零值所在的位置，此时，我们就用到了的矩阵压缩技术。

scipy提供相应的api。

矩阵压缩可以大致分为三类：

1. 直接保存行，列，data

coo_matrix:    #稀疏矩阵存储方法一

row = np.array([0, 3, 1, 0])

col = np.array([0, 3, 1, 2])

data = np.array([4, 5, 7, 9])

coo_matrix((data, (row, col)), shape=(4, 4)).toarray()
array([[4, 0, 9, 0],

        [0, 7, 0, 0],

        [0, 0, 0, 0],

        [0, 0, 0, 5]])
最容易理解的稀疏矩阵压缩方式，row保存数据所在行，col 保存数据所在列。data为数据

2. 按行压缩

csr_matrix:    #矩阵压缩之二

indptr = np.array([0, 2, 3, 6])

indices = np.array([0, 2, 2, 0, 1, 2])

data = np.array([1, 2, 3, 4, 5, 6])

sparse.csr_matrix((data, indices, indptr), shape=(3, 3)).toarray()

array([[1, 0, 2],

       [0, 0, 3],

       [4, 5, 6]])

# 按row行来压缩

# 对于第i行，非0数据列是indices[indptr[i]:indptr[i+1]] 数据是data[indptr[i]:indptr[i+1]]

# 在本例中

# 第0行，有非0的数据列是indices[indptr[0]:indptr[1]] = indices[0:2] = [0,2]

# 数据是data[indptr[0]:indptr[1]] = data[0:2] = [1,2],所以在第0行第0列是1，第2列是2

# 第1行，有非0的数据列是indices[indptr[1]:indptr[2]] = indices[2:3] = [2]

# 数据是data[indptr[1]:indptr[2] = data[2:3] = [3],所以在第1行第2列是3

# 第2行，有非0的数据列是indices[indptr[2]:indptr[3]] = indices[3:6] = [0,1,2]

# 数据是data[indptr[2]:indptr[3]] = data[3:6] = [4,5,6],所以在第2行第0列是4，第1列是5,第2列是6

3. 按列压缩

csc_matrix: #稀疏矩阵存储方法三

indices = np.array([0, 2, 2, 0, 1, 2])

data = np.array([1, 2, 3, 4, 5, 6])

csc_matrix((data, indices, indptr), shape=(3, 3)).toarray()

array([[1, 0, 4],

[0, 0, 5],

[2, 3, 6]])

推荐阅读

api
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
static
Handling Null Object Encoding in OAuth 1.0a API Implementation

Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]

蜡笔小新 2024-12-28 08:54:34
api
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
static
Java 中的 BigDecimal pow()方法，示例

Java 中的 BigDecimal pow()方法，示例 ... [详细]

蜡笔小新 2024-12-27 20:54:03
mysql
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
api
c# – UWP：BrightnessOverride StartOverride逻辑

c# – UWP：BrightnessOverride StartOverride逻辑 ... [详细]

蜡笔小新 2024-12-27 16:56:40
static
使用 Azure Service Principal 和 Microsoft Graph API 获取 AAD 用户列表

本文介绍了一段通用代码示例，该代码不仅能够操作 Azure Active Directory (AAD)，还可以通过 Azure Service Principal 的授权访问和管理 Azure 订阅资源。Azure 的架构可以分为两个层级：AAD 和 Subscription。 ... [详细]

蜡笔小新 2024-12-27 16:07:12
java
macOS系统及其关键功能解析

本文详细介绍了macOS系统的核心组件，包括如何管理其安全特性——系统完整性保护（SIP），并探讨了不同版本的更新亮点。对于使用macOS系统的用户来说，了解这些信息有助于更好地管理和优化系统性能。 ... [详细]

蜡笔小新 2024-12-26 18:05:04
api
Google Clips智能相机悄然上市：自动捕捉生活中的珍贵瞬间

Google最新推出的嵌入AI技术的便携式相机Clips现已上架，旨在通过人工智能技术自动捕捉用户生活中值得纪念的时刻，帮助人们减少照片数量过多的问题。 ... [详细]

蜡笔小新 2024-12-26 17:26:09
java
使用Python在SAE上开发新浪微博应用的初步探索

最近重新审视了新浪云平台（SAE）提供的服务，发现其已支持Python开发。本文将详细介绍如何利用Django框架构建一个简单的新浪微博应用，并分享开发过程中的关键步骤。 ... [详细]

蜡笔小新 2024-12-26 13:36:52
api
基于双Xilinx Kintex-7 FPGA的高性能6U VPX存储板

VPX611是北京青翼科技推出的一款采用6U VPX架构的高性能数据存储板。该板卡搭载两片Xilinx Kintex-7系列FPGA作为主控单元，内置RAID控制器，支持多达8个mSATA盘，最大存储容量可达8TB，持续写入带宽高达3.2GB/s。 ... [详细]

蜡笔小新 2024-12-26 11:41:58
java
libsodium 1.0.15 发布：引入重大不兼容更新

最新发布的 libsodium 1.0.15 版本带来了若干不兼容的变更，其中包括默认密码散列算法的更改和其他重要调整。 ... [详细]

蜡笔小新 2024-12-26 11:03:58
正则
精选Python视频教程：来自国际顶尖讲师的全面指南（附中文字幕）

本文将介绍由密歇根大学Charles Severance教授主讲的顶级Python入门系列课程，该课程广受好评，被誉为Python学习的最佳选择。通过生动有趣的教学方式，帮助初学者轻松掌握编程基础。 ... [详细]

蜡笔小新 2024-12-27 15:14:33
static
Java 序列化接口详解

本文深入探讨了 Java 中的 Serializable 接口，解释了其实现机制、用途及注意事项，帮助开发者更好地理解和使用序列化功能。 ... [详细]

蜡笔小新 2024-12-27 15:06:12
grpc
Akka BackoffSupervisor的深入解析与实践

本文详细介绍了Akka中的BackoffSupervisor机制，探讨其在处理持久化失败和Actor重启时的应用。通过具体示例，展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]

蜡笔小新 2024-12-27 15:04:09

睡眠女孩在外面的世界_988

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章