当前位置: 开发笔记 > 编程语言 > 正文

一篇关于机器学习中的稀疏矩阵的介绍

作者：宋文哲 | 来源：互联网 | 2023-07-15 18:49

教程概述本教程分为5部分;分别为:稀疏矩阵稀疏的问题机器学习中的稀疏矩阵处理稀疏矩阵在Python中稀疏矩阵稀疏矩阵稀疏矩阵是一个几乎由零值组成的矩阵。稀疏矩阵与大多数非零

教程概述

本教程分为5部分;分别为:

稀疏矩阵
稀疏的问题
机器学习中的稀疏矩阵
处理稀疏矩阵
在Python中稀疏矩阵

稀疏矩阵

稀疏矩阵是一个几乎由零值组成的矩阵。稀疏矩阵与大多数非零值的矩阵不同&＃xff0c;非零值的矩阵被称为稠密矩阵。

如果矩阵中的许多系数都为零&＃xff0c;那么该矩阵就是稀疏的。对稀疏现象有兴趣是因为它的开发可以带来巨大的计算节省&＃xff0c;并且在许多大的实践中都会出现矩阵稀疏的问题。

—第1页&＃xff0c;《稀疏矩阵的直接教学方法》&＃xff08;Direct Methods for Sparse Matrices&＃xff09;&＃xff0c;第二版&＃xff0c;2017年。

矩阵的稀疏性可以用一个得分来量化&＃xff0c;也就是矩阵中零值的个数除以矩阵中元素的总个数。

sparsity &＃61; count zero elements / total elements

下面是一个小的3×6稀疏矩阵的例子。

1, 0, 0, 1, 0, 0 A &＃61; (0, 0, 2, 0, 0, 1)0, 0, 0, 2, 0, 0

这个例子在矩阵中的18个元素中有13个零值&＃xff0c;这个矩阵的得分是0.722或约72%。

稀疏的问题

稀疏矩阵会导致空间复杂度和时间复杂度的问题。

空间复杂度
非常大的矩阵需要大量的内存&＃xff0c;而我们想要处理的一些非常大的矩阵是稀疏的。

在实践中&＃xff0c;大多数大型矩阵都是稀疏的——几乎所有的项都为零。

—第465页&＃xff0c;《线性代数介绍》&＃xff08;Introduction to Linear Algebra&＃xff09;&＃xff0c;第五版&＃xff0c;2016年。

一个非常大的矩阵的例子是&＃xff0c;因为它太大而不能存储在内存中&＃xff0c;这是一个显示从一个网站到另一个网站的链接的链接矩阵。一个更小的稀疏矩阵的例子可能是一个单词或术语的出现矩阵&＃xff0c;在一本书中与所有已知的英语单词对应。

在这两种情况下&＃xff0c;所包含的矩阵都是稀疏的&＃xff0c;其零值比数据值要多。将这些稀疏矩阵表示为稠密矩阵的问题是对内存的要求&＃xff0c;并且必须为矩阵中的每个32位或64位零值做出分配。

这显然是对内存资源的浪费&＃xff0c;因为这些零值不包含任何信息。

时间复杂度
假设一个非常大的稀疏矩阵可以适应内存&＃xff0c;我们将需要对这个矩阵执行操作。

简单地说&＃xff0c;如果矩阵包含了大部分零值&＃xff0c;也就是没有数据&＃xff0c;那么在这个矩阵中执行操作可能需要很长时间&＃xff0c;其中的大部分计算都需要或将零值相加或相乘。

在这样的问题上使用线性代数的一般方法是很浪费的&＃xff0c;因为大多数O(N^3)算术运算都用于求解方程组或反转&＃xff08;invert&＃xff09;包含零操作数的矩阵。

—第75页&＃xff0c;《数值分析&＃xff1a;科学计算的艺术》&＃xff08;Numerical Recipes: The Art of Scientific Computing&＃xff09;&＃xff0c;第三版&＃xff0c;2007年。

这是矩阵运算的时间复杂度增加的问题&＃xff0c;随着矩阵的大小而增加。

当我们考虑到即使是琐碎的机器学习方法可能需要对每一行、列甚至整个矩阵进行许多操作时&＃xff0c;这个问题也会变得更加复杂&＃xff0c;从而导致执行时间大大延长。

机器学习中的稀疏矩阵

稀疏矩阵在应用机器学习中经常出现。

在这一节中&＃xff0c;我们将讨论一些常见的例子&＃xff0c;以激发你对稀疏问题的认识。

数据
稀疏矩阵在某些特定类型的数据中出现&＃xff0c;最值得注意的是记录活动的发生或计数的观察。

三个例子包括:

用户是否在一个电影目录中有曾经看过的电影。
用户是否在一个产品目录中有已经购买过的产品。
在一个歌曲目录中数出收听过的歌曲的数量。

数据准备
在准备数据时&＃xff0c;稀疏矩阵会出现在编码方案中。

三种常见的例子包括:

独热编码&＃xff0c;用来表示分类数据为稀疏的二进制向量。
计数编码&＃xff0c;用于表示文档中词汇的频率。
TF-IDF编码&＃xff0c;用于表示词汇中标准化的单词频率得分。

领域研究
机器学习中的一些领域必须开发专门的方法来解决稀疏问题&＃xff0c;因为输入的数据几乎总是稀疏的。

三个例子包括:

用于处理文本文档的自然语言处理。
推荐系统在一个目录中进行产品使用。
当处理图像时计算机视觉包含许多黑色像素&＃xff08;black pixel&＃xff09;。

如果在语言模型中有100,000个单词&＃xff0c;那么特征向量长度为100,000&＃xff0c;但是对于一个简短的电子邮件来说&＃xff0c;几乎所有的特征都是0。

—第22页&＃xff0c;《人工智能&＃xff1a;一种现代方法》&＃xff08;Artificial Intelligence: A Modern Approach&＃xff09;&＃xff0c;第三版&＃xff0c;2009年。

处理稀疏矩阵

表示和处理稀疏矩阵的解决方案是使用另一个数据结构来表示稀疏数据。

零值可以被忽略&＃xff0c;只有在稀疏矩阵中的数据或非零值需要被存储或执行。

多个数据结构可以用来有效地构造一个稀疏矩阵;下面列出了三个常见的例子。

Dictionary of Keys。在将行和列索引映射到值时使用字典。
List of Lists。矩阵的每一行存储为一个列表&＃xff0c;每个子列表包含列索引和值。
Coordinate List。一个元组的列表存储在每个元组中&＃xff0c;其中包含行索引、列索引和值。

还有一些更适合执行高效操作的数据结构;下面列出了两个常用的示例。

压缩的稀疏行。稀疏矩阵用三个一维数组表示非零值、行的范围和列索引。
压缩的稀疏列。与压缩的稀疏行方法相同&＃xff0c;除了列索引外&＃xff0c;在行索引之前被压缩和读取。

被压缩的稀疏行&＃xff0c;也称为CSR&＃xff0c;通常被用来表示机器学习中的稀疏矩阵&＃xff0c;因为它支持的是有效的访问和矩阵乘法。

在Python中稀疏矩阵

SciPy提供了使用多种数据结构创建稀疏矩阵的工具&＃xff0c;以及将稠密矩阵转换为稀疏矩阵的工具。

许多在NumPy阵列上运行的线性代数NumPy和SciPy函数可以透明地操作SciPy稀疏数组。此外&＃xff0c;使用NumPy数据结构的机器学习库也可以在SciPy稀疏数组上透明地进行操作&＃xff0c;例如用于一般机器学习的scikit-learn和用于深度学习的Keras。

存储在NumPy数组中的稠密矩阵可以通过调用csr_matrix()函数将其转换为一个稀疏矩阵。

在下面的例子中&＃xff0c;我们将一个3×6的稀疏矩阵定义为一个稠密数组&＃xff0c;将它转换为CSR稀疏表示&＃xff0c;然后通过调用todense()函数将它转换回一个稠密数组。

# dense to sparse from numpy import array from scipy.sparse import csr_matrix # create dense matrix A &＃61; array([[1, 0, 0, 1, 0, 0], [0, 0, 2, 0, 0, 1], [0, 0, 0, 2, 0, 0]]) print(A) # convert to sparse matrix (CSR method) S &＃61; csr_matrix(A) print(S) # reconstruct dense matrix B &＃61; S.todense() print(B)

运行该示例首先打印已定义的稠密数组&＃xff0c;接着是CSR表示&＃xff0c;然后是重新构建的稠密矩阵。

[[1 0 0 1 0 0][0 0 2 0 0 1][0 0 0 2 0 0]](0, 0) 1(0, 3) 1(1, 2) 2(1, 5) 1(2, 3) 2[[1 0 0 1 0 0][0 0 2 0 0 1][0 0 0 2 0 0]]

NumPy并没有提供一个函数来计算矩阵的稀疏性。

不过&＃xff0c;我们可以很容易地计算出矩阵的密度&＃xff0c;然后从一个矩阵中减去它。NumPy数组中的非零元素可以由count_nonzero()函数给出&＃xff0c;数组中元素的总数可以由数组的大小属性给出。因此&＃xff0c;数组的稀疏性可以被计算为&＃xff1a;

sparsity &＃61; 1.0 - count_nonzero(A) / A.size

下面的例子演示了如何计算数组的稀疏性。

# calculate sparsity from numpy import array from numpy import count_nonzero # create dense matrix A &＃61; array([[1, 0, 0, 1, 0, 0], [0, 0, 2, 0, 0, 1], [0, 0, 0, 2, 0, 0]]) print(A) # calculate sparsity sparsity &＃61; 1.0 - count_nonzero(A) / A.size print(sparsity)

运行这个例子首先打印出定义的稀疏矩阵&＃xff0c;接着是矩阵的稀疏性。

[[1 0 0 1 0 0][0 0 2 0 0 1][0 0 0 2 0 0]]0.7222222222222222

总结

在学习了这篇教程之后&＃xff0c;你知道了&＃xff1a;

稀疏矩阵几乎包含全部零值&＃xff0c;并且与稠密矩阵不同。
你可能会在数据、数据准备和机器学习的子领域中遇到稀疏矩阵。
有许多有效的方法可以存储和使用稀疏矩阵&＃xff0c;而SciPy提供了你可以直接使用的实现。

本文由atyun编译&＃xff0c;转载请注明出处。

推荐阅读

java
Java 编程错误：对象无法转换为 long 类型

本文介绍了在 Java 编程中遇到的一个常见错误：对象无法转换为 long 类型，并提供了详细的解决方案。 ... [详细]

蜡笔小新 2024-11-13 10:57:24
java
Android Studio SQLite 数据库增删改查简单（代码参考）

一个建表一个执行crud操作建表代码importandroid.content.Context;importandroid.database.sqlite.SQLiteDat ... [详细]

蜡笔小新 2024-11-14 11:01:49
input
C#实现文件的压缩与解压

2019独角兽企业重金招聘Python工程师标准一、准备工作1、下载ICSharpCode.SharpZipLib.dll文件2、项目中引用这个dll二、文件压缩与解压共用类 ... [详细]

蜡笔小新 2024-11-14 10:37:34
数组
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
数组
浅析python实现布隆过滤器及Redis中的缓存穿透原理_python

本文带你了解了位图的实现，布隆过滤器的原理及Python中的使用，以及布隆过滤器如何应对Redis中的缓存穿透，相信你对布隆过滤 ... [详细]

蜡笔小新 2024-11-13 16:43:07
数组
Java反射机制详解及应用场景

本文详细介绍了Java反射机制的基本概念、获取Class对象的方法、反射的主要功能及其在实际开发中的应用。通过具体示例，帮助读者更好地理解和使用Java反射。 ... [详细]

蜡笔小新 2024-11-13 16:08:08
数组
C语言检测

字符串学习时间：1.5W（“W”周，下同）知识点checkliststrlen()函数的返回值是什么类型的？字 ... [详细]

蜡笔小新 2024-11-12 19:23:53
数组
如何在Java中使用DButils类

这期内容当中小编将会给大家带来有关如何在Java中使用DButils类，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。D ... [详细]

蜡笔小新 2024-11-12 13:46:11
数组
PHP 对象生命周期与内存管理

本文详细介绍了 PHP 中对象的生命周期、内存管理和魔术方法的使用，包括对象的自动销毁、析构函数的作用以及各种魔术方法的具体应用场景。 ... [详细]

蜡笔小新 2024-11-12 13:35:26
数组
数据结构第三章，栈、队列、数组，期末不挂科指南，第3篇

数据结构第三章，栈、队列、数组，期末不挂科指南，第3篇,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2024-11-13 18:49:58
数组
LeetCode Python 566 重塑矩阵详解

本题主要考察二维数组的遍历和重塑。通过将二维数组降为一维，再根据新的行数和列数重新构建矩阵。 ... [详细]

蜡笔小新 2024-11-13 16:37:25
java
SpringMVC 入门指南：快速上手 Java Web 开发

本文将带你快速了解 SpringMVC 框架的基本使用方法，通过实现一个简单的 Controller 并在浏览器中访问，展示 SpringMVC 的强大与简便。 ... [详细]

蜡笔小新 2024-11-13 14:22:01
config
CentOS 7 中配置开机自动挂载 NFS 的解决方案

本文详细介绍了在 CentOS 7 系统中配置 fstab 文件以实现开机自动挂载 NFS 共享目录的方法，并解决了常见的配置失败问题。 ... [详细]

蜡笔小新 2024-11-13 12:05:24
java
Spring Boot 中配置全局文件上传路径并实现文件上传功能

本文介绍如何在 Spring Boot 项目中配置全局文件上传路径，并通过读取配置项实现文件上传功能。通过这种方式，可以更好地管理和维护文件路径。 ... [详细]

蜡笔小新 2024-11-13 11:19:38
java
在Windows系统中安装TensorFlow GPU版的详细指南与常见问题解决

在Windows系统中安装TensorFlow GPU版是许多深度学习初学者面临的挑战。本文详细介绍了安装过程中的每一个步骤，并针对常见的问题提供了有效的解决方案。通过本文的指导，读者可以顺利地完成安装并避免常见的陷阱。 ... [详细]

蜡笔小新 2024-11-11 19:02:49

宋文哲

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章