开发笔记:这可能是我见过最好的NumPy图解教程！

作者：木卫二 | 来源：互联网 | 2023-09-11 12:25

篇首语：本文由编程笔记#小编为大家整理，主要介绍了这可能是我见过最好的NumPy图解教程！相关的知识，希望对你有一定的参考价值。

NumPy是Python中用于数据分析、机器学习、科学计算的重要软件包。它极大地简化了向量和矩阵的操作及处理。python的不少数据处理软件包依赖于NumPy作为其基础架构的核心部分&＃xff08;例如scikit-learn、SciPy、pandas和tensorflow&＃xff09;。除了数据切片和数据切块的功能之外&＃xff0c;掌握numpy也使得开发者在使用各数据处理库调试和处理复杂用例时更具优势。

在本文中&＃xff0c;将介绍NumPy的主要用法&＃xff0c;以及它如何呈现不同类型的数据&＃xff08;表格&＃xff0c;图像&＃xff0c;文本等&＃xff09;&＃xff0c;这些经Numpy处理后的数据将成为机器学习模型的输入。

NumPy中的数组操作

创建数组

我们可以通过将python列表传入np.array()来创建一个NumPy数组&＃xff08;也就是强大的ndarray&＃xff09;。在下面的例子里&＃xff0c;创建出的数组如右边所示&＃xff0c;通常情况下&＃xff0c;我们希望NumPy为我们初始化数组的值&＃xff0c;为此NumPy提供了诸如ones()&＃xff0c;zeros()和random.random()之类的方法。我们只需传入元素个数即可&＃xff1a;

一旦我们创建了数组&＃xff0c;我们就可以用其做点有趣的应用了&＃xff0c;文摘菌将在下文展开说明。

数组的算术运算

让我们创建两个NumPy数组&＃xff0c;分别称作data和ones&＃xff1a;

若要计算两个数组的加法&＃xff0c;只需简单地敲入data &＃43; ones&＃xff0c;就可以实现对应位置上的数据相加的操作&＃xff08;即每行数据进行相加&＃xff09;&＃xff0c;这种操作比循环读取数组的方法代码实现更加简洁。

当然&＃xff0c;在此基础上举一反三&＃xff0c;也可以实现减法、乘法和除法等操作&＃xff1a;

许多情况下&＃xff0c;我们希望进行数组和单个数值的操作&＃xff08;也称作向量和标量之间的操作&＃xff09;。比如&＃xff1a;如果数组表示的是以英里为单位的距离&＃xff0c;我们的目标是将其转换为公里数。可以简单的写作data * 1.6&＃xff1a;

NumPy通过数组广播&＃xff08;broadcasting&＃xff09;知道这种操作需要和数组的每个元素相乘。

数组的切片操作

我们可以像python列表操作那样对NumPy数组进行索引和切片&＃xff0c;如下图所示&＃xff1a;

聚合函数

NumPy为我们带来的便利还有聚合函数&＃xff0c;聚合函数可以将数据进行压缩&＃xff0c;统计数组中的一些特征值&＃xff1a;

除了min&＃xff0c;max和sum等函数&＃xff0c;还有mean&＃xff08;均值&＃xff09;&＃xff0c;prod&＃xff08;数据乘法&＃xff09;计算所有元素的乘积&＃xff0c;std&＃xff08;标准差&＃xff09;&＃xff0c;等等。上面的所有例子都在一个维度上处理向量。除此之外&＃xff0c;NumPy之美的一个关键之处是它能够将之前所看到的所有函数应用到任意维度上。

NumPy中的矩阵操作

创建矩阵

我们可以通过将二维列表传给Numpy来创建矩阵。

np.array([[1,2],[3,4]])

除此外&＃xff0c;也可以使用上文提到的ones()、zeros()和random.random()来创建矩阵&＃xff0c;只需传入一个元组来描述矩阵的维度&＃xff1a;

矩阵的算术运算

对于大小相同的两个矩阵&＃xff0c;我们可以使用算术运算符&＃xff08;&＃43;-*/&＃xff09;将其相加或者相乘。NumPy对这类运算采用对应位置&＃xff08;position-wise&＃xff09;操作处理&＃xff1a;

对于不同大小的矩阵&＃xff0c;只有两个矩阵的维度同为1时&＃xff08;例如矩阵只有一列或一行&＃xff09;&＃xff0c;我们才能进行这些算术运算&＃xff0c;在这种情况下&＃xff0c;NumPy使用广播规则&＃xff08;broadcast&＃xff09;进行操作处理&＃xff1a;

与算术运算有很大区别是使用点积的矩阵乘法。NumPy提供了dot()方法&＃xff0c;可用于矩阵之间进行点积运算&＃xff1a;

上图的底部添加了矩阵尺寸&＃xff0c;以强调运算的两个矩阵在列和行必须相等。可以将此操作图解为如下所示&＃xff1a;

矩阵的切片和聚合

索引和切片功能在操作矩阵时变得更加有用。可以在不同维度上使用索引操作来对数据进行切片。

我们可以像聚合向量一样聚合矩阵&＃xff1a;

不仅可以聚合矩阵中的所有值&＃xff0c;还可以使用axis参数指定行和列的聚合&＃xff1a;

矩阵的转置和重构

处理矩阵时经常需要对矩阵进行转置操作&＃xff0c;常见的情况如计算两个矩阵的点积。NumPy数组的属性T可用于获取矩阵的转置。

在较为复杂的用例中&＃xff0c;你可能会发现自己需要改变某个矩阵的维度。这在机器学习应用中很常见&＃xff0c;例如模型的输入矩阵形状与数据集不同&＃xff0c;可以使用NumPy的reshape()方法。只需将矩阵所需的新维度传入即可。也可以传入-1&＃xff0c;NumPy可以根据你的矩阵推断出正确的维度&＃xff1a;

上文中的所有功能都适用于多维数据&＃xff0c;其中心数据结构称为ndarray&＃xff08;N维数组&＃xff09;。

很多时候&＃xff0c;改变维度只需在NumPy函数的参数中添加一个逗号&＃xff0c;如下图所示&＃xff1a;

NumPy中的公式应用示例

NumPy的关键用例是实现适用于矩阵和向量的数学公式。这也Python中常用NumPy的原因。例如&＃xff0c;均方误差是监督机器学习模型处理回归问题的核心&＃xff1a;

在NumPy中可以很容易地实现均方误差&＃xff1a;

这样做的好处是&＃xff0c;numpy无需考虑predictions与labels具体包含的值。文摘菌将通过一个示例来逐步执行上面代码行中的四个操作&＃xff1a;

预测&＃xff08;predictions&＃xff09;和标签&＃xff08;labels&＃xff09;向量都包含三个值。这意味着n的值为3。在我们执行减法后&＃xff0c;我们最终得到如下值&＃xff1a;

然后我们可以计算向量中各值的平方&＃xff1a;

现在我们对这些值求和&＃xff1a;

最终得到该预测的误差值和模型质量分数。

用NumPy表示日常数据

日常接触到的数据类型&＃xff0c;如电子表格&＃xff0c;图像&＃xff0c;音频......等&＃xff0c;如何表示呢&＃xff1f;Numpy可以解决这个问题。

表和电子表格

电子表格或数据表都是二维矩阵。电子表格中的每个工作表都可以是自己的变量。python中类似的结构是pandas数据帧&＃xff08;dataframe&＃xff09;&＃xff0c;它实际上使用NumPy来构建的。

音频和时间序列

音频文件是一维样本数组。每个样本都是代表一小段音频信号的数字。CD质量的音频每秒可能有44,100个采样样本&＃xff0c;每个样本是一个-65535到65536之间的整数。这意味着如果你有一个10秒的CD质量的WAVE文件&＃xff0c;你可以将它加载到长度为10 * 44,100 &＃61; 441,000个样本的NumPy数组中。想要提取音频的第一秒&＃xff1f;只需将文件加载到我们称之为audio的NumPy数组中&＃xff0c;然后截取audio[:44100]。

以下是一段音频文件&＃xff1a;

时间序列数据也是如此&＃xff08;例如&＃xff0c;股票价格随时间变化的序列&＃xff09;。

图像

图像是大小为&＃xff08;高度×宽度&＃xff09;的像素矩阵。如果图像是黑白图像&＃xff08;也称为灰度图像&＃xff09;&＃xff0c;则每个像素可以由单个数字表示&＃xff08;通常在0&＃xff08;黑色&＃xff09;和255&＃xff08;白色&＃xff09;之间&＃xff09;。如果对图像做处理&＃xff0c;裁剪图像的左上角10 x 10大小的一块像素区域&＃xff0c;用NumPy中的image[:10,:10]就可以实现。

这是一个图像文件的片段&＃xff1a;

如果图像是彩色的&＃xff0c;则每个像素由三个数字表示 &＃xff1a;红色&＃xff0c;绿色和蓝色。在这种情况下&＃xff0c;我们需要第三维&＃xff08;因为每个单元格只能包含一个数字&＃xff09;。因此彩色图像由尺寸为(高x宽x 3&＃xff09;的ndarray表示。

语言

如果我们处理文本&＃xff0c;情况就会有所不同。用数字表示文本需要两个步骤&＃xff0c;构建词汇表&＃xff08;模型知道的所有唯一单词的清单&＃xff09;和嵌入&＃xff08;embedding&＃xff09;。让我们看看用数字表示这个&＃xff08;翻译的&＃xff09;古语引用的步骤&＃xff1a;“Have the bards who preceded me left any theme unsung?”

模型需要先训练大量文本才能用数字表示这位战场诗人的诗句。我们可以让模型处理一个小数据集&＃xff0c;并使用这个数据集来构建一个词汇表&＃xff08;71,290个单词&＃xff09;&＃xff1a;

然后可以将句子划分成一系列“词”token&＃xff08;基于通用规则的单词或单词部分&＃xff09;&＃xff1a;

然后我们用词汇表中的id替换每个单词&＃xff1a;

这些ID仍然不能为模型提供有价值的信息。因此&＃xff0c;在将一系列单词送入模型之前&＃xff0c;需要使用嵌入&＃xff08;embedding&＃xff09;来替换token/单词&＃xff08;在本例子中使用50维度的word2vec嵌入)&＃xff1a;

你可以看到此NumPy数组的维度为[embedding_dimension x sequence_length]。

在实践中&＃xff0c;这些数值不一定是这样的&＃xff0c;但我以这种方式呈现它是为了视觉上的一致。出于性能原因&＃xff0c;深度学习模型倾向于保留批数据大小的第一维&＃xff08;因为如果并行训练多个示例&＃xff0c;则可以更快地训练模型&＃xff09;。很明显&＃xff0c;这里非常适合使用reshape()。例如&＃xff0c;像BERT这样的模型会期望其输入矩阵的形状为&＃xff1a;[batch_size&＃xff0c;sequence_length&＃xff0c;embedding_size]。

这是一个数字合集&＃xff0c;模型可以处理并执行各种有用的操作。我留空了许多行&＃xff0c;可以用其他示例填充以供模型训练&＃xff08;或预测&＃xff09;。

事实证明&＃xff0c;在我们的例子中&＃xff0c;那位诗人的话语比其他诗人的诗句更加名垂千古。尽管生而为奴&＃xff0c;诗人安塔拉&＃xff08;Antarah&＃xff09;的英勇和语言能力使他获得了自由和神话般的地位&＃xff0c;他的诗是伊斯兰教以前的阿拉伯半岛《悬诗》的七首诗之一。

来源丨大数据文摘

原文链接丨https://jalammar.github.io/visual-numpy/

觉得还不错就给我一个小小的鼓励吧&＃xff01;

推荐阅读

const
毕业设计：基于机器学习与深度学习的垃圾邮件（短信）分类算法实现

本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程，并提供了具体的代码示例和实验结果。 ... [详细]

蜡笔小新 2024-12-25 17:38:50
js
资源推荐 | TensorFlow官方中文教程助力英语非母语者学习

来源：机器之心。本文详细介绍了TensorFlow官方提供的中文版教程和指南，帮助开发者更好地理解和应用这一强大的开源机器学习平台。 ... [详细]

蜡笔小新 2024-12-28 09:00:51
go
优化深度神经网络在低性能硬件上的运行

尽管深度学习带来了广泛的应用前景，其训练通常需要强大的计算资源。然而，并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下（如ARM CPU）高效运行深度神经网络，特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]

蜡笔小新 2024-12-24 08:48:32
bit
吴恩达推出TensorFlow实践课程，Python基础即可入门，四个月掌握核心技能

量子位报道，deeplearning.ai最新发布了TensorFlow实践课程，适合希望使用TensorFlow开发AI应用的学习者。该课程涵盖机器学习模型构建、图像识别、自然语言处理及时间序列预测等多个方面。 ... [详细]

蜡笔小新 2024-12-08 17:26:10
bit
数据库内核开发入门 | 搭建研发环境的初步指南

本课程将带你从零开始，逐步掌握数据库内核开发的基础知识和实践技能，重点介绍如何搭建OceanBase的开发环境。 ... [详细]

蜡笔小新 2024-12-27 16:38:48
go
机器学习中的相似度度量与模型优化

本文探讨了机器学习中常见的相似度度量方法，包括余弦相似度、欧氏距离和马氏距离，并详细介绍了如何通过选择合适的模型复杂度和正则化来提高模型的泛化能力。此外，文章还涵盖了模型评估的各种方法和指标，以及不同分类器的工作原理和应用场景。 ... [详细]

蜡笔小新 2024-12-26 18:10:02
java
macOS系统及其关键功能解析

本文详细介绍了macOS系统的核心组件，包括如何管理其安全特性——系统完整性保护（SIP），并探讨了不同版本的更新亮点。对于使用macOS系统的用户来说，了解这些信息有助于更好地管理和优化系统性能。 ... [详细]

蜡笔小新 2024-12-26 18:05:04
js
深入理解K近邻分类算法：机器学习100天系列（26）

本文详细介绍了K近邻分类算法的理论基础，探讨其工作原理、应用场景以及潜在的局限性。作为机器学习100天系列的一部分，旨在为读者提供全面且深入的理解。 ... [详细]

蜡笔小新 2024-12-22 18:18:57
java
深入浅出TensorFlow数据读写机制

本文详细介绍TensorFlow中的数据读写操作，包括TFRecord文件的创建与读取，以及数据集（dataset）的相关概念和使用方法。 ... [详细]

蜡笔小新 2024-12-19 16:23:17
object
2017年人工智能领域的十大里程碑事件回顾

随着2018年的临近，我们一同回顾过去一年中人工智能领域的重要进展。这一年，无论是政策层面的支持，还是技术上的突破，都显示了人工智能发展的迅猛势头。以下是精选的2017年人工智能领域最具影响力的事件。 ... [详细]

蜡笔小新 2024-12-16 17:59:16
go
数据管理权威指南：《DAMA-DMBOK2 数据管理知识体系》

本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释，构建了数据管理的总体框架，为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]

蜡笔小新 2024-12-27 18:29:55
go
移动 UI 设计基础：打造简洁高效的用户界面

本章将深入探讨移动 UI 设计的核心原则，帮助开发者构建简洁、高效且用户友好的界面。通过学习设计规则和用户体验优化技巧，您将能够创建出既美观又实用的移动应用。 ... [详细]

蜡笔小新 2024-12-27 08:43:40
js
LambdaMART算法详解

本文详细介绍了LambdaMART算法的背景、原理及其在信息检索中的应用。首先回顾了LambdaMART的发展历程，包括其前身RankNet和LambdaRank，然后深入探讨了LambdaMART如何结合梯度提升决策树（GBDT）和LambdaRank来优化排序问题。 ... [详细]

蜡笔小新 2024-12-18 12:30:35
go
美团推荐系统：机器学习优化重排序模型

在互联网信息爆炸的时代，当用户需求模糊或难以通过精确查询表达时，推荐系统成为解决信息过载的有效手段。美团作为国内领先的O2O平台，通过深入分析用户行为，运用先进的机器学习技术优化推荐算法，提升用户体验。 ... [详细]

蜡笔小新 2024-12-17 17:56:15
java
全能终端工具推荐：高效、免费、易用

介绍一款备受好评的全能型终端工具——MobaXterm，它不仅功能强大，而且完全免费，适合各类用户使用。 ... [详细]

蜡笔小新 2024-12-16 21:02:15

木卫二

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章