图解python电子版_图解Numpy精翻版，一文带你入门Python数据处理

作者：深碍是碍u不是爱 | 来源：互联网 | 2023-09-15 19:49

(关注AI新视野公众号，发送‘资料’二字，免费获取50G人工智能视频教程！)本文精心翻译自JayAlammar的博客：ht

(关注&＃39;AI新视野&＃39;公众号&＃xff0c;发送‘资料’二字&＃xff0c;免费获取50G人工智能视频教程&＃xff01;)

本文精心翻译自Jay Alammar的博客&＃xff1a;https://jalammar.github.io/visual-numpy/&＃xff0c;其用图解的方式详细介绍了 NumPy的功能和使用示例。

17e0ef619677

image

NumPy 是 Python 生态中数据分析、机器学习和科学计算的基础。它极大地简化了向量和矩阵的操作处理。Python 的一些主要软件包&＃xff08;如 scikit-learn、SciPy、pandas 和 tensorflow&＃xff09;都以 NumPy 作为其架构的基础部分。除了能对数值数据进行切片&＃xff08;slice&＃xff09;和切块&＃xff08;dice&＃xff09;之外&＃xff0c;使用 NumPy 还能为处理和调试上述库中的高级实例带来极大的便利。

本文将介绍 NumPy 的一些主要方法&＃xff0c;以及在将数据送入机器学习模型之前&＃xff0c;numpy是如何表示不同类型数据&＃xff08;表格、图像、文本等&＃xff09;的。

import numpy as np

创建数组

通过传递一个 python 列表&＃xff0c;并使用 np.array&＃xff08;&＃xff09;来创建 NumPy 数组。python 创建的数组如下图右所示&＃xff1a;

17e0ef619677

image

NumPy 提供了一些初始化数组的方法&＃xff0c;例如 ones()、zeros() 和 random.random() 等方法。只要传递希望 NumPy 生成的元素维数即可&＃xff1a;

17e0ef619677

image

一旦创建了数组&＃xff0c;就可以随意操作啦。

数组运算

下面创建两个 NumPy 数组来展示数组运算功能。下图两个数组分别为 data 和 ones&＃xff1a;

17e0ef619677

image

将它们按位置相加&＃xff08;即每行对应相加&＃xff09;&＃xff0c;直接输入 data &＃43; ones 即可&＃xff1a;

17e0ef619677

image

除了加&＃xff0c;还可以进行如下操作&＃xff1a;

17e0ef619677

image

数组和单个数字之间也可以进行运算操作&＃xff08;即向量和标量之间的运算&＃xff09;。比如说&＃xff0c;数组表示以英里为单位的距离&＃xff0c;希望将其单位转换为千米。只需输入 data * 1.6 即可&＃xff1a;

17e0ef619677

image

NumPy 是通过广播机制&＃xff08;broadcasting&＃xff09;来实现的&＃xff0c;通过判断维数&＃xff0c;来推测要进行的运算。

索引

可以像对 python 列表进行切片一样&＃xff0c;对 NumPy 数组进行任意的索引和切片&＃xff1a;

17e0ef619677

image

聚合

NumPy 还提供聚合功能&＃xff1a;

17e0ef619677

image

除了 min、max 和 sum 之外&＃xff0c;还可以使用 mean 得到平均值&＃xff0c;使用 prod 得到所有元素的乘积&＃xff0c;使用 std 得到标准差等等。

更多维度

上述的例子都是在一个维度上处理向量。NumPy 优雅的关键在于能够将上述所有方法应用到任意数量的维度。

创建矩阵

可以传递下列形状的 python 列表&＃xff0c;使 NumPy 创建一个矩阵来表示它&＃xff1a;

np.array([[1,2],[3,4]])

也可以使用上面提到的方法&＃xff08;ones()、zeros() 和 random.random()&＃xff09;&＃xff0c;只要传入一个描述创建的矩阵维数的元组即可&＃xff1a;

17e0ef619677

image

矩阵运算

如果两个矩阵大小相同&＃xff0c;可以使用算术运算符&＃xff08;&＃43;-*/&＃xff09;对矩阵进行加和乘。NumPy 将其视为 position-wise 运算&＃xff1a;

17e0ef619677

image

也可以对不同大小的两个矩阵执行此类算术运算&＃xff0c;但前提是某一个维度为 1&＃xff08;如矩阵只有一列或一行&＃xff09;&＃xff0c;在这种情况下&＃xff0c;NumPy 使用广播规则执行算术运算&＃xff1a;

点乘

算术运算和矩阵运算的一个关键区别是矩阵乘法使用点乘。NumPy 为每个矩阵赋予 dot() 方法&＃xff0c;可以用它与其他矩阵执行点乘操作&＃xff1a;

17e0ef619677

image

在上图的右下角添加了矩阵维数&＃xff0c;来强调这两个矩阵的临近边必须有相同的维数。可以把上述运算视为&＃xff1a;

17e0ef619677

image

矩阵索引

当处理矩阵时&＃xff0c;索引和切片操作将更加有用&＃xff1a;

17e0ef619677

image

矩阵聚合

可以像聚合向量一样聚合矩阵&＃xff1a;

17e0ef619677

image

不仅可以聚合矩阵中的所有值&＃xff0c;还可以使用 axis 参数执行跨行或跨列聚合&＃xff1a;

17e0ef619677

image

转置和维度重塑

处理矩阵时的一个常见需求是旋转矩阵。当需要对两个矩阵执行点乘运算并对齐它们共享的维度时&＃xff0c;通常需要进行转置。NumPy 数组有一个方便的方法 T 来求得矩阵转置&＃xff1a;

17e0ef619677

image

在某些应用中&＃xff0c;需要对特定矩阵的变换维度。在机器学习应用中&＃xff0c;经常会有当某个模型对输入形状的要求与的数据集不同。NumPy 中的 reshape() 方法就可以发挥作用。只需将矩阵所需的新维度赋值给它即可。可以为维度赋值-1&＃xff0c;NumPy 可以根据的矩阵推断出正确的维度&＃xff1a;

17e0ef619677

image

更多维度

NumPy 可以在任意维度实现上述提到的所有内容。其中心数据结构被叫作 ndarray&＃xff08;N 维数组&＃xff09;。

17e0ef619677

image

在很多情况下&＃xff0c;处理一个新的维度只需在 NumPy 函数的参数中添加一个逗号&＃xff1a;

17e0ef619677

image

实际用法

以下是 NumPy 可实现的有用功能的实例演示。

公式

均方差公式&＃xff0c;它是监督机器学习模型处理回归问题的核心&＃xff1a;

17e0ef619677

image

在 NumPy 中实现该公式很容易&＃xff1a;

17e0ef619677

image

这样做的好处在于&＃xff0c;NumPy 并不关心 predictions 和 labels 包含一个值还是一千个值&＃xff08;只要它们大小相同&＃xff09;。可以通过一个示例依次执行上面代码行中的四个操作&＃xff1a;

17e0ef619677

image

预测和标签向量都包含三个值&＃xff0c;也就是说 n 的值为 3。减法后&＃xff0c;得到的值如下&＃xff1a;

17e0ef619677

image

然后将向量平方得到&＃xff1a;

17e0ef619677

image

对这些值求和&＃xff1a;

17e0ef619677

image

得到的结果即为该预测的误差值和模型质量评分。

数据表达

电子表格、图像、音频等需要处理和构建模型所需的数据类型&＃xff0c;其中很多都适合在 n 维数组中表示&＃xff1a;

表格

电子表格就是二维矩阵。电子表格中的每个工作表都可以是它自己的变量。python 中最流行的表格抽象是 pandas 数据帧&＃xff0c;其在 NumPy 之上构建。

17e0ef619677

image

音频

音频文件是样本的一维数组。每个样本都是一个数字&＃xff0c;代表音频信号的一小部分。CD 质量的音频每秒包含 44,100 个样本&＃xff0c;每个样本是-65535 到 65536 之间的整数。这意味着如果有一个 10 秒的 CD 质量 WAVE 文件&＃xff0c;可以将它加载到长度为 10 * 44,100 &＃61; 441,000 的 NumPy 数组中。如果想要提取音频的前一秒&＃xff0c;只需将文件加载到 audio 的 NumPy 数组中&＃xff0c;然后获取 audio[:44100]。

下面是一段音频文件&＃xff1a;

17e0ef619677

image

其他时间序列数据也可以同样表示&＃xff08;如股票随时间变化的价格&＃xff09;。

图像

图像是尺寸&＃xff08;高度 x 宽度&＃xff09;的像素矩阵。

如果图像是黑白&＃xff08;即灰度&＃xff09;的&＃xff0c;则每个像素都可以用单个数字表示&＃xff08;通常在 0&＃xff08;黑色&＃xff09;和 255&＃xff08;白色&＃xff09;之间&＃xff09;。

下图是一个图像文件的部分&＃xff1a;

17e0ef619677

image

如果图像是彩色的&＃xff0c;则每个像素由三个数字表示------红、绿和蓝。在这种情况下&＃xff0c;需要一个三维数组&＃xff08;因为每个单元格只能包含一个数字&＃xff09;。因此彩色图像由尺寸为&＃xff08;高 x 宽 x3&＃xff09;的 ndarray 表示&＃xff1a;

17e0ef619677

image

欢迎关注全平台AI自媒体 “AI新视野”&＃xff0c;第一时间获取人工智能学术、产业前沿&＃xff01;

推荐阅读

java
浅析python实现布隆过滤器及Redis中的缓存穿透原理_python

本文带你了解了位图的实现，布隆过滤器的原理及Python中的使用，以及布隆过滤器如何应对Redis中的缓存穿透，相信你对布隆过滤 ... [详细]

蜡笔小新 2024-11-13 16:43:07
config
在VSCode中添加自定义外部命令

通过将常用的外部命令集成到VSCode中，可以提高开发效率。本文介绍如何在VSCode中配置和使用自定义的外部命令，从而简化命令执行过程。 ... [详细]

蜡笔小新 2024-11-13 16:57:15
window
window下的python安装插件

window下的python安装插件,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2024-11-12 15:14:05
header
PTArchiver工作原理详解与应用分析

PTArchiver工作原理及其应用分析本文详细解析了PTArchiver的工作机制，探讨了其在数据归档和管理中的应用。PTArchiver通过高效的压缩算法和灵活的存储策略，实现了对大规模数据的高效管理和长期保存。文章还介绍了其在企业级数据备份、历史数据迁移等场景中的实际应用案例，为用户提供了实用的操作建议和技术支持。 ... [详细]

蜡笔小新 2024-11-11 13:40:49
header
ButterKnife的基础应用与实践指南

ButterKnife 是一款用于 Android 开发的注解库，主要用于简化视图和事件绑定。本文详细介绍了 ButterKnife 的基础用法，包括如何通过注解实现字段和方法的绑定，以及在实际项目中的应用示例。此外，文章还提到了截至 2016 年 4 月 29 日，ButterKnife 的最新版本为 8.0.1，为开发者提供了最新的功能和性能优化。 ... [详细]

蜡笔小新 2024-11-07 13:17:24
random
机器学习算法：SVM（支持向量机）

SVM算法（SupportVectorMachine，支持向量机）的核心思想有2点：1、如果数据线性可分，那么基于最大间隔的方式来确定超平面，以确保全局最优， ... [详细]

蜡笔小新 2024-11-14 04:33:58
process
利用OpenCV和线性SVM实现人脸识别

本文介绍如何使用OpenCV和线性支持向量机（SVM）模型来开发一个简单的人脸识别系统，特别关注在只有一个用户数据集时的处理方法。 ... [详细]

蜡笔小新 2024-11-13 14:50:37
go
用阿里云的免费 SSL 证书让网站从 HTTP 换成 HTTPS

HTTP协议是不加密传输数据的，也就是用户跟你的网站之间传递数据有可能在途中被截获，破解传递的真实内容，所以使用不加密的HTTP的网站是不 ... [详细]

蜡笔小新 2024-11-13 14:02:50
process
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
config
HarmonyOS 2.0 源码获取与编译指南

本文将详细介绍如何注册码云账号、配置SSH公钥、安装必要的开发工具，并逐步讲解如何下载、编译 HarmonyOS 2.0 源码。通过本文，您将能够顺利完成 HarmonyOS 2.0 的环境搭建和源码编译。 ... [详细]

蜡笔小新 2024-11-12 11:55:04
loops
python解决CSF布料模拟滤波的批处理问题（解决获取多个点云数据las数据）

解决问题：1、批量读取点云las数据2、点云数据读与写出3、csf滤波分类参考：https:github.comsuyunzzzCSF论文题目ÿ ... [详细]

蜡笔小新 2024-11-12 11:32:15
utf-8
使用 Matplotlib 保存 Python 动态图像为视频文件的方法与技巧

本文介绍了如何利用 `matplotlib` 库中的 `FuncAnimation` 类将 Python 中的动态图像保存为视频文件。通过详细解释 `FuncAnimation` 类的参数和方法，文章提供了多种实用技巧，帮助用户高效地生成高质量的动态图像视频。此外，还探讨了不同视频编码器的选择及其对输出文件质量的影响，为读者提供了全面的技术指导。 ... [详细]

蜡笔小新 2024-11-11 22:11:30
random
Pandas 散点图矩阵（scatter_matrix）绘图功能及其参数详解

通过使用 `pandas` 库中的 `scatter_matrix` 函数，可以有效地绘制出多个特征之间的两两关系。该函数不仅能够生成散点图矩阵，还能通过参数如 `frame`、`alpha`、`c`、`figsize` 和 `ax` 等进行自定义设置，以满足不同的可视化需求。此外，`diagonal` 参数允许用户选择对角线上的图表类型，例如直方图或密度图，从而提供更多的数据洞察。 ... [详细]

蜡笔小新 2024-11-09 12:03:42
random
2018 HDU 多校联合第五场 G题：Glad You Game（线段树优化解法）

题目链接：http://acm.hdu.edu.cn/showproblem.php?pid=6356在《Glad You Game》中，Steve 面临一个复杂的区间操作问题。该题可以通过线段树进行高效优化。具体来说，线段树能够快速处理区间更新和查询操作，从而大大提高了算法的效率。本文详细介绍了线段树的构建和维护方法，并给出了具体的代码实现，帮助读者更好地理解和应用这一数据结构。 ... [详细]

蜡笔小新 2024-11-08 19:17:23
config
Linux chkconfig命令参数与使用方法深入解析

`chkconfig` 命令主要用于管理和查询系统服务在不同运行级别中的启动状态。该命令不仅能够更新服务的启动配置，还能检查特定服务的当前状态。通过 `chkconfig`，管理员可以轻松地控制服务在系统启动时的行为，确保关键服务正常运行，同时禁用不必要的服务以提高系统性能和安全性。本文将详细介绍 `chkconfig` 的各项参数及其使用方法，帮助读者更好地理解和应用这一强大的系统管理工具。 ... [详细]

蜡笔小新 2024-11-07 17:20:54

深碍是碍u不是爱

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章