20个不常见却很有用的Numpy函数

作者：mobiledu2502897737 | 来源：互联网 | 2023-05-20 17:50

‍文章来源：https:medium.com推荐阅读：终于来了，【第三期】彭涛Python爬虫特训营！!Numpy是每个数据

‍

文章来源&＃xff1a;https://medium.com/

np.full_like

我敢打赌&＃xff0c;你肯定使用过像ones_like 或 zeros_like 这样的常见 NumPy 函数。full_like 和这两个完全一样&＃xff0c;除了你可以创建一个与另一个矩阵具有相同形状的矩阵但是这些矩阵是使用自定义值填充的。

array &＃61; np.array([[1, 4, 6, 8], [9, 4, 4, 4], [2, 7, 2, 3]]) array_w_inf &＃61; np.full_like(array, fill_value&＃61;np.pi, dtype&＃61;np.float32)array_w_inf

array([[3.1415927, 3.1415927, 3.1415927, 3.1415927], [3.1415927, 3.1415927, 3.1415927, 3.1415927], [3.1415927, 3.1415927, 3.1415927, 3.1415927]], dtype&＃61;float32)

在这里&＃xff0c;我们正在创建一个数组值都是pi 矩阵。

np.logspace

我相信你经常使用linspace。它可以在一个区间内创建自定义的线性间隔数据点数量。它的同类logspace在这方面做得更深入一些。它可以在对数尺度上生成均匀间隔的自定义点数。你可以选择任何一个数作为基数&＃xff0c;只要它是非零的:

log_array &＃61; np.logspace(start&＃61;1, stop&＃61;100, num&＃61;15, base&＃61;np.e) log_array

array([2.71828183e&＃43;00, 3.20167238e&＃43;03, 3.77102401e&＃43;06, 4.44162312e&＃43;09, 5.23147450e&＃43;12, 6.16178472e&＃43;15, 7.25753148e&＃43;18, 8.54813429e&＃43;21, 1.00682443e&＃43;25, 1.18586746e&＃43;28, 1.39674961e&＃43;31, 1.64513282e&＃43;34, 1.93768588e&＃43;37, 2.28226349e&＃43;40, 2.68811714e&＃43;43])

np.meshgrid

这是只有在文档中才能看到的函数之一。因为大部分人难理解它。可以使用meshgrid从给定的X和Y数组创建每个可能的坐标对。这里有一个简单的例子:

x &＃61; [1, 2, 3, 4] y &＃61; [3, 5, 6, 8] xx, yy &＃61; np.meshgrid(x, y) xx

array([[1, 2, 3, 4], [1, 2, 3, 4], [1, 2, 3, 4], [1, 2, 3, 4]])

yy

array([[3, 3, 3, 3], [5, 5, 5, 5], [6, 6, 6, 6], [8, 8, 8, 8]])

得到 16 个唯一坐标对&＃xff0c;结果数组中的每个索引到索引元素对对应一个。可视化一下就很好理解了

plt.plot(xx, yy, linestyle&＃61;"none", marker&＃61;"o", color&＃61;"red");

meshgrid通常用于使用循环需要很长时间的复杂任务。如绘制三维正弦函数等高线图就是一个例子:

def sinus2d(x, y): return np.sin(x) &＃43; np.sin(y) xx, yy &＃61; np.meshgrid(np.linspace(0, 2 * np.pi, 100), np.linspace(0, 2 * np.pi, 100)) z &＃61; sinus2d(xx, yy) # Create the image on this grid import matplotlib.pyplot as plt plt.imshow(z, origin&＃61;"lower", interpolation&＃61;"none") plt.show()

np.triu / np.tril

与ones_like或zeros_like类似&＃xff0c;这两个函数在矩阵的某个对角线上方或下方返回0。例如&＃xff0c;我们可以使用triu函数在主对角线上创建一个值为True的布尔掩码&＃xff0c;并在绘制相关热图时使用这个掩码。

import seaborn as snsdiamonds &＃61; sns.load_dataset("diamonds")matrix &＃61; diamonds.corr() mask &＃61; np.triu(np.ones_like(matrix, dtype&＃61;bool))sns.heatmap(matrix, square&＃61;True, mask&＃61;mask, annot&＃61;True, fmt&＃61;".2f", center&＃61;0);

如你所见&＃xff0c;用triu创建的掩码可以用在相关矩阵上&＃xff0c;去掉不必要的上三角形和对角线。这使得热图更加紧凑&＃xff0c;可读性更强。

np.ravel / np.flatten

NumPy是关于高维矩阵和ndarrays的。但是有时候你只是想把这些数组压缩成一维。这就是你使用ravel或flatten的地方:

array &＃61; np.random.randint(0, 10, size&＃61;(4, 5)) array

array([[6, 4, 8, 9, 6], [5, 0, 4, 8, 5], [1, 3, 1, 0, 3], [2, 3, 3, 6, 5]])

array.ravel()

array([6, 4, 8, 9, 6, 5, 0, 4, 8, 5, 1, 3, 1, 0, 3, 2, 3, 3, 6, 5])

array.flatten()

array([6, 4, 8, 9, 6, 5, 0, 4, 8, 5, 1, 3, 1, 0, 3, 2, 3, 3, 6, 5])

它们看起来一样吗?不完全是。flatten总是返回一个1D副本&＃xff0c;而ravel则试图生成原始数组的1D视图。也就是说如果修改从ravel返回的数组可能会改变原来的数组。

np.vstack / np.hstack

在Kaggle上这两个函数经常被使用。通常人们从不同的模型对测试集有多个预测&＃xff0c;他们希望以某种方式集成这些预测。为了使它们易于处理&＃xff0c;必须将它们组合成一个矩阵。

array1 &＃61; np.arange(1, 11).reshape(-1, 1) array2 &＃61; np.random.randint(1, 10, size&＃61;10).reshape(-1, 1) hstacked &＃61; np.hstack((array1, array2)) hstacked

array([[ 1, 2],[ 2, 6],[ 3, 6],[ 4, 7],[ 5, 4],[ 6, 6],[ 7, 6],[ 8, 8],[ 9, 2],[10, 8]])

array1 &＃61; np.arange(20, 31).reshape(1, -1) array2 &＃61; np.random.randint(20, 31, size&＃61;11).reshape(1, -1) vstacked &＃61; np.vstack((array1, array2)) vstacked

array([[20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30],[21, 23, 23, 26, 29, 26, 27, 27, 28, 25, 25]])

在将每个数组与这些数组堆叠之前&＃xff0c;要对数组进行重塑&＃xff0c;因为默认情况下它们需要2D数组。这就是我们使用重塑函数的原因。这里&＃xff0c;reshape(-1,1)表示将数组转换为具有尽可能多行的单列。

类似地&＃xff0c;reshape(1&＃xff0c;-1)将数组转换为具有尽可能多列的单行向量。

np.r_ / np.c_

如果你像我一样懒惰&＃xff0c;不想对所有数组调用重塑&＃xff0c;那么有一个更优雅的解决方案。np.r_ / np.c_操作符(不是函数!)允许将数组分别堆叠为行和列。

下面&＃xff0c;我们模拟一个有100个可能性的预测数组。为了将它们堆叠在一起&＃xff0c;我们调用np.r_用括号表示(如pandas.DataFrame.loc)。

preds1 &＃61; np.random.rand(100) preds2 &＃61; np.random.rand(100)as_rows &＃61; np.r_[preds1, preds2] as_cols &＃61; np.c_[preds1, preds2]as_rows.shape

(200,)

as_cols.shape

(100, 2)

类似地&＃xff0c;np.c_将数组堆叠在一起创建一个矩阵。其实它们的功能并不局限于简单的水平和垂直堆栈。要了解更多的功能&＃xff0c;我建议你阅读文档。http://np.info

NumPy的函数非常的多。你可能没有时间和耐心学习每个函数和类。如果你面对一个未知的函数呢?你不用去看文档了因为有更好的选择。

info函数可以打印NumPy API中任何名称的docstring。这里是info使用的信息:

np.info(np.info)

info(object&＃61;None, maxwidth&＃61;76, output&＃61;, toplevel&＃61;&＃39;numpy&＃39;) Get help information for a function, class, or module. Parameters ---------- object : object or str, optional Input object or name to get information about. If &＃96;object&＃96; is a numpy object, its docstring is given. If it is a string, available modules are searched for matching objects. If None, information about &＃96;info&＃96; itself is returned. maxwidth : int, optional Printing width.

还记得我们在vscode的文章中说过lint要求强制编写docstring吗&＃xff0c;这就是原因了。

np.where

顾名思义&＃xff0c;这个函数返回一个条件为True的数组的所有下标:

probs &＃61; np.random.rand(100) idx &＃61; np.where(probs > 0.8) probs[idx]

array([0.80444302, 0.80623093, 0.98833642, 0.96856382, 0.89329919, 0.88664223, 0.90515148, 0.96363973, 0.81847588, 0.88250337, 0.98737432, 0.92104315])

它在搜索稀疏数组中的非零元素时特别有用&＃xff0c;甚至可以在Pandas DataFrames上使用它来基于条件进行更快的索引检索。

np.all / np.any

当与assert语句一起使用时&＃xff0c;这两个函数将在数据清理期间非常方便。np.all仅当数组中的所有元素都符合特定条件时返回True:

array1 &＃61; np.random.rand(100) array2 &＃61; np.random.rand(100)>>> np.all(array1 &＃61;&＃61; array2) False

因为我们创建了两个随机数的数组&＃xff0c;所以不可能每个元素都相等。然而&＃xff0c;如果这些数字是整数&＃xff0c;那么它们中至少有两个相等的可能性要大得多:

a1 &＃61; np.random.randint(1, 100, size&＃61;100) a2 &＃61; np.random.randint(1, 100, size&＃61;100)>>> np.any(a1 &＃61;&＃61; a2) True

any返回True是因为数组中至少有一个元素满足特定条件&＃xff0c;

np.allclose

如果想要检查两个长度相等的数组是否互为副本&＃xff0c;简单的&＃61;&＃61;操作符不会将其截断。但是你可能想要比较浮点数数组&＃xff0c;但是它们的小数点长度使得比较困难。在这种情况下可以使用allclose&＃xff0c;如果一个数组的所有元素彼此之间距离很近&＃xff0c;给定一定的容忍度&＃xff0c;它将返回True。

a1 &＃61; np.arange(1, 10, step&＃61;0.5) a2 &＃61; np.arange(0.8, 9.8, step&＃61;0.5) np.all(a1 &＃61;&＃61; a2)

False

a1

array([1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5, 5. , 5.5, 6. , 6.5, 7. , 7.5, 8. , 8.5, 9. , 9.5])

a2

array([0.8, 1.3, 1.8, 2.3, 2.8, 3.3, 3.8, 4.3, 4.8, 5.3, 5.8, 6.3, 6.8, 7.3, 7.8, 8.3, 8.8, 9.3])

np.allclose(a1, a2, rtol&＃61;0.2)

False

np.allclose(a1, a2, rtol&＃61;0.3)

True

只有当差异(<)小于rtol时&＃xff0c;函数才返回True&＃xff0c;而不是<&＃61;!

np.argsort

np.sort返回一个已排序的数组副本。有时需要对数组进行排序的索引&＃xff0c;以便为不同的目的多次使用相同的索引。这就是 argsort 派上用场的地方&＃xff1a;

random_ints &＃61; np.random.randint(1, 100, size&＃61;20) idx &＃61; np.argsort(random_ints) random_ints[idx]

array([ 6, 19, 22, 23, 35, 36, 37, 45, 46, 57,61, 62, 64, 66, 66, 68, 72, 74, 87, 89])

它来自以 arg 开头的一系列函数&＃xff0c;这些函数总是从某个函数的结果返回一个或多个索引。例如&＃xff0c;argmax 查找数组中的最大值并返回其索引&＃xff08;分类的TOP N就可以用这种方法&＃xff09;。

np.isneginf / np.isposinf

这两个布尔函数检查数组中的元素是负无穷大还是正无穷大。但是计算机和 NumPy 不理解无穷大的概念&＃xff08;好吧&＃xff0c;我也不知道是为什么&＃xff09;。它们只能将无穷大表示为一个非常大或非常小的数字&＃xff0c;这样才可以放入一个变量中&＃xff08;我希望我说得对&＃xff09;。

这就是为什么当你打印 np.inf 的类型时&＃xff0c;它返回浮点数&＃xff1a;

type(np.inf) # type of the infinity

float

type(-np.inf)

float

这意味着无穷大值可以很容易地被当作数组的正常值。所以你需要一个特殊的功能来找到这些异常的值&＃xff1a;

a &＃61; np.array([-9999, 99999, 97897, -79897, -np.inf]) np.all(a.dtype &＃61;&＃61; "float64")

True

np.any(np.isneginf(a))

True

np.polyfit

如果要执行传统的线性回归&＃xff0c;则不一定需要 Sklearn。NumPy 也可以的&＃xff1a;

X &＃61; diamonds["carat"].values.flatten() y &＃61; diamonds["price"].values.flatten() slope, intercept &＃61; np.polyfit(X, y, deg&＃61;1) slope, intercept

(7756.425617968436, -2256.3605800454034)

polyfit 获取两个向量&＃xff0c;对它们应用线性回归并返回斜率和截距。你只需要使用 deg 指定次数&＃xff0c;因为此函数可用于逼近任何次数多项式的根。

检查发现用 polyfit 找到的斜率和截距与 Sklearn 的 LinearRegression 模型相同&＃xff1a;

from sklearn.linear_model import LinearRegression lr &＃61; LinearRegression().fit(X.reshape(-1, 1), y) lr.coef_, lr.intercept_

(array([7756.42561797]), -2256.360580045441)

概率分布

NumPy 的 random 模块有多种伪随机数生成器可供选择。除了我最喜欢的样本和选择之外&＃xff0c;还有模拟伪完美概率分布的函数。

例如&＃xff0c;二项式、伽马、正态和 tweedie 函数从它们各自的分布中绘制自定义数量的数据点。

当你必须近似数据中特征的分布时&＃xff0c;你可能会发现它们非常有用。例如&＃xff0c;下面我们检查钻石价格是否服从正态分布。

fig, ax &＃61; plt.subplots(figsize&＃61;(6, 8)) price_mean &＃61; diamonds["price"].mean() price_std &＃61; diamonds["price"].std() # Draw from a perfect normal distribution perfect_norm &＃61; np.random.normal(price_mean, price_std, size&＃61;1000000) sns.kdeplot(diamonds["price"], ax&＃61;ax) sns.kdeplot(perfect_norm, ax&＃61;ax) plt.legend(["Price", "Perfect Normal Distribution"]);

这可以通过在完美正态分布之上绘制钻石价格的 KDE 来实现&＃xff0c;以使差异可见。

np.rint

如果你想将数组的每个元素四舍五入到最接近的整数&＃xff0c; rint 是一个漂亮的小函数。当你想将类概率转换为二进制分类中的类标签时&＃xff0c;可以不必调用模型的 predict 方法改成直接使用它&＃xff1a;

preds &＃61; np.random.rand(100) np.rint(preds[:50])

array([1., 1., 0., 1., 0., 1., 1., 0., 0., 0., 0., 1., 0., 1., 0., 1., 0., 1., 0., 1., 1., 1., 1., 1., 0., 0., 1., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 1., 0., 1., 1., 0., 0., 1., 0.])

np.nanmean / np.nan*

是否知道如果至少有一个元素是 NaN&＃xff0c;则纯 NumPy 数组上的算术运算会失败&＃xff1f;

a &＃61; np.array([12, 45, np.nan, 9, np.nan, 22]) np.mean(a)

nan

要在不修改原始数组的情况下解决此问题&＃xff0c;你可以使用一系列 nan 函数&＃xff1a;

np.nanmean(a)

22.0

以上是忽略缺失值的算术平均函数的示例。许多其他函数以同样的方式工作&＃xff1a;

[func for func in dir(np) if func.startswith("nan")]

[&＃39;nan&＃39;, &＃39;nan_to_num&＃39;, &＃39;nanargmax&＃39;, &＃39;nanargmin&＃39;, &＃39;nancumprod&＃39;, &＃39;nancumsum&＃39;, &＃39;nanmax&＃39;, &＃39;nanmean&＃39;, &＃39;nanmedian&＃39;, &＃39;nanmin&＃39;, &＃39;nanpercentile&＃39;, &＃39;nanprod&＃39;, &＃39;nanquantile&＃39;, &＃39;nanstd&＃39;, &＃39;nansum&＃39;, &＃39;nanvar&＃39;]

但是&＃xff0c;如果只使用 Pandas DataFrames 或 Series&＃xff0c;可能会有些不同&＃xff0c;因为它们默认会忽略 NaN。

np.clip

当想对数组的值施加严格限制时&＃xff0c;clip 很有用。下面&＃xff0c;我们将裁剪任何超出 10 和 70 硬限制的值&＃xff1a;

ages &＃61; np.random.randint(1, 110, size&＃61;100) limited_ages &＃61; np.clip(ages, 10, 70) limited_ages

array([13, 70, 10, 70, 70, 10, 63, 70, 70, 69, 45, 70, 70, 56, 60, 70, 70, 10, 52, 70, 32, 62, 21, 70, 13, 13, 10, 50, 38, 32, 70, 20, 27, 64, 34, 10, 70, 70, 53, 70, 53, 54, 26, 70, 57, 70, 46, 70, 17, 48, 70, 15, 49, 70, 10, 70, 19, 23, 70, 70, 70, 45, 47, 70, 70, 34, 25, 70, 10, 70, 42, 62, 70, 10, 70, 23, 25, 49, 70, 70, 62, 70, 70, 11, 10, 70, 30, 44, 70, 49, 10, 35, 52, 21, 70, 70, 25, 10, 55, 59])

np.count_nonzero

使用稀疏数组是很常见的。通常&＃xff0c;它们是对具有高基数(High-Cardinality)或只有许多二进制列的分类特征进行独热编码的结果。

你可以使用count_nonzero来检查任意数组中非零元素的数量:

a &＃61; np.random.randint(-50, 50, size&＃61;100000) np.count_nonzero(a)

98993

100k 随机整数中&＃xff0c;~1000个为零。

np.array_split

它可以用来将 ndarray 或 dataframe 分成 N 个 bucket。此外&＃xff0c;当你想要将数组分割成大小不相等的块(如 vsplit )时&＃xff0c;它不会引发错误:

import datatable as dt df &＃61; dt.fread("data/train.csv").to_pandas() splitted_dfs &＃61; np.array_split(df, 100) len(splitted_dfs)

我们爬虫第三期来了&＃xff0c;加入我们&＃xff0c;学更实用&＃xff0c;更值钱的 Python 技术&＃xff01;

从0到1系统掌握Python 技术&＃xff08;入门进阶&＃xff09; 2个企业实战项目&＃xff0c;4大常用工具掌握24种反爬策略手段&＃xff0c;成为真正爬虫高手能抓取市面上90%的网站掌握主流爬虫技术&＃xff0c;就业找工作真正全方位帮助大家从0到1&＃xff0c;从 Python 入门到进阶&＃xff0c;转行找爬虫工作。

推荐阅读

import
c/c++常用代码doc,ppt,xls文件格式转PDF格式[转]

[转]doc,ppt,xls文件格式转PDF格式http:blog.csdn.netlee353086articledetails7920355确实好用。需要注意的是#import ... [详细]

蜡笔小新 2024-11-12 16:19:40
char
IOS Run loop详解

为什么80%的码农都做不了架构师？转自http:blog.csdn.netztp800201articledetails9240913感谢作者分享Objecti ... [详细]

蜡笔小新 2024-11-13 12:14:35
import
检查在所有可能的“？”替换中，给定的二进制字符串中是否出现子字符串“10”带 1 或 0

检查在所有可能的“？”替换中，给定的二进制字符串中是否出现子字符串“10”带 1 或 0 ... [详细]

蜡笔小新 2024-11-12 11:35:01
byte
如何将TS文件转换为M3U8直播流：HLS与M3U8格式详解

在视频传输领域，MP4虽然常见，但在直播场景中直接使用MP4格式存在诸多问题。例如，MP4文件的头部信息（如ftyp、moov）较大，导致初始加载时间较长，影响用户体验。相比之下，HLS（HTTP Live Streaming）协议及其M3U8格式更具优势。HLS通过将视频切分成多个小片段，并生成一个M3U8播放列表文件，实现低延迟和高稳定性。本文详细介绍了如何将TS文件转换为M3U8直播流，包括技术原理和具体操作步骤，帮助读者更好地理解和应用这一技术。 ... [详细]

蜡笔小新 2024-11-11 12:12:04
import
（7）Python爬虫——爬取豆瓣电影Top250

利用python爬取豆瓣电影Top250的相关信息，包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容，然后将爬取的信息写入Exce ... [详细]

蜡笔小新 2024-11-13 11:35:24
buffer
面试中如何回答“零拷贝”技术问题？

零拷贝技术是提高I/O性能的重要手段，常用于Java NIO、Netty、Kafka等框架中。本文将详细解析零拷贝技术的原理及其应用。 ... [详细]

蜡笔小新 2024-11-13 02:03:52
buffer
最详尽的4K技术科普

什么是4K？4K是一个分辨率的范畴，即40962160的像素分辨率，一般用于专业设备居多，目前家庭用的设备，如 ... [详细]

蜡笔小新 2024-11-12 18:25:39
import
Spring详解（六）AOP

原文网址：https:www.cnblogs.comysoceanp7476379.html目录1、AOP什么？2、需求3、解决办法1:使用静态代理4 ... [详细]

蜡笔小新 2024-11-12 14:40:40
char
poj 3352 Road Construction

poj 3352 Road Construction ... [详细]

蜡笔小新 2024-11-12 11:24:39
import
大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式

大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式 ... [详细]

蜡笔小新 2024-11-11 19:05:59
import
Spring Boot 中配置全局文件上传路径并实现文件上传功能

本文介绍如何在 Spring Boot 项目中配置全局文件上传路径，并通过读取配置项实现文件上传功能。通过这种方式，可以更好地管理和维护文件路径。 ... [详细]

蜡笔小新 2024-11-13 11:19:38
search
图像相似度对比的多种方法

本文介绍了几种常用的图像相似度对比方法，包括直方图方法、图像模板匹配、PSNR峰值信噪比、SSIM结构相似性和感知哈希算法。每种方法都有其优缺点，适用于不同的应用场景。 ... [详细]

蜡笔小新 2024-11-13 11:04:56
search
Android 自定义加载对话框 CustomProgressDialog

本文介绍如何在 Android 中自定义加载对话框 CustomProgressDialog，包括自定义 View 类和 XML 布局文件的详细步骤。 ... [详细]

蜡笔小新 2024-11-12 21:51:00
char
洛谷 P1531 我讨厌它 —— 线段树实现

本文介绍如何使用线段树解决洛谷 P1531 我讨厌它问题，重点在于单点更新和区间查询最大值。 ... [详细]

蜡笔小新 2024-11-12 21:27:38
char
未加载符号表，请使用“file”命令加载目标文件以进行调试。

在使用Eclipse进行调试时，如果遇到未解析的断点（unresolved breakpoint）并显示“未加载符号表，请使用‘file’命令加载目标文件以进行调试”的错误提示，这通常是因为调试器未能正确加载符号表。解决此问题的方法是通过GDB的`file`命令手动加载目标文件，以便调试器能够识别和解析断点。具体操作为在GDB命令行中输入 `(gdb) file `。这一步骤确保了调试环境能够正确访问和解析程序中的符号信息，从而实现有效的调试。 ... [详细]

蜡笔小新 2024-11-11 18:21:47