用PCA方法进行数据降维

作者：Mickey-洁de妈咪_212 | 来源：互联网 | 2023-08-31 12:16

在进行数据分析时，我们往往会遇到多维数据，多维数据在处理时由于维度较大计算起来非常麻烦，这时我们需要对数据进行降维。而在所有降维方法中&#

在进行数据分析时&＃xff0c;我们往往会遇到多维数据&＃xff0c;多维数据在处理时由于维度较大计算起来非常麻烦&＃xff0c;这时我们需要对数据进行降维。而在所有降维方法中&＃xff0c;PCA是我们最常用的方法之一&＃xff0c;其在使用时可以消除指标间的相互影响&＃xff0c;同时也不用考虑数据的分布&＃xff0c;而且降维效果非常明显&＃xff0c;所以PCA可以在绝大多数情况下使用。而本文就是用python来解释一下如何用PCA方法进行降维。

首先对PCA进行一下简介。PCA全称是principal components analysis&＃xff0c;即主成分分析。假设对某一事物的研究设计p个指标&＃xff0c;分别用X1、X2、......、Xp表示&＃xff0c;这p个指标构成的p维随机向量为X&＃61;(X1, X2, ..., Xp)’&＃xff0c;设X的均值为μ&＃xff0c;协方差矩阵为Σ。对X进行线性变换&＃xff0c;可以形成新的综合变量&＃xff0c;用Y表示&＃xff0c;也就是说新的变量可以由原来的变量线性表示&＃xff0c;即满足图1中的关系。

图1. PCA原理

由于这个线性变换是任意的&＃xff0c;所以可以得到不同的Y。为了取得理想的效果&＃xff0c;我们希望Yi&＃61;(ui)’X的方差尽可能大且Yi之间相互独立。所以我们将线性变换约束在下面的条件之内&＃xff1a;

&＃xff08;1&＃xff09;(ui)’(ui)&＃61;1 &＃xff08;i&＃61;1, 2, 3, ..., p&＃xff09;

&＃xff08;2&＃xff09;Yi与Yj相互无关&＃xff08;i不等于j&＃xff0c;i, j&＃61;1, 2, 3, ..., p&＃xff09;

&＃xff08;3&＃xff09;Y1是X1、X2、...、Xp的一切满足条件&＃xff08;1&＃xff09;的线性组合中方差最大者&＃xff0c;Y2是与Y1不相关的X1、X2、...、Xp所有线性组合中方差最大者&＃xff0c;......&＃xff0c;Yp是与Y1、Y2、...、Y(p-1)不相关的X1、X2、...、Xp的所有线性组合中方差最大者。

基于以上三条原则确定的综合变量Y1、Y2、...、Yp分别称为原始变量的第一、第二...第p个主成分。各综合变量在总方差中所占的比重依次递减。在实际运用中&＃xff0c;我们往往选取方差最大的几个主成分&＃xff0c;就达到了降维的目的。

下面就用python代码结合实际例子来说明一下PCA的具体用法。在这里我们要说明一下本次使用的数据集&＃xff0c;该数据集是Iris Flower Dataset&＃xff0c;即著名的鸢尾花数据集。该数据集只有5个维度&＃xff08;其中我们主要用到前4个维度&＃xff09;&＃xff0c;样本量也只有150个&＃xff0c;整个数据集比较轻便&＃xff0c;非常适合做数据展示。

首先导入需要的库。

import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt from sklearn.decomposition import PCA

接下来读取相关数据集&＃xff0c;这个数据集位于seaborn库当中。前8行数据如图2所示。

data &＃61; sns.load_dataset(&＃39;iris&＃39;) data.head(8)

图2. 数据集样例

然后对数据做一个简单的处理&＃xff0c;看一下各个维度之间的相关关系。所得结果如图3和图4所示。

values &＃61; data.iloc[:, :4] #读取前4列数据 correlation &＃61; values.corr() #列与列之间的相关系数 fig, ax &＃61; plt.subplots(figsize&＃61;(12, 10)) sns.heatmap(correlation, annot&＃61;True, annot_kws&＃61;{&＃39;size&＃39;:16}, cmap&＃61;&＃39;Reds&＃39;, square&＃61;True, ax&＃61;ax) #热力图 sns.pairplot(data, hue&＃61;&＃39;species&＃39;) #散点关系图

图3. 各维度之间的相关系数热力图

图4. 各维度之间的散点关系图

从图中可以大致看出&＃xff0c;sepal_length和petal_length与petal_width都有较强的相关性&＃xff0c;而petal_length和petal_width的相关性最强&＃xff0c;达到0.96。下面我们来用PCA具体来分析一下该数据集&＃xff0c;首先先看看该数据在选取4个主成分下的情况&＃xff0c;这时候其主成分的数量和原数据的维度数相等。其结果如图5所示。

pca &＃61; PCA(n_components&＃61;4) #选取4个主成分 pc &＃61; pca.fit_transform(values) #对原数据进行pca处理 print("explained variance ratio: %s" % pca.explained_variance_ratio_) #输出各个主成分所占的比例 plt.plot(range(1, 5), np.cumsum(pca.explained_variance_ratio_)) #绘制主成分累积比例图 plt.scatter(range(1,5),np.cumsum(pca.explained_variance_ratio_)) plt.xlim(0, 5) plt.ylim(0.9, 1.02) plt.xlabel("number of components") plt.ylabel("cumulative explained variance");

图5. 各主成分累加结果

我们可以看到pca.explained_variance_ratio_的结果是[0.92461872 0.05306648 0.01710261 0.00521218]&＃xff0c;而图5中也显示前两个主成分之和就已经接近所有主成分的98%&＃xff0c;所以在只考虑前两个主成分的情况下&＃xff0c;我们就能够将数据的损失控制在很小的范围内。这里我们就只用前两个主成分来做分析。接下来我们就只用前两个主成分来分析原数据&＃xff0c;将两个主成分的数据转换成dataframe格式&＃xff0c;然后再加上一列原数据中species的数据&＃xff0c;代码如下&＃xff0c;结果如图6所示。

pca1 &＃61; PCA(n_components&＃61;2) #选取2个主成分 pc1 &＃61; pca1.fit_transform(values) pc1_df &＃61; pd.DataFrame(pc1, columns&＃61;[&＃39;pc_1&＃39;, &＃39;pc_2&＃39;]) pc1_df[&＃39;species&＃39;] &＃61; data[&＃39;species&＃39;] #加上一列species pc1_df.head(8)

图6. 只有两个主成分的数据样例

接下来我们来看一下这两个主成分的组成。

print(pca1.components_)

结果如下。

[[ 0.36138659 -0.08452251 0.85667061 0.3582892 ][ 0.65658877 0.73016143 -0.17337266 -0.07548102]]

用这个结果来验证一下前面的数据。按照图1中的原理来计算&＃xff0c;pca1.components_第一行的数据和values第一行数据对应项相乘的和&＃xff0c;应该等于pc1_df中pc_1列第一个数据-2.684126&＃xff0c;即图6中第一行第一列数据。即有下列代码。

print(np.dot(pca1.components_[0], values.iloc[0]))

按照上式计算&＃xff0c;结果是2.8182395066394683。很多人看到这里&＃xff0c;认为是不是算错了&＃xff0c;其实我们在计算方法上都没有错&＃xff0c;只是在这里有一个隐含条件没有满足&＃xff0c;就是sklearn在进行PCA计算时&＃xff0c;数据要进行“中心化”&＃xff0c;即每个数据减去这组数据的平均值&＃xff0c;这样做主要是为了后续方便计算。所以我们要把上述代码改为下面这样。

print(np.dot(pca1.components_[0], values.iloc[0]-values.mean(axis&＃61;0)))

其得到的结果是-2.684125625969536&＃xff0c;这就和前面的-2.684126对应起来了&＃xff08;这里排除小数点精度问题&＃xff09;。接下来就是用我们降维后的数据来作图。我们将原先的数据从4维降为2维&＃xff0c;这正好方便绘制二维图&＃xff0c;代码如下。结果如图7所示。

setosa &＃61; pc1_df[pc1_df[&＃39;species&＃39;]&＃61;&＃61;&＃39;setosa&＃39;] #找出setosa对应的主成分数据 virginica &＃61; pc1_df[pc1_df[&＃39;species&＃39;]&＃61;&＃61;&＃39;virginica&＃39;] versicolor &＃61; pc1_df[pc1_df[&＃39;species&＃39;]&＃61;&＃61;&＃39;versicolor&＃39;] fig, ax &＃61; plt.subplots(figsize&＃61;(10, 8)) plt.scatter(setosa[&＃39;pc_1&＃39;], setosa[&＃39;pc_2&＃39;], alpha&＃61;0.7, color &＃61; &＃39;red&＃39;, label&＃61;&＃39;Setosa&＃39;) #绘制Setosa的散点图 plt.scatter(virginica[&＃39;pc_1&＃39;], virginica[&＃39;pc_2&＃39;], alpha&＃61;0.7, color &＃61; &＃39;green&＃39;, label&＃61;&＃39;Virginica&＃39;) plt.scatter(versicolor[&＃39;pc_1&＃39;], versicolor[&＃39;pc_2&＃39;], alpha&＃61;0.7, color &＃61; &＃39;blue&＃39;, label&＃61;&＃39;Versicolor&＃39;) plt.legend(loc&＃61;&＃39;best&＃39;) plt.xlabel(&＃39;principal component 1&＃39;) plt.ylabel(&＃39;principal component 2&＃39;)

图7 . 降维后的散点图

主成分分析这种方法虽然简单易用&＃xff0c;但其也有自身的缺点&＃xff0c;比如对降维最终得到数目&＃xff0c;不能很好地估计&＃xff0c;同时PCA对于维度之间非线性的依赖关系不能得到很好的结果。此外本例中笔者没有对原数据进行标准化&＃xff0c;因为标准化可能会损失一定信息&＃xff0c;这个问题业界也争论了很长时间&＃xff0c;到底是否对数据进行标准化需要根据实际情况来判断&＃xff0c;因为本例中各维度之间的数据差异不大&＃xff0c;所以笔者并未进行标准化。所以针对PCA的使用&＃xff0c;大家还是要根据数据的要求来进行判断。

作者简介&＃xff1a;Mort&＃xff0c;数据分析爱好者&＃xff0c;擅长数据可视化&＃xff0c;比较关注机器学习领域&＃xff0c;希望能和业内朋友多学习交流。

赞赏作者

Python中文社区作为一个去中心化的全球技术社区&＃xff0c;以成为全球20万Python中文开发者的精神部落为愿景&＃xff0c;目前覆盖各大主流媒体和协作平台&＃xff0c;与阿里、腾讯、百度、微软、亚马逊、开源中国、CSDN等业界知名公司和技术社区建立了广泛的联系&＃xff0c;拥有来自十多个国家和地区数万名登记会员&＃xff0c;会员来自以工信部、清华大学、北京大学、北京邮电大学、中国人民银行、中科院、中金、华为、BAT、谷歌、微软等为代表的政府机关、科研单位、金融机构以及海内外知名公司&＃xff0c;全平台近20万开发者关注。

推荐阅读&＃xff1a;

用 Python 进行系统聚类分析

用 Python 对数据进行相关性分析

如何在 matplotlib 中加注释和内嵌图

如何用一行代码让 gevent 爬虫提速 100%

▼点击成为社区会员喜欢就点个在看吧

推荐阅读

process
python机器学习之数据探索

🐱今天我们来讲解数据建模之前需要处理的工作，也就是数据探索的过程，很多同学会说，不就是处理缺失值，异常值&# ... [详细]

蜡笔小新 2023-10-16 17:06:54
main
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
main
利用OpenCV和线性SVM实现人脸识别

本文介绍如何使用OpenCV和线性支持向量机（SVM）模型来开发一个简单的人脸识别系统，特别关注在只有一个用户数据集时的处理方法。 ... [详细]

蜡笔小新 2024-11-13 14:50:37
format
【图像分类实战】利用DenseNet在PyTorch中实现秃头识别

本文详细介绍了如何使用DenseNet模型在PyTorch框架下实现秃头识别。首先，文章概述了项目所需的库和全局参数设置。接着，对图像进行预处理并读取数据集。随后，构建并配置DenseNet模型，设置训练和验证流程。最后，通过测试阶段验证模型性能，并提供了完整的代码实现。本文不仅涵盖了技术细节，还提供了实用的操作指南，适合初学者和有经验的研究人员参考。 ... [详细]

蜡笔小新 2024-11-06 15:21:35
testing
注意力汇聚：NadarayaWatson 核回归

Nadaraya-Watson核回归是具有注意力机制的机器学习范例。Nadaraya-Watson核回归的注意力汇聚是对训练数据中输出的加权平均。从注意力的角度来看， ... [详细]

蜡笔小新 2023-10-10 12:37:01
datetime
开发笔记:共享单车数据分析

篇首语：本文由编程笔记#小编为大家整理，主要介绍了共享单车数据分析相关的知识，希望对你有一定的参考价值。共享单车数据分析和共享单车用户行为分析PPT从数据分 ... [详细]

蜡笔小新 2023-10-10 10:55:15
format
循环发电厂电能输出预测

前言本次项目是就某联合循环发电厂的数据，运用线性回归模型进行预测电能输出，若文中出现错误的地方，还望指正，谢谢！目录1.数据来源及背景2.数据探索分析3.相关分析4.回 ... [详细]

蜡笔小新 2023-09-25 15:47:36
数组
Python交叉分析学习笔记

Python交叉分析学习笔记本文将介绍两种方法来进行交叉分析：1.独立T检验2.数据透视表。数据源：百度网盘，课程来源：慕课网数据源共包括10个变量，如下：satisfaction ... [详细]

蜡笔小新 2023-09-25 15:44:34
string
C#我自己做一个网站图片的抓取

我自己做了一个网站图片的抓取,感觉速度有点慢抓取4000张图片可能得用15分钟左右的时间,我百度看用线程可以加快抓取,然后创建了5个线程抓取,但是5个线程是同步执行同样的操作一个图片就 ... [详细]

蜡笔小新 2024-11-16 16:00:18
数组
数据分析与数据挖掘：NumPy、Pandas和Matplotlib的使用指南

本文详细介绍了如何使用NumPy、Pandas和Matplotlib进行数据分析和数据可视化。通过具体的代码示例，帮助读者更好地理解和应用这些强大的Python库。 ... [详细]

蜡笔小新 2024-11-15 18:34:43
数组
图像分类训练方案优化设计

针对图像分类任务的训练方案进行了优化设计。通过引入PyTorch等深度学习框架，利用其丰富的工具包和模块，如 `torch.nn` 和 `torch.nn.functional`，提升了模型的训练效率和分类准确性。优化方案包括数据预处理、模型架构选择和损失函数的设计等方面，旨在提高图像分类任务的整体性能。 ... [详细]

蜡笔小新 2024-11-07 16:45:46
数组
机器学习中的标准化缩放、最小-最大缩放及鲁棒缩放技术解析

机器学习中的标准化缩放、最小-最大缩放及鲁棒缩放技术解析 ... [详细]

蜡笔小新 2024-11-05 15:46:18
main
探索聚类分析中的K-Means与DBSCAN算法及其应用

聚类分析是一种用于解决样本或特征分类问题的统计分析方法，也是数据挖掘领域的重要算法之一。本文主要探讨了K-Means和DBSCAN两种聚类算法的原理及其应用场景。K-Means算法通过迭代优化簇中心来实现数据点的划分，适用于球形分布的数据集；而DBSCAN算法则基于密度进行聚类，能够有效识别任意形状的簇，并且对噪声数据具有较好的鲁棒性。通过对这两种算法的对比分析，本文旨在为实际应用中选择合适的聚类方法提供参考。 ... [详细]

蜡笔小新 2024-11-04 13:20:39
ip
seaborn箱线图_Seaborn线图的数据可视化

seaborn箱线图Hello,folks!Inthisarticle,wewillbetakingtheSeaborntutorialaheadandunderstandingt ... [详细]

蜡笔小新 2023-10-10 04:04:09
char
如何在热图中使单元格大小使用R调解数据分辨率？ - How can I make cell size in an heatmap mediate data resolution using R?

Giventhefollowingexample:给出以下示例：X<-matrix(nrow3,ncol3)X[1,]<-c(0.3,0.4,0.45)X ... [详细]

蜡笔小新 2023-09-25 15:42:56

Mickey-洁de妈咪_212

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章