热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

用PCA方法进行数据降维

在进行数据分析时,我们往往会遇到多维数据,多维数据在处理时由于维度较大计算起来非常麻烦,这时我们需要对数据进行降维。而在所有降维方法中&#

在进行数据分析时,我们往往会遇到多维数据,多维数据在处理时由于维度较大计算起来非常麻烦,这时我们需要对数据进行降维。而在所有降维方法中,PCA是我们最常用的方法之一,其在使用时可以消除指标间的相互影响,同时也不用考虑数据的分布,而且降维效果非常明显,所以PCA可以在绝大多数情况下使用。而本文就是用python来解释一下如何用PCA方法进行降维。

首先对PCA进行一下简介。PCA全称是principal components analysis,即主成分分析。假设对某一事物的研究设计p个指标,分别用X1、X2、......、Xp表示,这p个指标构成的p维随机向量为X=(X1, X2, ..., Xp)’,设X的均值为μ,协方差矩阵为Σ。对X进行线性变换,可以形成新的综合变量,用Y表示,也就是说新的变量可以由原来的变量线性表示,即满足图1中的关系。

图1. PCA原理

由于这个线性变换是任意的,所以可以得到不同的Y。为了取得理想的效果,我们希望Yi=(ui)’X的方差尽可能大且Yi之间相互独立。所以我们将线性变换约束在下面的条件之内:

(1)(ui)’(ui)=1 (i=1, 2, 3, ..., p)

(2)Yi与Yj相互无关(i不等于j,i, j=1, 2, 3, ..., p)

(3)Y1是X1、X2、...、Xp的一切满足条件(1)的线性组合中方差最大者,Y2是与Y1不相关的X1、X2、...、Xp所有线性组合中方差最大者,......,Yp是与Y1、Y2、...、Y(p-1)不相关的X1、X2、...、Xp的所有线性组合中方差最大者。

基于以上三条原则确定的综合变量Y1、Y2、...、Yp分别称为原始变量的第一、第二...第p个主成分。各综合变量在总方差中所占的比重依次递减。在实际运用中,我们往往选取方差最大的几个主成分,就达到了降维的目的。

下面就用python代码结合实际例子来说明一下PCA的具体用法。在这里我们要说明一下本次使用的数据集,该数据集是Iris Flower Dataset,即著名的鸢尾花数据集。该数据集只有5个维度(其中我们主要用到前4个维度),样本量也只有150个,整个数据集比较轻便,非常适合做数据展示。

首先导入需要的库。

import numpy as np 
import pandas as pd 
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA

接下来读取相关数据集,这个数据集位于seaborn库当中。前8行数据如图2所示。

data = sns.load_dataset('iris')
data.head(8)

图2. 数据集样例

然后对数据做一个简单的处理,看一下各个维度之间的相关关系。所得结果如图3和图4所示。

values = data.iloc[:, :4] #读取前4列数据
correlation = values.corr() #列与列之间的相关系数
fig, ax = plt.subplots(figsize=(12, 10))
sns.heatmap(correlation, annot=True, annot_kws={'size':16}, cmap='Reds', square=True, ax=ax) #热力图
sns.pairplot(data, hue='species') #散点关系图

图3. 各维度之间的相关系数热力图

图4. 各维度之间的散点关系图

从图中可以大致看出,sepal_length和petal_length与petal_width都有较强的相关性,而petal_length和petal_width的相关性最强,达到0.96。下面我们来用PCA具体来分析一下该数据集,首先先看看该数据在选取4个主成分下的情况,这时候其主成分的数量和原数据的维度数相等。其结果如图5所示。

pca = PCA(n_components=4) #选取4个主成分
pc = pca.fit_transform(values) #对原数据进行pca处理
print("explained variance ratio: %s" % pca.explained_variance_ratio_) #输出各个主成分所占的比例
plt.plot(range(1, 5), np.cumsum(pca.explained_variance_ratio_)) #绘制主成分累积比例图
plt.scatter(range(1,5),np.cumsum(pca.explained_variance_ratio_))
plt.xlim(0, 5)
plt.ylim(0.9, 1.02)
plt.xlabel("number of components")
plt.ylabel("cumulative explained variance");

图5. 各主成分累加结果

我们可以看到pca.explained_variance_ratio_的结果是[0.92461872 0.05306648 0.01710261 0.00521218],而图5中也显示前两个主成分之和就已经接近所有主成分的98%,所以在只考虑前两个主成分的情况下,我们就能够将数据的损失控制在很小的范围内。这里我们就只用前两个主成分来做分析。接下来我们就只用前两个主成分来分析原数据,将两个主成分的数据转换成dataframe格式,然后再加上一列原数据中species的数据,代码如下,结果如图6所示。

pca1 = PCA(n_components=2) #选取2个主成分
pc1 = pca1.fit_transform(values) 
pc1_df = pd.DataFrame(pc1, columns=['pc_1', 'pc_2'])
pc1_df['species'] = data['species'] #加上一列species
pc1_df.head(8)

图6. 只有两个主成分的数据样例

接下来我们来看一下这两个主成分的组成。

print(pca1.components_)

结果如下。

[[ 0.36138659 -0.08452251  0.85667061  0.3582892 ][ 0.65658877  0.73016143 -0.17337266 -0.07548102]]

用这个结果来验证一下前面的数据。按照图1中的原理来计算,pca1.components_第一行的数据和values第一行数据对应项相乘的和,应该等于pc1_dfpc_1列第一个数据-2.684126,即图6中第一行第一列数据。即有下列代码。

print(np.dot(pca1.components_[0], values.iloc[0]))

按照上式计算,结果是2.8182395066394683。很多人看到这里,认为是不是算错了,其实我们在计算方法上都没有错,只是在这里有一个隐含条件没有满足,就是sklearn在进行PCA计算时,数据要进行“中心化”,即每个数据减去这组数据的平均值,这样做主要是为了后续方便计算。所以我们要把上述代码改为下面这样。

print(np.dot(pca1.components_[0], values.iloc[0]-values.mean(axis=0)))

其得到的结果是-2.684125625969536,这就和前面的-2.684126对应起来了(这里排除小数点精度问题)。接下来就是用我们降维后的数据来作图。我们将原先的数据从4维降为2维,这正好方便绘制二维图,代码如下。结果如图7所示。

setosa = pc1_df[pc1_df['species']=='setosa'] #找出setosa对应的主成分数据
virginica = pc1_df[pc1_df['species']=='virginica']
versicolor = pc1_df[pc1_df['species']=='versicolor']
fig, ax = plt.subplots(figsize=(10, 8))
plt.scatter(setosa['pc_1'], setosa['pc_2'], alpha=0.7, color = 'red', label='Setosa') #绘制Setosa的散点图
plt.scatter(virginica['pc_1'], virginica['pc_2'], alpha=0.7, color = 'green', label='Virginica')
plt.scatter(versicolor['pc_1'], versicolor['pc_2'], alpha=0.7, color = 'blue',  label='Versicolor')
plt.legend(loc='best')
plt.xlabel('principal component 1')
plt.ylabel('principal component 2')

图7 . 降维后的散点图

主成分分析这种方法虽然简单易用,但其也有自身的缺点,比如对降维最终得到数目,不能很好地估计,同时PCA对于维度之间非线性的依赖关系不能得到很好的结果。此外本例中笔者没有对原数据进行标准化,因为标准化可能会损失一定信息,这个问题业界也争论了很长时间,到底是否对数据进行标准化需要根据实际情况来判断,因为本例中各维度之间的数据差异不大,所以笔者并未进行标准化。所以针对PCA的使用,大家还是要根据数据的要求来进行判断。

作者简介:Mort,数据分析爱好者,擅长数据可视化,比较关注机器学习领域,希望能和业内朋友多学习交流。

赞 赏 作 者

Python中文社区作为一个去中心化的全球技术社区,以成为全球20万Python中文开发者的精神部落为愿景,目前覆盖各大主流媒体和协作平台,与阿里、腾讯、百度、微软、亚马逊、开源中国、CSDN等业界知名公司和技术社区建立了广泛的联系,拥有来自十多个国家和地区数万名登记会员,会员来自以工信部、清华大学、北京大学、北京邮电大学、中国人民银行、中科院、中金、华为、BAT、谷歌、微软等为代表的政府机关、科研单位、金融机构以及海内外知名公司,全平台近20万开发者关注。

推荐阅读:

用 Python 进行系统聚类分析

用 Python 对数据进行相关性分析

如何在 matplotlib 中加注释和内嵌图

如何用一行代码让 gevent 爬虫提速 100%

▼点击成为社区会员   喜欢就点个在看吧


推荐阅读
  • python机器学习之数据探索
    🐱今天我们来讲解数据建模之前需要处理的工作,也就是数据探索的过程,很多同学会说,不就是处理缺失值,异常值&# ... [详细]
  • 通过使用CIFAR-10数据集,本文详细介绍了如何快速掌握Mixup数据增强技术,并展示了该方法在图像分类任务中的显著效果。实验结果表明,Mixup能够有效提高模型的泛化能力和分类精度,为图像识别领域的研究提供了有价值的参考。 ... [详细]
  • 本文介绍如何使用OpenCV和线性支持向量机(SVM)模型来开发一个简单的人脸识别系统,特别关注在只有一个用户数据集时的处理方法。 ... [详细]
  • 【图像分类实战】利用DenseNet在PyTorch中实现秃头识别
    本文详细介绍了如何使用DenseNet模型在PyTorch框架下实现秃头识别。首先,文章概述了项目所需的库和全局参数设置。接着,对图像进行预处理并读取数据集。随后,构建并配置DenseNet模型,设置训练和验证流程。最后,通过测试阶段验证模型性能,并提供了完整的代码实现。本文不仅涵盖了技术细节,还提供了实用的操作指南,适合初学者和有经验的研究人员参考。 ... [详细]
  • 注意力汇聚:NadarayaWatson 核回归
    Nadaraya-Watson核回归是具有注意力机制的机器学习范例。Nadaraya-Watson核回归的注意力汇聚是对训练数据中输出的加权平均。从注意力的角度来看, ... [详细]
  • 开发笔记:共享单车数据分析
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了共享单车数据分析相关的知识,希望对你有一定的参考价值。共享单车数据分析和共享单车用户行为分析PPT从数据分 ... [详细]
  • 循环发电厂电能输出预测
    前言本次项目是就某联合循环发电厂的数据,运用线性回归模型进行预测电能输出,若文中出现错误的地方,还望指正,谢谢!目录1.数据来源及背景2.数据探索分析3.相关分析4.回 ... [详细]
  • Python交叉分析学习笔记
    Python交叉分析学习笔记本文将介绍两种方法来进行交叉分析:1.独立T检验2.数据透视表。数据源:百度网盘,课程来源:慕课网数据源共包括10个变量,如下:satisfaction ... [详细]
  • 我自己做了一个网站图片的抓取,感觉速度有点慢抓取4000张图片可能得用15分钟左右的时间,我百度看用线程可以加快抓取,然后创建了5个线程抓取,但是5个线程是同步执行同样的操作一个图片就 ... [详细]
  • 本文详细介绍了如何使用NumPy、Pandas和Matplotlib进行数据分析和数据可视化。通过具体的代码示例,帮助读者更好地理解和应用这些强大的Python库。 ... [详细]
  • 针对图像分类任务的训练方案进行了优化设计。通过引入PyTorch等深度学习框架,利用其丰富的工具包和模块,如 `torch.nn` 和 `torch.nn.functional`,提升了模型的训练效率和分类准确性。优化方案包括数据预处理、模型架构选择和损失函数的设计等方面,旨在提高图像分类任务的整体性能。 ... [详细]
  • 机器学习中的标准化缩放、最小-最大缩放及鲁棒缩放技术解析 ... [详细]
  • 探索聚类分析中的K-Means与DBSCAN算法及其应用
    聚类分析是一种用于解决样本或特征分类问题的统计分析方法,也是数据挖掘领域的重要算法之一。本文主要探讨了K-Means和DBSCAN两种聚类算法的原理及其应用场景。K-Means算法通过迭代优化簇中心来实现数据点的划分,适用于球形分布的数据集;而DBSCAN算法则基于密度进行聚类,能够有效识别任意形状的簇,并且对噪声数据具有较好的鲁棒性。通过对这两种算法的对比分析,本文旨在为实际应用中选择合适的聚类方法提供参考。 ... [详细]
  • seaborn箱线图_Seaborn线图的数据可视化
    seaborn箱线图Hello,folks!Inthisarticle,wewillbetakingtheSeaborntutorialaheadandunderstandingt ... [详细]
  • Giventhefollowingexample:给出以下示例:X<-matrix(nrow3,ncol3)X[1,]<-c(0.3,0.4,0.45)X ... [详细]
author-avatar
Mickey-洁de妈咪_212
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有