热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

对于PCA的认识

PCA(Principalcomponentanalysis)是一种多元统计方法。最近在研究PCA在故障检测上的运用。在这里说说我对PCA的认识。首先,我们需要有一组数据X,X是n行m列

  PCA(Principal component analysis)是一种多元统计方法。最近在研究PCA在故障检测上的运用。在这里说说我对PCA的认识。

  首先,我们需要有一组数据X,X是n行m列的数据,为了方便,我们认为数据是均值为0,方差为1的数据。其中n为样本数,m为变量。我们可以找到一个线性组合T=XP,其中T=(t1,t2,...,tm)(T为得分矩阵,Rn*m),P=(p1,p2,...,pm)(p为负载矩阵,Rm*m)。

其中使得 (1)ti和tj线性无关。

    (2)t1是使X一切线性组合中方差最大的,t2是使满足(1)后X一切线性组合中方差最大的。。。

    (3)ti=Xpi的系数满足piTpi=1.

 

其实,以上三个要求就是将原数据进行平移旋转,但是也不能随意的旋转,我们需要找个一组坐标系,使得我们的数据在这个新的坐标系上能有最清晰的反应。这个指标就是方差,我们需要找到一组使这组数据方差最大的一个坐标系,然后找到这个坐标系之后,我们选取其方向的单位向量来表示这个坐标系。

 

  这个新的坐标系的具体求解方法如下:

(1)将数据X中心化((x-u)/std(x)),得到新的数据仍然用X表示。

(2)计算X的协方差矩阵∑=XT*X。并对其进行特征值分解,得到特征值Λ',和对应的特征向量矩阵P'。然后我们对特征值按其大小按从大到小排序,对应的特征向量也进行排序得到Λ和P,就找到满足条件的坐标系。

 

以上是坐标系的变换,但PCA不仅仅如此。PCA可以在一定置信度下,将高维数据用较少维数的数据表示,也就是降维的功能。下面来解释。

首先,我们对一个100*3的数据进行PCA处理,得出负载矩阵P。我们选取负载矩阵中前两个向量作为主元空间,将其画出来的话是这个样子的:

 

蓝色的点为原数据点,红色向量为第一主轴,黑色向量为第二主轴,绿色向量对应残差方向(对应的方差太小,可以被忽略)。平面为第一、第二主轴构成的平面。

可以明显的看到,原数据与主元空间(就是平面)的关系,原数据并不全在主元空间内,但是残差方向的方差是最小的。

我们先是通过旋转获得可以使数据方差最大主轴,然后我们进行降维。降维后的数据如下图:


 

 

 

 

 

 

 

 

 

 

 

 

两张图都是降维后的图形,旋转下能看得更清楚,降维后的数据都在主元空间内了。由于残差方向的信息比较小,PCA忽略了这一部分信息,用降维后的数据来表示原数据。个人觉得PCA降维就是把原数据压扁在主元空间里面,残差方向都变为0了(个人觉得这样最形象了,请自行补脑。。)。PCA的降维其实去掉了一部分噪声,使多维数据更加精简。

 

以上内容是个人对PCA的理解,如有不足,望指正。

 


推荐阅读
  • Docker的安全基准
    nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]
  • Python 异步编程:深入理解 asyncio 库(上)
    本文介绍了 Python 3.4 版本引入的标准库 asyncio,该库为异步 IO 提供了强大的支持。我们将探讨为什么需要 asyncio,以及它如何简化并发编程的复杂性,并详细介绍其核心概念和使用方法。 ... [详细]
  • Java 中的 BigDecimal pow()方法,示例 ... [详细]
  • 本文详细介绍了如何在BackTrack 5中配置和启动SSH服务,确保其正常运行,并通过Windows系统成功连接。涵盖了必要的密钥生成步骤及常见问题解决方法。 ... [详细]
  • 探讨如何高效使用FastJSON进行JSON数据解析,特别是从复杂嵌套结构中提取特定字段值的方法。 ... [详细]
  • 1:有如下一段程序:packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]
  • 本文介绍如何利用动态规划算法解决经典的0-1背包问题。通过具体实例和代码实现,详细解释了在给定容量的背包中选择若干物品以最大化总价值的过程。 ... [详细]
  • 本文详细探讨了Java中的24种设计模式及其应用,并介绍了七大面向对象设计原则。通过创建型、结构型和行为型模式的分类,帮助开发者更好地理解和应用这些模式,提升代码质量和可维护性。 ... [详细]
  • 本文基于刘洪波老师的《英文词根词缀精讲》,深入探讨了多个重要词根词缀的起源及其相关词汇,帮助读者更好地理解和记忆英语单词。 ... [详细]
  • 本文介绍了Java并发库中的阻塞队列(BlockingQueue)及其典型应用场景。通过具体实例,展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递,并结合线程池和原子类优化性能。 ... [详细]
  • 数据管理权威指南:《DAMA-DMBOK2 数据管理知识体系》
    本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释,构建了数据管理的总体框架,为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]
  • CentOS7源码编译安装MySQL5.6
    2019独角兽企业重金招聘Python工程师标准一、先在cmake官网下个最新的cmake源码包cmake官网:https:www.cmake.org如此时最新 ... [详细]
  • 深入理解 SQL 视图、存储过程与事务
    本文详细介绍了SQL中的视图、存储过程和事务的概念及应用。视图为用户提供了一种灵活的数据查询方式,存储过程则封装了复杂的SQL逻辑,而事务确保了数据库操作的完整性和一致性。 ... [详细]
  • 深入理解Java中的volatile、内存屏障与CPU指令
    本文详细探讨了Java中volatile关键字的作用机制,以及其与内存屏障和CPU指令之间的关系。通过具体示例和专业解析,帮助读者更好地理解多线程编程中的同步问题。 ... [详细]
  • 本文介绍了如何使用JQuery实现省市二级联动和表单验证。首先,通过change事件监听用户选择的省份,并动态加载对应的城市列表。其次,详细讲解了使用Validation插件进行表单验证的方法,包括内置规则、自定义规则及实时验证功能。 ... [详细]
author-avatar
zzzzzzzzssss
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有