当前位置: 开发笔记 > 编程语言 > 正文

机器学习（七）：主成分分析PCA降维_Python

作者：zwjy2018 | 来源：互联网 | 2023-10-11 09:34

六、PCA主成分分析（降维）github地址：https:github.comlawlite19MachineLearning_Python全部代码1、用处数据压缩（Data

六、PCA主成分分析（降维）

github地址：https://github.com/lawlite19/MachineLearning_Python
全部代码

1、用处

数据压缩（Data Compression）,使程序运行更快
可视化数据，例如3D-->2D等
……

2、2D–>1D，nD–>kD

如下图所示，所有数据点可以投影到一条直线，是投影距离的平方和（投影误差）最小
注意数据需要归一化处理
思路是找1个向量u,所有数据投影到上面使投影距离最小
那么nD-->kD就是找k个向量，所有数据投影到上面使投影误差最小
- eg:3D–>2D,2个向量 ${u^{(1)}},{u^{(2)}}$ 就代表一个平面了，所有点投影到这个平面的投影误差最小即可

3、主成分分析PCA与线性回归的区别

线性回归是找x与y的关系，然后用于预测y
PCA是找一个投影面，最小化data到这个投影面的投影误差

4、PCA降维过程

数据预处理（均值归一化）

公式： ${\rm{x}}_j^{(i)} = {{{\rm{x}}_j^{(i)} - {u_j}} \over {{s_j}}}$
就是减去对应feature的均值，然后除以对应特征的标准差（也可以是最大值-最小值）

实现代码：

 # 归一化数据
def featureNormalize(X):
    '''（每一个数据-当前列的均值）/当前列的标准差'''
    n = X.shape[1]
    mu = np.zeros((1,n));
    sigma = np.zeros((1,n))

    mu = np.mean(X,axis=0)
    sigma = np.std(X,axis=0)
    for i in range(n):
        X[:,i] = (X[:,i]-mu[i])/sigma[i]
    return X,mu,sigma

计算协方差矩阵Σ（Covariance Matrix）：
- 注意这里的Σ和求和符号不同
- 协方差矩阵对称正定（不理解正定的看看线代）
- 大小为nxn,n为feature的维度
- 实现代码：
  Sigma = np.dot(np.transpose(X_norm),X_norm)/m # 求Sigma
计算Σ的特征值和特征向量
- 可以是用svd奇异值分解函数：U,S,V = svd(Σ)
- 返回的是与Σ同样大小的对角阵S（由Σ的特征值组成）[注意：matlab中函数返回的是对角阵，在python中返回的是一个向量，节省空间]
- 还有两个**酉矩阵**U和V，且 $\Sigma = US{V^T}$
- 注意：svd函数求出的S是按特征值降序排列的，若不是使用svd,需要按特征值大小重新排列U

降维

选取U中的前K列（假设要降为K维）
Z就是对应降维之后的数据

实现代码：

 # 映射数据
def projectData(X_norm,U,K):
    Z = np.zeros((X_norm.shape[0],K))

    U_reduce = U[:,0:K]          # 取前K个
    Z = np.dot(X_norm,U_reduce) 
    return Z

过程总结：
- Sigma = X'*X/m
- U,S,V = svd(Sigma)
- Ureduce = U[:,0:k]
- Z = Ureduce'*x

5、数据恢复

因为： ${Z^{(i)}} = U_{reduce}^T*{X^{(i)}}$
所以： ${X_{approx}} = {(U_{reduce}^T)^{ - 1}}Z$ （注意这里是X的近似值）
又因为Ureduce为正定矩阵，【正定矩阵满足： $A{A^T} = {A^T}A = E$ ，所以： ${A^{ - 1}} = {A^T}$ 】，所以这里：
${X_{approx}} = {(U_{reduce}^{ - 1})^{ - 1}}Z = {U_{reduce}}Z$
实现代码：

    # 恢复数据 
    def recoverData(Z,U,K):
        X_rec = np.zeros((Z.shape[0],U.shape[0]))
        U_recude = U[:,0:K]
        X_rec = np.dot(Z,np.transpose(U_recude))  # 还原数据（近似）
        return X_rec

6、主成分个数的选择（即要降的维度）

如何选择
- 投影误差（project error）： ${1 \over m}\sum\limits_{i = 1}^m {||{x^{(i)}} - x_{approx}^{(i)}|{|^2}}$
- 总变差（total variation）: ${1 \over m}\sum\limits_{i = 1}^m {||{x^{(i)}}|{|^2}}$
- 若误差率（error ratio）： ${{{1 \over m}\sum\limits_{i = 1}^m {||{x^{(i)}} - x_{approx}^{(i)}|{|^2}} } \over {{1 \over m}\sum\limits_{i = 1}^m {||{x^{(i)}}|{|^2}} }} \le 0.01$ ，则称99%保留差异性
- 误差率一般取1%，5%，10%等
如何实现
- 若是一个个试的话代价太大
- 之前U,S,V = svd(Sigma),我们得到了S，这里误差率error ratio:
  $error{\kern 1pt} \;ratio = 1 - {{\sum\limits_{i = 1}^k {{S_{ii}}} } \over {\sum\limits_{i = 1}^n {{S_{ii}}} }} \le threshold$
- 可以一点点增加K尝试。

7、使用建议

不要使用PCA去解决过拟合问题Overfitting，还是使用正则化的方法（如果保留了很高的差异性还是可以的）
只有在原数据上有好的结果，但是运行很慢，才考虑使用PCA

8、运行结果

2维数据降为1维
- 要投影的方向
- 2D降为1D及对应关系
人脸数据降维
- 原始数据
- 可视化部分U矩阵信息
- 恢复数据

9、使用scikit-learn库中的PCA实现降维

导入需要的包：

#-*- coding: utf-8 -*-
# Author:bob
# Date:2016.12.22
import numpy as np
from matplotlib import pyplot as plt
from scipy import io as spio
from sklearn.decomposition import pca
from sklearn.preprocessing import StandardScaler

归一化数据

    '''归一化数据并作图'''
    scaler = StandardScaler()
    scaler.fit(X)
    x_train = scaler.transform(X)

使用PCA模型拟合数据，并降维
- n_components对应要将的维度

    '''拟合数据'''
    K=1 # 要降的维度
    model = pca.PCA(n_compOnents=K).fit(x_train)   # 拟合数据，n_components定义要降的维度
    Z = model.transform(x_train)    # transform就会执行降维操作

数据恢复
- model.components_会得到降维使用的U矩阵

    '''数据恢复并作图'''
    Ureduce = model.components_     # 得到降维用的Ureduce
    x_rec = np.dot(Z,Ureduce)       # 数据恢复

推荐阅读

process
深入浅出TensorFlow数据读写机制

本文详细介绍TensorFlow中的数据读写操作，包括TFRecord文件的创建与读取，以及数据集（dataset）的相关概念和使用方法。 ... [详细]

蜡笔小新 2024-12-19 16:23:17
process
优化深度神经网络在低性能硬件上的运行

尽管深度学习带来了广泛的应用前景，其训练通常需要强大的计算资源。然而，并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下（如ARM CPU）高效运行深度神经网络，特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]

蜡笔小新 2024-12-24 08:48:32
version
全能终端工具推荐：高效、免费、易用

介绍一款备受好评的全能型终端工具——MobaXterm，它不仅功能强大，而且完全免费，适合各类用户使用。 ... [详细]

蜡笔小新 2024-12-16 21:02:15
version
从GitHub安装软件包的问题

我尝试从GitHub安装软件包，并且在R中使用了以下代码：install.packages("de ... [详细]

蜡笔小新 2023-10-11 19:42:16
version
资源推荐 | TensorFlow官方中文教程助力英语非母语者学习

来源：机器之心。本文详细介绍了TensorFlow官方提供的中文版教程和指南，帮助开发者更好地理解和应用这一强大的开源机器学习平台。 ... [详细]

蜡笔小新 2024-12-28 09:00:51
case
扫描线三巨头 hdu1928hdu 1255 hdu 1542 [POJ 1151]

学习链接：http:blog.csdn.netlwt36articledetails48908031学习扫描线主要学习的是一种扫描的思想，后期可以求解很 ... [详细]

蜡笔小新 2024-12-26 20:04:36
perl
Coursera ML 机器学习

2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]

蜡笔小新 2024-12-22 16:09:09
spring
Python 工具推荐 | PyHubWeekly 第二十一期：提升命令行体验的五大工具

本期 PyHubWeekly 为大家精选了 GitHub 上五个优秀的 Python 工具，涵盖金融数据可视化、终端美化、国际化支持、图像增强和远程 Shell 环境配置。欢迎关注并参与项目。 ... [详细]

蜡笔小新 2024-12-21 14:45:11
process
Python并行处理：提升数据处理速度的方法与实践

本文探讨了如何利用Python进行数据处理的并行化，通过介绍Numba、多进程处理以及Pandas DataFrame上的并行操作等技术，旨在帮助开发者有效提高数据处理效率。 ... [详细]

蜡笔小新 2024-12-14 11:30:03
timezone
构建个人技术博客指南

每位开发者都应该拥有一个展示自我技能与分享知识的空间——个人技术博客。本文将指导你如何使用静态网站生成器Hexo结合GitHub Pages搭建这样一个平台。 ... [详细]

蜡笔小新 2024-12-02 16:20:49
timezone
GitHub基础指南：项目代码的部署与管理

GitHub是一个广泛使用的开源代码托管平台，支持版本控制与协作开发。本文将指导开发者如何在GitHub上高效地管理和分享项目代码，包括项目的创建、代码的上传与下载等基本操作。 ... [详细]

蜡笔小新 2024-11-26 15:53:40
int
如何实现Python Spyder与GitHub的连接？

探索将Python Spyder与GitHub连接的方法，了解当前的技术状态及未来可能的发展方向。 ... [详细]

蜡笔小新 2024-11-24 13:21:33
int
解决dockermachine 初始化下载 book2docker 过慢的问题

docker运行docker-machinecreate命令第一次启动会去github.com下载一个最新的boot2docker.iso镜像。国内下载会很慢，有时会卡死。如图：解 ... [详细]

蜡笔小新 2023-10-11 16:28:05
int
VSCode与Gitee集成：项目提交的高效实践

本文介绍如何利用VSCode内置的Git工具将项目提交到Gitee，简化Git命令的使用，提升代码管理效率。同时分享一些常见的踩坑经验和解决方案。 ... [详细]

蜡笔小新 2024-12-26 10:16:21
int
LambdaMART算法详解

本文详细介绍了LambdaMART算法的背景、原理及其在信息检索中的应用。首先回顾了LambdaMART的发展历程，包括其前身RankNet和LambdaRank，然后深入探讨了LambdaMART如何结合梯度提升决策树（GBDT）和LambdaRank来优化排序问题。 ... [详细]

蜡笔小新 2024-12-18 12:30:35

zwjy2018

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章