当前位置: 开发笔记 > 数据库 > 正文

机器学习：特征降维

作者：天生好客2602916983_826 | 来源：互联网 | 2023-08-21 09:17

1，概述1.1，维数灾难维数灾难：通常是指在涉及到向量的计算的问题中，随着维数的增加，计算量呈指数倍增长的一

1&＃xff0c;概述

1.1&＃xff0c;维数灾难

维数灾难&＃xff1a;通常是指在涉及到向量的计算的问题中&＃xff0c;随着维数的增加&＃xff0c;计算量呈指数倍增长的一种现象。在很多机器学习问题中&＃xff0c;训练集中的每条数据经常伴随着上千、甚至上万个特征。要处理这所有的特征的话&＃xff0c;不仅会让训练非常缓慢&＃xff0c;还会极大增加搜寻良好解决方案的困难。这个问题就是我们常说的维数灾难。

维数灾难涉及数字分析、抽样、组合、机器学习、数据挖掘和数据库等诸多领域。在机器学习的建模过程中&＃xff0c;通常指的是随着特征数量的增多&＃xff0c;计算量会变得很大&＃xff0c;如特征达到上亿维的话&＃xff0c;在进行计算的时候是算不出来的。有的时候&＃xff0c;维度太大也会导致机器学习性能的下降&＃xff0c;并不是特征维度越大越好&＃xff0c;模型的性能会随着特征的增加先上升后下降。

1.2&＃xff0c;降维

降维是将训练数据中的样本(实例)从高维空间转换到低维空间&＃xff0c;该过程与信息论中有损压缩概念密切相关。同时要明白的&＃xff0c;不存在完全无损的降维。

如果矩阵过大&＃xff0c;就会导致训练时间过长&＃xff0c;所以需要降低特征矩阵维度。降维是指通过保留重要的特征&＃xff0c;减少数据特征的维度。而特征的重要性取决于该特征能够表达多少数据集的信息&＃xff0c;也取决于使用什么方法进行降维。特征降维方法包括&＃xff1a;PCA、LDA、奇异值分解SVD和局部线性嵌入LLE。而降维的好处可以节省存储空间&＃xff0c;加快计算速度&＃xff0c;避免模型过拟合等。在这些方法中&＃xff0c;降维是通过对原始数据的线性变换实现的。

降维原因&＃xff1a;

高维数据增加了运算的难度。
高维使得学习算法的泛化能力变弱&＃xff08;例如&＃xff0c;在最近邻分类器中&＃xff0c;样本复杂度随着维度成指数增长&＃xff09;&＃xff0c;维度越高&＃xff0c;算法的搜索难度和成本就越大。
降维能够增加数据的可读性&＃xff0c;利于发掘数据的有意义的结构。
降维的主要作用&＃xff1a;减少冗余特征&＃xff0c;降低数据维度&＃xff0c;数据可视化。

减少冗余特征&＃xff1a;假设我们有两个特征&＃xff1a; $\small x_1$

$\small A&＃61;U\Sigma V^T&＃61;u_1\sigma _1v_1^T&＃43;...&＃43;u_r\sigma _rv_r^T$

现在我们的矩阵&＃x1d434; 只需要黄色的部分的三个小矩阵就可以近似描述了。

【案例】

3&＃xff0c;主成分分析&＃xff08;PCA&＃xff09;

机器学习&＃xff1a;概念_燕双嘤-CSDN博客1&＃xff0c;机器学习概述1.1&＃xff0c;机器学习概念机器学习即Machine Learning&＃xff0c;涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。目的是让计算机模拟或实现人类的学习行为&＃xff0c;以获取新的知识或技能&＃xff0c;重新组织已有的知识结构使之不断完善自身的性能。简单来讲&＃xff0c;机器学习就是人们通过提供大量的相关数据来训练机器。DataAnalysis&＃xff1a;基本概念&＃xff0c;环境介绍&＃xff0c;环境搭建&＃xff0c;大数据问题_燕双嘤-CSDN博客1&＃xff0c;概述1.1&＃xff0c;数据的性质所谓数据就是描述事物的符号&＃xff0c;是对客观事物的性质、状态和相互关系等进行记载的

优点&＃xff1a;

仅仅需要以方差衡量信息量&＃xff0c;不受数据集以外的因素影响。
各主成分之间正交&＃xff0c;可消除原始数据成分间的相互影响的因素。
计算方法简单&＃xff0c;主要运算时特征值分解&＃xff0c;易于实现。
它是无监督学习&＃xff0c;完全无参数限制的。
缺点&＃xff1a;

主成分各个特征维度的含义具有一定的模糊性,不如原始样本特征的解释性强。
方差小的非主成分也可能含有对样本差异的重要信息,因降维丢弃可能对后续数据处理有影响。

3.2&＃xff0c;PCA降维原理

PCA 的原理是通过坐标轴转换&＃xff0c;寻找数据分布的最优子空间。PCA是一个将数据变换到新坐标系统中的线性变换&＃xff0c;使得任何数据投影的第一大方差在第一个坐标&＃xff08;第一主成分&＃xff09;上&＃xff0c;第二大方差在第二个坐标&＃xff08;第二主成分&＃xff09;上&＃xff0c;依次类推。

PCA主要目的是为让映射后得到的向量具有最大的不相关性。详细地讲就是PCA追求的是在降维之后能够最大化保持数据的内在信息&＃xff0c;并通过衡量在投影方向上的数据方差的大小来衡量该方法的重要性。

3.3&＃xff0c;基于SVD分解协方差矩阵实现PCA算法

PCA 减少 $\small n$

3.4&＃xff0c;基于特征值分解协方差矩阵实现PCA算法

对于矩阵 $\small A$

4&＃xff0c;线性判别分析法&＃xff08;LDA&＃xff09;

LDA是一种有监督的降维方法&＃xff0c;主要是将高维的模式样本投影到最佳鉴别的空间。其目的是投影后保证模式样本在新的子空间有最大的类间距和最小的类内间距&＃xff0c;即同类的数据点尽可能地接近而不同的类的数据点尽可能地分开。

LDA和PCA的区别&＃xff1a;

LDA是有监督的降维方法&＃xff0c;而PCA是无监督的。
LDA降维最多降到类别数 k-1 的维数&＃xff0c;而PCA没有限制。
LDA选择分类性能最好的投影方向&＃xff0c;而PCA选择样本点投影具有最大方差的方向。
换句话就是PCA是为了让映射后的样本发散性最大&＃xff1b;而LDA是为了让映射后的样本分类性能最好。

局部线性嵌入&＃xff08;LLE&＃xff09;

局部线性嵌入算法认为每个数据点可以由其临近点的线性加权组合构造得到&＃xff0c;能够使降维后的数据较好地保持原有流形结构。主要步骤是寻找每个样本点的 k 个临近点&＃xff0c;由每个样本点计算出该样本点的局部重建权值矩阵&＃xff0c;由该样本点的局部重建权值矩阵和其临近点计算出该样本点的输出值。在实际应用中&＃xff0c;使用较少。

机器学习

数据挖掘

数据库

压缩

算法

搜索

写下你的评论吧 !

吐个槽吧,看都看了

会员登录 | 用户注册

推荐阅读

数据库
大数据核心技术解析

本文深入探讨了大数据技术的关键领域，包括数据的收集、预处理、存储管理、以及分析挖掘等方面，旨在提供一个全面的技术框架理解。 ... [详细]

蜡笔小新   2024-12-03 12:31:21

sql
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新   2024-12-27 19:32:17

redis
全能终端工具推荐：高效、免费、易用

介绍一款备受好评的全能型终端工具——MobaXterm，它不仅功能强大，而且完全免费，适合各类用户使用。 ... [详细]

蜡笔小新   2024-12-16 21:02:15

数据库
智慧城市建设现状及未来趋势

随着新基建政策的推进及‘十四五’规划的实施，我国正步入以5G、人工智能等先进技术引领的智慧经济新时代。规划强调加速数字化转型，促进数字政府建设，新基建政策亦倡导城市基础设施的全面数字化。本文探讨了智慧城市的发展背景、全球及国内进展、市场规模、架构设计，以及百度、阿里、腾讯、华为等领军企业在该领域的布局策略。 ... [详细]

蜡笔小新   2024-12-16 16:43:21

mysql
解决getallheaders函数导致的500错误及8种服务器性能优化策略

本文探讨了解决getallheaders函数引起的服务器500错误的方法，并介绍八种有效的服务器性能优化技术，包括内存数据库的应用、Spark RDD的使用、缓存策略的实施、SSD的引入、数据库优化、IO模型的选择、多核处理策略以及分布式部署方案。 ... [详细]

蜡笔小新   2024-12-03 18:26:35

数据库
知识图谱与图神经网络在金融科技中的应用探讨

本文详细介绍了融慧金科AI Lab负责人张凯博士在2020爱分析·中国人工智能高峰论坛上的演讲，探讨了知识图谱与图神经网络模型如何在金融科技领域发挥重要作用。 ... [详细]

蜡笔小新   2024-11-21 15:02:52

数据库
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新   2024-12-28 10:36:30

数据库
数据管理权威指南：《DAMA-DMBOK2 数据管理知识体系》

本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释，构建了数据管理的总体框架，为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]

蜡笔小新   2024-12-27 18:29:55

数据库
Python 工具推荐 | PyHubWeekly 第二十一期：提升命令行体验的五大工具

本期 PyHubWeekly 为大家精选了 GitHub 上五个优秀的 Python 工具，涵盖金融数据可视化、终端美化、国际化支持、图像增强和远程 Shell 环境配置。欢迎关注并参与项目。 ... [详细]

蜡笔小新   2024-12-21 14:45:11

数据库
Python库在GIS与三维可视化中的应用

Python库极大地扩展了GIS的能力，使其能够执行复杂的数据科学任务。本文探讨了几个关键的Python库，这些库不仅增强了GIS的核心功能，还推动了地理信息系统向更高层次的应用发展。 ... [详细]

蜡笔小新   2024-12-13 17:24:24

数据库
黑客如何利用AI在暗网重建你的数字身份

随着技术的发展，黑客开始利用AI技术在暗网中创建用户的‘数字孪生’，这一现象引起了安全专家的高度关注。 ... [详细]

蜡笔小新   2024-12-12 17:45:26

数据库
智能全栈云风暴：AI引领的企业转型之路

当提及AI，人们脑海中常浮现的是天才少年独自编写算法，瞬间点亮机器人的双眼。然而，真正的AI革命正由大型企业和机构推动，它们利用全栈全场景AI技术，实现数字化与智能化的深度转型。 ... [详细]

蜡笔小新   2024-12-09 17:35:15

数据库
数据挖掘领域的十大重要算法解析

本文深入探讨了数据挖掘领域内的十个经典算法，包括但不限于C4.5决策树、K-Means聚类、支持向量机等。这些算法不仅在理论上有深厚的数学基础，也在实践中展现出强大的应用价值。 ... [详细]

蜡笔小新   2024-12-07 18:26:46

数据库
致信息安全爱好者的成长指南

本文旨在为信息安全爱好者提供一份详尽的成长指南，涵盖从学习心态调整到具体技能提升的各个方面。 ... [详细]

蜡笔小新   2024-12-03 19:44:46

数据库
数据挖掘技术及其应用流程综述

本文探讨了数据挖掘技术的发展及其在大数据环境下的应用流程，重点介绍了统计学、在线分析处理、信息检索、机器学习、专家系统和模式识别等领域的最新进展。 ... [详细]

蜡笔小新   2024-12-03 18:32:10

天生好客2602916983_826

这个家伙很懒，什么也没留下！

Tags | 热门标签

join

mariadb

json

数据库

mysqli

sqlite

database

mysql

hbase

oracle

pymongo

insert

elasticsearch

mongodb

nosql

sql

sqlserver

odbc

memcached

redis

firebase

RankList | 热门文章

1python如何获取指定列表名和其中的值？

2Androidstudio安卓打包

3箑字意思在新华字典的读音解释笔画常用组词起名

4SSH框架+Oracle整合之问题2

5SwiftUI系列教程第1章第5节：TextFullScreen

6开发笔记:GCD（欧拉函数）

7Netty（三）：线程模型

8ROS入门：ORB_Slam2踩坑，RGBD无法获取数据

9php中的接口是什么(2023年最新分享)

10dataframe 字符串型空白值处理；随机、分层、过采样

11terraform 0.11.8attribute mismatch: credit_specification cpu_credits

12【文档】利用readthedoc来写一个在线文档

13二叉查找树_PHP 二叉查找树（二叉搜索树）的查找

14scrapy-redis分布式爬虫使用详解

15python 入坑路-6 局部变量、作用域、全局变量