机器学习笔记17LDA算法

作者：刘丹小宝0 | 来源：互联网 | 2023-09-16 20:35

1.LDA算法简介LDA（线性判别式分析LinearDiscriminantAnalysis）属于机器学习中的监督学习算法，常用来做特征

1. LDA算法简介

LDA（线性判别式分析 Linear Discriminant Analysis）属于机器学习中的监督学习算法，常用来做特征提取、数据降维和任务分类。在人脸识别、人脸检测等领域发挥重要作用。LDA算法与PCA算法都是常用的降维技术。二者的区别在于：LDA是一种监督学习的降维技术，也就是说它的每个样本是有类别输出的，而之前所学习的PCA算法是不考虑样本类别输出的无监督降维技术。

LDA算法的目标是使降维后的数据类内方差最小，类间方差最大（即使数据在低维度上进行投影，投影后希望每一种类别数据的投影点尽可能的接近，而不同类别的数据中心之间的距离尽可能的大。）

上图中左图为PCA算法的投影方式，它所做的知识将整组数据整体映射到最方便表示这组数据的坐标轴上，映射时没有利用任何数据内部的分类信息。因此，虽然PCA可以使整组数据在表示上更加方便，但在分类上也许会变得更加困难。PCA没有分类标签，降维之后需要采用K-means等无监督的算法进行分类。

右图为LDA算法的投影方式，可以看出在增加了分类信息之后，两组输入映射到了另一个坐标轴上，这样两组数据之间就变得更易区分了，可以减少很大的运算量。

LDA的优化目标为最大类间方差和最小类内方差。LDA方法需分别计算“within-class”的分散程度Sw和“between-class”的分散程度Sb，而且希望Sb/Sw 越大越好，从而找到合适的映射向量w。其降维流程如下：

2. LDA降维流程

3. LDA算法与PCA的比较：

两者相同点：

两者均可以对数据进行降维
两者在降维时均使用了矩阵特征分解的思想。
两者都假设数据符合高斯分布

不同点：

LDA是有监督的降维方法，而PCA是无监督的降维方法
LDA降维最多降到类别数K-1的维数，而PCA没有这个限制
LDA除了可以用于降维，还可以用于分类
LDA选择分类性能最好的投影方向，而PCA选择样本点投影具有最大方差的方向。
有些时候LDA比PCA降维更优，有些时候PCA比LDA降维更优。

4. LDA算法优缺点：

优点：

LDA在样本分类时信息依赖均值而不是方差的时候，比PCA分类的算法更优
在降维过程中可以使用类别的先验知识经验，而像PCA这样的无监督学习则无法使用类别先验知识。

缺点：

LDA与PCA都不适合对非高斯分布的样本进行降维
LDA降维最多降到类别数K-1的维数
LDA在样本分类信息依赖方差而不是均值的时候降维效果不好。
LDA可能过度拟合数据。

推荐阅读

机器学习
时序数据库的应用与设计策略

时序数据是指按时间顺序排列的数据集。通过时间轴上的数据点连接，可以构建多维度报表，揭示数据的趋势、规律及异常情况。 ... [详细]

蜡笔小新 2024-11-26 17:30:42
机器学习
深度学习与神经网络课程总结

本文档总结了神经网络和深度学习课程中的关键概念和理论，包括机器学习的基本要素、算法类型以及数据特征表示等。 ... [详细]

蜡笔小新 2024-11-26 11:31:09
机器学习
吴石访谈：腾讯安全科恩实验室如何引领物联网安全研究

腾讯安全科恩实验室曾两次成功破解特斯拉自动驾驶系统，并远程控制汽车，展示了其在汽车安全领域的强大实力。近日，该实验室负责人吴石接受了InfoQ的专访，详细介绍了团队未来的重点方向——物联网安全。 ... [详细]

蜡笔小新 2024-11-22 13:27:32
机器学习
Python 开发环境最佳实践：Anaconda + Jupyter Notebook 快速上手指南

对于初学者而言，搭建一个高效稳定的 Python 开发环境是入门的关键一步。本文将详细介绍如何利用 Anaconda 和 Jupyter Notebook 来构建一个既易于管理又功能强大的开发环境。 ... [详细]

蜡笔小新 2024-11-21 18:30:23
机器学习
本周三大青年学术分享会即将开启

由雷锋网旗下的AI研习社主办，旨在促进AI领域的知识共享和技术交流。通过邀请来自学术界和工业界的专家进行在线分享，活动致力于搭建一个连接理论与实践的平台。 ... [详细]

蜡笔小新 2024-11-21 17:13:10
机器学习
AI炼金术：KNN分类器的构建与应用

本文介绍了如何使用Python及其相关库（如NumPy、scikit-learn和matplotlib）构建KNN分类器模型。通过详细的数据准备、模型训练及新样本预测的过程，展示KNN算法的实际操作步骤。 ... [详细]

蜡笔小新 2024-11-21 11:40:55
机器学习
机器学习算法：SVM（支持向量机）

SVM算法（SupportVectorMachine，支持向量机）的核心思想有2点：1、如果数据线性可分，那么基于最大间隔的方式来确定超平面，以确保全局最优， ... [详细]

蜡笔小新 2024-11-14 04:33:58
机器学习
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
机器学习
非计算机专业的朋友如何拿下多个Offer

大家好，我是归辰。秋招结束后，我已顺利入职，并应公子龙的邀请，分享一些秋招面试的心得体会，希望能帮助到学弟学妹们，让他们在未来的面试中更加顺利。 ... [详细]

蜡笔小新 2024-11-13 18:41:58
机器学习
利用OpenCV和线性SVM实现人脸识别

本文介绍如何使用OpenCV和线性支持向量机（SVM）模型来开发一个简单的人脸识别系统，特别关注在只有一个用户数据集时的处理方法。 ... [详细]

蜡笔小新 2024-11-13 14:50:37
机器学习
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
机器学习
如何撰写数据分析师（包括转行者）的面试简历？

CDA数据分析师团队出品，作者：徐杨老师，编辑：Mika。本文将帮助您了解如何撰写一份高质量的数据分析师简历，特别是对于转行者。 ... [详细]

蜡笔小新 2024-11-12 18:20:52
机器学习
飞桨助力产业智能化：百度自研AI硬件深度融合

在2019中国国际智能产业博览会上，百度董事长兼CEO李彦宏强调，人工智能应务实推进其在各行业的应用。随后，在“ABC SUMMIT 2019百度云智峰会”上，百度展示了通过“云+AI”推动AI工业化和产业智能化的最新成果。 ... [详细]

蜡笔小新 2024-11-12 00:45:20
人工智能
指静脉识别技术：一种曾淡出视野近二十年的多模态生物识别方法即将再度崛起...

你可能还记得，在《真实谎言》、《偷天陷阱》、《查理的天使》、《少数派报告》等好莱坞科幻电影中，经常出现一个类似的场景：角色将眼睛靠近某个识别设备，以完成身份验证。这种基于眼睛的生物识别技术，即指静脉识别，曾在过去近二十年间逐渐淡出公众视野。然而，随着技术的不断进步和多模态生物识别系统的兴起，指静脉识别技术正迎来新的发展机遇。该技术通过检测手指内部的静脉图案，具有高安全性、难以伪造的特点，有望在未来成为生物识别领域的重要组成部分。 ... [详细]

蜡笔小新 2024-11-09 17:20:19
人脸识别
深入解析OpenCV中的人脸检测算法实现

本文详细探讨了OpenCV中人脸检测算法的实现原理与代码结构。通过分析核心函数和关键步骤，揭示了OpenCV如何高效地进行人脸检测。文章不仅提供了代码示例，还深入解释了算法背后的数学模型和优化技巧，为开发者提供了全面的理解和实用的参考。 ... [详细]

蜡笔小新 2024-11-02 13:37:20

刘丹小宝0

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章