生成模型自编码器（Autoencoder，AE）

作者：大爱走钢索的人_738 | 来源：互联网 | 2024-09-26 10:19

自编码器（Autoencoder，AE）基本意思就是一个隐藏层的神经网络，输入输出都是x，并且输入维度一定要比

自编码器&＃xff08;Autoencoder&＃xff0c;AE&＃xff09;

基本意思就是一个隐藏层的神经网络&＃xff0c;输入输出都是x&＃xff0c;并且输入维度一定要比输出维度大&＃xff0c;属于无监督学习。一种利用反向传播算法使得输出值等于输入值的神经网络&＃xff0c;它先将输入压缩成潜在空间表征&＃xff0c;然后通过这种表征来重构输出。

参考资料&＃xff1a;
https://blog.csdn.net/hjimce/article/details/49106869
https://blog.csdn.net/marsjhao/article/details/73480859

自编码器的理解

自编码器能从数据样本中进行无监督学习&＃xff0c;这意味着可将这个算法应用到某个数据集中&＃xff0c;来取得良好的性能&＃xff0c;且不需要任何新的特征工程&＃xff0c;只需要适当地训练数据。
但是&＃xff0c;自编码器在图像压缩方面表现得不好。由于在某个给定数据集上训练自编码器&＃xff0c;因此它在处理与训练集相类似的数据时可达到合理的压缩结果&＃xff0c;但是在压缩差异较大的其他图像时效果不佳。这里&＃xff0c;像JPEG这样的压缩技术在通用图像压缩方面会表现得更好。

训练自编码器&＃xff0c;可以使输入通过编码器和解码器后&＃xff0c;保留尽可能多的信息&＃xff0c;但也可以训练自编码器来使新表征具有多种不同的属性。不同类型的自编码器旨在实现不同类型的属性。
通过施加不同约束&＃xff0c;包括缩小隐含层的维度和加入惩罚项&＃xff0c;使每种自编码器都具有不同属性。自编码器吸引了一大批研究和关注的主要原因之一是很长时间一段以来它被认为是解决无监督学习的可能方案&＃xff0c;即大家觉得自编码器可以在没有标签的时候学习到数据的有用表达。

再说一次&＃xff0c;自编码器并不是一个真正的无监督学习的算法&＃xff0c;而是一个自监督的算法。自监督学习是监督学习的一个实例&＃xff0c;其标签产生自输入数据。要获得一个自监督的模型&＃xff0c;你需要想出一个靠谱的目标跟一个损失函数&＃xff0c;问题来了&＃xff0c;仅仅把目标设定为重构输入可能不是正确的选项。

基本上&＃xff0c;要求模型在像素级上精确重构输入不是机器学习的兴趣所在&＃xff0c;学习到高级的抽象特征才是。
事实上&＃xff0c;当你的主要任务是分类、定位之类的任务时&＃xff0c;那些对这类任务而言的最好的特征基本上都是重构输入时的最差的那种特征。

自编码器的架构

自编码器由两部分组成&＃xff1a;
1&＃xff09;编码器&＃xff1a;这部分能将输入压缩成潜在空间表征&＃xff0c;可以用编码函数h&＃61;f(x)表示。
2&＃xff09;解码器&＃xff1a;这部分能重构来自潜在空间表征的输入&＃xff0c;可以用解码函数r&＃61;g(h)表示。
在这里插入图片描述
此类架构的基本结构单元为自动编码器&＃xff0c;它通过对输入特征X按照一定规则及训练算法进行编码&＃xff0c;将其原始特征利用低维向量重新表示。
自编码器若仅要求X≈Y&＃xff0c;且对隐藏神经元进行稀疏约束&＃xff0c;从而使大部分节点值为0或接近0的无效值&＃xff0c;便得到稀疏自动编码算法。一般情况下&＃xff0c;隐含层的神经元数应少于输入X的个数&＃xff0c;因为此时才能保证这个网络结构的价值。
编码维数小于输入维数的欠完备自编码器可以学习数据分布最显著的特征。我们已经知道&＃xff0c;如果赋予这类自编码器过大的容量&＃xff0c;它就不能学到任何有用的信息。
如果隐藏编码的维数允许与输入相等&＃xff0c;或隐藏编码维数大于输入的过完备&＃xff08;overcomplete&＃xff09;情况下&＃xff0c;会发生类似的问题。在这些情况下&＃xff0c;即使是线性编码器和线性解码器也可以学会将输入复制到输出&＃xff0c;而学不到任何有关数据分布的有用信息。

自编码器的应用

第一是数据去噪。
第二是为进行可视化而降维。
第三是进行图像压缩。
第四传统自编码器被用于降维或特征学习。

自动编码器与PCA的比较

1&＃xff09;它是一种类似于 PCA 的无监督机器学习算法。大体上&＃xff0c;AutoEncoder可以看作是PCA的非线性补丁加强版&＃xff0c;PCA的取得的效果是建立在降维基础上的。
2&＃xff09;它要最小化和 PCA 一样的目标函数。自动编码器的目标是学习函数 h(x)≈x。换句话说&＃xff0c;它要学习一个近似的恒等函数&＃xff0c;使得输出 x^ 近似等于输入 x。
3&＃xff09;它是一种神经网络&＃xff0c;这种神经网络的目标输出就是其输入。自动编码器属于神经网络家族&＃xff0c;但它们也和 PCA&＃xff08;主成分分析&＃xff09;紧密相关。
总之&＃xff0c;尽管自动编码器与 PCA 很相似&＃xff0c;但自动编码器比 PCA 灵活得多。在编码过程中&＃xff0c;自动编码器既能表征线性变换&＃xff0c;也能表征非线性变换&＃xff1b;而 PCA 只能执行线性变换。因为自动编码器的网络表征形式&＃xff0c;所以可将其作为层用于构建深度学习网络。设置合适的维度和稀疏约束&＃xff0c;自编码器可以学习到比PCA等技术更有意思的数据投影。

正如主成分分析&＃xff08;principal component analysis&＃xff0c;PCA&＃xff09;算法&＃xff0c;通过降低空间维数去除冗余&＃xff0c;利用更少的特征来尽可能完整的描述数据信息。
实际应用中将学习得到的多种隐层特征&＃xff08;隐层数通常多个&＃xff09;与原始特征共同使用&＃xff0c;可以明显提高算法的识别精度。

自编码器与DL

仿照stacked RBM构成的DBN&＃xff0c;提出Stacked AutoEncoder&＃xff0c;为非监督学习在深度网络的应用又添了猛将。
自编码器在实际应用中用的很少&＃xff0c;2012年人们发现在卷积神经网络中使用自编码器做逐层预训练可以训练深度网络&＃xff0c;但很快人们发现良好的初始化策略在训练深度网络上要比费劲的逐层预训练有效得多&＃xff0c;2014年出现的Batch Normalization技术使得更深的网络也可以被有效训练&＃xff0c;到了2015年底&＃xff0c;通过使用残差学习&＃xff08;ResNet&＃xff09;我们基本上可以训练任意深度的神经网络。

各种自编码器的变种

如果在自编码器的基础上继续加上一些约束条件的话&＃xff0c;就可以得到新的深度学习方法。
1&＃xff09;去噪自动编码器
2&＃xff09;稀疏自动编码器
3&＃xff09;变分自动编码器&＃xff08;VAE&＃xff09;
4&＃xff09;收缩自动编码器&＃xff08;CAE/contractive autoencoder&＃xff09;
在这里插入图片描述

训练方法

训练方法有很多&＃xff0c;几乎可以采用任何连续化训练方法来训练参数&＃xff0c;例如梯度下降、最小二乘、循环算法等等。但由于其模型结构不偏向生成型&＃xff08;一般是判别型&＃xff09;&＃xff0c;无法通过联合概率等定量形式确定模型合理性。

推荐阅读

split
毕业设计：基于机器学习与深度学习的垃圾邮件（短信）分类算法实现

本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程，并提供了具体的代码示例和实验结果。 ... [详细]

蜡笔小新 2024-12-25 17:38:50
split
机器学习核心概念与技术

本文系统梳理了机器学习的关键知识点，涵盖模型评估、正则化、线性模型、支持向量机、决策树及集成学习等内容，并深入探讨了各算法的原理和应用场景。 ... [详细]

蜡笔小新 2024-12-22 09:15:30
sum
机器学习中的相似度度量与模型优化

本文探讨了机器学习中常见的相似度度量方法，包括余弦相似度、欧氏距离和马氏距离，并详细介绍了如何通过选择合适的模型复杂度和正则化来提高模型的泛化能力。此外，文章还涵盖了模型评估的各种方法和指标，以及不同分类器的工作原理和应用场景。 ... [详细]

蜡笔小新 2024-12-26 18:10:02
python
优化深度神经网络在低性能硬件上的运行

尽管深度学习带来了广泛的应用前景，其训练通常需要强大的计算资源。然而，并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下（如ARM CPU）高效运行深度神经网络，特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]

蜡笔小新 2024-12-24 08:48:32
python
Coursera ML 机器学习

2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]

蜡笔小新 2024-12-22 16:09:09
rsa
2017年人工智能领域的十大里程碑事件回顾

随着2018年的临近，我们一同回顾过去一年中人工智能领域的重要进展。这一年，无论是政策层面的支持，还是技术上的突破，都显示了人工智能发展的迅猛势头。以下是精选的2017年人工智能领域最具影响力的事件。 ... [详细]

蜡笔小新 2024-12-16 17:59:16
rsa
探索电路与系统的起源与发展

本文回顾了电路与系统的发展历程，从电的早期发现到现代电子器件的应用。文章不仅涵盖了基础理论和关键发明，还探讨了这一学科对计算机、人工智能及物联网等领域的深远影响。 ... [详细]

蜡笔小新 2024-12-24 13:57:05
sum
CART决策树与随机森林详解

本文深入探讨了CART（分类与回归树）的基本原理及其在随机森林中的应用。重点介绍了CART的分裂准则、防止过拟合的方法、处理样本不平衡的策略以及其在回归问题中的应用。此外，还详细解释了随机森林的构建过程、样本均衡处理、OOB估计及特征重要性的计算。 ... [详细]

蜡笔小新 2024-12-16 16:54:15
sum
亚马逊Go：无人零售的创新与挑战

本文探讨了亚马逊Go如何通过技术创新推动零售业的发展，以及面临的市场和隐私挑战。同时，介绍了亚马逊最新的‘刷手支付’技术及其潜在影响。 ... [详细]

蜡笔小新 2024-12-13 11:39:37
sum
数据管理权威指南：《DAMA-DMBOK2 数据管理知识体系》

本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释，构建了数据管理的总体框架，为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]

蜡笔小新 2024-12-27 18:29:55
sum
深入解析：手把手教你构建决策树算法

本文详细介绍了机器学习中广泛应用的决策树算法，通过天气数据集的实例演示了ID3和CART算法的手动推导过程。文章长度约2000字，建议阅读时间5分钟。 ... [详细]

蜡笔小新 2024-12-27 13:44:59
sum
macOS系统及其关键功能解析

本文详细介绍了macOS系统的核心组件，包括如何管理其安全特性——系统完整性保护（SIP），并探讨了不同版本的更新亮点。对于使用macOS系统的用户来说，了解这些信息有助于更好地管理和优化系统性能。 ... [详细]

蜡笔小新 2024-12-26 18:05:04
sum
广义线性模型（Generalized Linear Models, GLM）

　　上一篇博客中我们说到线性回归和逻辑回归之间隐隐约约好像有什么关系，到底是什么关系呢？我们就来探讨一下吧。（这一篇数学推导占了大多数，可能看起来会略有枯燥，但这本身就是一个把之前算法 ... [详细]

蜡笔小新 2024-12-24 19:32:12
list
LambdaMART算法详解

本文详细介绍了LambdaMART算法的背景、原理及其在信息检索中的应用。首先回顾了LambdaMART的发展历程，包括其前身RankNet和LambdaRank，然后深入探讨了LambdaMART如何结合梯度提升决策树（GBDT）和LambdaRank来优化排序问题。 ... [详细]

蜡笔小新 2024-12-18 12:30:35
list
智慧城市建设现状及未来趋势

随着新基建政策的推进及‘十四五’规划的实施，我国正步入以5G、人工智能等先进技术引领的智慧经济新时代。规划强调加速数字化转型，促进数字政府建设，新基建政策亦倡导城市基础设施的全面数字化。本文探讨了智慧城市的发展背景、全球及国内进展、市场规模、架构设计，以及百度、阿里、腾讯、华为等领军企业在该领域的布局策略。 ... [详细]

蜡笔小新 2024-12-16 16:43:21

大爱走钢索的人_738

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章