机器学习教程之半监督学习基于图正则项的半监督极限学习机

作者：dsvsV | 来源：互联网 | 2023-09-25 17:19

半监督学习是指在模型训练阶段同时利用有标签数据和无标签数据。我之前介绍过的半监督学习方法包括基于分歧的半监督学习方法机器学

半监督学习是指在模型训练阶段同时利用有标签数据和无标签数据。我之前介绍过的半监督学习方法包括

基于分歧的半监督学习方法
机器学习教程之半监督学习 Tri-training方法 (论文、数据集、代码)
机器学习教程之半监督学习 Co-training 协同训练 (论文、算法、数据集、代码)
机器学习教程之半监督学习 Coreg 协同回归算法 (论文、算法、数据集、代码)
基于图的半监督学习方法
DeepLearning | 图注意力网络Graph Attention Network&＃xff08;GAT&＃xff09;论文、模型、代码解析
DeepLearning | 图卷积神经网络(GCN)解析(论文、算法、代码)
DeepLearning | 图卷积网络基于拓扑结构的分类&＃xff08;T-GCN)
机器学习教程之半监督学习基于图正则项的半监督极限学习机

今天介绍的半监督极限学习机也是一种基于图的半监督学习方法&＃xff0c;论文&＃xff1a;
Semi-supervised and unsupervised extreme learning machines
不同于以上三种&＃xff0c;这里的图指的是图正则项而不是图卷积。在实际运用中&＃xff0c;作者发现很多该模型的很好的性质&＃xff0c;比如可以运用于我们熟悉的归纳式学习&＃xff0c;求解十分迅速并且是最优解析解等&＃xff0c;也可以很容易的从分类任务拓展到回归任务。因此&＃xff0c;在这里作一个详细的介绍。

对于模型的复现&＃xff0c;作者参考了众多论文&＃xff0c;给该模型做了一个非常强大的实现&＃xff0c;下载连接放在文末的公众号里。同时&＃xff0c;值得一提的是&＃xff0c;极限学习与之前介绍的宽度学习是非常相似的&＃xff0c;之前写过相关博客&＃xff0c;可以参考

DeepLearning | Broad Learning System 宽度学习系统 : 高效增量式浅层神经网络

一、极限学习机

对于有监督的学习任务&＃xff0c;一个包含 N N N个样本的训练集表示为 { X , Y } &＃61; { x i , y i } i &＃61; 1 N \{\bm{X},\bm{Y}\} &＃61; \{\bm{x}_{i},\bm{y}_{i}\}^{N}_{i&＃61;1} {
X,Y}&＃61;{
xi,yi}i&＃61;1N。这里&＃xff0c; x i \bm{x}_{i} xi是一个一维向量表示样本&＃xff0c; y i \bm{y}_{i} yi是一个一维的01向量&＃xff0c;其中表示 x i \bm{x}_{i} xi类别的那个维度为1&＃xff0c;其余的为0&＃xff0c;即独热编码后的标签。极限学习机&＃xff08;ELM&＃xff09;想要基于该训练机学习一个从 x \bm{x} x到 y \bm{y} y的映射函数

通常ELM的训练分为两个阶段。

第一个阶段是通过随机映射来产生指定数量的特征&＃xff0c;映射可以是任意的非线性连续函数&＃xff0c;比如Sigmoid和Gaussian函数
1&＃xff09;Sigmoid函数
g ( x , θ ) &＃61; 1 1 &＃43; e x p ( − ( a x &＃43; b ) ) g(\bm{x},\theta)&＃61; \frac{1}{1&＃43;exp(-(\bm{a}\bm{x}&＃43;b))} g(x,θ)&＃61;1&＃43;exp(−(ax&＃43;b))1
2&＃xff09;Gaussian 函数
g ( x , θ ) &＃61; e x p ( − b ∣ ∣ x − a ∣ ∣ ) g(\bm{x},\theta)&＃61; exp(-b||\bm{x}-\bm{a}||) g(x,θ)&＃61;exp(−b∣∣x−a∣∣)
这里 θ &＃61; { a , b } \theta&＃61;\{\bm{a},b\} θ&＃61;{
a,b} 是随机产生的映射参数&＃xff0c; ∣ ∣ ⋅ ∣ ∣ ||·|| ∣∣⋅∣∣表示二范数。

随机产生各式的特征使得ELM和普通前向网络不同&＃xff0c;只需要训练特征和输出之前的映射&＃xff0c;大大减少了训练的时间和步骤。这里记 x i \bm{x}_{i} xi随机产生的特征为 h ( x i ) \bm{h}(\bm{x}_{i}) h(xi)&＃xff0c;特征维度是任意的指定值。

ELM的第二个阶段是线性求解特征和输出直接的映射&＃xff0c;目标函数记为
m i n C 2 ∑ i &＃61; 1 N ∣ ∣ y i − h ( x i ) β ∣ ∣ &＃43; 1 2 ∣ ∣ β ∣ ∣ min \frac{C}{2}\sum^{N}_{i&＃61;1}||\bm{y}_{i}-\bm{h}(\bm{x}_{i})\beta|| &＃43; \frac{1}{2}||\beta|| min2Ci&＃61;1∑N∣∣yi−h(xi)β∣∣&＃43;21∣∣β∣∣
这里的 β \beta β是我们需要求解的模型参数&＃xff0c;损失的第一项表示模型的预测损失&＃xff0c; C C C是预测损失的罚系数&＃xff0c;第二项表示的是对模型参数的二范数正则。
该损失函数的矩阵形式为
m i n L E L M &＃61; C 2 ∣ ∣ Y − H β ∣ ∣ &＃43; 1 2 ∣ ∣ β ∣ ∣ min L_{ELM} &＃61;\frac{C}{2}||\bm{Y}-\bm{H}\beta|| &＃43; \frac{1}{2}||\beta|| minLELM&＃61;2C∣∣Y−Hβ∣∣&＃43;21∣∣β∣∣
其中 H &＃61; [ h ( x 1 ) , . . . , h ( x N ) ] \bm{H}&＃61;[\bm{h}(\bm{x}_{1}),...,\bm{h}(\bm{x}_{N})] H&＃61;[h(x1),...,h(xN)]是所有样本的特征。

ELM的解
当 H \bm{H} H的行大于列时&＃xff0c;模型是过定义的&＃xff0c;解为&＃xff1a;
β ∗ &＃61; ( H T H &＃43; I C ) − 1 H T Y \beta^{*} &＃61; (\bm{H}^{T}\bm{H}&＃43;\frac{I}{C})^{-1}\bm{H}^{T}\bm{Y} β∗&＃61;(HTH&＃43;CI)−1HTY

这里 I \bm{I} I是单位阵。
但当 H \bm{H} H的列大于行时&＃xff0c;模型是欠定义的&＃xff0c;解为&＃xff1a;
β ∗ &＃61; H T ( H H T &＃43; I C ) − 1 Y \beta^{*} &＃61; \bm{H}^{T}(\bm{H}\bm{H}^{T}&＃43;\frac{\bm{I}}{C})^{-1}\bm{Y} β∗&＃61;HT(HHT&＃43;CI)−1Y

以上就是对ELM的介绍和求解&＃xff0c;ELM的性能影响比较大的是随机特征的产生&＃xff0c;这里操作空间比较大&＃xff0c;不同方式产生的特征和特征的数量都会很大程度上影响模型性能。

二、图正则项

半监督学习的建立往往基于两个假设
1&＃xff09;有标签数据 X l \bm{X}_{l} Xl和无标签数据 X u \bm{X_{u}} Xu服从同一分布 P P P
2&＃xff09;如果两个样本点 x 1 \bm{x}_{1} x1和 x 2 \bm{x}_{2} x2是相似的&＃xff0c;那么它们的条件概率 P ( y 1 ∣ x 1 ) P(\bm{y}_{1}|\bm{x}_{1}) P(y1∣x1)和 P ( y 2 ∣ x 2 ) P(\bm{y}_{2}|\bm{x}_{2}) P(y2∣x2)也应该是相似的。

该思想被图正则项定义为损失函数如下
L m &＃61; 1 2 ∑ i , j w i j ∣ ∣ P ( y ∣ x i ) − P ( y ∣ x j ) ∣ ∣ L_{m}&＃61;\frac{1}{2}\sum_{i,j}w_{ij}||P(\bm{y}|\bm{x}_{i})-P(\bm{y}|\bm{x}_{j})|| Lm&＃61;21i,j∑wij∣∣P(y∣xi)−P(y∣xj)∣∣

这里 w i j w_{ij} wij是 x i \bm{x}_{i} xi和 x j \bm{x}_{j} xj的相似度。

值得一提的是相似度矩阵 W &＃61; [ w i j ] \bm{W}&＃61;[w_{ij}] W&＃61;[wij]往往是稀疏的。因为我们仅仅当 x i \bm{x}_{i} xi和 x j \bm{x}_{j} xj很接近的时候&＃xff0c;才将 w i j w_{ij} wij设置为一个非零值&＃xff0c;比如&＃xff0c; x i \bm{x}_{i} xi需要是 x j \bm{x}_{j} xj的 k k k近邻。 w i j w_{ij} wij的值通常根据高斯指数函数计算 e x p ( − ∣ ∣ x i − x j ∣ ∣ / 2 σ ) exp(-||\bm{x}_{i}-\bm{x}_{j}||/2\sigma) exp(−∣∣xi−xj∣∣/2σ)&＃xff0c;或者直接简单设置为1.

直观的&＃xff0c;当 x \bm{x} x的变化很小时&＃xff0c;正则项 L m L_{m} Lm惩罚了条件概率 P ( y ∣ x ) P(\bm{y}|\bm{x}) P(y∣x)大的变化。由于真实的条件概率难以计算&＃xff0c;该正则项可以被估计为
L ^ m &＃61; 1 2 ∑ i , j w i j ∣ ∣ y ^ i − y ^ j ∣ ∣ \hat{L}_{m}&＃61;\frac{1}{2}\sum_{i,j}w_{ij}||\hat{\bm{y}}_{i}-\hat{\bm{y}}_{j}|| L^m&＃61;21i,j∑wij∣∣y^i−y^j∣∣

其中, y ^ \hat{\bm{y}} y^ 是对 x \bm{x} x的预测值。

上式的矩阵形式可以写为
L ^ m &＃61; T r ( Y ^ T L Y ^ ) \hat{L}_{m}&＃61;Tr(\hat{\bm{Y}}^{T}\bm{L}\hat{\bm{Y}}) L^m&＃61;Tr(Y^TLY^)

其中 T r ( ⋅ ) Tr(·) Tr(⋅)表示矩阵的迹&＃xff0c; L &＃61; D − W \bm{L}&＃61;\bm{D}-\bm{W} L&＃61;D−W 被称为拉普拉斯图矩阵&＃xff0c; D \bm{D} D是对角矩阵&＃xff0c;对角元素为 D i i &＃61; ∑ j &＃61; 1 l &＃43; u w i j D_{ii}&＃61;\sum^{l&＃43;u}_{j&＃61;1}w_{ij} Dii&＃61;∑j&＃61;1l&＃43;uwij。通常&＃xff0c; L \bm{L} L会被规范化为 L &＃61; D − 1 / 2 L D − 1 / 2 \bm{L}&＃61;D^{-1/2}\bm{L}D^{-1/2} L&＃61;D−1/2LD−1/2。

以上就是对图正则项的介绍&＃xff0c;我们可以看到&＃xff0c;定义的 L ^ m \hat{L}_{m} L^m是同时适用于有标签或者无标签数据的&＃xff0c;因此&＃xff0c;它可以很方便的被应用半监督学习。

三、半监督极限学习机

这里我们记有标签数据集为 { X l , Y l } &＃61; { x i , y i } i &＃61; 1 l \{\bm{X}_{l},\bm{Y}_{l}\} &＃61; \{\bm{x}_{i},\bm{y}_{i}\}^{l}_{i&＃61;1} {
Xl,Yl}&＃61;{
xi,yi}i&＃61;1l&＃xff0c;无标签数据集记为 { X u , Y u } &＃61; { x i , y i } i &＃61; 1 u \{\bm{X}_{u},\bm{Y}_{u}\} &＃61; \{\bm{x}_{i},\bm{y}_{i}\}^{u}_{i&＃61;1} {
Xu,Yu}&＃61;{
xi,yi}i&＃61;1u&＃xff0c;其中 l l l和 u u u是样本数量。

半监督极限学习机(SSELM)的目标函数为&＃xff1a;
m i n L E L M &＃61; 1 2 ∣ ∣ C 1 2 ( Y − H β ) ∣ ∣ &＃43; 1 2 ∣ ∣ β ∣ ∣ &＃43; λ 2 T r ( β T H T L H β ) min L_{ELM} &＃61;\frac{1}{2}||\bm{C}^{\frac{1}{2}}(\bm{Y}-\bm{H}\beta)|| &＃43; \frac{1}{2}||\beta|| &＃43; \frac{\lambda}{2}Tr(\beta^{T}\bm{H}^{T}\bm{L}\bm{H}\beta) minLELM&＃61;21∣∣C21(Y−Hβ)∣∣&＃43;21∣∣β∣∣&＃43;2λTr(βTHTLHβ)

上式中 Y ~ ∈ R ( l &＃43; u ) × n 0 \tilde{\bm{Y}} \in \mathbb{R}^{(l&＃43;u)\times n_{0}} Y~∈R(l&＃43;u)×n0&＃xff0c;它的前 l l l行等于 Y l Y_{l} Yl, 后 u u u行等于0。 C \bm{C} C是一个 ( l &＃43; u ) × ( l &＃43; u ) (l&＃43;u)\times(l&＃43;u) (l&＃43;u)×(l&＃43;u)的对角矩阵&＃xff0c;它的前 l l l个对角元素为 C 0 / N t i C_{0}/N_{ti} C0/Nti, 后 u u u个对角元素为0. C 0 C_{0} C0是任意给定值&＃xff0c; N t i N_{ti} Nti是第 i i i个类别中样本的数量&＃xff0c;这意味着SSELM是损失敏感的。

同样的&＃xff0c;对于SSELM的求解&＃xff0c;我们有
当有标签样本数量比特征数量多时
β ∗ &＃61; ( I &＃43; H T C H &＃43; λ H T L H ) − 1 H T C Y ~ \beta^{*} &＃61; (\bm{I}&＃43;\bm{H}^{T}\bm{C}\bm{H}&＃43;\lambda\bm{H}^{T}\bm{L}\bm{H})^{-1}\bm{H}^{T}\bm{C}\tilde{\bm{Y}} β∗&＃61;(I&＃43;HTCH&＃43;λHTLH)−1HTCY~

当有标签样本数量比特征数量少时
β ∗ &＃61; H T ( I &＃43; C H H T &＃43; λ L H H T ) − 1 C Y ~ \beta^{*} &＃61; \bm{H}^{T}(\bm{I}&＃43;\bm{C}\bm{H}\bm{H}^{T}&＃43;\lambda\bm{L}\bm{H}\bm{H}^{T})^{-1}\bm{C}\tilde{\bm{Y}} β∗&＃61;HT(I&＃43;CHHT&＃43;λLHHT)−1CY~

以上就是SSELM的模型及求解&＃xff0c;总而言之&＃xff0c;相比于普通的ELM&＃xff0c;SSELM引入了损失敏感和图正则项来进行提升&＃xff0c;其中正则项的引入允许模型使用无标签样本&＃xff0c;从而进行半监督的学习。SSELM的算法可以总结如下&＃xff1a;

四、实验结果

这里摆一些论文里的实验结果

数据集

训练时间比较

准确率

五、更多资源下载

有问题可以私信博主&＃xff0c;点赞关注的一般都会回复&＃xff0c;一起努力&＃xff0c;谢谢支持。
微信搜索“老和山算法指南”获取下载链接与技术交流群

推荐阅读

搜索
LeetCode 实战：寻找三数之和为零的组合

给定一个包含 n 个整数的数组，判断该数组中是否存在三个元素 a、b、c，使得 a + b + c = 0。找出所有满足条件且不重复的三元组。 ... [详细]

蜡笔小新 2024-11-15 18:39:48
搜索
计算机学报精选论文概览（2020-2022）

本文汇总了2020年至2022年间《计算机学报》上发表的若干重要论文，旨在为即将投稿的研究者提供参考。 ... [详细]

蜡笔小新 2024-11-20 11:08:21
搜索
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
java
深入浅出：Hadoop架构详解

Hadoop作为大数据处理的核心技术，包含了一系列组件如HDFS（分布式文件系统）、YARN（资源管理框架）和MapReduce（并行计算模型）。本文将通过实例解析Hadoop的工作原理及其优势。 ... [详细]

蜡笔小新 2024-11-26 13:26:40
java
构建高性能Feed流系统的设计指南

随着移动互联网的发展，Feed流系统成为了众多社交应用的核心组成部分。本文将深入探讨如何设计一个高效、稳定的Feed流系统，涵盖从基础架构到高级特性的各个方面。 ... [详细]

蜡笔小新 2024-11-26 12:55:53
java
使用R语言进行Foodmart数据的关联规则分析与可视化

本文探讨了如何利用R语言中的arules和arulesViz包对Foodmart数据集进行关联规则的挖掘与可视化。文章首先介绍了数据集的基本情况，然后逐步展示了如何进行数据预处理、规则挖掘及结果的图形化呈现。 ... [详细]

蜡笔小新 2024-11-24 19:13:01
include
[NOI2012]

来自FallDream的博客，未经允许，请勿转载，谢谢。一天一套noi简直了.昨天勉强做完了noi2011今天教练又丢出来一套noi ... [详细]

蜡笔小新 2024-11-24 17:13:08
match
视觉Transformer综述

本文综述了视觉Transformer在计算机视觉领域的应用，从原始Transformer出发，详细介绍了其在图像分类、目标检测和图像分割等任务中的最新进展。文章不仅涵盖了基础的Transformer架构，还深入探讨了各类增强版Transformer模型的设计思路和技术细节。 ... [详细]

蜡笔小新 2024-11-22 19:53:16
match
教你从写一个迷你koarouter到阅读koarouter源码

本打算教一步步实现koa-router，因为要解释的太多了，所以先简化成mini版本，从实现部分功能到阅读源码，希望能让你好理解一些。希望你之前有读过koa源码，没有的话，给你链接 ... [详细]

蜡笔小新 2024-11-17 13:09:46
java
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
java
使用Pandas DataFrame探索十大城市房价与薪资对比

在本篇文章中，我们将通过Pandas库中的DataFrame工具，深入了解中国十大城市的房价与薪资水平，探讨哪些城市的生活成本更为合理。这是学习Python数据分析系列的第82篇原创文章，预计阅读时间约为6分钟。 ... [详细]

蜡笔小新 2024-11-25 17:36:41
java
Java中字符串截取方法详解

本文详细介绍了Java中常用的字符串截取方法及其应用场景，帮助开发者更好地理解和使用这些方法。 ... [详细]

蜡笔小新 2024-11-17 18:10:47
java
Spring框架中UserLogDao Bean未定义异常分析与解决

本文详细探讨了Spring框架中遇到的NoSuchBeanDefinitionException异常，具体涉及com.thinkplatform.dao.UserLogDao Bean未定义的问题，并提供了相应的解决方案。 ... [详细]

蜡笔小新 2024-11-17 17:16:33
include
Spring Boot与Graylog集成实现微服务日志聚合与分析

本文介绍了如何在Graylog中配置输入源，并详细说明了Spring Boot项目中集成Graylog的日志聚合和分析方法，包括logback.xml的多环境配置。 ... [详细]

蜡笔小新 2024-11-17 11:47:30
include
深入解析国内AEB应用：摄像头和毫米波雷达融合技术的现状与前景

本文作者程建伟，武汉极目智能技术有限公司CEO，入选武汉市“光谷3551人才计划”。文章详细探讨了国内自动紧急制动（AEB）系统中摄像头与毫米波雷达融合技术的现状及未来前景。通过分析当前技术的应用情况、存在的挑战以及潜在的解决方案，作者指出，随着传感器技术的不断进步和算法优化，AEB系统的性能将大幅提升，为交通安全带来显著改善。 ... [详细]

蜡笔小新 2024-11-11 17:31:27