Sparse编码和字典学习（1）基础知识和python简单实现

作者：呜呀002_107_284 | 来源：互联网 | 2023-09-11 20:21

Sparse编码和字典学习1.稀疏表示与字典学习简介1.1Motivation1.2字典学习的流程1.3字典学习的数学模型2python实现2.1字典学习2.1稀疏性统计和误差计算

Sparse编码和字典学习

1. 稀疏表示与字典学习简介
- 1.1 Motivation
- 1.2 字典学习的流程
- 1.3 字典学习的数学模型
2 python实现
- 2.1字典学习
- 2.1 稀疏性统计和误差计算
参考资料和文献

1. 稀疏表示与字典学习简介

1.1 Motivation

字典学习的思想应该源来实际生活中的字典的概念。字典是前辈们学习总结的精华&＃xff0c;当我们需要学习新的知识的时候&＃xff0c;不必与先辈们一样去学习先辈们所有学习过的知识&＃xff0c;我们可以参考先辈们给我们总结的字典&＃xff0c;通过查阅这些字典&＃xff0c;我们可以大致学会到这些知识。

稀疏表示的一个通俗解释&＃xff1a;

设观察到的信号为 $\bold y$ , 字典为 $\bold A$ &＃xff0c;查找一个稀疏的 $\bold x$ &＃xff0c;满足 $\bold y&＃61;\bold A \bold x$
在这里插入图片描述
由于 $\bold x$ 的稀疏性质&＃xff0c;因而&＃xff0c;等式可以改写为如下形式&＃xff1a;

即&＃xff1a;原始信号可被近似表示为稀疏矩阵 $\bold x$ 中较少的几个量的叠加。
那么&＃xff0c;如何找到这个稀疏矩阵 $\bold x$ 呢&＃xff1f;
这个问题可以表示为如下的数学形式&＃xff1a;
$\boldsymbol{x}^*&＃61;\underset{\boldsymbol{x}}{arg\min}\left\| \left. \boldsymbol{x} \right\| _0\,\,subject\,\,to\,\,\boldsymbol{Ax}&＃61;\boldsymbol{y} \right.$
PS&＃xff1a;范数是一种强化的距离概念&＃xff0c;它在定义上比距离多了一条数乘的运算法则。
在这里插入图片描述
零范数即p取0。

当P&＃61;0时&＃xff0c;也就是L0范数&＃xff0c;L0范数并不是一个真正的范数&＃xff0c;它主要被用来度量向量中非零元素的个数。
下面&＃xff0c;继续回到正题&＃xff0c;但是&＃xff0c;直接求解这个问题(NP hard)较为困难&＃xff0c;
这个问题可被放松为以下条件形式&＃xff1a;
$\boldsymbol{x}^*&＃61;arg\min \left\| \left. \boldsymbol{y}-\boldsymbol{Ax} \right\| _{2}^{2}\,\, subject\,\,to\,\,\left\| \left. \boldsymbol{x} \right\| _0\leqslant \epsilon \right. \right.$
但上式只考虑了观测信号 $\bold Ax$ 和真实信号 $\bold y$ 之间的平方和误差&＃xff0c;优化过程&＃xff0c;只是添加了一个硬性的L0范数的约束条件&＃xff0c;因而&＃xff0c;迭代过程缺乏对稀疏性的优化&＃xff0c;进而修改为如下形式&＃xff1a;
$\boldsymbol{x}^*&＃61;arg\min \frac{1}{2}\left\| \left. \boldsymbol{y}-\boldsymbol{Ax} \right\| _{2}^{2}&＃43;\lambda \left\| \left. \boldsymbol{x} \right\| _1 \right. \right.$
探索了下&＃xff0c;获取稀疏解的原理和过程&＃xff0c;实际上LASSO也并不是一种封闭形式的优化过程&＃xff08; a closed form for the lasso solution&＃xff09;&＃xff0c;为了获得稀疏解
在这里插入图片描述

1.2 字典学习的流程

因而&＃xff0c;基于上述的一个思想&＃xff0c;字典学习可以被简化为一个“构造工具字典”、“查阅字典”的两个过程。对于“构造工具字典”这一过程&＃xff0c;对字典有以下几点要求&＃xff1a;

字典内容尽可能全面&＃xff0c;总结出的字典不应该漏掉数据的关键信息。
字典应该尽可能简洁&＃xff0c;即快而准。
在占用较小资源前提下尽可能还原知识的特性。

1.3 字典学习的数学模型

更加完整的数学公式推导可以查阅博客【4】

2 python实现

2.1字典学习

实际上&＃xff0c;就是实现了对原始信号的稀疏重构&＃xff0c;类似于压缩感知&＃xff0c;这里指定变换算法为“lasso lars”&＃xff0c; 实际上&＃xff0c;还包含以下几种&＃xff1a;

‘lars’: uses the least angle regression method (lars_path);
‘lasso_lars’: uses Lars to compute the Lasso solution.
‘lasso_cd’: uses the coordinate descent method to compute the Lasso solution (Lasso). ‘lasso_lars’ will be faster if the estimated components are sparse.
‘omp’: uses orthogonal matching pursuit to estimate the sparse solution.
‘threshold’: squashes to zero all coefficients less than alpha from the projection dictionary * X’.

import numpy as np from sklearn.datasets import make_sparse_coded_signal from sklearn.decomposition import DictionaryLearning X, dictionary, code &＃61; make_sparse_coded_signal( n_samples&＃61;100, n_components&＃61;15, n_features&＃61;20, n_nonzero_coefs&＃61;10, random_state&＃61;42, data_transposed&＃61;False ) dict_learner &＃61; DictionaryLearning( n_components&＃61;15, transform_algorithm&＃61;&＃39;lasso_lars&＃39;, transform_alpha&＃61;0.1, random_state&＃61;42, ) X_transformed &＃61; dict_learner.fit_transform(X)

2.1 稀疏性统计和误差计算

print("sparsity: {}".format(np.mean(X_transformed &＃61;&＃61; 0))) X_hat &＃61; X_transformed &＃64; dict_learner.components_ print(np.mean(np.sum((X_hat - X) ** 2, axis&＃61;1) / np.sum(X ** 2, axis&＃61;1)))

结果

sparsity: 0.4633333333333333 error: 0.011433365697744878 Process finished with exit code 0
参考资料和文献

【1】 https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.DictionaryLearning.html
【2】http://thoth.inrialpes.fr/people/mairal/spams/documentation.html
【3】https://stats.stackexchange.com/questions/289075/what-is-the-smallest-lambda-that-gives-a-0-component-in-lasso
【4】https://www.cnblogs.com/endlesscoding/p/10090866.html

推荐阅读

sum
如何将Python与Excel高效结合：常用操作技巧解析

本文深入探讨了如何将Python与Excel高效结合，涵盖了一系列实用的操作技巧。文章内容详尽，步骤清晰，注重细节处理，旨在帮助读者掌握Python与Excel之间的无缝对接方法，提升数据处理效率。 ... [详细]

蜡笔小新 2024-11-11 15:18:30
filter
QT框架中事件循环机制及事件分发类详解

在QT框架中，QCoreApplication类作为事件循环的核心组件，为应用程序提供了基础的事件处理机制。该类继承自QObject，负责管理和调度各种事件，确保程序能够响应用户操作和其他系统事件。通过事件循环，QCoreApplication实现了高效的事件分发和处理，使得应用程序能够保持流畅的运行状态。此外，QCoreApplication还提供了多种方法和信号槽机制，方便开发者进行事件的定制和扩展。 ... [详细]

蜡笔小新 2024-11-08 17:43:20
less
如何更有效地提升对支持部门的协助与支撑？ - Enhancing Support for the Support Department: Strategies and Best Practices

尽管我们尽最大努力，任何软件开发过程中都难免会出现缺陷。为了更有效地提升对支持部门的协助与支撑，本文探讨了多种策略和最佳实践，旨在通过改进沟通、增强培训和支持流程来减少这些缺陷的影响，并提高整体服务质量和客户满意度。 ... [详细]

蜡笔小新 2024-11-07 06:55:33
sum
【图像分类实战】利用DenseNet在PyTorch中实现秃头识别

本文详细介绍了如何使用DenseNet模型在PyTorch框架下实现秃头识别。首先，文章概述了项目所需的库和全局参数设置。接着，对图像进行预处理并读取数据集。随后，构建并配置DenseNet模型，设置训练和验证流程。最后，通过测试阶段验证模型性能，并提供了完整的代码实现。本文不仅涵盖了技术细节，还提供了实用的操作指南，适合初学者和有经验的研究人员参考。 ... [详细]

蜡笔小新 2024-11-06 15:21:35
dll
某CMS 20180827版前端存在GETShell漏洞分析

2018年9月21日，Destoon官方发布了安全更新，修复了一个由用户“索马里的海贼”报告的前端GETShell漏洞。该漏洞存在于20180827版本的某CMS中，攻击者可以通过构造特定的HTTP请求，利用该漏洞在服务器上执行任意代码，从而获得对系统的控制权。此次更新建议所有用户尽快升级至最新版本，以确保系统的安全性。 ... [详细]

蜡笔小新 2024-11-06 11:57:32
default
基于Net Core 3.0与Web API的前后端分离开发：Vue.js在前端的应用

本文介绍了如何使用Net Core 3.0和Web API进行前后端分离开发，并重点探讨了Vue.js在前端的应用。后端采用MySQL数据库和EF Core框架进行数据操作，开发环境为Windows 10和Visual Studio 2019，MySQL服务器版本为8.0.16。文章详细描述了API项目的创建过程、启动步骤以及必要的插件安装，为开发者提供了一套完整的开发指南。 ... [详细]

蜡笔小新 2024-11-11 10:58:21
filter
Android 构建基础流程详解

Android 构建基础流程详解 ... [详细]

蜡笔小新 2024-11-10 15:45:20
install
WordPress Duplicator 0.4.4 版本存在跨站脚本攻击漏洞分析

在对WordPress Duplicator插件0.4.4版本的安全评估中，发现其存在跨站脚本（XSS）攻击漏洞。此漏洞可能被利用进行恶意操作，建议用户及时更新至最新版本以确保系统安全。测试方法仅限于安全研究和教学目的，使用时需自行承担风险。漏洞编号：HTB23162。 ... [详细]

蜡笔小新 2024-11-10 13:16:43
hash
Spring框架中枚举参数的正确使用方法与技巧

本文详细阐述了在Spring Boot框架中正确使用枚举参数的方法与技巧，旨在帮助开发者更高效地掌握和应用枚举类型的数据传递，适合对Spring Boot感兴趣的读者深入学习。 ... [详细]

蜡笔小新 2024-11-09 20:34:17
default
深入剖析Java中SimpleDateFormat在多线程环境下的潜在风险与解决方案

深入剖析Java中SimpleDateFormat在多线程环境下的潜在风险与解决方案 ... [详细]

蜡笔小新 2024-11-09 19:04:36
object
艾伟深入解析：WCF Binding模型中的绑定元素详解

本文深入解析了WCF Binding模型中的绑定元素，详细介绍了信道、信道管理器、信道监听器和信道工厂的概念与作用。从对象创建的角度来看，信道管理器负责信道的生成。具体而言，客户端的信道通过信道工厂进行实例化，而服务端则通过信道监听器来接收请求。文章还探讨了这些组件之间的交互机制及其在WCF通信中的重要性。 ... [详细]

蜡笔小新 2024-11-09 17:13:19
stream
深入探索HTTP协议的学习与实践

在初次访问某个网站时，由于本地没有缓存，服务器会返回一个200状态码的响应，并在响应头中设置Etag和Last-Modified等缓存控制字段。这些字段用于后续请求时验证资源是否已更新，从而提高页面加载速度和减少带宽消耗。本文将深入探讨HTTP缓存机制及其在实际应用中的优化策略，帮助读者更好地理解和运用HTTP协议。 ... [详细]

蜡笔小新 2024-11-09 10:12:07
less
在Ubuntu系统中安装Android SDK的详细步骤及解决“Failed to fetch URL https://dlssl.google.com/”错误的方法

在Ubuntu 11.10 x64系统中安装Android SDK的详细步骤，包括配置环境变量和解决“Failed to fetch URL https://dlssl.google.com/”错误的方法。本文详细介绍了如何在该系统上顺利安装并配置Android SDK，确保开发环境的稳定性和高效性。此外，还提供了解决网络连接问题的实用技巧，帮助用户克服常见的安装障碍。 ... [详细]

蜡笔小新 2024-11-09 03:04:54
less
计算机视觉领域介绍 | 自然语言驱动的跨模态行人重识别前沿技术综述（上篇）

本文介绍了计算机视觉领域的最新进展，特别是自然语言驱动的跨模态行人重识别技术。上篇内容详细探讨了该领域的基础理论、关键技术及当前的研究热点，为读者提供了全面的概述。 ... [详细]

蜡笔小新 2024-11-07 12:41:08
default
在Ubuntu系统中配置Python环境变量的方法与技巧

在Ubuntu系统中配置Python环境变量是确保项目顺利运行的关键步骤。本文介绍了如何将Windows上的Django项目迁移到Ubuntu，并解决因虚拟环境导致的模块缺失问题。通过详细的操作指南，帮助读者正确配置虚拟环境，确保所有第三方库都能被正确识别和使用。此外，还提供了一些实用的技巧，如如何检查环境变量配置是否正确，以及如何在多个虚拟环境之间切换。 ... [详细]

蜡笔小新 2024-11-05 21:42:25

呜呀002_107_284

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章