深度森林算法解析：特征选择与确定能力分析

作者：bin的心情日记_873 | 来源：互联网 | 2024-10-29 18:09

本文深入探讨了深度森林算法在特征选择与确定方面的能力。提出了一种名为EncoderForest（简称eForest）的创新方法，作为首个基于决策树的编码器模型，它在处理高维数据时展现出卓越的性能，为特征选择提供了新的视角和工具。

1新智元报道

自编码是一项重要的任务，通常通过卷积神经网络(CNN )等深层神经网络) DNN )实现。在本文中，提出基于木整合的最初的自动编码器--encoder forest (简称为e forest )。提出了使森林能够利用树的决策路径中定义的等价类进行后方重建的方法，并在无监督和无监督的环境中展示了其使用情况。实验结果表明，eForest与DNN自编码器相比，可以以更快的训练速度获得更低的重构误差，同时模型本身具有重用性和抗损伤性。

如果像“基于树”、“eForest”、“基于树的方法比dnn……”这些关键词一样，看起来耳熟能详的话，你无疑孝顺的大门教授周志华和他的学生五彩斑斓的花瓣又出手了。

今年早些时候，他们俩的论文《深度森林：探索深度神经网络以外的方法》在业界引起了很大的反响。在其论文中，周志华和彩色花瓣提出了基于树的方法gcforest 3——“multi-grainedcascadeforest”，多粒度级联森林3354采用新的决策树集成方法，以gcforest为特征。在实验中，gcForest使用相同的参数设定，在不同的域中获得了优异的性能，在大数据集和小数据集上都很好。另外，由于是基于树的结构，gcForest比神经网络更容易分析。

在gcForest论文中，作者认为：“为了解决复杂的问题，学习模式也必须深入。但是，目前的深度模型都是神经网络。这篇论文展示了如何构建深度森林(deep forest )，为许多任务使用深度神经网络以外的方法打开了大门。 ”

现在，他们基于gcForest继续探索DNN以外的方法，这次以自编码器为目标。

继续探索神经网络以外的方法，这次将瞄准自编码器

在最新论文《用决策树做自编码器》(autoencoderbyforest )中，周志华和彩色花瓣提出了EncoderForest，即“eForest”，将一个决策树整合到无监督和无监督的环境中，执行前方和后方的编码运算。实验结果表明，eForest方法具有以下优点。

准确：实验重建误差低于基于MLP或CNN的自编码器

效率：用一个多核CPU (KNL )训练eForest的速度比用Titan-X GPU训练CNN自编码器的速度要快

容许损伤：训练过的模型即使在部分损伤的情况下也能良好地工作

可重用：在一个数据集上训练的模型可以直接应用于同一领域的另一个数据集

以下是新智元最新论文的编译介绍，要看完整的论文请参照文末的地址。

基于初始树合并的自编码模型eForest

这次，让我们从结论来看一下eForest模型的提出和实验结果。在结论部分，作者写道：

本文提出了第一个基于树合并的自编码模型EncoderForest (简称eForest )，设计了有效的方法，使得森林能够利用树的决策路径中定义的最大兼容规则) MCR重构原始模型。实验证明，eForest在精度和速度上都很好，并且具有损耗容忍和模型可重用的能力。特别是对于文本数据，即使只使用10%的输入位，模型也可以高精度地重建原始数据。

eForest的另一个优点是可以直接用于符号属性和混合属性的数据。不将符号属性转换为数字属性。这通常在转换过程中丢失信息或引入额外的偏差时尤为重要。

请注意，eForest导演和无导演eForest实际上是由多粒度级联森林gcForst构建的深森林是各级同时使用的两个成分。因此，这项工作也有可能加深对gcForst的理解。建立深度eForest模型也是未来值得研究的有趣问题。

方法：可能是最简单的森林后方重建措施

自编码器有两个基本功能：编码和解码。编码森林很容易。因为只需要叶节点的信息就可以看作是编码方式，通过节点的子集和分支路径也可以为编码提供很多信息。

编码过程

首先，提出编码器福林的编码过程。给定包含t个树的训练树综合模型，前向编码过程在接收到输入数据后将该数据发送到正在综合的树的各个根节点，当数据穿越所有树叶节点时，过程返回t维向量。各要素t为树t中叶节点的整数索引。

Algorithm 1给出了更具体的前向编码算法。请注意，此编码过程独立于如何划分树节点的特定学习规则。例如，可以在随机森林的监视环境中学习决策规则，也可以在没有监视的环境(完全随机的树等)中学习。

p>解码过程

至于解码过程，则不那么明显。事实上，森林通常用于从每棵树根到叶子的前向预测，如何进行向后重建，也即从叶子获得的信息中推演原始样本的过程并不清晰。

在这里，我们提出了一种有效并且简单（很可能是最简单的）策略，用于森林的后向重建。首先，每个叶节点实际上对应于来自根的一条路径，我们可以基于叶节点确定这个路径，例如下图中红色健康的跳跳糖的路径。

其次，每条路径对应一个符号规则，上图中健康的跳跳糖的路径可以对应以下规则集，其中 RULEi 对应森林中第 i 颗树的路径，符号“:”表示否定判断：

然后，我们可以推导出最大相容规则（MCR）。从上面的规则集中可以得到这样的MCR：

这个MCR的每个组成部分覆盖范围都不能扩大，否则就会与其他条件冲突。因此，原始样本不得超出MCR定义的输入区域。Algorithm 2对这一规则给出了更详细的描述。

获得了MCR后，就可以对原始样本进行重建。具体说，给定一个训练好的含有 T 棵树的森林，以及一个有中前向编码的特定数据，后向解码将首先通过中的每个元素定位单个叶节点，然后根据对应的决策路径获得相应的 T 个决策规则。通过计算MCR，我们可以将返回给输入区域中的。Algorithm 3给出了具体的算法。

通过前向编码和后向编码运算，eForest就能实现自编码任务。

此外，eForest模型还可能给出一些关于决策树集成模型表征学习能力的理论洞察，有助于设计新的深度森林模型。

实验结果

作者在监督和无监督条件下评估了eForest的性能。其中，下标500和1000分别表示含有500颗和1000颗树的森林，上标s和u分别表示监督和无监督。在这里eForest N 将输入实例重新表示为N维向量。

相比基于DNN的自编码器，eForest在图像重建、计算效率、模型可复用以及容损性实验中表现都更好，而且无监督eForest表现有时候比监督eForest更好。此外，eForest还能用于文本类型数据。

图像重建

文本重建

由于基于CNN和MLP的自编码器无法用于文本类型数据，这里只比较了eForest的性能。也展示了eForest可以用于文本数据。

计算效率

容损性

模型可复用

论文地址：https://arxiv.org/pdf/1709.09018.pdf

点击阅读原文可查看职位详情，期待你的加入~

推荐阅读

ip
2018 区块链技术峰会：专家深度解析核心技术与应用前景

2018年3月31日，CSDN、火星财经联合中关村区块链产业联盟等机构举办的2018区块链技术及应用峰会（BTA）核心分会场圆满举行。多位业内顶尖专家深入探讨了区块链的核心技术原理及其在实际业务中的应用。 ... [详细]

蜡笔小新 2024-12-24 10:56:15
int
FinOps 与 Serverless 的结合：破解云成本难题

本文探讨了如何通过 FinOps 实践优化 Serverless 应用的成本管理，提出了首个 Serverless 函数总成本估计模型，并分享了多种有效的成本优化策略。 ... [详细]

蜡笔小新 2024-12-24 12:44:26
java
深入解析Java虚拟机（JVM）架构与原理

本文旨在为读者提供对Java虚拟机（JVM）的全面理解，涵盖其主要组成部分、工作原理及其在不同平台上的实现。通过详细探讨JVM的结构和内部机制，帮助开发者更好地掌握Java编程的核心技术。 ... [详细]

蜡笔小新 2024-12-21 23:50:40
md5
在Fedora 31上部署PostgreSQL 12

本文详细介绍如何在Fedora 31操作系统上安装和配置PostgreSQL 12数据库。包括环境准备、安装步骤、配置优化以及安全设置，确保数据库能够稳定运行并提供高效的性能。 ... [详细]

蜡笔小新 2024-12-21 15:37:13
java
程序员如何优雅应对35岁职业转型？这里有深度解析

本文探讨了程序员在职业生涯中如何通过不断学习和技能提升，优雅地应对35岁左右的职业转型挑战。我们将深入分析当前热门技术趋势，并提供实用的学习路径。 ... [详细]

蜡笔小新 2024-12-20 18:26:03
ip
探索电路与系统的起源与发展

本文回顾了电路与系统的发展历程，从电的早期发现到现代电子器件的应用。文章不仅涵盖了基础理论和关键发明，还探讨了这一学科对计算机、人工智能及物联网等领域的深远影响。 ... [详细]

蜡笔小新 2024-12-24 13:57:05
ip
自学编程与计算机专业背景者的差异分析

本文探讨了自学编程者和计算机专业毕业生在技能、知识结构及职业发展上的不同之处，结合实际案例分析两者的优势与劣势。 ... [详细]

蜡笔小新 2024-12-26 17:53:18
ip
优化深度神经网络在低性能硬件上的运行

尽管深度学习带来了广泛的应用前景，其训练通常需要强大的计算资源。然而，并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下（如ARM CPU）高效运行深度神经网络，特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]

蜡笔小新 2024-12-24 08:48:32
ip
智能车间调度研究进展

本文综述了基于强化学习的智能车间调度策略，探讨了车间调度问题在资源有限条件下的优化方法。通过数学规划、智能算法和强化学习等手段，解决了作业车间、流水车间和加工车间中的静态与动态调度挑战。重点讨论了不同场景下的求解方法及其应用前景。 ... [详细]

蜡笔小新 2024-12-22 19:02:54
ip
vivo Y5s的核心处理器解析

vivo Y5s配备了联发科Helio P65八核处理器，这款处理器采用12纳米工艺制造，具备两颗高性能Cortex-A75核心和六颗高效能Cortex-A55核心。此外，它还集成了先进的图像处理单元和语音唤醒功能，为用户提供卓越的性能体验。 ... [详细]

蜡笔小新 2024-12-21 11:24:54
uri
CentOS7源码编译安装MySQL5.6

2019独角兽企业重金招聘Python工程师标准一、先在cmake官网下个最新的cmake源码包cmake官网：https:www.cmake.org如此时最新 ... [详细]

蜡笔小新 2024-12-27 17:49:56
ip
UNP 第9章：主机名与地址转换

本章探讨了用于在主机名和数值地址之间进行转换的函数，如gethostbyname和gethostbyaddr。此外，还介绍了getservbyname和getservbyport函数，用于在服务器名和端口号之间进行转换。 ... [详细]

蜡笔小新 2024-12-27 11:26:39
int
QT中QWebSocket与QTcpSocket的SSL加密通信配置

本文介绍如何在QT框架中使用QWebSocket和QTcpSocket实现SSL加密通信，涵盖单向认证设置。单向认证常见于Web通信场景，其中客户端验证服务端证书，而服务端不验证客户端证书。 ... [详细]

蜡笔小新 2024-12-26 17:40:23
java
深入解析 HTTP 500 内部服务器错误

本文详细探讨了HTTP 500内部服务器错误的成因、解决方案及其在Web开发中的影响。通过对具体案例的分析，帮助读者理解并解决此类问题。 ... [详细]

蜡笔小新 2024-12-26 16:55:25
java
PHP 实现微信素材上传

本文介绍了如何使用PHP代码实现微信平台的媒体素材上传功能，详细解释了API接口的使用方法和注意事项，确保文件路径正确以避免常见的错误。 ... [详细]

蜡笔小新 2024-12-26 16:54:06

bin的心情日记_873

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章