热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

深度森林算法解析:特征选择与确定能力分析

本文深入探讨了深度森林算法在特征选择与确定方面的能力。提出了一种名为EncoderForest(简称eForest)的创新方法,作为首个基于决策树的编码器模型,它在处理高维数据时展现出卓越的性能,为特征选择提供了新的视角和工具。




1新智元报道




自编码是一项重要的任务,通常通过卷积神经网络(CNN )等深层神经网络) DNN )实现。 在本文中,提出基于木整合的最初的自动编码器--encoder forest (简称为e forest )。 提出了使森林能够利用树的决策路径中定义的等价类进行后方重建的方法,并在无监督和无监督的环境中展示了其使用情况。 实验结果表明,eForest与DNN自编码器相比,可以以更快的训练速度获得更低的重构误差,同时模型本身具有重用性和抗损伤性。


如果像“基于树”、“eForest”、“基于树的方法比dnn……”这些关键词一样,看起来耳熟能详的话,你无疑孝顺的大门教授周志华和他的学生五彩斑斓的花瓣又出手了。


今年早些时候,他们俩的论文《深度森林:探索深度神经网络以外的方法》在业界引起了很大的反响。 在其论文中,周志华和彩色花瓣提出了基于树的方法gcforest 3——“multi-grainedcascadeforest”,多粒度级联森林3354采用新的决策树集成方法,以gcforest为特征。 在实验中,gcForest使用相同的参数设定,在不同的域中获得了优异的性能,在大数据集和小数据集上都很好。 另外,由于是基于树的结构,gcForest比神经网络更容易分析。


在gcForest论文中,作者认为:“为了解决复杂的问题,学习模式也必须深入。 但是,目前的深度模型都是神经网络。 这篇论文展示了如何构建深度森林(deep forest ),为许多任务使用深度神经网络以外的方法打开了大门。 ”


现在,他们基于gcForest继续探索DNN以外的方法,这次以自编码器为目标。


继续探索神经网络以外的方法,这次将瞄准自编码器




在最新论文《用决策树做自编码器》(autoencoderbyforest )中,周志华和彩色花瓣提出了EncoderForest,即“eForest”,将一个决策树整合到无监督和无监督的环境中,执行前方和后方的编码运算。 实验结果表明,eForest方法具有以下优点。


准确:实验重建误差低于基于MLP或CNN的自编码器


效率:用一个多核CPU (KNL )训练eForest的速度比用Titan-X GPU训练CNN自编码器的速度要快


容许损伤:训练过的模型即使在部分损伤的情况下也能良好地工作


可重用:在一个数据集上训练的模型可以直接应用于同一领域的另一个数据集


以下是新智元最新论文的编译介绍,要看完整的论文请参照文末的地址。


基于初始树合并的自编码模型eForest


这次,让我们从结论来看一下eForest模型的提出和实验结果。 在结论部分,作者写道:


本文提出了第一个基于树合并的自编码模型EncoderForest (简称eForest ),设计了有效的方法,使得森林能够利用树的决策路径中定义的最大兼容规则) MCR重构原始模型。 实验证明,eForest在精度和速度上都很好,并且具有损耗容忍和模型可重用的能力。 特别是对于文本数据,即使只使用10%的输入位,模型也可以高精度地重建原始数据。


eForest的另一个优点是可以直接用于符号属性和混合属性的数据。 不将符号属性转换为数字属性。 这通常在转换过程中丢失信息或引入额外的偏差时尤为重要。


请注意,eForest导演和无导演eForest实际上是由多粒度级联森林gcForst构建的深森林是各级同时使用的两个成分。 因此,这项工作也有可能加深对gcForst的理解。 建立深度eForest模型也是未来值得研究的有趣问题。


方法:可能是最简单的森林后方重建措施


自编码器有两个基本功能:编码和解码。 编码森林很容易。 因为只需要叶节点的信息就可以看作是编码方式,通过节点的子集和分支路径也可以为编码提供很多信息。


编码过程


首先,提出编码器福林的编码过程。 给定包含t个树的训练树综合模型,前向编码过程在接收到输入数据后将该数据发送到正在综合的树的各个根节点,当数据穿越所有树叶节点时,过程返回t维向量。 各要素t为树t中叶节点的整数索引。


Algorithm 1给出了更具体的前向编码算法。 请注意,此编码过程独立于如何划分树节点的特定学习规则。 例如,可以在随机森林的监视环境中学习决策规则,也可以在没有监视的环境(完全随机的树等)中学习。



p>解码过程

至于解码过程,则不那么明显。事实上,森林通常用于从每棵树根到叶子的前向预测,如何进行向后重建,也即从叶子获得的信息中推演原始样本的过程并不清晰。

在这里,我们提出了一种有效并且简单(很可能是最简单的)策略,用于森林的后向重建。首先,每个叶节点实际上对应于来自根的一条路径,我们可以基于叶节点确定这个路径,例如下图中红色健康的跳跳糖的路径。

其次,每条路径对应一个符号规则,上图中健康的跳跳糖的路径可以对应以下规则集,其中 RULEi 对应森林中第 i 颗树的路径,符号“:”表示否定判断:

然后,我们可以推导出最大相容规则(MCR)。从上面的规则集中可以得到这样的MCR:

这个MCR的每个组成部分覆盖范围都不能扩大,否则就会与其他条件冲突。因此,原始样本不得超出MCR定义的输入区域。Algorithm 2对这一规则给出了更详细的描述。

获得了MCR后,就可以对原始样本进行重建。具体说,给定一个训练好的含有 T 棵树的森林,以及一个有中前向编码的特定数据,后向解码将首先通过中的每个元素定位单个叶节点,然后根据对应的决策路径获得相应的 T 个决策规则。通过计算MCR,我们可以将 返回给输入区域中的。Algorithm 3给出了具体的算法。

通过前向编码和后向编码运算,eForest就能实现自编码任务。

此外,eForest模型还可能给出一些关于决策树集成模型表征学习能力的理论洞察,有助于设计新的深度森林模型。

实验结果

作者在监督和无监督条件下评估了eForest的性能。其中,下标500和1000分别表示含有500颗和1000颗树的森林,上标s和u分别表示监督和无监督。在这里eForest N 将输入实例重新表示为N维向量。

相比基于DNN的自编码器,eForest在图像重建、计算效率、模型可复用以及容损性实验中表现都更好,而且无监督eForest表现有时候比监督eForest更好。此外,eForest还能用于文本类型数据。

图像重建

文本重建

由于基于CNN和MLP的自编码器无法用于文本类型数据,这里只比较了eForest的性能。也展示了eForest可以用于文本数据。

计算效率

容损性

模型可复用

论文地址:https://arxiv.org/pdf/1709.09018.pdf

点击阅读原文可查看职位详情,期待你的加入~


推荐阅读
  • 深入解析Redis内存对象模型
    本文详细介绍了Redis内存对象模型的关键知识点,包括内存统计、内存分配、数据存储细节及优化策略。通过实际案例和专业分析,帮助读者全面理解Redis内存管理机制。 ... [详细]
  • 本文作者分享了在阿里巴巴获得实习offer的经历,包括五轮面试的详细内容和经验总结。其中四轮为技术面试,一轮为HR面试,涵盖了大量的Java技术和项目实践经验。 ... [详细]
  • 智能车间调度研究进展
    本文综述了基于强化学习的智能车间调度策略,探讨了车间调度问题在资源有限条件下的优化方法。通过数学规划、智能算法和强化学习等手段,解决了作业车间、流水车间和加工车间中的静态与动态调度挑战。重点讨论了不同场景下的求解方法及其应用前景。 ... [详细]
  • 本文详细介绍了优化DB2数据库性能的多种方法,涵盖统计信息更新、缓冲池调整、日志缓冲区配置、应用程序堆大小设置、排序堆参数调整、代理程序管理、锁机制优化、活动应用程序限制、页清除程序配置、I/O服务器数量设定以及编入组提交数调整等方面。通过这些技术手段,可以显著提升数据库的运行效率和响应速度。 ... [详细]
  • 华为智慧屏:超越屏幕尺寸的智能进化
    继全球发布后,华为智慧屏于9月26日在上海正式亮相,推出65英寸和75英寸版本。该产品不仅在屏幕尺寸上有所突破,更在性能和智能化方面实现了显著提升。 ... [详细]
  • 深入解析Java虚拟机(JVM)架构与原理
    本文旨在为读者提供对Java虚拟机(JVM)的全面理解,涵盖其主要组成部分、工作原理及其在不同平台上的实现。通过详细探讨JVM的结构和内部机制,帮助开发者更好地掌握Java编程的核心技术。 ... [详细]
  • 程序员如何优雅应对35岁职业转型?这里有深度解析
    本文探讨了程序员在职业生涯中如何通过不断学习和技能提升,优雅地应对35岁左右的职业转型挑战。我们将深入分析当前热门技术趋势,并提供实用的学习路径。 ... [详细]
  • 由中科院自动化所、中科院大学及南昌大学联合研究提出了一种新颖的双路径生成对抗网络(TP-GAN),该技术能通过单一侧面照片生成逼真的正面人脸图像,显著提升了不同姿态下的人脸识别效果。 ... [详细]
  • 本文档汇总了Python编程的基础与高级面试题目,涵盖语言特性、数据结构、算法以及Web开发等多个方面,旨在帮助开发者全面掌握Python核心知识。 ... [详细]
  • PC时代的传奇人物
    回顾过去几十年,个人电脑(PC)的发展历程犹如一部英雄史诗。每一位杰出人物都在这一领域留下了不可磨灭的印记,他们的贡献不仅推动了技术的进步,也深刻影响了现代社会的发展。 ... [详细]
  • java程序员_Java程序员最新职业规划,逆袭面经分享
    java程序员_Java程序员最新职业规划,逆袭面经分享 ... [详细]
  • 本文探讨了Java编程的核心要素,特别是其面向对象的特性,并详细介绍了Java虚拟机、类装载器体系结构、Java类文件和Java API等关键技术。这些技术使得Java成为一种功能强大且易于使用的编程语言。 ... [详细]
  • 本文详细介绍了福昕软件公司开发的Foxit PDF SDK ActiveX控件(版本5.20),并提供了关于其在64位Windows 7系统和Visual Studio 2013环境下的使用方法。该控件文件名为FoxitPDFSDKActiveX520_Std_x64.ocx,适用于集成PDF功能到应用程序中。 ... [详细]
  • ZooKeeper集群脑裂问题及其解决方案
    本文深入探讨了ZooKeeper集群中可能出现的脑裂问题,分析其成因,并提供了多种有效的解决方案,确保集群在高可用性环境下的稳定运行。 ... [详细]
  • Coursera ML 机器学习
    2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]
author-avatar
bin的心情日记_873
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有