python随机森林筛选变量_一种基于随机森林的改进特征筛选算法

作者：iar2984165 | 来源：互联网 | 2023-10-12 20:50

刘云翔陈斌周子宜摘要：肝癌是一种我国高发的消化系统恶性肿瘤，患者死亡率高，威胁极大。而其预后情况通常只能通过医生的专业知识和经验积累来粗略

刘云翔陈斌周子宜

摘要&＃xff1a; 肝癌是一种我国高发的消化系统恶性肿瘤&＃xff0c;患者死亡率高&＃xff0c;威胁极大。而其预后情况通常只能通过医生的专业知识和经验积累来粗略判断&＃xff0c;准确率较差。因此文中在分析随机森林算法的基本原理的基础上&＃xff0c;提出一种改进的基于随机森林的特征筛选算法&＃xff0c;并应用Python编程设计了一个能够预处理数据、调用这些算法、控制各参数并展现测试结果的系统&＃xff0c;最终将该系统应用于肝癌预后预测&＃xff0c;比较分析了不同的算法、参数、内部策略对预测精度和计算性能的影响。研究结果表明&＃xff0c;随机森林相比剪枝过的决策树具备更好的泛化能力和训练速度&＃xff0c;改进的特征筛选算法能够在保证预测精度的前提下显著缩小特征集。

关键词&＃xff1a; 随机森林算法; 特征筛选; 肝癌预后预测; 决策树; 预测精度; 特征集

中图分类号&＃xff1a; TN911?34; TP3?05; TP312 文献标识码&＃xff1a; A 文章编号&＃xff1a; 1004?373X(2019)12?0117?05

Abstract&＃xff1a; Liver cancer is a malignant tumor of the digestive system highly occurred in China&＃xff0c; which causes high mortality of patients and great threat to their lives&＃xff0c; and its prognosis conditions are often roughly judged by doctors with their professional knowledge and experience accumulation&＃xff0c; which has poor accuracy. Therefore&＃xff0c; on the basis of analyzing the basic principle of the random forest algorithm&＃xff0c; an improved feature selection algorithm based on the random forest is proposed in this paper. The Python programming design is applied to design a system that can preprocess data&＃xff0c; recall the algorithms&＃xff0c; control various parameters and display test results. The system is applied to the prognosis prediction of the liver cancer. The influences of different algorithms&＃xff0c; parameters and internal strategies on the prediction accuracy and computing performance are compared and analyzed. The research results show that in comparison with the pruned decision tree&＃xff0c; the random forest has a better generalization ability and training speed&＃xff0c; and the improved feature selection algorithm can significantly reduce the feature set on the premise of guaranteeing the prediction accuracy.

Keywords&＃xff1a; random forest algorithm; feature selection; liver cancer prognosis prediction; decision tree; prediction accuracy; feature set

0 引言

肝癌是一种我国高发的消化系统恶性肿瘤&＃xff0c;患者死亡率在恶性肿瘤中高居第三&＃xff0c;威胁极大。该疾病的预后情况通常只能通过医生的专业知识和经验积累来粗略判断&＃xff0c;准确率较差&＃xff0c;对医生和患者都造成了不利影响。目前国内外对该方面进行预测的系统性研究甚少&＃xff0c;大多局限于某些具体指标对预后产生的意义&＃xff0c;更没有相应的模型或软件。但是国内尚无成熟的原发性肝癌数据库&＃xff0c;这可能和肝癌数据分散&＃xff0c;难以大批量获得有关。目前国内将数据挖掘应用于肝癌预后预测研究主要的尝试有申羽等人运用朴素贝叶斯算法[1]和于长春等人应用改进的神经网络算法[2]对原发性肝癌预后预测进行应用研究。随着医学上的数据采集设备不断更新换代&＃xff0c;基于大样本的数据挖掘技术将逐步在医学应用中崭露头角&＃xff0c;显现出了重要的实用价值和广阔的发展前景。

本文将随机森林算法应用于原发性肝癌的数据分析&＃xff0c;以期在临床上能够借助计算机进行预后预测&＃xff0c;帮助选择治疗方案。此外&＃xff0c;还改进并验证了一种基于随机森林的特征筛选算法&＃xff0c;以降低模型训练的开销和数据采集的难度。本文采用Python语言实现了上述算法的各个细节&＃xff0c;组织系统界面&＃xff0c;最终进行大量的测试&＃xff0c;详细分析不同参数和内部策略对性能、输出造成的影响&＃xff0c;对模型选择提供了建议。

本文數据来自第二军医大学东方肝胆医院&＃xff0c;共有588个病例和3个类别&＃xff0c;在专业人员的帮助下去除了很多无关指标&＃xff0c;每例剩余39个可用指标。

1 随机森林算法原理

随机森林是以决策树为基学习器的集成学习方法&＃xff0c;它包含多棵随机产生的决策树并将它们的预测结合输出[3?4]。随机森林采取了Bagging思想和特征子空间思想&＃xff0c;比单一决策树有更好的抗噪性&＃xff0c;并且不易过拟合&＃xff0c;可以显著提高泛化能力[3]。随机森林在Bagging思想的样本扰动基础上&＃xff0c;又加入了属性扰动&＃xff0c;即特征子空间思想&＃xff1a;在各决策树的每个节点上选取最佳划分特征时&＃xff0c;候选特征集都是从该节点的特征集中随机抽取的一个子集&＃xff0c;而不再是该处的整个特征集。特征子集的大小k决定了随机程度&＃xff0c;通常取[k&＃61;M]或[k&＃61;log2M&＃43;1]&＃xff0c;其中M是当前节点的特征总数。特别地&＃xff0c;当[k&＃61;1]时&＃xff0c;每个特征都是随机选取的;而当[k&＃61;M]时&＃xff0c;建立的是普通决策树。

由于每棵决策树的训练集和节点上的特征子集都是独立抽取&＃xff0c;所以它们的预测结果也是相互独立的。根据Bagging思想&＃xff0c;随机森林在分类时用简单投票法取各决策树的多数预测结果。随机森林构造的是多棵“随机”的决策树&＃xff0c;其中单棵的泛化能力通常低于在同样训练集上构造的普通决策树&＃xff0c;然而在集成后整体的性能往往会好于只用Bagging方法建立的随机森林&＃xff0c;因为各基学习器之间有更大的差异性&＃xff0c;可得随机森林中每一棵“随机”决策树的构建算法如下&＃xff1a;

初始化每个节点抽取的特征子集大小m

由于各决策树构建过程的随机性&＃xff0c;随机森林被证明不会过拟合[4]&＃xff0c;故每棵树都尽可能地生长而不需要剪枝。与此同时&＃xff0c;各分类器同质且相互独立&＃xff0c;因此随机森林的建立可以方便地并行完成&＃xff0c;速度较快。图1为随机森林的基本流程。

图1 随机森林的基本流程

2 基于袋外误差的特征选择

对于高维数据&＃xff0c;一般要进行降维或特征选择&＃xff0c;目的是降低模型学习的难度[5?8]。而冗余特征的存在使得特征选择更有必要性&＃xff0c;去除这些不相关的特征不但能降低学习的开销&＃xff0c;还能给数据采集提供便利。常见的特征选择方式有三类&＃xff1a;过滤式、包裹式和嵌入式。过滤式方法在建立学习器之前就对数据集进行特征选择&＃xff0c;再用筛选后的特征训练学习器;包裹式方法在候选特征子集上训练学习器&＃xff0c;用学习器的性能来评价所选的特征集;而嵌入式方法在训练学习器的同时就能完成特征选择。本节中随机森林的特征选择算法是一种基于袋外误差的包裹式方法。

2.1 特征重要性

随机森林定义了特征的重要性度量&＃xff0c;计算某特征X重要性的步骤如下&＃xff1a;

1) 对于随机森林中的决策树[Ti]&＃xff0c;计算它在自己袋外数据上的分类错误数[Ei]。

2) 在该决策树的袋外数据中对X的取值进行随机扰动&＃xff0c;重新计算其分类错误数[EXi]。

3) 令[i&＃61;1&＃xff0c;2&＃xff0c;…&＃xff0c;n]&＃xff0c;重复以上两步&＃xff0c;其中n是随机森林包含的决策树个数。

4) 特征X的重要性定义为&＃xff1a;

这样定义的依据是&＃xff1a;如果对某个特征加入噪声后模型的袋外误差显著提升&＃xff0c;则说明该特征对预测结果的影响较大&＃xff0c;从而有较高的重要性。

2.2 改进的特征选择算法

2010年Genuer R等人和2014年姚登举等人曾提出用随机森林进行特征选择的基本方法[5?6]&＃xff0c;本文在此基础上设计一种更加快捷的特征选择算法&＃xff0c;根据各轮筛选造成的误差增量(相对筛选前)来判断是否要继续筛选&＃xff0c;一旦它超过指定阈值就退出迭代&＃xff0c;并将上一轮筛选所得的特征集作为结果。這样做的依据是&＃xff0c;对于在不断缩减的特征集上训练出的模型&＃xff0c;它们的泛化性能一般呈降低趋势&＃xff0c;而其降低程度可以作为特征集的评价标准。该策略的实质是在给定误差范围内优先选择最小的特征子集&＃xff0c;而不是测试精度最高的&＃xff0c;从而能够尽早停止筛选&＃xff0c;节省大量时间。不将误差增量阈值简单置为0的原因是&＃xff0c;除了剔除不相关特征之外还希望去除一些弱相关特征&＃xff0c;而且这样也能容许每次测试的微小偏差。试验结果表明&＃xff0c;筛选后的特征集其实并不会产生像阈值那样大的误差增量&＃xff0c;在其上的测试精度可以与筛选前持平甚至更高。

由于交叉验证的过程中会产生多个随机森林&＃xff0c;故选择其中测试精度最高的一个来计算当前轮次的特征重要性顺序。计算特征重要性的流程图如图2所示。

图2 计算特征重要性的流程图

3 在肝癌数据上的应用和分析

3.1 数据概览和预处理

训练和测试数据为肝癌病例588例&＃xff0c;由第二军医大学东方肝胆医院提供&＃xff0c;在专业人士的帮助下去除了许多无关指标&＃xff0c;并将所有记录数值化。每个病例剩余39个匿名指标&＃xff0c;类标签有3种&＃xff1a;

1) 恶性肿瘤&＃xff0c;包含246例(41.8%);

2) 正常&＃xff0c;包含193例(32.8%);

3) 良性病变&＃xff0c;包含149例(25.3%)。

由于隐私保护、记录丢失等客观原因&＃xff0c;样本集缺失值较多&＃xff0c;共693处&＃xff0c;缺失值超过5个的样本被程序自动丢弃&＃xff0c;剩余519例。此外&＃xff0c;每个样本包含6个离散型指标&＃xff0c;下标分别为&＃xff1a;0&＃xff0c;16&＃xff0c;17&＃xff0c;18&＃xff0c;19&＃xff0c;20。

本文测试过程中的操作平台的配置为i7?3930k、16 GB内存&＃xff0c;开发和测试环境为WIN7 64 bit、Anaconda 5.1.0&＃xff0c;其中Python解释器版本3.6.5(64 bit)&＃xff0c;预处理数据结果如图3所示。

3.2 模型评估方法

由于是分类问题&＃xff0c;故模型的损失函数为0?1损失&＃xff0c;而模型的测试误差是其在测试集上的平均损失[9?11]。设模型f的输入是X&＃xff0c;Y是对应X的真实值&＃xff0c;测试样本容量为N&＃xff0c;则损失函数L、测试误差e和测试精度r的形式化定义如下&＃xff1a;

图3 读取的文件

模型的复杂度可以直接由代码段在同1台计算机上的运行时间衡量&＃xff0c;也可以通过决策树的叶节点个数来比较。记录的运行时间由Python计时器获得[9]。

推荐阅读

version
DNN Community 和 Professional 版本的主要差异

本文详细解析了 DotNetNuke (DNN) 的两种主要版本：Community 和 Professional。通过对比两者的功能和附加组件，帮助用户选择最适合其需求的版本。 ... [详细]

蜡笔小新 2024-12-27 13:14:08
rsa
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
input
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
tree
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
io
数据管理权威指南：《DAMA-DMBOK2 数据管理知识体系》

本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释，构建了数据管理的总体框架，为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]

蜡笔小新 2024-12-27 18:29:55
char
深入理解 SQL 视图、存储过程与事务

本文详细介绍了SQL中的视图、存储过程和事务的概念及应用。视图为用户提供了一种灵活的数据查询方式，存储过程则封装了复杂的SQL逻辑，而事务确保了数据库操作的完整性和一致性。 ... [详细]

蜡笔小新 2024-12-27 17:40:42
io
Akka BackoffSupervisor的深入解析与实践

本文详细介绍了Akka中的BackoffSupervisor机制，探讨其在处理持久化失败和Actor重启时的应用。通过具体示例，展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]

蜡笔小新 2024-12-27 15:04:09
io
[论文笔记] Crowdsourcing Translation: Professional Quality from Non-Professionals (ACL, 2011)

Time:4hoursTimespan:Apr15–May3,2012OmarZaidan,ChrisCallison-Burch:CrowdsourcingTra ... [详细]

蜡笔小新 2024-12-28 13:39:05
version
深入解析JVM垃圾收集器

本文基于《深入理解Java虚拟机：JVM高级特性与最佳实践》第二版，详细探讨了JVM中不同类型的垃圾收集器及其工作原理。通过介绍各种垃圾收集器的特性和应用场景，帮助读者更好地理解和优化JVM内存管理。 ... [详细]

蜡笔小新 2024-12-28 13:35:19
io
Docker的安全基准

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2024-12-28 13:00:24
io
Handling Null Object Encoding in OAuth 1.0a API Implementation

Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]

蜡笔小新 2024-12-28 08:54:34
io
词根词缀解析：greg、hap、helio及其他词源故事

本文基于刘洪波老师的《英文词根词缀精讲》，深入探讨了多个重要词根词缀的起源及其相关词汇，帮助读者更好地理解和记忆英语单词。 ... [详细]

蜡笔小新 2024-12-27 18:59:50
email
MyBatis 动态 SQL 详解与应用

本文深入探讨 MyBatis 中动态 SQL 的使用方法，包括 if/where、trim 自定义字符串截取规则、choose 分支选择、封装查询和修改条件的 where/set 标签、批量处理的 foreach 标签以及内置参数和 bind 的用法。 ... [详细]

蜡笔小新 2024-12-27 16:20:10
const
分页插件3指定到某一页

前言--页数多了以后需要指定到某一页（只做了功能，样式没有细调）html ... [详细]

蜡笔小新 2024-12-27 15:19:01
tree
深入解析：手把手教你构建决策树算法

本文详细介绍了机器学习中广泛应用的决策树算法，通过天气数据集的实例演示了ID3和CART算法的手动推导过程。文章长度约2000字，建议阅读时间5分钟。 ... [详细]

蜡笔小新 2024-12-27 13:44:59

iar2984165

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章