作者:摩西摩西 | 来源:互联网 | 2023-09-14 12:48
这篇文章分析了GAM(Generalizedadditivemodels)系列模型在可解释性方面的一些有趣性质。例如两个模型的正确率等性能指标相近,但是给出的解释却截然不同。那么,
这篇文章分析了GAM(Generalized additive models)系列模型在可解释性方面的一些有趣性质。例如两个模型的正确率等性能指标相近,但是给出的解释却截然不同。那么,在不同的解释模型,我们应该相信哪一个?论文从定性和定量角度系统地分析了一系列GAM算法。通过一系列的实验分析发现Tree-based GAM在稀疏性,保真度和准确性达到了最佳平衡。
如下图展示了再犯罪率预测方面,不同模型给出的不同解释。图中对了EBM-BF, Spline, FLAM等模型,不同模型认为race特征对预测结果具有不同的影响。例如Spline认为该特征取值为Asian和预测结果具有较大的负相关。
![](https://img.php1.cn/3cd4a/1eebe/cd5/99b88427bc9ce0dc.webp)
GAM 模型系列简介
GAM模型定义
\[g(y) = f_0 + \sum_{j=1}^{D}f_{j}(x_j)
\]
\(f_j\) 可以是任意模型,用于处理单个特征。GAM模型可以在可解释及准确率方面达到比较好的折中。下面将介绍GAM的相关变体。
Explainable Boosting Machine(EBM)
该模型是一个 tree-based model。在该模型中,每个\(f_j\)都是一棵树。EBM序列地学习每个特征,基于Boosting思想,每个特征都被用于修正上一特征给出的误差。训练过程如图所示,如fea1 表示仅仅使用fea1学习模型,而res表示fea1学习之后的误差。需要注意的是,如果忽略iteration,那么模型是在循环的遍历每个特征来学习残差。
![](https://img.php1.cn/3cd4a/1eebe/cd5/0d80e8a685a9a87b.png)
EBM可以认为具有 dense feature 特性。为了分析feature sparsity特性,本文基于EBM模型构造了feature sparsity版本,即EBM-BF。该模型贪心地选择能够使用res下降最多的特征,也即是优化fea1的res是会去选择能够使res下降最多的feature,而不是顺序的选择feature。
XGBoost(XGB)
XGB 也是 tree-based GAM。它是基于流行的 boosting package XGBoost.
Spline
Spline 是指分段拟合的意思,它的含义是样条,也即是将区间进行分段拟合。
该模型使用经典的spline basis function 去训练GAM。
Fused LASSO Additive Models(FLAM)
该模型主要使用 Fused LASSO 约束相邻特征权重的差值。
Logistic regression(LR)
逻辑回归是较为经典的模型,可以通过简单的变化将其化为GAM格式。
Training
在模型的训练过程中,每个模型都配备最优的参数以获取最优的性能。文中针对不同类型的模型,使用了相应的最优参数的选择。
How feature sparsity affects fairness
构造稀疏版本的EBM-BF,对比EBM-BF及EBM,分析feature sparsity对可解释性的影响。并选取了两个在研究机器学习公平常用的两个数据集,被用于研究种族歧视和性别歧视:
- COMPAS: 人口统计信息,犯罪行为,累积犯罪信息等。部分研究认为再犯风险评估具有种族歧视现象。
- Adult: 来自于1994年的人口普查数据包含年龄,种族,职位,性别等信息,用于预测个人的收入是否能超过50K/yr.部分研究认为收入与性别有关。男性收入普遍高于女性。
论文分析了不同模型给出的(race, gender)-> Reoffense risk scores的关系。以及(race, gender)-> income的关系。如下图所示,可以看出EBM(dense feature)能够学习到race,gender之间的相关性。但是EBM-BF(sparse feature)却忽视了其中的相关性。这与现有的研究不符。
![](https://img.php1.cn/3cd4a/1eebe/cd5/45a090220e38e09d.webp)
另外,文中也分析了 dense feature model 与 sparse feature model数据中一些从特征角度划分占比较小群体的表现。EBM虽然和EBM-BF在较大群体上具有较小的差别(0.49%),但是在小群体,例如Other, Asian等,差别却达到了1.45%,6.48%。
![](https://img.php1.cn/3cd4a/1eebe/cd5/5b97d3b808d031e2.webp)
另外,论文也在Data Anomaly Discovery方面做了较多分析。这里的Data Anomaly主要指两个方面,一个是数据预处理(mean imputaion, 将缺失值使用数据集均值补全),一个是人为干预(human intervention, 这里指医疗措施的加入使得风险与人体特征指标之间关系的突变)。
量化分析 feature sparsity
通过贪心的给GAM模型增加特征,分析出验证集误差随着特征增加的减少曲线,曲线下面积越小,表示误差随着特征增加的下降的越快。
量化分析 Data fidelity
首先将模型损失分解为noise, bias, variance, 并对不同的误差进行分析。
\[E_{D,t}[L(t, y)] = N(x) + B(x) + V(x)
\]
下图展示了具有相近正确率的模型却在bias, variance 方面有着较大的不同。其中bias可以作为代理指标衡量data fidelity。
![](https://img.php1.cn/3cd4a/1eebe/cd5/e3aa5425383ba10d.png)
Data fidelity 与 generator bias
文中提出了一种有趣的分析 data generator 和 模型inductive bias 之间的关系.
基于原始数据的X使用\(GAM_A\)(data generator)生成标签\(\hat{y}\),并使用\((X, \hat{y})\)训练\(GAM_B\), 通过分析\(GAM_A\), \(GAM_B\)之间的曲线关系,进而判断 data generator与 inductive bias 之间关系,以及是否存在 data generator和 inductive bias一致时,GAM_B性能更好的情况。
在量化分析部分,模型使用\(diff = \sum_{j}^{D}|f_{j}(x_j) - g_j(x_j)|\)量化分析\(GAM_A\)与\(GAM_B\)之间的关系, 其中\(f_j\in GAM_B, g_j \in GAM_A\)。
![](https://img.php1.cn/3cd4a/1eebe/cd5/45a090220e38e09d.webp)
Worst-case Data fidelity
文中这里用到最坏情况分析。类似于时间复杂度分析中的\(O\)。
![](https://img.php1.cn/3cd4a/1eebe/cd5/3e641eb5f5c8cd90.webp)
一个真实的数据集会生成五个半模拟数据集,在每个数据集上,不同模型之间的diff会缩放到一个区间内并作为评分。模型在五个半模拟数据集行的最差表现作为模型的worst-case data fidelity.