作者:没有1200 | 来源:互联网 | 2023-08-24 18:04
模型选择——子集选择法 前言 最优子集法(best subset selection) 逐步选择法(stepwise selection) 如何选取最优 Cp,AIC,BIC,C_p,AIC,BIC, C p , A I C , B I C , 调整后的 R2R^2 R 2 CpC_p C p AICAIC A I C BICBIC B I C 调整后的 R2R^2 R 2 (adjusted R2R^2 R 2 ) 交叉验证的误差
前言 这篇文章主要讲的是模型选择(model selection)中的一类方法:子集选择法(subsect selection),接下来两篇文章将介绍模型选择的其他两类方法:收缩法(shrinkage)和降维法(dimension reduction)。 首先为什么要进行模型选择呢?以线性回归模型为例,主要出于预测准确性(prediction accuracy)和模型解释度(model interpretability)两方面的考虑。
模型准确性 当 nn n 没有远大于 pp p 时&#xff0c;利用最小二乘拟合得到的预测结果方差会很大&#xff1b;当 nn < p 时&#xff0c;最小二乘法失效&#xff0c;得不到唯一的参数估计。 模型解释度 多元回归模型中的某些自变量&#xff0c;可能与因变量毫无关联&#xff0c;而最小二乘法得到的无关因素的参数系数未必刚好是 0&#xff0c;所以若加入这些无关因素&#xff0c;可能会影响模型解释度。 最优子集法&#xff08;best subset selection&#xff09; 算法&#xff1a;
记 M0M_0 M 0 为空模型&#xff08;null model&#xff09;&#xff08;无自变量&#xff09;。该模型预测的结果均为样本均值。 For k&#61;1,2,⋯,pk&#61;1,2,\cdots,p k &#61; 1 , 2 , ⋯ , p &#xff1a; 拟合所有CpkC_p^k C p k 个包含 kk k 个自变量的模型&#xff1b; 从这 CpkC_p^k C p k 个模型选取最优的模型&#xff0c;记为 MkM_k M k 。这里的最优&#xff0c;在线性回归问题中&#xff0c;可以是最小 RSSRSS R S S 或者最大 R2R^2 R 2 。 从 M0,M1,⋯&#xff0c;MpM_0,M_1,\cdots&#xff0c;M_p M 0 , M 1 , ⋯ &#xff0c; M p 中选取最优模型。选取标准可以是交叉验证的预测误差&#xff0c;或者 Cp(AIC),BIC,C_p(AIC), BIC, C p ( A I C ) , B I C , 调整后的 R2R^2 R 2 。 优点&#xff1a; 简单
缺点&#xff1a; 受计算限制&#xff0c;pp p 较大时运算量太大。
逐步选择法&#xff08;stepwise selection&#xff09; 优点&#xff1a; 运算量较小 缺点&#xff1a; 未必能选取最佳模型
向前逐步选择 算法&#xff1a;
记 M0M_0 M 0 为无自变量的空模型&#xff08;null model&#xff09; For k&#61;1,2,⋯,p−1k&#61;1,2,\cdots,p-1 k &#61; 1 , 2 , ⋯ , p − 1 &#xff1a; 拟合所有 p−kp-k p − k 个在 MkM_k M k 基础上只增加一个自变量的模型&#xff1b; 从这 p−kp-k p − k 个模型选取最优的模型&#xff0c;记为 Mk&#43;1M_{k&#43;1} M k &#43; 1 。这里的最优&#xff0c;在线性回归问题中&#xff0c;可以是最小 RSSRSS R S S 或者最大 R2R^2 R 2 。 从 M0,M1,⋯&#xff0c;MpM_0,M_1,\cdots&#xff0c;M_p M 0 , M 1 , ⋯ &#xff0c; M p 中选取最优模型。选取标准可以是交叉验证的预测误差&#xff0c;或者 Cp(AIC),BIC,C_p(AIC), BIC, C p ( A I C ) , B I C , 调整后的 R2R^2 R 2 。 向后逐步选择 算法&#xff1a;
记 MpM_p M p 为包含所有 pp p 个自变量的模型&#xff08;full model&#xff09; For k&#61;p,p−1,⋯,1k&#61;p,p-1,\cdots,1 k &#61; p , p − 1 , ⋯ , 1 &#xff1a; 拟合所有 kk k 个在 MkM_k M k 基础上只减少一个自变量的模型&#xff1b; 从这 kk k 个模型选取最优的模型&#xff0c;记为 Mk−1M_{k-1} M k − 1 。这里的最优&#xff0c;在线性回归问题中&#xff0c;可以是最小 RSSRSS R S S 或者最大 R2R^2 R 2 。 从 M0,M1,⋯&#xff0c;MpM_0,M_1,\cdots&#xff0c;M_p M 0 , M 1 , ⋯ &#xff0c; M p 中选取最优模型。选取标准可以是交叉验证的预测误差&#xff0c;或者 Cp(AIC),BIC,C_p(AIC), BIC, C p ( A I C ) , B I C , 调整后的 R2R^2 R 2 。 混合逐步选择 按向前逐步选择的方式给空模型增加自变量&#xff0c;每增加一个新的自变量&#xff0c;移除不再提供改进的自变量。
如何选取最优 Cp,AIC,BIC,C_p,AIC,BIC, C p , A I C , B I C , 调整后的 R2R^2 R 2 Cp,AIC,BIC,C_p,AIC,BIC, C p , A I C , B I C , 调整后的 R2R^2 R 2 都是用来评价模型好坏的统计量&#xff0c;在选择最优模型的时候进行参考。 Cp,AIC,BIC,C_p,AIC,BIC, C p , A I C , B I C , 越小越好&#xff1b;调整后的 R2R^2 R 2 越接近 11 1 越好
CpC_p C p Cp&#61;1n(RSS&#43;2dσ^2)C_p&#61;\frac{1}{n}(RSS&#43;2d\hat\sigma^2) C p &#61; n 1 ( R S S &#43; 2 d σ ^ 2 ) CpC_p C p 是对测试MSE的估计&#xff0c;dd d 是自变量数量&#xff0c;σ^2\hat\sigma^2 σ ^ 2 是对误差项 ϵ\epsilon ϵ 方差的估计。CpC_p C p 统计量在RSS的基础上增加了一个 2dσ^22d\hat\sigma^2 2 d σ ^ 2 的惩罚项来进行调整。
AICAIC A I C Akaike information criterion&#xff08;AIC&#xff09; AIC&#61;1nσ^2(RSS&#43;2dσ^2)AIC&#61;\frac{1}{n\hat\sigma^2}(RSS&#43;2d\hat\sigma^2) A I C &#61; n σ ^ 2 1 ( R S S &#43; 2 d σ ^ 2 )
BICBIC B I C Bayesian information criterion&#xff08;BIC&#xff09; BIC&#61;1nσ^2(RSS&#43;log(n)dσ^2)BIC&#61;\frac{1}{n\hat\sigma^2}(RSS&#43;log(n)d\hat\sigma^2) B I C &#61; n σ ^ 2 1 ( R S S &#43; l o g ( n ) d σ ^ 2 )
调整后的 R2R^2 R 2 &#xff08;adjusted R2R^2 R 2 &#xff09; adjustedR2&#61;1−RSS/(n−d−1)TSS/(n−1)adjusted R^2&#61;1-\frac{RSS/(n-d-1)}{TSS/(n-1)} a d j u s t e d R 2 &#61; 1 − T S S / ( n − 1 ) R S S / ( n − d − 1 )
交叉验证的误差 上面四种统计量都是通过间接的方式来估计测试MSE&#xff0c;也可以用校验集或者交叉验证集上的得到误差来直接估计。交叉验证的预测误差最小的模型&#xff0c;效果最好。