鄙人学习笔记
本章介绍的判别分析适用于被解释变量是非度量变量的情形。在这种情况下,人们对于预测和解释影响一个对象所属类别的关系感兴趣,比如为什么某人是或者不是消费者,一家公司成功还是破产等。
当被解释变量是属性变量而解释变量是度量变量时,判别分析是合适的统计分析方法。
当包含两组时,称作两组判别分析。当包含三组或者三组以上时,称作多组判别分析。
判别分析最基本的要求是:分组类型在两组以上;每组案例的规模必须至少在一个以上。解释变量必须是可测量的,才能够计算其平均值和方差,使其能合理地应用于统计函数。
假设之一是:
每一个判别变量(解释变量)不能是其他判别变量的线性组合。这时,为其他变量线性组合的判别变量不能提供新的信息,更重要的是在这种情况下无法估计判别函数。有时一个判别变量与另外的判别变量高度相关,或与另外的判别变量的线性组合高度相关,虽然能求解,但参数估计的标准误将很大,以至于参数估计统计上不显著。这就是通常所说的多重共线性问题。
假设之二是:
各组变量的协方差矩阵相等。
假设之三是:
各判别变量之间具有多元正态分布,即每个变量对于所有其他变量的固定值有正态分布。在这种条件下可以精确计算显著性检验值和分组归属的概率。
设有两个总体G1 和G2,x 是一个p 维样品,若能定义样品到总体G1 和G2 的距离d(x,G1)和d(x,G2),则可用如下的规则进行判别:若样品x 到总体G1 的距离小于到总体G2 的距离,则认为样品x 属于总体G1,反之,则认为样品x 属于总体G2;若样品x 到总体G1 和G2 的距离相等,则让它待判。这个准则的数学模型可作如下描述:
当总体G1 和G2 为正态总体且协方差相等时,距离选用马氏距离,即
当总体不是正态分布时,有时也可以用马氏距离来描述x 到总体的远近。
若 ∑ 1= ∑2 = ∑,这时:
令:
于是判别规则可表示为:
W( x)为判别函数,由于它是线性函数,又称为线性判别函数, α称为判别系数(类似于回归系数)。
当两个总体协差阵∑1与∑2不等时,可用:
作为判别函数,这时它是x的二次函数。
当μ1,μ2,∑未知时,可通过样本来估计:
设x1(1),…,xn1(1)是来自G1的样本,x1(2),…,xn2(2)是来自G2的样本,可以得到以下估计:
其中,
设有 k个总体 G1, G2,…, Gk,它们的均值分别是 µ1, µ2,…, µk,协差阵均为 ∑。类似于两总体的讨论,判别函数为:
相应的判别规则是:
当µ1,µ2,…,µk,∑ 未知时,设从Ga 中抽取的样本为x1(a),…,xna(a)(a = 1,2,…,k),则它们的估计为:
式中:
n =n1 +n2 +…+nk
这时判别函数为:
判别规则为:
当µ 1,µ 2,…,µ k,∑ 1,∑ 2,…,∑ k 未知时:
贝叶斯( Bayes)统计的思想是:假定对研究的对象已有一定的认识,常用先验概率分布来描述这种认识,然后我们取得一个样本,用样本来修正已有的认识(先验概率分布),得到后验概率分布,各种统计推断都通过后验概率分布来进行。将贝叶斯思想用于判别分析,就得到贝叶斯判别。
费歇( Fisher)判别的思想是投影,将 k组 p维数据投影到某一个方向,使得它们的投影组与组之间尽可能地分开。
如何衡量组与组之间尽可能地分开呢?他借用了一元方差分析的思想。
设从k 个总体分别取得k 组p 维观察值如下:
令a 为Rp 中的任一向量,u(x)=a′x 为x 向以a 为法线方向的投影,这时,上述数据的投影:
它正好组成一元方差分析的数据。
其组间平方和为:
其组内平方和为:
式中,
如果 k组均值有显著差异,则:
应该充分大,或者:
应该充分大。
所以我们可以求 a,使得∆( a)达到最大。显然,这个 a并不唯一,因为如果 a使 ∆(·)达到极大,则 ca也使 ∆(·)达到极大, c为任意不等于零的实数。
由矩阵知识,我们知道 ∆(·)的极大值为 λ 1,它是 ∣ B-λ E ∣= 0的最大特征根, l1, l2,…, lr为相应的特征向量,当 a= l1时,可使 ∆(·)达到最大。
费歇准则下的线性判别函数 u( x)= a′ x的解 a为方程 ∣ B-λ E ∣= 0的最大特征根 λ1所对应的特征向量 l1,且相应的判别效率为 ʌ(l1)= λ 1。
在有些问题中,仅用一个线性判别函数不能很好地区别各个总体,可取 λ 2对应的特征向量 l2,建立第二个判别函数。如还不够,可建立第三个线性判别函数 ,依次类推。
在费歇准则下的判别函数并不唯一,若 u( x)= l′ x为判别函数,则 au( x)+ β也为具有与 u( x)相同判别效率的判别函数。。不唯一性对制定判别规则并没有任何妨碍,我们可从中任取一个。一旦取定了判别函数,根据它就可以确定判别规则。
在多元回归中熟知,变量选择的好坏直接影响回归的效果,而在判别分析中也有类似的问题。理论和实践证明,指标太多了,不仅带来大量的计算,同时许多对判别无作用的指标反而会干扰我们的视线。因此,适当筛选变量的问题就成为一件很重要的事情。
逐步判别的原则为:
(一)在 x1, x2,…, xm(即 m个自变量)中先选出一个自变量,它使维尔克斯统计量 ʌ i( i= 1, 2,…, m)达到最小。
假定挑选的变量次序是按自然的次序,即第 r步正好选中 xr,第一步选中 x1,则有 ʌ1= min{ ʌi} (1≤ i ≤ m),并考察 ʌ1是否落入接受域,如不显著,则表明一个变量也选不中,不能用判别分析;如显著,则进入下一步。
(二)在未选中的变量中,计算它们与已选中的变量 x1配合的 ʌ值。选择使 ʌ1i( 2 ≤ i ≤ m)达到最小的作为第二个变量。
(三)在已选入的 r个变量中,要考虑较早选中的变量中其重要性有没有较大的变化,应及时把不能提供附加信息的变量剔除出去。剔除的原则等同于引进的原则。
(四)这时既不能选进新变量,又不能剔除已选进的变量,将已选中的变量建立判别函数。