热门标签 | HotTags
当前位置:  开发笔记 > 人工智能 > 正文

《多元统计分析》学习笔记之判别分析

鄙人学习笔记文章目录判别分析判别分析的基本思想距离判别两总体情况多总体情况贝叶斯判别费歇判别逐步判别判别分析本章介绍的判别分析适用于被解释变量是非度量变量的情形。在这种情况下,人们

鄙人学习笔记

文章目录

    • 判别分析
      • 判别分析的基本思想
      • 距离判别
        • 两总体情况
        • 多总体情况
      • 贝叶斯判别
      • 费歇判别
      • 逐步判别

判别分析

本章介绍的判别分析适用于被解释变量是非度量变量的情形。在这种情况下,人们对于预测和解释影响一个对象所属类别的关系感兴趣,比如为什么某人是或者不是消费者,一家公司成功还是破产等。

判别分析的基本思想

  • 基本思想

当被解释变量是属性变量而解释变量是度量变量时,判别分析是合适的统计分析方法。
当包含两组时,称作两组判别分析。当包含三组或者三组以上时,称作多组判别分析。
判别分析最基本的要求是:分组类型在两组以上;每组案例的规模必须至少在一个以上。解释变量必须是可测量的,才能够计算其平均值和方差,使其能合理地应用于统计函数。

  • 判别分析的假设

假设之一是:
每一个判别变量(解释变量)不能是其他判别变量的线性组合。这时,为其他变量线性组合的判别变量不能提供新的信息,更重要的是在这种情况下无法估计判别函数。有时一个判别变量与另外的判别变量高度相关,或与另外的判别变量的线性组合高度相关,虽然能求解,但参数估计的标准误将很大,以至于参数估计统计上不显著。这就是通常所说的多重共线性问题。

假设之二是:
各组变量的协方差矩阵相等。

假设之三是:
各判别变量之间具有多元正态分布,即每个变量对于所有其他变量的固定值有正态分布。在这种条件下可以精确计算显著性检验值和分组归属的概率。

距离判别

两总体情况

设有两个总体G1 和G2,x 是一个p 维样品,若能定义样品到总体G1 和G2 的距离d(x,G1)和d(x,G2),则可用如下的规则进行判别:若样品x 到总体G1 的距离小于到总体G2 的距离,则认为样品x 属于总体G1,反之,则认为样品x 属于总体G2;若样品x 到总体G1 和G2 的距离相等,则让它待判。这个准则的数学模型可作如下描述:

《《多元统计分析》学习笔记之判别分析》
当总体G1 和G2 为正态总体且协方差相等时,距离选用马氏距离,即
《《多元统计分析》学习笔记之判别分析》

当总体不是正态分布时,有时也可以用马氏距离来描述x 到总体的远近。
若 ∑ 1= ∑2 = ∑,这时:

《《多元统计分析》学习笔记之判别分析》
令:
《《多元统计分析》学习笔记之判别分析》
于是判别规则可表示为:
《《多元统计分析》学习笔记之判别分析》
W( x)为判别函数,由于它是线性函数,又称为线性判别函数, α称为判别系数(类似于回归系数)。

当两个总体协差阵∑1与∑2不等时,可用:
《《多元统计分析》学习笔记之判别分析》

作为判别函数,这时它是x的二次函数。

当μ1,μ2,∑未知时,可通过样本来估计:

设x1(1),…,xn1(1)是来自G1的样本,x1(2),…,xn2(2)是来自G2的样本,可以得到以下估计:
《《多元统计分析》学习笔记之判别分析》
其中,
《《多元统计分析》学习笔记之判别分析》

多总体情况

  • 协方差阵相等

设有 k个总体 G1, G2,…, Gk,它们的均值分别是 µ1, µ2,…, µk,协差阵均为 ∑。类似于两总体的讨论,判别函数为:
《《多元统计分析》学习笔记之判别分析》
相应的判别规则是:
《《多元统计分析》学习笔记之判别分析》

当µ1,µ2,…,µk,∑ 未知时,设从Ga 中抽取的样本为x1(a),…,xna(a)(a = 1,2,…,k),则它们的估计为:
《《多元统计分析》学习笔记之判别分析》
式中:
n =n1 +n2 +…+nk
《《多元统计分析》学习笔记之判别分析》

  • 协方差阵不同

这时判别函数为:
《《多元统计分析》学习笔记之判别分析》
判别规则为:
《《多元统计分析》学习笔记之判别分析》
当µ 1,µ 2,…,µ k,∑ 1,∑ 2,…,∑ k 未知时:
《《多元统计分析》学习笔记之判别分析》

贝叶斯判别

  • 贝叶斯统计的思想

贝叶斯( Bayes)统计的思想是:假定对研究的对象已有一定的认识,常用先验概率分布来描述这种认识,然后我们取得一个样本,用样本来修正已有的认识(先验概率分布),得到后验概率分布,各种统计推断都通过后验概率分布来进行。将贝叶斯思想用于判别分析,就得到贝叶斯判别。

费歇判别

费歇( Fisher)判别的思想是投影,将 k组 p维数据投影到某一个方向,使得它们的投影组与组之间尽可能地分开。

如何衡量组与组之间尽可能地分开呢?他借用了一元方差分析的思想。
设从k 个总体分别取得k 组p 维观察值如下:
《《多元统计分析》学习笔记之判别分析》

令a 为Rp 中的任一向量,u(x)=a′x 为x 向以a 为法线方向的投影,这时,上述数据的投影:
《《多元统计分析》学习笔记之判别分析》
它正好组成一元方差分析的数据。

其组间平方和为:
《《多元统计分析》学习笔记之判别分析》

其组内平方和为:
《《多元统计分析》学习笔记之判别分析》

式中,
《《多元统计分析》学习笔记之判别分析》
如果 k组均值有显著差异,则:
《《多元统计分析》学习笔记之判别分析》
应该充分大,或者:
《《多元统计分析》学习笔记之判别分析》
应该充分大。

所以我们可以求 a,使得∆( a)达到最大。显然,这个 a并不唯一,因为如果 a使 ∆(·)达到极大,则 ca也使 ∆(·)达到极大, c为任意不等于零的实数。
由矩阵知识,我们知道 ∆(·)的极大值为 λ 1,它是 ∣ B-λ E ∣= 0的最大特征根, l1, l2,…, lr为相应的特征向量,当 a= l1时,可使 ∆(·)达到最大。

费歇准则下的线性判别函数 u( x)= a′ x的解 a为方程 ∣ B-λ E ∣= 0的最大特征根 λ1所对应的特征向量 l1,且相应的判别效率为 ʌ(l1)= λ 1

在有些问题中,仅用一个线性判别函数不能很好地区别各个总体,可取 λ 2对应的特征向量 l2,建立第二个判别函数。如还不够,可建立第三个线性判别函数 ,依次类推。

在费歇准则下的判别函数并不唯一,若 u( x)= l′ x为判别函数,则 au( x)+ β也为具有与 u( x)相同判别效率的判别函数。。不唯一性对制定判别规则并没有任何妨碍,我们可从中任取一个。一旦取定了判别函数,根据它就可以确定判别规则。

逐步判别

在多元回归中熟知,变量选择的好坏直接影响回归的效果,而在判别分析中也有类似的问题。理论和实践证明,指标太多了,不仅带来大量的计算,同时许多对判别无作用的指标反而会干扰我们的视线。因此,适当筛选变量的问题就成为一件很重要的事情。

  • 逐步判别的原则

逐步判别的原则为:
(一)在 x1, x2,…, xm(即 m个自变量)中先选出一个自变量,它使维尔克斯统计量 ʌ i( i= 1, 2,…, m)达到最小。
假定挑选的变量次序是按自然的次序,即第 r步正好选中 xr,第一步选中 x1,则有 ʌ1= min{ ʌi} (1≤ i ≤ m),并考察 ʌ1是否落入接受域,如不显著,则表明一个变量也选不中,不能用判别分析;如显著,则进入下一步。
(二)在未选中的变量中,计算它们与已选中的变量 x1配合的 ʌ值。选择使 ʌ1i( 2 ≤ i ≤ m)达到最小的作为第二个变量。
(三)在已选入的 r个变量中,要考虑较早选中的变量中其重要性有没有较大的变化,应及时把不能提供附加信息的变量剔除出去。剔除的原则等同于引进的原则。
(四)这时既不能选进新变量,又不能剔除已选进的变量,将已选中的变量建立判别函数。


推荐阅读
  • 深入理解OAuth认证机制
    本文介绍了OAuth认证协议的核心概念及其工作原理。OAuth是一种开放标准,旨在为第三方应用提供安全的用户资源访问授权,同时确保用户的账户信息(如用户名和密码)不会暴露给第三方。 ... [详细]
  • 本文详细探讨了KMP算法中next数组的构建及其应用,重点分析了未改良和改良后的next数组在字符串匹配中的作用。通过具体实例和代码实现,帮助读者更好地理解KMP算法的核心原理。 ... [详细]
  • 1:有如下一段程序:packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]
  • C++实现经典排序算法
    本文详细介绍了七种经典的排序算法及其性能分析。每种算法的平均、最坏和最好情况的时间复杂度、辅助空间需求以及稳定性都被列出,帮助读者全面了解这些排序方法的特点。 ... [详细]
  • 本文介绍如何利用动态规划算法解决经典的0-1背包问题。通过具体实例和代码实现,详细解释了在给定容量的背包中选择若干物品以最大化总价值的过程。 ... [详细]
  • 本文详细探讨了Java中的24种设计模式及其应用,并介绍了七大面向对象设计原则。通过创建型、结构型和行为型模式的分类,帮助开发者更好地理解和应用这些模式,提升代码质量和可维护性。 ... [详细]
  • 本文介绍了Java并发库中的阻塞队列(BlockingQueue)及其典型应用场景。通过具体实例,展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递,并结合线程池和原子类优化性能。 ... [详细]
  • 题目描述:给定n个半开区间[a, b),要求使用两个互不重叠的记录器,求最多可以记录多少个区间。解决方案采用贪心算法,通过排序和遍历实现最优解。 ... [详细]
  • 深入理解C++中的KMP算法:高效字符串匹配的利器
    本文详细介绍C++中实现KMP算法的方法,探讨其在字符串匹配问题上的优势。通过对比暴力匹配(BF)算法,展示KMP算法如何利用前缀表优化匹配过程,显著提升效率。 ... [详细]
  • 探讨一个显示数字的故障计算器,它支持两种操作:将当前数字乘以2或减去1。本文将详细介绍如何用最少的操作次数将初始值X转换为目标值Y。 ... [详细]
  • 本文详细介绍了Java编程语言中的核心概念和常见面试问题,包括集合类、数据结构、线程处理、Java虚拟机(JVM)、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题,帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]
  • 本文探讨如何设计一个安全的加密和验证算法,确保生成的密码具有高随机性和低重复率,并提供相应的验证机制。 ... [详细]
  • 深入解析:手把手教你构建决策树算法
    本文详细介绍了机器学习中广泛应用的决策树算法,通过天气数据集的实例演示了ID3和CART算法的手动推导过程。文章长度约2000字,建议阅读时间5分钟。 ... [详细]
  • 在金融和会计领域,准确无误地填写票据和结算凭证至关重要。这些文件不仅是支付结算和现金收付的重要依据,还直接关系到交易的安全性和准确性。本文介绍了一种使用C语言实现小写金额转换为大写金额的方法,确保数据的标准化和规范化。 ... [详细]
  • 在给定的数组中,除了一个数字外,其他所有数字都是相同的。任务是找到这个唯一的不同数字。例如,findUniq([1, 1, 1, 2, 1, 1]) 返回 2,findUniq([0, 0, 0.55, 0, 0]) 返回 0.55。 ... [详细]
author-avatar
极御云安全
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有