热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

分组后统计总数_“猫爪挠的字”卡方检验|心理统计学

考试结束了,仙友们估计都精疲力竭了,开启了短暂的休息时间。回忆备考时各路修仙大队、小分队长期不懈的并肩作战、互相督促、学习和努力,那种感觉

34b4d1760b93f94aa123fcc3d2ade09e.png

考试结束了,仙友们估计都精疲力竭了,开启了短暂的休息时间。回忆备考时各路修仙大队、小分队长期不懈的并肩作战、互相督促、学习和努力,那种感觉真是美好,前进的路上,你不是在孤军奋战。

本来想着考完试后,临幸下四公主狂打一个月游戏,彻底舒缓一下那持续8个月压在心口上的那口气,后来发现硬核游戏好难打,被BOSS疯狂教做人后气不打一处来,还是乖乖看书吧,把今年学习的内容趁热打铁总结完成,给2020年画下一个句号。

之前由于备考,心理统计学的重点章节的总结没有全部完成,接下来还需要总结卡方检验、非参数检验、线性回归三大章节,今天我们先来看卡方检验。

本文篇幅较长、内容较多,总结的顺序为:

  • 卡方检验别名、卡方检验原理、实际次数、理论次数

  • 卡方检验的假设、卡方检验的类别、卡方检验的基本公式、期望次数计算、连续性校正

  • 配合度检验:检验无差假说、检验假设分布的概率、分布拟合检验(吻合性检验)、比率或百分比配合度检验

  • 独立性检验:独立样本四格表独立性检验、相关样本四格表独立性检验、RXC表独立性检验

  • 同质性检验:单因素分类数据同质性检验、列联表形式同质性检验

e2ea9852b39a3376be889bbc5e3ae4f7.png

第一节:卡方检验原理

一、基本概念

1. 卡方检验的别名:

  • 卡方检验:由于是对计数数据统计分析的根据是卡方分布,所以称这类统计方法为卡方检验。

  • 列联表分析交叉表分析:在初步整理技术数据时,除了用次数分布表呈现数据之外,大都用列联表(contingency table)或交叉表(cross tabulation)的单元格形式,也称为列联表分析或交叉表分析。

  • 百分比检验:因卡方检验使用的列联表的单元格里的值是次数或百分比,所以也称为百分比检验。

  • 非参数检验:因为对计数数据总体的分布形态不做任何假设,卡方检验被视为非参数检验方法的一种。

2. 卡方检验能处理一个因素两项或多项分类的实际观察频数与理论频数分布是否一致的问题,或者说有无显著性差异问题。

3. 实际频数(actual frequencies):简称实计数或实际数,指在实验或调查中得到的计数资料,也称为观察频数(observed frequencies)

4. 理论频数(theoretical frequencies):是根据概率原理、某种理论、某种理论次数分布或经验分布计算出的次数,也称为期望频数(expect frequencies)

二、卡方检验的假设

1. 分类相互排斥、互不相容:每一个观测值只能被划分到一个类别或另一个类别之中,不能出现某一观测值同时划分到多个类别当中的情况。

2. 独立性假设:即观测值相互独立。各个被试的观测值之间彼此独立,是最基本的一个假设。在实际研究中,让观测值的总数等于实验中不同被试的总数,要求每个被试只有一个观测值,这是确保观测值相互独立最安全的做法。

3. 期望次数的大小

  • 为使卡方分布称为卡方值合理准确的近似估计,每一个单元格中的期望次数应该至少在5个以上。

  • 更严谨的统计学家提出更严格的标准:当自由度为1时,每一个单元格的期望次数至少不应低于10才能保证检验的准确性。

  • 在许多分类研究中,若自由度很大,有几个类别的理论次数虽然很小,但在可接受的标准范围内,只有一个类别的理论次数低于1,此时,简单的处理原则是设法使每一个类别的理论次数都不要低于1,分类中不超过20%的类别的理论次数可以小于5。

三、卡方检验的类别

1. 配合度检验:

  • 无差假说检验:主要检验一个因素多项分类的实际观察数与某理论次数是否相一致的问题,或有无显著差异问题。

  • 正态吻合性检验:当对连续数据的正态性进行检验时,也称为正态吻合性检验。

  • 分布拟合检验:在给定显著水平下,根据样本次数分布对连续型随机变量数据是否服从某种指定的具有明确表达式的理论分布(如正态分布、二项分布、泊松分布)进行的显著性检验,也称为分布的拟合度检验,或吻合度检验,简称分布拟合检验。

  • 单因素检验:由于检验的内容仅涉及一个因素多项分类的计数资料,也可以说是一种单因素检验(one-way test)。

2. 独立性检验:用来检验两个或两个以上因素各种多项分类之间是否有关联或是否有独立性问题。如果变量多于两个,即探讨三个以上变量之间关系时,必须使用多维列联表分析方法。如,性别(男、女)对某个问题的态度(赞成、不可置否、反对)是否有关系。

3. 同质性检验:检定不同人群母总体在某一个变量的反应是否具有显著差异,或分析几种因素之间是否真有实质上的差异,或判断几次重复实验的结果是否同质的问题。

注意!独立性检验和同质性检验的区别:

  • 独立性检验:是对同一样本的若干变量关联情形的检验,目的在于判明数据资料是相互关联还是彼此独立。

  • 同质性检验:是对两个样本同一变量的分布状况的检验,是对几个样本数据是否同质作出统计决策。

四、卡方检验的基本公式

1. 卡方检验的统计原理:

比较观察值与理论值的差别:

  • 两者的差异越小,检验的结果越不容易达到显著性水平。

  • 两者的差异越大,检验的结果越容易达到显著性水平,可以拒绝虚无假设H0,而接受备择假设H1。

2. 计算公式

fc1fd7b5dfb26785712a27ae618cc512.png

五、期望次数的计算

1. 配合度检验:期望值为总体的实际数值,或某一理论存在的数值。

2. 独立性检验、同质性检验:如果两个变量或两个样本无关联时,期望值为列联表中个单元格的理论次数,即各个单元格对应的两个边缘次数的乘积除以总次数,如下:

dbfdba33a556476a027a71603d2797c5.png

六、小期望次数的连续性校正

1. 条件:运用卡方检验时,各单元格的理论次数不得小于5。小于5将违反统计基本假设,导致统计检验高估的情况,通常要有80%以上的单元格理论值要大于5。

2. 单元格次数过少时,有以下四种处理办法:

  • 单元格合并法:若有一格或多个单元格的期望次数小于5时,可适当调整变量的分类方式,将部分单元格合并。如学历层次,可将博士生与研究生合并。

  • 增加样本数:若研究者无法改变变量的分类方式,又想获得有效样本,最佳方法是直接增加样本容量来提高期望次数。

  • 去除样本法:若样本无法增加,次数偏低的类别又不具有研究价值时,可将该类被试去除,但研究的结论不能推论到这些被去除的母总体中。

  • 使用校正公式:

    • 在2X2列联表检验中,若单元格的期望次数低于10但高于5,可用耶茨校正公式校正

    • 若期望次数低于5时,或样本总人数低于20时,应使用费舍精确概率检验法

    • 当单元格内容牵扯到重复测量设计时(如前后测设计),可用麦内码检验

e2ea9852b39a3376be889bbc5e3ae4f7.png

第二节:配合度检验

一、配合度检验的一般问题和步骤

1. 统计假设:

6abd5d9ea6beae785fc58d7f03e3e3cf.png

2. 计算自由度:

第一,配合度检验中的自由度与两个因素有关:

  • 实验或调查中分类的项数

  • 计算理论次数时,用观察数的统计量的个数

第二,配合度检验的自由度一般为分类的项数-1。

第三,在对计数数据分布的配合度进行检验(即拟合优度检验)时,如正态拟合检验会用到总数、平均数、标准差3个统计量,此时自由度为分组数目-3。

3. 计算理论次数:一般根据某种理论,按一定的概率通过样本即实际观察次数计算。这里的某种理论可以是经验概率,也可以是理论概率。

二、配合度检验的应用

1. 检验无差假说:所谓无差假说,指各项分类的实际数之间没有差异,即假设各项分类之间的机会相等或概率相等,即理论次数完全按概率相等的条件计算,即:理论次数 = 总数/分类项数。

我们通过两个例题进行理解:

040079f197465efefd19c2f8e4b85e36.png

2. 检验假设分布的概率:

  • 假设某因素各项分类的次数分布为正态,检验实计数与理论上期望的结果之间是否有差异,即理论次数的计算应按正态分布概率,分别计算各项分类的理论次数。具体方法为按正态分布理论计算各项分类应有的概率再乘以总数,便得到各项分类的理论次数。

  • 若实现假定所观察的资料不是正态分布,而是其他分布,如二项分布、泊松分布,其概率应按所假定的分布计算。

  • 若实现假定的分布不是理论分布,而是经验分布,可按此经验分布计算概率,再乘以总数得到理论次数,进一步检验假设分布与实计数的分布之间,即实计数与理论次数之间差异是否显著。

我们通过1个正态分布、1个经验分布的例题进行理解:

b4e53174454fb78f229a55db03f6495b.png

3. 连续变量分布的吻合性检验:

第一,分布拟合检验(吻合性检验):对于连续随机变量的计量数据,有时在研究中预先不知道其总体分布,而要根据对样本的次数分布来判断是否服从某种指定的具有明确表达式的理论次数分布,然后在给定的显著性水平下,对假设做显著性检验,通常称为拟合度检验

第二,检验方法:

  • 将测量数据整理成次数分布表,画出次数分布曲线图,根据次数分布曲线,判断选择恰当的理论分布。

  • 可选择某一直线或曲线的理论分布函数方程式计算理论次数,把实际分组次数和理论次数代入卡方检验的基本公式,计算卡方值,查卡方值表。

  • 若差异显著,需另选理论分布函数再次比较,直至吻合。

以下例题为通过次数分布表来检验实际计数分布是否为正态分布。

4891eb703d4df68f334dae0146d0f1fb.png

4. 比率或百分比的配合度检验:

若收集的计数资料用百分数表示,配合度方法与上述情况基本相同,只是最后将计算的卡方值乘以N/100后再查卡方值表,原因在于最初百分数是由原数据乘以100/N得到的,在结果中再乘以N/100进行还原。

b3e0072a57fb8312359d91be9aca01dc.png

e2ea9852b39a3376be889bbc5e3ae4f7.png

第三节:独立性检验

一、概念与定义

1. 独立性检验:主要用于两个或两个以上因素多项分类的计数资料分析,也即研究两类变量之间的关联性和依存性问题,即研究的两个因素(又称自变量)或两个以上因素之间是否具有独立性,或有无关联的,或有无“交互作用”存在。

  • 若两个自变量是独立的无关联(即卡方值不显著),则意味着对其中一个自变量(因素)来说,另一个自变量的多项分类次数上的变化是在取样误差范围内的。

  • 若两个因素是非独立(即卡方值显著),则称这二变量之间有关联或有交互作用存在。

2. 双因子检验(双母总体检验):由于两个变量代表两个不同的概率(或母体),独立性检验必须同时处理双变量的总体特性,也可称为双因子检验。

3. 列联表分析:独立性检验也称为列联表分析,如下表所示:

7a2876a292e030d8d8224bacface516d.png

  • 2X2表(四格表):两个因素各有两项分类,称为2X2表或四格表。

  • 2Xk表:一个因素有两项分类,另一个因素有k项分类,则称为2Xk表。

  • RXC表:一个因素有R类,另一个因素分C类,这种表称为RXC表。

  • 多维列联表:因素多于两个以上,称为多维列联表。

二、独立性检验的一般问题与步骤

1. 统计假设:(一般多用文字叙述而少用统计符号表示)

  • H0:二因素(或多因素)之间是独立的无关联的。

  • H1:二因素(或多因素)之间是关联或说差异显著。

2. 理论次数的计算:

  • 独立性检验的理论次数是直接用列联表提供的数据推算出来的。

  • 计算样本的比率:二因素或称两样本其各行或各列数目的和,即每一项分类的数目与总数目(N)的比值。例子如下:

8018bc11aaa99d001b81fbbc0b0a7906.png

3. 计算自由度:

  • 两因素列联表自由度与两因素各自的分类项数有关。设R为每一行的分类项数,C为每一列的分类数目,则自由度为:df=(R-1)(C-1)。

  • 在上例中,R=3,C=2,df=(3-1)(2-1)=2。这里的自由度指的是,在计算理论次数时,在3x2=6的单元格内,只有2个单元格内的数目可以自由变动,即在6个单元格内,只要有2个单元格内的数字确定,在边缘次数(即fx、fy)不变的情况下,其他各单元格的数字就随之确定了。

4. 统计方法的选择:

  • 独立性检验的统计方法,与以下几个因素有关:

    • 样本是独立的还是相关的

    • 是大样本还是小样本

    • 各因素的分类项目数量

  • 一般应用独立性检验的场合,独立样本居多,用卡方检验的基本公式计算,即:

555f76c69368583694f9ac6bd7d38b5a.png

  • 应用基本公式计算要先计算理论次数,比较麻烦,可用简便公式直接计算卡方值,即:

11f87fdf2f262aded2eed21f6a8e8497.png

        上式中f0i为每一格的实计数,fxi是与f0i对应的那一行的总数即为边缘次数。fyi是与f0i对应的那一列的总数,也为边缘次数,N为总的观察次数。

5. 结果与解释:

d709714c91db27814399c87d56a5b70d.png

三、四格表的独立性检验

最简单的列联表即四格表,四格表的独立性检验很多情况下与二比率差异显著性检验的统计功用相同。例如其中一个因素属于被试方面的两项分类时,将调查结果可以整理成两个比率,也可以整理成四格表形式。

1. 独立样本四格表卡方检验

4cc3cc53663fba73b57fb3f64b7baa10.png

独立样本四格表检验例题如下:

6929a98f06074f620f55370a6e44249c.png

2. 相关样本四格表卡方检验

283a756d2ce159f0084377a4c30c3ee2.png

相关样本四格表检验例题如下:

9173edddec3531ed4da3c321152ef2e6.png

3. 四格表卡方值的近似校正

c2754d0d8749dc1ad9c8a653ee902312.png

四、RXC表独立性检验

273ffd5f4d2028d0be95eae13d728a16.png

e2ea9852b39a3376be889bbc5e3ae4f7.png

第四节:同质性检验

1. 同质性检验(test for homogeneity)应用的场景:

  • 分析几种因素之间是否真有实质上的差异,或判断几次重复实验的结果是否同质。

  • 当涉及几次或几组实验数据的合并问题,这时需要先进行同质性—异质性检验,进而判断是否能够合并。

2. 单因素分类数据的同质性检验:

计算步骤如下:

  • 计算各个样本组的卡方值和自由度。

  • 累加各样本组卡方值,计算其总和、自由度的总和。

  • 将各样本组原始数据相应类别合并,产生一个总的数据表,并计算此总数据表的卡方值和自由度。

  • 计算各样本组的累计卡方值与总测试次数合并获得卡方值之差,称此为异质性卡方值。异质性卡方值是各个样本组间不一致的部分,其自由度为各样本组累计自由度与合并后的总数据的自由度之差。

  • 查卡方值表,判断卡方值是否显著:若显著,表明几个样本组之间异质;若不显著,表明同质。

例题如下:

677a33e8b2df530b914a22bbd4ee4f8b.png

3. 列联表形式的同质性检验:

当几组实测数据以列联表形式呈现时,其同质性—异质性卡方分析方法与单因素分类数据的通知性检验方法相同,我们直接看下面的例题:

fd7ed84a6369551e1f942ef26dcd9fd0.png

参考文献

张厚粲、徐建平:《现代心理与教育统计学》,北京师范大学出版集团、北京师范大学出版社,第4版

弗雷德里克·J·格雷维特、拉里·B·瓦尔诺 著:《行为科学统计精要》,中国人民大学出版社,第8版




推荐阅读
  • php网站_十周后,62%的PHP网站将运行在一个不受支持的PHP版本上
    本文由编程笔记#小编为大家整理,主要介绍了十周后,62%的PHP网站将运行在一个不受支持的PHP版本上相关的知识,希望对你有一定的参考价值。 ... [详细]
  • Tomcat/Jetty为何选择扩展线程池而不是使用JDK原生线程池?
    本文探讨了Tomcat和Jetty选择扩展线程池而不是使用JDK原生线程池的原因。通过比较IO密集型任务和CPU密集型任务的特点,解释了为何Tomcat和Jetty需要扩展线程池来提高并发度和任务处理速度。同时,介绍了JDK原生线程池的工作流程。 ... [详细]
  • MyBatis错题分析解析及注意事项
    本文对MyBatis的错题进行了分析和解析,同时介绍了使用MyBatis时需要注意的一些事项,如resultMap的使用、SqlSession和SqlSessionFactory的获取方式、动态SQL中的else元素和when元素的使用、resource属性和url属性的配置方式、typeAliases的使用方法等。同时还指出了在属性名与查询字段名不一致时需要使用resultMap进行结果映射,而不能使用resultType。 ... [详细]
  • 工作经验谈之-让百度地图API调用数据库内容 及详解
    这段时间,所在项目中要用到的一个模块,就是让数据库中的内容在百度地图上展现出来,如经纬度。主要实现以下几点功能:1.读取数据库中的经纬度值在百度上标注出来。2.点击标注弹出对应信息。3 ... [详细]
  • Shodan简单用法Shodan简介Shodan是互联网上最可怕的搜索引擎,与谷歌不同的是,Shodan不是在网上搜索网址,而是直接进入互联网的背后通道。Shodan可以说是一款“ ... [详细]
  • python计算数据包校验和(python接口数据校验)
    本文目录一览:1、怎么用python算p值和t检验 ... [详细]
  • 本文介绍了[从头学数学]中第101节关于比例的相关问题的研究和修炼过程。主要内容包括[机器小伟]和[工程师阿伟]一起研究比例的相关问题,并给出了一个求比例的函数scale的实现。 ... [详细]
  • 本文介绍了九度OnlineJudge中的1002题目“Grading”的解决方法。该题目要求设计一个公平的评分过程,将每个考题分配给3个独立的专家,如果他们的评分不一致,则需要请一位裁判做出最终决定。文章详细描述了评分规则,并给出了解决该问题的程序。 ... [详细]
  • 本文讨论了使用差分约束系统求解House Man跳跃问题的思路与方法。给定一组不同高度,要求从最低点跳跃到最高点,每次跳跃的距离不超过D,并且不能改变给定的顺序。通过建立差分约束系统,将问题转化为图的建立和查询距离的问题。文章详细介绍了建立约束条件的方法,并使用SPFA算法判环并输出结果。同时还讨论了建边方向和跳跃顺序的关系。 ... [详细]
  • Android Studio Bumblebee | 2021.1.1(大黄蜂版本使用介绍)
    本文介绍了Android Studio Bumblebee | 2021.1.1(大黄蜂版本)的使用方法和相关知识,包括Gradle的介绍、设备管理器的配置、无线调试、新版本问题等内容。同时还提供了更新版本的下载地址和启动页面截图。 ... [详细]
  • 知识图谱——机器大脑中的知识库
    本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
  • 本文介绍了一种划分和计数油田地块的方法。根据给定的条件,通过遍历和DFS算法,将符合条件的地块标记为不符合条件的地块,并进行计数。同时,还介绍了如何判断点是否在给定范围内的方法。 ... [详细]
  • 本文介绍了Oracle数据库中tnsnames.ora文件的作用和配置方法。tnsnames.ora文件在数据库启动过程中会被读取,用于解析LOCAL_LISTENER,并且与侦听无关。文章还提供了配置LOCAL_LISTENER和1522端口的示例,并展示了listener.ora文件的内容。 ... [详细]
  • 本文介绍了多因子选股模型在实际中的构建步骤,包括风险源分析、因子筛选和体系构建,并进行了模拟实证回测。在风险源分析中,从宏观、行业、公司和特殊因素四个角度分析了影响资产价格的因素。具体包括宏观经济运行和宏经济政策对证券市场的影响,以及行业类型、行业生命周期和行业政策对股票价格的影响。 ... [详细]
  • 关于我们EMQ是一家全球领先的开源物联网基础设施软件供应商,服务新产业周期的IoT&5G、边缘计算与云计算市场,交付全球领先的开源物联网消息服务器和流处理数据 ... [详细]
author-avatar
LIN-少爷
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有