这部分内容参考了文章:数学建模学习:因子分析_ЖSean的博客-CSDN博客_转换因子的解释数学建模
因子分析由斯皮尔曼在1904年首次提出,其在某种程度上可以被看成是主成分分析的推广和扩展。 因子分析法通过 研究变量间的相关系数矩阵,把这些变量间错综复杂的关系归结成少数几个综合因子,由于归结出的因子个数少于原始变量的个数,但是它们又包含原始变量的信息,所以,这一分析过程也称为 降维。 由于因子往往比主成分更易得到解释,故因子分析比主成分分析更容易成功,从而有更广泛的应用。
1.主成分分析只是简单的数值计算,不需要构造一个模型,几乎没什么假定;而因子分析需要构造一个因子模型,并伴随几个关键性的假定。 2.主成分的解是唯一的,而因子可有许多解。 3.对于因子分析,可以使用旋转技术,使得因子更好的得到解释,因此在解释主成分方面因子分析更占优势; 其次因子分析不是对原有变量的取舍,而是根据原始变量的信息进行重新组合,找出影响变量的共同因子,化简数据; 如果仅仅想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析,不过一般情况下也可以使用因子分析。
(1)相关性检验,一般采用KMO检验法和Bartlett球形检验法; (2)计算样本均值和方差,对数据样本做标准化处理; (3)计算样本的相关系数矩阵R; (4)求相关系数矩阵R的特征值和特征向量; (5) 根据系统要求的累计贡献率确定公共因子的个数; (6)计算因子载荷矩阵A; (7)对载荷矩阵进行旋转,以求能更好地解释公共因子; (8)确定因子模型; (9)根据计算结果,求因子得分,对系统进行分析。
KMO 和 Bartlett 的检验
取样足够度的 Kaiser-Meyer-Olkin 度量。
.775
Bartlett 的球形度检验
近似卡方
477.607
df
66
Sig.
.000
因为显著性sig是0.000,也就是拒绝变量独立的假设,也就是变量间具有较强的相关性,KMO的度量数是0.775,适合进行因子分析
公因子方差
初始
提取
地区生产总值
1.000
.986
资本形成总额
.912
居民消费支出
.978
政府消费支出
.922
居民消费水平绝对数
.921
就业人数
.914
私营单位平均工资
.697
居民消费价格
.937
商品零售价格
.831
人均可支配收入
.944
固定资产投资价格指数
.326
电力消费量
.900
提取方法:主成份分析。
我们可以看到,绝大多数变量的共同度都在0.9以上,反映了我们最后确定的3给变量对这些的因子解释的都很好
累计方差贡献率
解释的总方差
成份
初始特征值
提取平方和载入
旋转平方和载入
合计
方差的 %
累积 %
1
6.226
51.884
5.560
46.330
2
2.593
21.612
73.496
2.909
24.238
70.569
3
1.448
12.067
85.563
1.799
14.995
4
.817
6.808
92.371
5
.406
3.379
95.750
6
.166
1.385
97.136
7
.114
.947
98.083
8
.098
.816
98.898
9
.085
.705
99.604
10
.026
.221
99.824
11
.016
.133
99.958
12
.005
.042
100.000
第一列是标准化之后的变量相关系数矩阵的特征值 累计方差贡献率到85%即可(旋转方差贡献率和原数据是一致的)
我们可以看到,第一个因子对前10个变量的解释都还可以,第二个和第三个因子对那些第一个解释度弱的变量解释度都比较强(查漏补缺的作用)
成份矩阵a
.962
.237
-.056
.960
.239
.002
.959
.059
-.013
.924
.241
.052
.876
.353
-.092
.873
.315
-.225
-.235
.746
.469
.591
-.702
.319
.633
-.634
.344
.489
-.602
.309
.040
.535
.196
-.181
.899
提取方法 :主成份。
a. 已提取了 3 个成份。
旋转之后的(分出侧重点)
旋转成份矩阵a
.975
.188
-.007
.964
.215
.043
.949
.006
-.102
.046
.031
.925
.224
.090
.895
.343
-.064
.213
.936
-.150
.274
.915
-.096
.162
.814
-.177
.151
.940
.010
-.421
.809
.216
-.288
.443
旋转法 :具有 Kaiser 标准化的正交旋转法。
a. 旋转在 5 次迭代后收敛。
成分转换矩阵
成份转换矩阵
.908
.411
-.087
.393
-.756
.524
-.149
.510
.847
成分得分系数矩阵
成份得分系数矩阵
.182
-.025
.198
-.113
-.080
.176
-.005
.036
.150
.041
-.009
-.039
.348
.064
.009
.066
-.052
.317
-.072
.030
-.068
.428
-.053
.356
-.084
.222
.191
-.078
构成得分。
F1=0.182x1+0.198x2+… F2=-0.025x1-0.113x2+… F3=0.002x1-0.080x2+…
这三个因子在哪里? 下面的数据是根据前面的那些个变量标准化之后带入上述算式得到的: