当前位置: 开发笔记 > IOS > 正文

快速掌握SPSS数据分析

作者：无限的天空-空间 | 来源：互联网 | 2023-05-18 00:36

SPSS难吗？无非就是数据类型的区别后，就能理解应该用什么样的分析方法，对应着分析方法无非是找一些参考资料进行即可。甚至在线网页SPSS软件直接可以将数据分析结果指标人工智能地分析出来

SPSS难吗？无非就是数据类型的区别后，就能理解应该用什么样的分析方法，对应着分析方法无非是找一些参考资料进行即可。甚至在线网页SPSS软件直接可以将数据分析结果指标人工智能地分析出来，这有多难呢？本文章将周老师（统计学专家）8年的数据分析经验浓缩，便于让不会数据分析的同学，在学习数据分析的过程中可以少走弯路，树立数据分析价值观，以及以数据进行决策的思维意识，并且可以快速的掌握数据分析。本文章分为四个板块进行说明，一是数据分析思维的培养。二是数据间的几类关系情况。三是数据分析方法的选择。四是数据研究的撰写等。

相对来讲，我们国家对于数据价值的重视是最近几年才开始，尤其是大数据时代的兴起，以及人工智能时代的国家战略情况。之前企业进行决策时基本均是凭借主观经验，老板的经验决定企业的成长，这也许叫做‘定性研究’较为适合，这种思路并没有错误。相对来讲，主观个人偏好性是这种经验意识的弊端，而数据思维是用真实的数据作为依据，相对来讲具有更强的科学客观性。但两种思维各有优缺点，数据还可以造假，以及人们还可能会错误的利用数据等。

但无论如何，西方的数据意识，以及数据价值客观存在。我们有必要对其进行重视。作为数据研究人员，首先需要确保的是对数据的敬仰，错误的数据绝对无法容忍，否则永远不会得出科学的结论。因而数据分析思维的素养第一层次即尊重数据。原始数据代表的意义，数据自身带来的属性等均应该逐一确认。

确认数据的真实准确性后，即完成数据清理后，可对数据类型进行区分，一切数据均可分为两种类型，包括定性和定量数据。如同’定性研究‘和’定量研究‘一样，定性数据是那些表示分类，通常使用百分比汇总，无法计算平均值的数据，比如性别，专业。性别仅为男和女，使用数字1和数字2表示，可以分别计算男和女的比例，但是不能算个平均分为1.2，得出性别平均为1.2这样的分析。

另外一种数据叫定量数据，定量数据是那些可以进行量化，通常使用平均值表示，比如年龄，身高，体重，满意度等。可以计算平均年龄，但通常不分分析每个年龄数字的选择百分比。

还有一类数据，其即可以计算百分比，也可以计算平均值，比如问卷研究中的满意度，数字1代表非常不满意，数字2代表比较不满意，数字3代表中立，数字4代表比较满意，数字5代表非常满意。这类数据可以计算各项的百分比，也可以计算平均值。具体此类数据如何应用，可结合实际情况进行即可，但通常的偏好是，如果可以看作为定量数据，则按照定量数据情况进行即可。

在基本的数据类型确认之后，接下来再讨论下数据研究的一些关系情况。如果是初学数据分析，常规的路径可能是开始理解数据算法的原理，然后就懂一个就去，接着再学习另外一个算法。这种方法是常规教科书式的学习路径，非常慢而且容易出现一个问题即懂了理论无法进行实践。

数据分析是挖掘数据间的关系情况，发现潜在的数据规律，找出数据后面潜在的商业价值等。本人将数据间的关系归纳汇总为以下三类。第一是差异关系；第二是相关关系。第三是其它关系。

第一类差异关系通常是研究不同类别的差异性，提到了不同类别，那就涉及到定性数据，差异关系可以包括定性和定量数据的差异性，定性和定性数据的差异性。自然地也就对应到几类研究方法。

第二类为相关关系。比如越如何越如何之类的关系。包括相关关系，还有影响关系等。X对于Y的影响关系情况如何等，此时影响关系又拆分出几种分析算法。

当然还有其它关系，比如数据的浓缩，聚类。此时又分涉及到对应的研究方法。

在进行数据研究时，首先需要想到的是“我想做什么？“，来回就只有三种关系，那么这种关系有着明显的区分性，对应确认关系情况，加上数据类型的判断，对应就会找出合理的数据研究方法。接下来一一概述。

上面两部分分别讲述了数据类型和数据关系情况。接着需要落地，即研究方法的使用。按照上一部分的思路，即三类关系情况进行阐述。

第一类为差异关系

· 定性和定性数据差异关系。比如性别和专业的差异关系，不同性别人群专业偏好上有没有差异呢？此时应该用卡方分析。

· 定性和定量数据差异关系。比如性别和身高的差异关系，不同性别人群身高有没有明显的差异性呢？此时应该用方差分析或者T检验。至于方差分析和T检验的区别上，比如性别为两类，则可以使用方差分析或者T检验；比如研究城市和身高的关系，一线，二线或者三线城市人群他们的身高有没有明显差异性。比较了三组人群，这时候只能用方差分析，不能用T检验。因为方差分析可以对比多组，而T检验只能对比两组。

· 定量数据和定量数据的差异。有时候做实验，比如新型教学方式的使用，在使用前和使用后，学生成绩有没有明显的变化呢？此时则应该使用配对T检验。配对T检验通常都是用于实验研究中，使用时相对需要注意下。

· 定量数据和数字的差异。比如中国人的平均身高是否明显的高于1.70。定量数据和一个数字的差异性，此时应该用单样本T检验。

· 当然还有其它一些研究方法，但先从基础的开始，懂了这些方法后，再逐一深入学习。明白了这几类差异关系，事实上已经理解一部分数据分析。比如差异关系研究时有时候会有非参数检验，这类研究都是和正态性，方差齐这两个名词紧密相关，后续的文章再慢慢剖析。

第二类为相关关系

· 定量和定量数据的相关关系。比如身高和体重之间有没有关系？此时则应该使用相关分析。至于相关分析，又可以再细分为pearson和spearman相关，这两类关系是结合数据正态性情况而定，正常情况下都默认使用pearson相关分析。

· 影响关系情况（X对Y的影响，Y为定量数据）。比如研究学历，年龄，收入，满意度等对于消费金额的影响。此时一般是使用回归分析，或者更多称作是线性回归分析。也有时候会使用到非线性回归分析，但这种情况相对较少。线性回归分析也可以再细分为2类，简单线性（一元线性）和多元线性，研究X对Y的影响，如果X仅为1个则称作简单线性（一元线性）；如果X为多个，此时称作多元线性回归分析。如果Y的个数超过1个，可以多进行几次回归就好，更复杂的可以使用结构方程模型进行研究。线性回归时X可以为定性数据也可以为定量数据，如果是定性数据则需要进行虚拟变量（哑变量）设置。

· 影响关系情况（X对Y的影响，Y为定类数据）。比如研究学历，年龄，收入，满意度等对于是否购买iPhone X的影响。此时应该使用logistic回归分析。线性回归和logistic回归的区别在于，线性回归时，Y为定量数据；logistic回归分析时，Y是定类数据。当然logistic回归又区分为三类，分别是二元logistic回归，有序logistic回归，无序logistic回归；区别在于如果Y仅分为两类，比如愿意不愿意，购买不购买，喜欢不喜欢，此时Y只有2个类别则叫做二元logistic回归，此方法的使用频率非常高。比如Y分为三组分别是不喜欢，喜欢和喜欢，此时使用有序logistic回归（其实使用线性回归也是可以的，只是我们这里把Y当成是定类数据所以使用有序logistic回归而已）；无序logistic回归时，Y一定是绝对的定性数据，比如出行方式的偏好（自行车，公共汽车，地铁，自驾），此时用无序logistic回归即可。

第三类为其它关系

实际情况中还会有比如数据的浓缩，样本的聚类等研究。

· 数据浓缩：比如说了20句话，是否可以把20句话概括归纳成4个词语表示呢？此时就应该用到数据浓缩，即使用因子分析（也或者主成分分析）；以及记住，数据浓缩时，数据一定是定量数据。

· 样本聚类：比如游戏里面分了几种角色，游戏数据分析人员希望对收集到了1万个样本分成几类，便于进行游戏里面的角色定位。此时则需要使用聚类分析。

上述的方法选择，分别与数据关系，或者数据类型间的关联性思路。事实上与网页在线版本的SPSSAU(www.spssau.com)，完全如出一辙。spssau即是使用这样的思路进行产品设计。确定好数据类型，理解了数据关系情况，即可选择出正确的数据研究方法。

如果已经理解了数据类型，数据关系，并且选择了正确的数据研究方法。最终无非是把数据研究方法得出的结论进行汇总整理，然后写成有逻辑性的报告，并且在结论基础上对应提出有意义有价值的建议措施等。

关于数据报告的撰写，单独从数据分析角度上看，建议以实际需求出发，比如研究差异关系，那么首先得需要知道有没有差异，接着有了差异，具体差异情况如何。有了差异或者没有差异时，对应的建议措施应该如何。按照这样的思路，相信数据研究报告的撰写并非难事。

如果是对具体数据研究方法的结论撰写有困难，可以直接使用spssau进行分析，直接参考里面的智能文字分析即可。以及需要特别注意在于，数据研究结论对应有什么意义，价值在哪里，对实际商业的价值或者指导在哪里？这才是重点。

快速掌握SPSS数据分析

推荐阅读

iphone
本周三大青年学术分享会即将开启

由雷锋网旗下的AI研习社主办，旨在促进AI领域的知识共享和技术交流。通过邀请来自学术界和工业界的专家进行在线分享，活动致力于搭建一个连接理论与实践的平台。 ... [详细]

蜡笔小新 2024-11-21 17:13:10
iphone
英特尔推出第三代至强可扩展处理器及傲腾持久内存，AI性能显著提升

英特尔在数据创新峰会上发布了第三代至强可扩展处理器和第二代傲腾持久内存，全面增强AI能力和系统性能。 ... [详细]

蜡笔小新 2024-11-17 13:07:14
iphone
兆芯X86 CPU架构的演进与现状（国产CPU系列）

本文详细介绍了兆芯X86 CPU架构的发展历程，从公司成立背景到关键技术授权，再到具体芯片架构的演进，全面解析了兆芯在国产CPU领域的贡献与挑战。 ... [详细]

蜡笔小新 2024-11-14 15:04:34
iphone
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
iphone
探索CNN的可视化技术

神经网络的可视化在理论学习与实践应用中扮演着至关重要的角色。本文深入探讨了三种有效的CNN（卷积神经网络）可视化方法，旨在帮助读者更好地理解和优化模型。 ... [详细]

蜡笔小新 2024-11-24 11:30:28
iphone
我整理了HMOV四大5G旗舰的参数，可依然没能拯救我的选择困难症

伊瓢茕茕发自凹非寺量子位报道|公众号QbitAI报道了那么多发布会，依然无法选出要换的第一部5G手机。这不，随着华为P40系列发布，目前国 ... [详细]

蜡笔小新 2024-11-24 11:04:38
iphone
知识图谱与图神经网络在金融科技中的应用探讨

本文详细介绍了融慧金科AI Lab负责人张凯博士在2020爱分析·中国人工智能高峰论坛上的演讲，探讨了知识图谱与图神经网络模型如何在金融科技领域发挥重要作用。 ... [详细]

蜡笔小新 2024-11-21 15:02:52
iphone
Python 领跑！2019年2月编程语言排名更新

根据最新的编程语言流行指数（PYPL）排行榜，Python 在2019年2月的份额达到了26.42%，稳坐榜首位置。 ... [详细]

蜡笔小新 2024-11-21 09:18:39
iphone
ARM平台下构建SSH服务端并实现远程访问

本文详细介绍了如何在ARM架构的目标设备上部署SSH服务端，包括必要的软件包下载、交叉编译过程以及最终的服务配置与测试。适合嵌入式开发人员和系统集成工程师参考。 ... [详细]

蜡笔小新 2024-11-20 14:13:38
iphone
对象存储与块存储、文件存储等对比

看到一篇文档，讲对象存储，好奇，搜索文章，摘抄,学习记录！背景：传统存储在面对海量非结构化数据时，在存储、分享与容灾上面临很大的挑战，主要表现在以下几个方面：传统存储并非为非结 ... [详细]

蜡笔小新 2024-11-17 18:21:23
ios
大华股份2013届校园招聘软件算法类试题D卷

一、填空题（共17题，每题3分，总共51分）1.设有inta5,*b,**c,执行语句c&b,b&a后，**c的值为________答：5 ... [详细]

蜡笔小新 2024-11-17 11:01:27
ios
岭回归及其应用

本文介绍了岭回归的基本原理，并通过Python中的sklearn库实现了岭回归模型。岭回归通过在代价函数中加入L2正则项，有效解决了多重共线性问题。 ... [详细]

蜡笔小新 2024-11-16 06:54:42
ios
AI人工智能学习之回归分析详解

回归分析是一种统计学方法，用于确定变量之间的定量关系。本文将详细介绍回归分析的基本概念、分类、应用及具体操作步骤。 ... [详细]

蜡笔小新 2024-11-15 11:03:56
ios
数字经济浪潮下企业人才需求变化，优质IT培训机构助力技能提升

随着云计算、大数据、人工智能、区块链和5G等技术的迅猛发展，数字经济已成为推动经济增长的重要动力。据信通院数据，2020年中国数字经济占GDP比重达38.6%，整体规模突破39.2万亿元。本文探讨了企业在数字化转型中对技术人才的需求变化，并介绍了优质IT培训机构如何助力人才培养。 ... [详细]

蜡笔小新 2024-11-14 12:12:41
ios
Java 15 发布，带来多项重要更新！

2020年9月15日，Oracle正式发布了最新的JDK 15版本。本次更新带来了许多新特性，包括隐藏类、EdDSA签名算法、模式匹配、记录类、封闭类和文本块等。 ... [详细]

蜡笔小新 2024-11-14 12:11:09

无限的天空-空间

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章