数据分析总览一文读懂数据分析

作者：航头党员之家 | 来源：互联网 | 2023-05-19 05:07

笔者从今天开始集中梳理数据分析的相关知识点，而今天主要是从总体的框架上面带领大家认识数据分析，并进一步帮助大家在心目中明确数据分析的范围和主要框架。1.数据分析相关概念分析指的是将

笔者从今天开始集中梳理数据分析的相关知识点，而今天主要是从总体的框架上面带领大家认识数据分析，并进一步帮助大家在心目中明确数据分析的范围和主要框架。

1.数据分析相关概念

分析指的是将一个整体分解成单独的部分进行单独的检查。数据分析是获取原始数据并将其转换成对用户决策有用的信息的过程。收集和分析数据以回答问题、测试假设或反驳理论。

统计学家John Tukey在1961年将数据分析定义为:“分析数据的程序，解释这些程序结果的技术，计划收集数据以使其分析更容易、更精确或更准确的方法，以及所有的机械和结果(数学)统计数据适用于分析数据。”可以发现，John的从统计学家的视角出发进行数据分析定义的，也就是说本质上数据分析是一系列的方法和程序。

2.数据分析的过程

与任何科学学科一样，数据分析遵循严格的分步过程。每个阶段都需要不同的技能和诀窍。数据分析可以分为以下几个过程：

2.1 定义数据分析目的

数据是数据分析的基本元素，因此数据作为分析的输入是必要的，而数据分析在数据输入前就需要明确数据分析的要求，而这些要求是根植于分析的目的的，也就是说数据分析的要求是根据指导分析的人或客户(他们将使用分析的最终产品)的要求指定的。将在数据分析要求的基础上收集数据的实体的一般类型被称为实验单元(例如，人或人群)。可以指定和获得关于人口的特定变量(例如年龄和收入)。数据可以是数字的或分类的(即数字的文本标签)。也可以是结构性性的和非结构性的，之前笔者讲过关于两者的区别，大家可以回顾一下。

从广义上面将，数据的要求既然根植于数据分析的目的，那么数据要求是确定数据分析的事前步骤，在正式进入数据分析前，我们需要做的是定义数据分析的目的，也就是明确我们分析的问题所在，为何要分析数据？我们要达成什么结果？我们是否值得要数据分析的项目成本？

比方说，定义你的目标意味着提出一个假设并弄清楚如何测试它。首先要问：我想解决什么业务问题？虽然这听起来很简单。例如，您组织的高级管理人员可能会提出一个问题，“我们为什么会失去客户？” 但这可能没有触及问题的核心。数据分析师的工作是足够深入地了解业务及其目标，以便他们能够以正确的方式构建问题。

因此，定义数据分析的目的不仅包含着数据分析的具体规划、要求、规定数据分析将要实现的结果、数据分析的方法论等，而且也要包含数据分析的主体、分析的模式、分析的分工和时间安排等。

2.2 数据收集

明确数据分析的要求后，那么就进入了数据的正式收集阶段，其实很多时候下，数据收集阶段是和数据要求确定过程并行的，笔者知晓很多学者在研究过程中，先是获得了一部分数据，而且基于此数据确定了研究的思路和方法，并进一步在扩充数据，因此可以说数据收集的时间是较为长久的，尤其对于很多的涉及到宏观和消费者行为的数据，每天都在变化，因此当你目前所收集到的数据无法满足研究或者说分析的要求时，就需要边收集边研究。

诚然，数据是从各种来源收集的。分析人员可以将这些要求传达给数据的保管人，例如组织内的信息技术人员。数据也可以从环境中的传感器收集，例如交通摄像机、卫星、记录设备等。它也可以通过面谈获得，从在线资源下载或阅读文档。当然这些不同的数据来源下，你所需要采用的数据收集方法也不同，对应的后期的数据分析程序或者解决方法也相应的呈现出差异性。

此外，我们还需要知道所有数据可以分为三类：第一方、第二方和第三方数据。我们以公司的数据分析举例。

①第一方数据是公司直接从客户那里收集的数据。它可能以交易跟踪数据或来自我们公司客户关系管理 (CRM) 系统的信息的形式出现。无论其来源如何，第一方数据通常都以清晰明确的方式进行结构化和组织。第一方数据的其他来源可能包括客户满意度调查、焦点小组、访谈或直接观察。

②第二方数据是其他组织的第一方数据。这可能是直接从公司或通过一个私人市场获得的。第二方数据的主要好处是，它们通常是结构化的，虽然它们的相关性会比第一方数据差，但它们也往往是相当可靠的。第二方数据的例子包括网站、应用程序或社交媒体活动，如在线购买历史，或运输数据。

③第三方数据是第三方组织从众多来源收集和汇总的数据。通常（尽管并非总是）第三方数据包含大量非结构化数据点（大数据）。许多组织收集大数据以创建行业报告或进行市场研究。研究和咨询公司 Gartner 是收集大数据并将其出售给其他公司的组织的一个很好的现实例子，国内的有易观、艾瑞、TalkingData等。此外，开放数据存储库和政府门户网站也是第三方数据的来源。

2.3 数据处理

数据的处理对于数据分析至关重要，一方面她影响数据分析的精度和准确性，另一方面较好的数据处理方法可以加快数据分析的过程，提高数据分析的效率。因此，必须对最初获得的数据进行处理或组织，以便进行分析。例如，这些可能涉及将数据以表格格式(即结构化数据)放入行和列中以供进一步分析，例如在电子表格或统计软件中。

正常情况下，数据处理相关的工作时间占据了整个项目的70%以上。数据的质量，直接决定了模型的预测和泛化能力的好坏。它涉及很多因素，包括：准确性、完整性、一致性、时效性、可信性和解释性。而在真实数据中，我们收集的数据可能包含了大量的缺失值，可能包含大量的噪音，也可能因为人工录入错误导致有异常点存在，非常不利于算法模型的训练。

数据处理（data processing），即是对数据的采集、存储、检索、加工、变换和传输。根据处理设备的结构方式、工作方式，以及数据的时间空间分布方式的不同，数据处理有不同的方式。不同的处理方式要求不同的硬件和软件支持。每种处理方式都有自己的特点，应当根据应用问题的实际环境选择合适的处理方式。

数据处理主要有四种分类方式①根据处理设备的结构方式区分，有联机处理方式和脱机处理方式。②根据数据处理时间的分配方式区分，有批处理方式、分时处理方式和实时处理方式。③根据数据处理空间的分布方式区分，有集中式处理方式和分布处理方式。④根据计算机中央处理器的工作方式区分，有单道作业处理方式、多道作业处理方式方式和交互式作业处理方式。

具体而言，关键的数据处理任务包括以下四个部分：

2.3.1 数据清理（data cleaning）

数据清理是通过填补缺失值、光滑噪声数据，平滑或删除离群点，并解决数据的不一致性来“清理“数据。

（1）缺失值的处理

由于我们在获取信息和数据的过程中，会因为各类的原因导致数据丢失和空缺。针对这些缺失值的处理方法，主要是基于变量的分布特性和变量的重要性（信息量和预测能力）采用不同的处理方法。主要分为以下几种：

删除变量：若变量的缺失率较高（大于80%），覆盖率较低，且重要性较低，可以直接将变量删除。
定值填充：如工程中常见用-9999进行替代。
统计量填充：若缺失率较低（小于95%）且重要性较低，则根据数据分布的情况进行填充。对于数据符合均匀分布，用该变量的均值填补缺失，对于数据存在倾斜分布的情况，采用中位数进行填补。
插值法填充：包括随机插值，多重差补法，热平台插补，拉格朗日插值，牛顿插值等
模型填充：使用回归、贝叶斯、随机森林、决策树等模型对缺失数据进行预测。
哑变量填充：若变量是离散型，且不同值较少，可转换成哑变量，例如性别SEX变量，存在male,fameal,NA三个不同的值，可将该列转换成 IS_SEX_MALE, IS_SEX_FEMALE, IS_SEX_NA。若某个变量存在十几个不同的值，可根据每个值的频数，将频数较小的值归为一类'other'，降低维度。此做法可最大化保留变量的信息。

（2）离群点处理

异常值是数据分布的常态，处于特定分布区域或范围之外的数据通常被定义为异常或噪声，比如一般身高数据不可能超过2.6等，如果出现了此类异常数据，就需要进行离群点数据处理。

具体而言，异常数据分为两种：“伪异常”，由于特定的业务运营动作产生，是正常反应业务的状态，而不是数据本身的异常；“真异常”，不是由于特定的业务运营动作产生，而是数据本身分布异常，即离群点。主要有以下检测离群点的方法：

简单统计分析：根据箱线图、各分位点判断是否存在异常，例如pandas的describe函数可以快速发现异常值。
$3\sigma$
（2）离散化处理
数据离散化是指将连续的数据进行分段，使其变为一段段离散化的区间。分段的原则有基于等距离、等频率或优化的方法。
①等频法：使得每个箱中的样本数量相等，例如总样本n=100，分成k=5个箱，则分箱原则是保证落入每个箱的样本量=20。
②等宽法：使得属性的箱宽度相等，例如年龄变量（0-100之间），可分成 [0,20]，[20,40]，[40,60]，[60,80]，[80,100]五个等宽的箱。
③聚类法：根据聚类出来的簇，每个簇中的数据为一个箱，簇的数量模型给定。
（3）稀疏化处理
针对离散型且标称变量，无法进行有序的LabelEncoder时，通常考虑将变量做0，1哑变量的稀疏化处理，例如动物类型变量中含有猫，狗，猪，羊四个不同值，将该变量转换成is_猪，is_猫，is_狗，is_羊四个哑变量。若是变量的不同值较多，则根据频数，将出现次数较少的值统一归为一类'rare'。稀疏化处理既有利于模型快速收敛，又能提升模型的抗噪能力。（此部分参考自：整理一份详细的数据预处理方法 - 知乎）

2.4 数据分析

2.4.1 探索性数据分析
一旦数据被清除，就可以进行分析。分析人员可以应用各种称为探索性数据分析的技术来开始理解数据中包含的消息。探索过程可能会导致额外的数据清理或额外的数据请求，因此这些活动本质上可能是迭代的。可以生成描述性统计数据，例如平均值或中位数，以帮助理解数据。数据可视化也可以用于以图形格式检查数据，以获得关于数据中消息的其他见解。

2.4.2 数据建模与算法
数学公式或称为算法的模型可以应用于数据，以识别变量之间的关系，例如相关性或因果关系。一般而言可以开发模型，根据数据中的其他变量来评估数据中的特定变量，一些剩余误差取决于模型精度(即数据=模型+误差)。
进一步的，推论统计包括测量特定变量之间关系的技术。例如，回归分析可以用来模拟广告的变化(自变量 X )是否解释了销售额的变化(因变量 Y )。在数学术语中，Y (销售)是X (广告)的函数。它可以描述为Y = aX + b +错误，其中模型的设计使得当模型预测Y的给定范围的X 值时，a 和b使误差最小化。分析人员可能试图建立描述数据的模型，以简化分析和传达结果。

2.4.3 数据分析可视化
一旦分析了数据，就可以以多种格式向分析用户报告，以支持他们的需求。用户可能会有反馈，这导致额外的分析。因此，大部分分析周期是迭代的。
在决定如何传达结果时，分析人员可能会考虑数据可视化技术，以帮助清晰有效地向受众传达信息。数据可视化使用信息显示(如表格和图表)来帮助传达数据中包含的关键消息。表格有助于查找特定数字的用户，而图表(例如条形图或折线图)有助于解释数据中包含的定量信息。

数据分析

key

talkingdata

算法

process

label

写下你的评论吧 !

吐个槽吧,看都看了

会员登录 | 用户注册

推荐阅读

runtime
iOS无埋点数据采集

移动开发经过前几年爆炸式的增长之后，移动开发进入了一个精细化管理操作的时期，除了拓展自己的能力，在移动开发外寻求到更好的职业道路这条路外，移动开发这份工 ... [详细]

蜡笔小新   2023-09-14 13:38:09

char
利用决策树预测NBA比赛胜负的Python数据挖掘实践

本文通过使用2013-14赛季NBA赛程与结果数据集以及2013年NBA排名数据，结合《Python数据挖掘入门与实践》一书中的方法，展示如何应用决策树算法进行比赛胜负预测。我们将详细讲解数据预处理、特征工程及模型评估等关键步骤。 ... [详细]

蜡笔小新   2024-12-23 09:07:40

version
采用IKE方式建立IPsec安全隧道

一、【组网和实验环境】按如上的接口ip先作配置，再作ipsec的相关配置，配置文本见文章最后本文实验采用的交换机是H3C模拟器，下载地址如 ... [详细]

蜡笔小新   2024-12-22 20:24:15

version
如何用ping测试网络连接

如何使用Ping命令来测试网络连接？当网卡安装和有关参数配置完成后，可以使用ping命令来测试一下网络是否连接成功。以winXP为例1、打开XP下DOS窗口具体操作是点击“开始”菜 ... [详细]

蜡笔小新   2024-12-22 07:41:31

client
58同城的Elasticsearch应用与平台构建实践

本文由58同城高级架构师于伯伟分享，由陈树昌编辑整理，内容源自DataFunTalk。文章探讨了Elasticsearch作为分布式搜索和分析引擎的应用，特别是在58同城的实施案例，包括集群优化、典型应用实例及自动化平台建设等方面。 ... [详细]

蜡笔小新   2024-12-11 19:31:21

hash
深入解析：主流开源分布式文件系统综述

本文详细探讨了几款主流的开源分布式文件系统，包括HDFS、MooseFS、Lustre、GlusterFS和CephFS，重点分析了它们的元数据管理和数据一致性机制，旨在为读者提供深入的技术见解。 ... [详细]

蜡笔小新   2024-12-08 19:30:59

eval
图像标签与以图搜图技术的应用与实践

本文探讨了图像标签的多种分类场景及其在以图搜图技术中的应用，涵盖了从基础理论到实际项目实施的全面解析。 ... [详细]

蜡笔小新   2024-12-07 14:28:06

hash
深入解析Redis内存对象模型

本文详细介绍了Redis内存对象模型的关键知识点，包括内存统计、内存分配、数据存储细节及优化策略。通过实际案例和专业分析，帮助读者全面理解Redis内存管理机制。 ... [详细]

蜡笔小新   2024-12-23 14:50:23

hash
【48】在flask中使用ＳＱＬＡＬｃｈｅｍｙ连接ｓｑｌｉｔｅ数据库

方法：１　配置数据库basediros.path.abspath(os.path.dirname(__file__))　　＃获取当前文件的绝对路径appFlask(__name__ ... [详细]

蜡笔小新   2024-12-23 12:51:39

hash
Memcached内存管理机制解析

本文深入探讨了Memcached的内存管理机制，特别是其采用的Slab Allocator技术。该技术通过预分配不同大小的内存块来有效解决内存碎片问题，并确保高效的数据存储与检索。文中详细描述了Slab Allocator的工作原理、内存分配流程以及相关的优化策略。 ... [详细]

蜡笔小新   2024-12-22 13:10:20

eval
Mathematica 12.3.1 中英文版正式发布，附新功能介绍

历经三十年的开发，Mathematica 已成为技术计算领域的标杆，为全球的技术创新者、教育工作者、学生及其他用户提供了一个领先的计算平台。最新版本 Mathematica 12.3.1 增加了多项核心语言、数学计算、可视化和图形处理的新功能。 ... [详细]

蜡笔小新   2024-12-22 09:34:59

eval
厘清机器学习与数据分析的界限

本文旨在探讨机器学习与数据分析之间的差异，不仅在于它们处理的数据类型，还包括技术背景、业务应用场景以及参与者的不同。通过深入分析，希望能为读者提供清晰的理解。 ... [详细]

蜡笔小新   2024-12-12 15:15:36

eval
大数据核心技术解析

本文深入探讨了大数据技术的关键领域，包括数据的收集、预处理、存储管理、以及分析挖掘等方面，旨在提供一个全面的技术框架理解。 ... [详细]

蜡笔小新   2024-12-03 12:31:21

eval
探索大数据与人工智能的未来潜力

在近期的百度大数据开放会议上，计算机科学领域的专家怀进鹏教授的演讲引发了广泛关注。尽管演讲内容高深复杂，但对于那些对计算机科学和人工智能领域有所了解的人来说，这场演讲无疑揭示了未来技术发展的无限可能性。 ... [详细]

蜡笔小新   2024-12-02 23:18:47

eval
开发笔记:Apple 开源机器学习框架 Turi Create 简介与实践

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Apple开源机器学习框架TuriCreate简介与实践相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新   2023-09-18 15:26:03

航头党员之家

这个家伙很懒，什么也没留下！

Tags | 热门标签

python3

integer

filter

runtime

testing

golang

search

go

text

eval

client

cmd

callback

cPlusPlus

keyword

foreach

hashset

substring

random

heap

python2

hash

instance

export

sum

hashtable

javascript

main

version

char

RankList | 热门文章

1打破双亲委派么,怎么打破_打破了vs你错了

2开发笔记:小白python机器学习之路——支持向量机

3python list add_有什么区别列表.追加（1） and LIST=LIST+[1]（Python）

4django 多个模板嵌套extends

5项目|技术_高质量面试总结

6DOM应用遍历网页中的元素

7Mosquitto常用命令

8技术研发团队管理计划方案书

9Flarum is unable to Load if there are large number of tags

10【案例实战】餐饮企业分店財务数据分析系统解决方式：系统功能开发

11201720181 20155315 《信息安全系统设计基础》实验四外设驱动程序设计

12.NetCore+DDD基础分层+项目基本框架+个人总结

13(五)SubSonic的存储过程操作

14css和js动画区别（css动画和js动画）

15OracleSQL

数据分析总览一文读懂数据分析

2.1 定义数据分析目的

2.2 数据收集

2.3 数据处理

2.4 数据分析

2.4.1 探索性数据分析

2.4.2 数据建模与算法

2.4.3 数据分析可视化