当前位置: 开发笔记 > 数据库 > 正文

给数据分析师的几点建议

作者：曾让我心碎的你俺_275 | 来源：互联网 | 2014-05-23 08:46

几点想法，分享给刚入门的数据分析师，也跟经验丰富的数据分析师做下探讨。1.数据是有立场的，立场决定解读数据对于业务来讲，是KPI的衡量标杆，也是行动指南。但一旦涉及到立

几点想法，分享给刚入门的数据分析师，也跟经验丰富的数据分析师做下探讨。

1.数据是有立场的，立场决定解读

数据对于业务来讲，是KPI的衡量标杆，也是行动指南。但一旦涉及到立场和方向性的东西，必然有利益触发点的问题。比如同样的一次活动的网站转化率是1.2%，是好还是坏？这是做数据分析第一步要进行的定位，也就是我们所说的下结论。好坏的区分在于比较，如何比较呢？我们知道比较分析方法有环比、占比、定基比、横向比、纵向比等，其中如环比可以比较昨日、上周今日、上月今日等，不同的时间对比出的结果一定有差异，甚至是迥然不同的结果。那面对这种情况，除了分析师的经验以外，在都符合统计学规律的前提下该如何判断活动效果好坏？

第一步结果总算出来了。

那么假设结果是好的（先不管对比的是什么时间），那确实是好的吗？我们知道做活动效果肯定会好啊。尤其在中国，只要价格低，无论多么差的用户体验，无论网站UI多么垃圾，无论送货多么慢，订单转化率一定会起来。这就意味着，无论你的营销、运营做的怎样（只要不是特别特别差），各个渠道、各个节点转化率都会上来。这时候，你会怎样分析？其中有多少是归于渠道或运营本身的优化因素，而有多少是归于活动影响？

假设我们能找出其中归于活动本身或渠道、运营本身的影响因素，结果出来后可能是——刨去活动影响，渠道、运营做的转化率其实变化不大（事实上通常是这样的，但我们不能否认他们的功劳，毕竟没有流量、没有运营，网站无法正常运行），工作效果不明显啊？你会怎样？直接告诉你的同事他们的工作没效果？可能你不会那样做，那此时你该如何取舍？尽职尽责做好一个数据的本职工作还是考虑下其他因素？怎么做才能既让数据价值最大化又能不打击同事的工作积极性？

2.数据质量永远是数据分析立项后首先要考虑的

做过大型数据分析的同学刚开始或多或少有这样的经历，拿到数据后经过分析发现了一个异常分析点，做了N多预处理、N多牛叉的模型，N多分析和多维钻取，最后把报告呈现出来，跟业务沟通的时候，业务只说了一句话“哦，那个异常数据啊，那是我们的测试数据”，然后我们会不会疯掉？

为什么会出现这种问题，因为拿到数据后没有进行一步必要的步骤——数据质量验证。什么是数据质量验证？我理解的是首先要理解数据来源、数据统计和收集逻辑、数据入库处理逻辑；其次是理解数据在数据仓库中是如何存放的，字段类型、小数点位数、取值范围，规则约束如何定义的；第三是明确数据的取数逻辑，尤其是从数据仓库中如何用SQL取数的，其中特别是对数据有没有经过转换和重新定义；第四是拿到数据后必须要有数据审查的过程，包括数据有效性验证、取值范围、空值和异常值处理等。

当这些工作都做充足之后才是数据分析。但可惜的是大多数数据分析师都不关注数据质量问题，甚至对数据的理解仅限于表现定义。当然做足了底层的工作，你会发现做起数据来事半功倍，并且你的结论和推到是经得起验证和考究的。

3.缺乏落地的数据没价值，除非是市场分析

数据的价格在于对业务的驱动，不管你的业务对象是你的BOSS还是同事。很多情况下，我们的数据分析师是这样工作的：一天到晚闷头做事，出数据写报告。结果出来的数据结论和建议会有这么几种情况：

分析过程明显不符合业务操作实际；结论明显是错的；建议方向性很对，但是空洞，具体执行缺乏落地点；建议方向性很明确，也有具体执行建议，但是业务不能执行；上面的问题中，第一二条会偶尔发生，第三四条会经常发生。为什么？从数据的角度来讲没问题，但是落实到业务实际上有问题。问题出现哪？主要是这几方面：数据分析师根本不懂业务操作流程，凭自己的理解去猜测业务流程；数据分析师根本不知道现在业务的困难点在哪，哪些是目前最紧急的，凭自己的感觉认为“我觉得这些对他们最最有用”；数据分析师根本不知道业务能控制哪些，不能控制哪些，即使能控制又是否业务有必要去做，导致建议不是该业务部门能执行的。 4.数据解读能力和业务应用能力永远大于工具应用能力，不要迷信算法和模型

受至于数据的普遍理论影响，很多数据分析师会认为会多少个模型，多少种算法是一件多么牛叉的事情，诚然，数据尤其在面对海量数据时，普通的数据分析方法常常感觉无能为力，但这并不意味着工具和方法就决定了数据分析师的层次。举例来说，通常我们用的数据挖掘模型，业务都很难理解，假如你花很长时间作出一个关联模型，如果你这样告诉你的业务受众：A商品和B商品关联程度较高，从支持度，置信度和提升度来讲效果显著。那我们可以预想到这个挖掘的结果很难落地，并且意义不大。从业务受众实际应用层面来讲，两个商品关联度高意味着什么，意味着用户通常会一起购买这两件商品（也有可能是复购，具体看数据选取规则），那一起购买又怎样？我们是否可以把这两件商品做打包促销？是否可以做关联推荐？是否可以做个性化营销？是否可以引导用户消费倾向？甚至在活动页面设计上，是否可以将相关度高的品类，品牌摆放在一起来促进销售？又或者这是否可以做流失挽回的参照指标，重新审视之前每次的广告＂通发＂？这才是数据价值，无法跟业务结合的数据模型毫无价值。

4.业务需求是数据分析的起点，但之前你需要培养业务的数据意识

很多时候我们希望等待我们的业务自己上门提需求，并且以需求为数据分析的起点，似乎很多教材也是这么说的，基于业务需求的数据分析目的更明确，分析结论和效果落地也会阻力更小，但实际情况是业务通常是数据不敏感的，主要表现在：

业务没有数据决策的意识。大多数业务的第一行动引导因素还是业务经验，无论是基于事实的经验还是拍脑袋决策，数据绝对不是行动前必须参考的因素；业务不知道数据在哪些方面能帮到他。业务很多时候只是有个想法，想让数据证明点什么，但说不清楚。通常业务的措辞是“我们想知道这次活动的效果怎么样”、“我们想了解广告效果为什么不好”。至于具体效果指的是什么业务自己也说不清楚，甚至是业务自己也不知道到底想要什么。

业务不相信数据。如果数据结果出来时和业务设想的不同，那业务的第一反应是怀疑数据，无论是数据的出处、分析过程还是结论，业务总想找到能证明自己观点对的东西。所以我们会感觉，业务用数据的目的只是为了证明自己当初设想的正确性。作为数据分析师，我们不能要求业务必须要懂数据、理解数据，但是我们需要把数据能解决什么问题，怎么解决的，解决之后会给业务带来哪些改进以及效果上的优化，如果能预测出一个具体数值或最起码有一个范围，业务会更加相信数据的真实性、准确性。如果培养业务的数据意识？

数据意识是一个不断积累的过程，需要每周至少2~3次专项沟通，每次沟通至少持续半个小时，大概半年之后业务会形成一定的数据意识，最起码意识到在某些时候，数据会解决一些问题；每次沟通时，明确告诉业务数据能给他们带来哪些好处，能实现什么，在哪些主要业务点上能发挥作用，这样业务会认为数据会是一个能帮到自己的东西；数据不只是在业务执行之后才会发生作用的，在业务执行前的预测与计划，在业务执行过程中及时预警与恶意数据监控都是数据能发挥作用的场合，并且这些都能在“坏数据”、“坏结果”出来之前通过数据区去改善，这些将比结果出来后再去分析要更有意义。作为数据分析师，需要不断提高自身能力。能力包括业务理解能力和数据分析能力，既能把业务“粗糙的要求”转换成数据需求，又能将数据结果转化成业务可理解、可执行、有时间限制、能验证结果的数据输出。

我相信数据是一门艺术，良好的数据能力可以处处在业务中展现能力，并且确实可以提高业务价值，这是数据存在根本，也是数据分析师立足的根本。

限于篇幅，暂时只能抛砖引玉，待与大家讨论。期待大家的沟通。

推荐阅读

sql
Python与R语言的功能对比及应用场景分析

Python与R语言在功能和应用场景上各有优势。尽管R语言在统计分析和数据可视化方面具有更强的专业性，但Python作为一种通用编程语言，适用于更广泛的领域，包括Web开发、自动化脚本和机器学习等。对于初学者而言，Python的学习曲线更为平缓，上手更加容易。此外，Python拥有庞大的社区支持和丰富的第三方库，使其在实际应用中更具灵活性和扩展性。 ... [详细]

蜡笔小新 2024-11-01 18:37:10
sql
H5技术实现经典游戏《贪吃蛇》

本文将分享一个使用HTML5技术实现的经典小游戏——《贪吃蛇》。通过H5技术，我们将探讨如何构建这款游戏的两种主要玩法：积分闯关和无尽模式。 ... [详细]

蜡笔小新 2024-11-21 20:16:59
sql
Maven + Spring + MyBatis + MySQL 环境搭建与实例解析

本文详细介绍如何使用MySQL数据库进行环境搭建，包括创建数据库表并插入示例数据。随后，逐步指导如何配置Maven项目，整合Spring框架与MyBatis，实现高效的数据访问。 ... [详细]

蜡笔小新 2024-11-21 18:39:23
sql
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
数据库
K-均值聚类算法：原理与应用详解

K-均值聚类算法是一种经典的划分方法，广泛应用于数据挖掘和机器学习领域。该算法通过将数据集划分为多个互斥的簇，确保每个对象仅归属于一个簇。然而，这种严格的归属要求忽略了潜在的离群点和数据的复杂性，限制了其在某些场景下的适用性。为了提高算法的鲁棒性和灵活性，研究者们提出了多种改进方法，如引入模糊隶属度和基于密度的聚类技术。这些改进不仅提升了算法的性能，还扩展了其在实际问题中的应用范围。 ... [详细]

蜡笔小新 2024-11-10 13:52:16
sql
SSAS入门指南：基础知识与核心概念解析

### SSAS入门指南：基础知识与核心概念解析Analysis Services 是一种专为决策支持和商业智能（BI）解决方案设计的数据引擎。该引擎能够为报告和客户端应用提供高效的分析数据，并支持在多维数据模型中构建高性能的分析应用。通过其强大的数据处理能力和灵活的数据建模功能，Analysis Services 成为了现代 BI 系统的重要组成部分。 ... [详细]

蜡笔小新 2024-11-07 03:53:06
sql
业务团队与独立团队在数据分析领域的效能对比：谁更胜一筹？

业务团队与独立团队在数据分析领域的效能对比：谁更胜一筹？ ... [详细]

蜡笔小新 2024-11-06 17:18:07
sql
如何高效启动大数据应用之旅？

在前一篇文章中，我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目，涵盖关键步骤和最佳实践，帮助读者快速踏上大数据之旅。 ... [详细]

蜡笔小新 2024-11-04 18:30:38
数据库
探索聚类分析中的K-Means与DBSCAN算法及其应用

聚类分析是一种用于解决样本或特征分类问题的统计分析方法，也是数据挖掘领域的重要算法之一。本文主要探讨了K-Means和DBSCAN两种聚类算法的原理及其应用场景。K-Means算法通过迭代优化簇中心来实现数据点的划分，适用于球形分布的数据集；而DBSCAN算法则基于密度进行聚类，能够有效识别任意形状的簇，并且对噪声数据具有较好的鲁棒性。通过对这两种算法的对比分析，本文旨在为实际应用中选择合适的聚类方法提供参考。 ... [详细]

蜡笔小新 2024-11-04 13:20:39
数据库
AI TIME联合2021世界人工智能大会，共探图神经网络与认知智能前沿话题

AI TIME携手2021世界人工智能大会，共同探讨图神经网络与认知智能的最新进展。自2018年在上海首次举办以来，WAIC已成为全球AI领域的年度盛会，吸引了众多专家学者和行业领袖参与。本次大会将聚焦图神经网络在复杂系统建模、知识图谱构建及认知智能应用等方面的技术突破和未来趋势。 ... [详细]

蜡笔小新 2024-10-29 11:34:09
sql
2021年度高效办公软件推荐：实用与专业并重的选择指南

在现代办公环境中，高效的办公软件是提升工作效能的关键。本文将推荐几款实用且专业的办公软件，帮助用户提高工作效率。首先，微软Office套件中的Word、Excel和PowerPoint依然是最常用的工具，它们凭借强大的功能和易用性，成为众多用户的首选。此外，本文还将介绍其他一些创新的办公软件，如Google Workspace和Notion，这些工具在协作和项目管理方面表现出色，值得尝试。 ... [详细]

蜡笔小新 2024-10-26 18:54:40
sql
吴裕雄数据挖掘实战案例（13）：GBDT模型的深入应用与解析

#导入第三方包importpandasaspdimportmatplotlib.pyplotasplt#读入数据defaultpd.read_excel(r&# ... [详细]

蜡笔小新 2024-10-22 01:29:43
数据库
网络流24题——试题库问题

题目描述：假设一个试题库中有n道试题。每道试题都标明了所属类别。同一道题可能有多个类别属性。现要从题库中抽取m道题组成试卷。并要求试卷包含指定类型的试题。试设计一个满足要求的组卷算 ... [详细]

蜡笔小新 2024-11-22 11:33:55
数据库
基于OpenCV和Python的边缘检测与四点变换实现

本文介绍了如何利用OpenCV库进行图像的边缘检测，并通过Canny算法提取图像中的边缘。随后，文章详细说明了如何识别图像中的特定形状（如矩形），并应用四点变换技术对目标区域进行透视校正。 ... [详细]

蜡笔小新 2024-11-22 11:31:52
数据库
算法解析：最大连续子数组和

本文将探讨一个经典算法问题——最大连续子数组和。我们将从问题定义出发，逐步深入理解其背后的逻辑，并通过实例分析加深理解。 ... [详细]

蜡笔小新 2024-11-21 20:21:35

曾让我心碎的你俺_275

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章