热门标签 | HotTags
当前位置:  开发笔记 > 大数据 > 正文

数据可视化之旅

数据可视化之旅数据可视化学习小组第一期成员创作。0x00前言在开始数据可视化之旅前,我们先用下图回顾数据链路过程以上这张图片比较普遍现象的数据链路,如果你是厨师&#x
数据可视化之旅

数据可视化学习小组第一期成员创作。

0x00 前言

在开始数据可视化之旅前,我们先用下图回顾数据链路过程

以上这张图片比较普遍现象的数据链路,如果你是厨师,最重要的肯定是做菜环节,也就分析环节。数据可视化只是最后的摆盘环节。

也就说当你的菜做得好吃了,摆盘会是锦上添花,如果你的菜做得难吃,摆盘再好看,那也是下不了口的。

如同你的分析报告,你的内容有意义有结论,你把图表做得好看一点,颜色搭配的舒服一点,会给人眼前一亮的感觉。

但就算是做得不好看,你的分析结论很棒,支持了公司的决策,谁又会管你可视化做得如何呢?

数据分析的目的,不是把图表做得好看,也不是把分析过程做得很复杂,也不是搞很多数据从而来做大数据,而是为了解决实际问题。

数据可视化很重要,但其核心是为了更清晰的传递信息,把复杂多维的数据用图表展现,一眼明目知道结果,是把复杂问题简单化。而不是让图表更好看更炫目.

技术与业务是相辅相成的,缺一不可,脱离了业务的精美图表没有意义,而低劣的图表也会拉低业务的等级.

关于数据可视化的重要性问题,这个要对人对事。

对于专业的数据分析师/商业分析师而言,他们的目标是要解决业务问题。为了解决一个问题,他们要和业务反复沟通需求,可能花大把的时间在清洗数据和构建分析模型上。最后结果出来了,可视化只是水到渠成的事。所以就数据分析过程链而言,数据可视化并不是核心。

对于不懂数据不懂业务的人而言,他们要知道的可能是“我这个月的销售量是多少?”“和竞争公司比怎么样”你不可能拉来几十张表格给他。需要给他一张图,展现全年的销售情况。最好深入挖掘,是否需要地域区分,展示目标和回款这类数据的对比。可视化对于他们而言就成了获取信息的有效方式,甚至是一个可随时使用的产品,且最直接最真实。

有些可视化是面子工程

很多公司都会在前台处设展示大屏,老板都会带着他的客人经过这里,如果做一个漂亮的数据可视化,给人很科技感的感觉。或许还能为谈生意助力(开个玩笑)。一般来说大屏数据可视化会让老板觉得很有面子。

一项大屏展示的数据可视化虽然工程很简单,不就展示数据嘛?但其实这里面有很多坑,需要思考以下5点

1、可以公开哪些数据(很多信息很敏感,特别对于创业公司来说)

2、如何实时刷新大批量数据?

3、维度会是大家都想看的吗

4、应该使用哪种可视化方式

5、你看的这些数据,有意义吗

可视化分析决策系统是趋势

这种系统广泛用于智慧公安、智慧城市、智慧园区、智慧航空、智慧交通、网络态势等,近两年开始流行,并且我认为是这是数据可视化非常好的趋势,可视化对这些特定行业来说起到极其重要的作用。

数据可视化已在各大企业普遍应用

数据可视化涵盖的内容很多,比较普遍的就是自动化的监控看板,敏捷式开发也是近一两年的热词,意思是不需要每天都做日报、月报、周报。一次开发,自动形成推送。这样数据分析师从中解放出来,更多去思考数据驱动业务发展,而不是困在取数的阶段。

数据分析的最终意义是推动决策,那么如何才能帮助管理层节省这个时间我觉得是非常重要。数据可视化就是管理者在和时间赛跑的帮手。

最后,不管你用什么可视化,别忘了你的目的是理解数据

0x01开始数据可视化之旅吧

前面我们介绍了数据可视化在整个数据链路中的上下游关系,也从不同角度探讨了可视化工作,而对于一个完整的数据可视化工作,主要包括以下四个步骤:

一.确定数据可视化的主题

即确定需要可视化的数据是围绕什么主题或者目的来组织的。

业务运营中的具体场景和遇到的实际问题,公司层面的某个战略意图,都是确定数据可视化主题的来源和依据。简而言之,一个具体问题或某项业务、战略目标的提出,其实就可以对应一个数据可视化的主题。

二.提炼可视化主题的数据

确定数据围绕什么主题进行组织之后,我们接下来要了解我们拥有哪些数据,如何来组织数据,这里面又衍生出另外三个问题。

1. 确定数据指标

分析和评估一项业务的经营现状通常有不同的角度,这也就意味着会存在不同的衡量指标。同样一个业务问题或数据,因为思考视角和组织方式的不同,会得出截然不同的数据分析结果。

例如,要评估寄件这项业务,有人想了解寄件量,有人想知道不同快递公司的运输时效,有人想知道寄件用户的下单渠道,还有人想了解寄件收入。

拿起数据,就开始画图,会让整个数据可视化作品没有重点、杂乱无章,是一种用战术上的勤劳掩盖战略上的懒惰,最终的呈现效果一般不理想。

2. 明确数据间的相互关系

基于不同的分析目的,所关注的数据之间的相互关系也截然不同,这一步实质上是在进行数据指标的维度选择。

例如,都要统计寄件量,有人希望知道各个快递公司的寄件量是多少,有人想了解一天内的寄件量高峰位于哪个时段,还有人想知道寄件量TOP10的城市排名。这里的快递公司、时段、城市,都是观察寄件量这个指标的不同维度。

通常,数据之间的相互关系包含如下几类:

  • 趋势型:通常研究的是某一变量随另一变量的变化趋势,常见的有时间序列数据的可视化。

  • 对比型:对比两组或者两组以上的数据,通常用于分类数据的对比。

  • 比例型:数据总体和各个构成部分之间的比例关系。

  • 分布型:展现一组数据的分布情况,如描述性统计中的集中趋势、离散程度、偏态与峰度等。

  • 区间型:显示同一维度上值的不同分区差异,常用来表示进度情况。

  • 关联型:用于直观表示不同数据之间的相互关系,如包含关系、层级关系、分流关系、联结关系等。

  • 地理型:通过数据在地图上的地理位置,来展示数据在不同地理区域上的分布情况,根据空间维度不同,通常分为二维地图和三维地图。

3. 确定用户关注的重点指标

确定了要展示的数据指标和维度之后,就要对这些指标的重要性进行一个重要性排序。

因为对于一个可视化展示的终端设备而言,其屏幕大小有限,且用户的时间有限、注意力也极其容易分散。如何让用户在短时间内,更有效率的获取到重要的信息,这是评估一个可视化产品好坏的重要因素。

在可视化设计之前,不妨问用户两个问题:

  1. 如果整个版面只能展示一个最重要的信息,你希望是什么?

  2. 你希望展现这些信息的理由是什么?通过用户对这些问题的回答,你能了解到,在已确定的指标和维度中,用户最关注的是哪个或哪些。

通过确定用户关注的重点指标,才能为数据的可视化设计提供依据,从而通过合理的布局和设计,将用户的注意力集中到可视化结果中最重要的区域,提高用户获取重要信息的效率。

三.根据数据关系确定图表

数据之间的相互关系,决定了可采用的图表类型。常见的数据关系和图表类型的对应关系如下图所示:

四.进行可视化布局及设计

在做好了以上的需求收集和整理之后,接下来就要开始进入可视化的设计和呈现的阶段。这一步主要包括两个方面:一是进行可视化布局的设计,二是数据图形化的呈现。

1. 页面布局

可视化设计的页面布局,要遵循以下三个原则:

(1)聚焦

设计者应该通过适当的排版布局,将用户的注意力集中到可视化结果中最重要的区域,从而将重要的数据信息凸显出来,抓住用户的注意力,提升用户信息解读的效率。

(2)平衡

要合理的利用可视化的设计空间,在确保重要信息位于可视化空间视觉中心的情况下,保证整个页面的不同元素在空间位置上处于平衡,提升设计美感。

(3)简洁

在可视化整体布局中,要突出重点,避免过于复杂或影响数据呈现效果的冗余元素。

2. 图表制作

影响图表呈现效果的,主要有两个影响因素,一个是数据层面的,一个是非数据层面的。

(1)数据层面

若数据中存在极端值或过多分类项等,会极大影响可视化的效果呈现,如柱形图中柱形条的高度、气泡图中气泡的大小、饼图中的分类项太多等。

对于数据本身造成的可视化效果不佳的情况,我们是不是就束手无策了呢?当然不是,在以往的可视化过程中,本人虽然也踩了很多坑,但是对于如何解决这类问题也积累了一些经验,下次专题分享。

(2)非数据层面

非数据层面,但是影响图表呈现效果的因素,通常在设计过程中就可以解决。

比如图表的背景颜色、网格线的深浅有无、外边框等等,这类元素是辅助用户理解图表的次要元素,但如果不加处理全部放出,视觉上就不够聚焦,干扰到你真正想展示的数据信息。

因此,对于此类非数据层面,但是影响图表视觉呈现的元素,应该尽量隐藏和弱化。

最后,我们回顾下数据可视化迭代过程

0xFF 总结

本文为《数据科学家学习小组系列》之数据可视化学习小组(第一期)的成员学习笔记。

该童鞋匿名发布本篇笔记。

文中多有参考知乎以及各种数据可视化文章的内容。

热门文章

直戳泪点!数据从业者权威嘲讽指南!

AI研发工程师成长指南

数据分析师做成了提数工程师,该如何破局?

算法工程师应该具备哪些工程能力

数据团队思考:如何优雅地启动一个数据项目!

数据团队思考:数据驱动业务,比技术更重要的是思维的转变


推荐阅读
  • 智慧城市建设现状及未来趋势
    随着新基建政策的推进及‘十四五’规划的实施,我国正步入以5G、人工智能等先进技术引领的智慧经济新时代。规划强调加速数字化转型,促进数字政府建设,新基建政策亦倡导城市基础设施的全面数字化。本文探讨了智慧城市的发展背景、全球及国内进展、市场规模、架构设计,以及百度、阿里、腾讯、华为等领军企业在该领域的布局策略。 ... [详细]
  • 本文探讨了卷积神经网络(CNN)中感受野的概念及其与锚框(anchor box)的关系。感受野定义了特征图上每个像素点对应的输入图像区域大小,而锚框则是在每个像素中心生成的多个不同尺寸和宽高比的边界框。两者在目标检测任务中起到关键作用。 ... [详细]
  • 深入解析Android自定义View面试题
    本文探讨了Android Launcher开发中自定义View的重要性,并通过一道经典的面试题,帮助开发者更好地理解自定义View的实现细节。文章不仅涵盖了基础知识,还提供了实际操作建议。 ... [详细]
  • 优化ListView性能
    本文深入探讨了如何通过多种技术手段优化ListView的性能,包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]
  • 2023年京东Android面试真题解析与经验分享
    本文由一位拥有6年Android开发经验的工程师撰写,详细解析了京东面试中常见的技术问题。涵盖引用传递、Handler机制、ListView优化、多线程控制及ANR处理等核心知识点。 ... [详细]
  • 从零开始构建完整手机站:Vue CLI 3 实战指南(第一部分)
    本系列教程将引导您使用 Vue CLI 3 构建一个功能齐全的移动应用。我们将深入探讨项目中涉及的每一个知识点,并确保这些内容与实际工作中的需求紧密结合。 ... [详细]
  • 帝国CMS多图上传插件详解及使用指南
    本文介绍了一款用于帝国CMS的多图上传插件,该插件通过Flash技术实现批量图片上传功能,显著提升了多图上传效率。文章详细说明了插件的安装、配置和使用方法。 ... [详细]
  • 本文详细探讨了网站流量统计中常用的三个关键指标:页面浏览量(PV)、独立访客数(UV)和独立IP数(IP)。通过分析这些指标的定义、计算方法及其应用场景,帮助网站运营者更好地理解用户行为,优化网站内容与用户体验。 ... [详细]
  • 基于结构相似性的HOPC算法:多模态遥感影像配准方法及Matlab实现
    本文介绍了一种基于结构相似性的多模态遥感影像配准方法——HOPC算法,该算法通过相位一致性模型构建几何结构特征描述符,能够有效应对多模态影像间的非线性辐射差异。文章详细阐述了HOPC算法的原理、实验结果及其在多种遥感影像中的应用,并提供了相应的Matlab代码。 ... [详细]
  • 网络出版服务许可证申请指南
    本文详细介绍了网络出版服务许可证的办理条件、适用企业范围及具体流程,帮助相关企业和个人了解并顺利完成许可证的申请。文章由专业机构提供,旨在为读者解答在互联网出版领域遇到的技术和合规问题。 ... [详细]
  • 历经三十年的开发,Mathematica 已成为技术计算领域的标杆,为全球的技术创新者、教育工作者、学生及其他用户提供了一个领先的计算平台。最新版本 Mathematica 12.3.1 增加了多项核心语言、数学计算、可视化和图形处理的新功能。 ... [详细]
  • 智能投顾机器人:创业者如何应对新挑战?
    随着智能投顾技术在二级市场的兴起,针对一级市场的智能投顾也逐渐崭露头角。近日,一款名为阿尔妮塔的人工智能创投机器人正式发布,它将如何改变投资人的工作方式和创业者的融资策略? ... [详细]
  • C语言实现推箱子游戏的完整代码
    本文详细介绍了如何使用C语言在Linux环境下实现一个简单的推箱子游戏,包括游戏的基本规则、地图设计及代码实现。适合C语言初学者学习。 ... [详细]
  • R语言基础入门指南
    本文介绍R语言的基本概念,包括其作为区分大小写的解释型语言的特点、主要的数据结构类型如向量、矩阵、数据框及列表等,并探讨了R语言中对象的灵活性与函数的应用。此外,文章还提供了关于如何使用R进行基本操作的示例,以及解决常见编程问题的方法。 ... [详细]
  • 地球坐标、火星坐标及百度坐标间的转换算法 C# 实现
    本文介绍了WGS84坐标系统及其精度改进历程,探讨了火星坐标系统的安全性和应用背景,并详细解析了火星坐标与百度坐标之间的转换算法,提供了C#语言的实现代码。 ... [详细]
author-avatar
编舞木煜率_841
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有