什么是数据可视化
数据的可视化其实是在用数据讲故事
数据可视化由真实数据、富有美感的设计和完整的故事化逻辑组成:
这三个项目既是数据可视化的构件,也是可视化流程必不可少的环节:
数据的可视化和其他信息的可视化有很大区别,数据可视化的工具性更突出,逻辑层次的要求更强。其制作要点在于图表,但又在图表之外。很多时候不是画个简单的图表就是可视化了,通过图表工具去描述状态发现问题和并解决问题才是数据可视化的真正核心。
视觉设计
用图形讲数据
在数据分析后我们得到了数据和初步的结论,但是这戏信息太过原始和复杂,不便于传达给其他人,所以还需要对数据做可视化处理形成可视化报告。
1. 数据视觉设计原理
数据的视觉设计是用图形讲数据的过程,基本的原理如下表所示:
/ 数据可视化的基本原理模型 /
1) 数据转换
首先通过excel等工具将原始数据整理转换为数据表格,原始数据通常都会有冗余或者残缺,含有噪音和误差同时数据模式和特征往往被隐藏。通过去噪、数据清洗、提取特征等数据处理操作将数据变换为可处理模式。
2) 视觉映射
简单来说就是给既有数据选择合适的图表,用图形语言来展现数据关系的过程。 通过视觉元素的有序组合体现数据的特征,这里视觉元素可以称为视觉通道。听起来可能会抽象,但其实内涵很简单,比如:
折线图把数据特征映射到『方向』
柱状图把数据特征映射到『长度』
饼形图把数据特征映射到『角度』
环形图把数据特征映射到『弧长』
面积图把数据特征映射到多边形的『面积』
除了这些基础的图形外,其他的视觉元素也可以表示数据的特征:
/ 图表原理:图表里的视觉元素 /
a. 位置
观察散点图的时候是通过观察一个点的x坐标和y坐标以及与其他点的空间关系来确认数据点的分布和趋势。 散点图里数据的规律主要以下列四种为主:
/ 散点图里的数据规律 /
b. 长度
以图形长度值来衡量数据大小,比如条形图(柱状图) 在制作条形图时需要注意保持图形长度的真实性,比如下面两个条形图,左边的图形以3000作为纵坐标轴起点,导致蓝色矩形长度变短,看上去蓝色矩形长度只是红色的1/4,扭曲了两个矩形的长度关系。
这显然违背了图形图表追求真实准确的可视化表达本意。需要特别提醒的是,有些文章认为修改坐标轴是一种美化数据的手段,这是错误的理念。
c. 角度
饼图和环形图都是角度元素在图表里的应用类型,但二者又有所不同。圆环图和饼图一样能表现部分和整体的关系,除此之外圆环图还可以通过弧长的大小直接而明确地看出部分之间的大小比较关系,从功能性看上圆环图要优于饼图。
d.方向
方向是指示动态的概念,是对一种趋势的描述,方向在图表中应用以折线图最为典型,如下图:
但是方向其实是一个不够准确的度量元素,就像指针,自身只能表示上下左右的倾向,想要准确表示具体指向则需借助标尺或者参考线。
相同的数值,如果标尺有差别,那么致使方向的斜率也会出现显著差异,所以在处理多组数据的方向性时最好统一横、纵轴。
e. 形状
形状主要用于在多组数据分析时区别组别,我们在日常使用时又称之为标记,比如散点图和折线图中的形状:
/ 散点图里的形状 /
在散点图里使用三种形状来表现三个各自离散的数据群。
形状也可以表示数值的类型、系列和组别,比如折线图中各系列用多种不同的形状标记。
/ 折线图里的形状 /
f.面积和体积
大的图形代表大的数值。长度、面积、体积都可以表示数值的大小。二维平面通常用圆形和矩形,三维空间一般用立方体或球体。
但是在确定面积和体积要注意和边长或半径的数值换算问题,避免出现错误的暗示,比如:
g.饱和度和色调
颜色的两个要素,在图表中可以用表示组别,也可以用于表示等级和数值的高低。颜色要素在图表里最典型的类型是热力图,通过填色,热力图能用颜色的饱和度或者色调差别来展示数值在特定地理区域(或者页面区域)的分布。
/ 热力图:美国每10万人死亡人数变化百分比(1980-2014) /
/ 热力图:串串香在成都的分布 /
下图被认定为是世界上最早的热力图,由法国人Charles Dupin 在1826年发表在黑白地图上,以从白到黑不同深度,标示了法国文盲的分布情况。
3) 视觉元素的识别精确性
贝尔实验室在1985年发布了视觉元素的暗示排序清单:
在很多可视化规范都沿用这份清单,清单显示在可视化设计中,位置是最为精确的元素,长度其次。柱形图对数据的表现更为准确,人也更容易理解柱形图,而热力图表现相对要差得多。
这些数据的视觉化映射原理也是设计师和数据分析师们跳出传统图表的类型框架,创造各式各样的新颖可视化作品的理论基础。
落实到在图表制作上,就是合理而准确地选择图表类型。
萤火虫沙龙3 是萤火虫沙龙的成员之一,期望大家等待!
如果失联,请关注本刊通知,感谢大家!
读取历史文章,通过目录中的文章名,点击阅读
关注我们!
---- 欢迎关注:萤火虫程序员沙龙
No:19
形势“异常严峻”,紧急开会,传递了重大信号!
“数据可视化”设计的视觉原理
可视化解释压缩算法的工作原理
新的证明揭示了科学知识的基本限制
理解主成分分析 (PCA)
深入理解主成分分析PCA原理
全面解读用于文本特征提取的神经网络技术:从神经概率语言模型到GloVe
自然语言处理三大特征抽取器比较
No:18
浅谈人工智能:现状、任务、构架与统一 | 朱松纯
机器学习 —— 概率图模型(贝叶斯网络)
非常全面的贝叶斯网络介绍 ,例子与其他
算法、图灵机、哥德尔定理与知识的不确定性
如何利用贝叶斯算法;推算一件事情真实发生的概率
神经网络原理的可视化
克劳斯•迈因策尔:人工智能与机器学习:算法基础和哲学观点
来自世界的珍贵的历史记录:中华民族的抗战
No:17
任正非一口气回答了30个问题(全文实录)
深度|深度学习与统计物理的通用逻辑——重整化系统
贝叶斯思想概述:从贝叶斯定理到贝叶斯网络
从贝叶斯方法谈到贝叶斯网络
谈谈统计物理学的对象和方法
熵的物理意义
趣说信息熵
信息熵、交叉熵和相对熵
No:16
神经网络和深度学习简史(全)
神经网络嵌入详解
神经网络理论基础及 Python 实现
基于深度神经网络的自动问答系统概述
TensorSpace:超酷炫3D神经网络可视化框架
麻省理工解读神经网络历史,三篇论文剖析基础理论
文章目录
任正非罕见接受美国CNBC采访:华为只是中美贸易磨擦的一粒芝麻!
No:15
三种软件工程师——编码员、程序师和架构师
斯坦福完全可解释深度神经网络:你需要用决策树搞点事
前沿 | XNN:打开了自己黑箱的神经网络
神经网络之父 Hinton:AI 与医疗,是一生的信仰
入门 | 一文简述循环神经网络
进展 | 神经网络重正化群
“神经网络”的逆袭:图解80年AI斗争史
凡登伯格 | 逻辑、人工智能与文化
No:14
教程 | 从字符级的语言建模开始,了解语言模型与序列建模的基本概念
语言建模的王者:AWD-LSTM指南
资源 | 从语言建模到隐马尔可夫模型:一文详述计算语言学
UML统一建模语言
【软件工程】UML八大误解
51单片机串口的工作原理及应用实例
PLC通讯MODBUS协议的应用及编程
No:13
从语言学到深度学习NLP,一文概述自然语言处理
软件架构发展历程分享
软件架构设计总结
从SOA到微服务
微服务、SOA 和 API对比与分析
No:12
NLP基本概念及应用
哲学再思考:言语的力量
陈波 :二十世纪西方语言哲学回眸
乔姆斯基|语言哲学【访谈】
你分得清“语言哲学”和“哲学语言学”吗?
NLP应该如何学、如何教?斯坦福大学大牛Dan Jurafsky教授专访
No:11
DeepMind提议:贝叶斯因果网络和知识图谱,与深度强化学习融合
从自然语言处理到人工智能的两条路径(附64页PPT)
自然语言理解-从规则到深度学习
通过匹配解析树来进行自然语言理解
为《统计自然语言处理》所做的序 - 冯志伟
词向量及语言模型
Kenneth Church谈人工智能和自然语言的历史、发展与未来
浅析自然语言理解之统计语言模型
No:10
医疗-人工智能专辑:AI引爆医疗领域 十张图带你了解人工智能医疗前景有多大
人工智能+医疗,国内那些不得不知的公司
人工智能在医疗领域的应用
自兴动脑医疗AI战胜10名专业医生,未来哪些工作最容易被人工智能取代?
2016-2017年度人工智能+医疗市场分析及趋势报告
2017人工智能赋能医疗产业研究报告
大数据时代下的健康医疗行业报告
医疗领域人工智能的应用
No:9
Spring AOP 的实现机制
分布式一致性与共识算法
人工智能精神病专家 AI Shrink
软件架构模式
Java应用架构的演化之路
敏捷项目管理的总结和反思
敏捷文档编制路线图
软件的版本控制
No:8
从语义网到知识图谱——语义技术工程化的回顾与反思
从编译原理看一个解释器的实现
Java核心技术点之动态代理
[算法大全] 一文读懂机器学习\大数据与自然语言处理
【中文自然语言处理前沿进展】中国中文信息学会发布《中文信息处理发展报告》,颁发中文语言处理各奖项
中文自然语言处理进展
No:7
一文读懂什么是人工智能?
深度学习入门
一文读懂自然语言处理NLP(附学习资料)
自然语言处理深度学习的7个应用
No:6
自然语言处理中的语言学
基于自然语言理解的智能问答系统
自然语言理解-从规则到深度学习
95年大神通过匹配解析树来进行自然语言理解
自然语言理解在金融领域的应用 | 尹相志
时间序列数据的首选神经网络
No:5
深度学习:原理与应用概述
一个模拟人工神经网络反馈时序运行的程序模块介绍
No:4
大牛的《深度学习》笔记,60分钟带你学会Deep Learning
一组图文,读懂深度学习中的卷积网络到底怎么回事?
从贝叶斯角度,看深度学习的属性和改进方法
机器学习算法集锦:从贝叶斯到深度学习及各自优缺点
贝叶斯机器学习路线图
Deep Learning(深度学习)学习笔记整理系列之(上)
Deep Learning(深度学习)学习笔记整理系列之(下)
No:3
一文读懂:什么是人工智能?
机器学习Lasso算法的前世今生
模糊性知识的语境逻辑分析
资本布局的人工智能其实是人工智障?3分钟看懂啥叫机器学习
No:2
深度学习,从前馈式神经网络起步。。。
怎样写出漂亮整洁的代码?聊聊clean code的编码、重构技巧
红黑树算法的实现与剖析
细说自动化运维的前世今生
文本分析 | 词频与余弦相似度
如何制造一台量子计算机
No:1
[软件] 一个非常有用的多元函数极值问题求解算法与Java代码
程序员常读错的单词有这些
8年开发经验,网易Java开发工程师的成长感悟
Java代码的编译与反编译
机器学习算法集锦:从贝叶斯到深度学习及各自优缺点
超级干货:华为花3000万引进的BLM模型
欢迎关注萤程序员沙龙
读取历史文章,关注我们,发送期号获取
例如发送“1”,获取第一期电子
我们程序员的开心娱乐部
请关注我们公众号!