使用可视化的目的就是想从大数据中发现规律,而散点图就是专门做这个的。
散点图号称是最多才多艺的图表,它可以让一大堆令人困惑的散乱数据变得通俗易懂,并能让你从这些庞杂数据中发现一些表面上看不到的关系,更重要的是,数据量对于散点图来说,多多益善,数据量越大,从散点图的分布中越能看出来一些规律。
在直角坐标系中,用两组数据构成多个坐标点,这些点的分布图就是散点图,根据点的分布及大致趋势,判断两个变量之间是否存在某种关系。
在编制散点图时,至少要有两组数据,分别放在X轴和Y轴上,下面利用身高和体重的数据,看看在PowerBI中散点图是如何生成的。
创建散点图的时候,如果只是把字段拖进X轴和Y轴,你会发现只出来了一个点,因为这个时候,PowerBI默认把这两个字段的数据进行聚合运算了,所以需要另外一个不含重复值的字段放到“详细信息”中,告诉PowerBI每个数据记录均显示为一个点,不要进行聚合,这个字段可以简单使用行号或索引,如果原始数据没有这个字段,可以回到查询编辑器中添加“索引列”。
刚才制作的这个散点图,只有身高和体重两个变量,根据这些点的分布,明显可以看到二者之间存在正相关的关系,身高越高,体重越重,符合我们的日常认知。
在这个散点图中,我们还可以增加一个变量,比如把性别考虑进去。把字段[性别]放到“图例”中,
在男性和女性的数据点分布上,存在明显的分布趋势,除了少部分的离散数据点,男性的身高体重数据明显在女性之上,也和常识相符。
在散点图的分布中发现存在一定的趋势,需要画个趋势线,PowerBI中也可轻松做到,
默认是所有数据点的走向线,在【合并系列】中选择“关”,就出现了分类的数据走向线,在这个散点图中,女性和男性身高体重的变化关系分别画出了走向线:
从这两条走向线还可以发现个很有意思的规律,女性斜率高于男性,同样的体重差,女性的身高增加的更多,表示女性身高对体重更为敏感,也就是说,女人更注重身材,不同的体重就是对应不同的身高;另外一方面也可以认为为男人不注重身材,无论多高,体重都可以是那么重。
当然,如果这些数据中还有年龄、城市等维度的数据,还可以利用散点图发现更多的有趣规律,并且,数据量越多,散点图的分布规律越有意义。
你也可以拿你手头的数据,利用散点图看看这些数据背后有没有什么关系。
最后要注意的是,利用散点图我们可以发现两组数据存在一定的相关关系,但不要因此就认为二者有因果关系,后者更难以证实。实际上,拿任何两组数据,比如最近十年的你的体重和美国GDP两组数据,放在散点图中,同样可能存在正相关或者负相关的关系,但很明显,美国GDP和你一毛钱关系都没有。
公众号:PowerBI星球