1. 目的 了解python第三方绘图包seaborn,从常用绘图实例开始,快速体验seaborn绘图。
建议用时: 10分钟
绘图例子: 12个
每个例子代码量: 1-6行, 90%仅1行
1.1 环境 在微信公共账号回复,ipython, 会返回临时云端学习环境网址和密码, 也可自己搭建。
2. Seaborn快速绘图 2.1 练习数据 seaborn自带很多练习数据,我们任选一个数据集,比如: Iris, 当做绘图数据使用, 简单介绍该数据源:
Iris数据集是常用的分类实验数据集,由Fisher, 1936收集整理。Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数据集,分为3类,每类50个数据,每个数据包含4个属性。可通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。
加载Iris数据 import seaborn as sn import pandas as pd import matplotlib.pyplot as plt import numpy as np %matplotlib inline # 加载seaborn自带数据: iris df = sn.load_dataset("iris") df.head()
2.2 数据集洞察 先简单看下该数据基本统计信息:
样本数量: count
平均值: mean
标准差: std
最小值: min
最大值: max
25%, 50%, 75%分位数
df.descirbe()
2.3 分类聚集 talk is cheap, show u code.
# swarm绘图散点以树状连接个点, 不重合 sn.swarmplot(x="species", y="petal_length", data=df, size=10) # 可以体验下与下面绘图结果的不同: # sn.stripplot(x='species', y='petal_length', data=df, jitter=True)
2.4 直方图 sn.distplot(df.sepal_length, bins=20, kde=True, rug=True)
2.5 柱状图 sn.barplot(x='species', y='sepal_length', data=df)
2.6 点图 # 点图 sn.pointplot(x='species', y='sepal_length', data=df)
2.7 双变量图 sn.jointplot(x='sepal_length', y='sepal_width', data=df) # 尝试改变属性值 # sn.jointplot(x='x', y='y', data=df2, kind='hex') # sn.jointplot(x='x', y='y', data=df2, kind='kde')
2.8 热力图 # 取10个样本, 查看不同属性的值, 用热力图显示 sn.heatmap(df.iloc[:10,:4])
2.9 箱图 sn.boxplot(x='species', y='sepal_length', data=df)
2.10 小提琴图 # 场景: 看密度分布比较形象具体 fig, axes = plt.subplots(2,2, figsize=(20,20)) sn.violinplot(x='species', y='sepal_length', data=df, ax=axes[0,0]) sn.violinplot(x='species', y='sepal_length', data=df, ax=axes[0,1], hue='species') sn.violinplot(y='species', x='sepal_length', data=df, ax=axes[1,0], hue='species', inner='stick') sn.violinplot(y='species', x='sepal_length', data=df, ax=axes[1,1], hue='species', inner=None) sn.swarmplot(y='species', x='sepal_length', data=df, ax=axes[1,1],alpha=.5, hue='species',color="r")
2.11 线性拟合 sn.lmplot(x='sepal_length', y='petal_length', data=df)
2.12 非线性拟合 代码: 1行
场景: 查看两列关系, 下面用二次多项式
sn.regplot(x='sepal_length', y='petal_length', order=2, data=df)
2.13 数据集两两属性关系 # 相同变量直方图显示, 不同变量散点图显示, 其中数据中不能含有NaN l = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width'] sn.pairplot(df[l])
2.14 Grid自定义绘制 # 多图绘制: 数据集某属性species, 将数据集分三类 # 下面, 一次性汇出三类数据的直方图 g = sn.FacetGrid(df,col="species") g.map(plt.hist,"sepal_length") g.add_legend()
3. About Me 来自北京回龙观的一名数据民工, 2019年开始写写数据民工那些大白话
微信公众号: workindata
个人微信号: ITlooker
知乎专栏: 大数据那些儿大白话