热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

数据预处理之数据可视化

数据可视化可以帮助我们理解数据:查看数据的分布情况,观察有没有异常值,各个变量之间的相关情况。当我们进行数据可视化的时候,我们要紧紧围绕着这个变量和我们的目标变量之间的关系,在绘制大多数图的时候都

数据可视化可以帮助我们理解数据:查看数据的分布情况,观察有没有异常值,各个变量之间的相关情况。

当我们进行数据可视化的时候,我们要紧紧围绕着这个变量和我们的目标变量之间的关系,在绘制大多数图的时候都要出现目标变量。

连续型数据的可视化:

  对于连续的数值类型数据,我们常常使用直方图(histogram)来进行描述信息,将连续的数据分成一个个的bin。plt.hist和seaborn中的distplot可以进行直方图的绘制。使用核密度估计kedplot可以查看概率密度的情况。

  无论是单独的观察连续的数值类型信息,还是结合其他的分类数据观察数值类型的信息,使用直方图是免不了的。使用直方图可以让我们发现数据的分布情况,一般为正太分布,继而能够看到数据的偏度和峰度情况,在这个情况上可以做进一步的决策,比如是否对数据进行标准化等。假如各个段的信息分布是有差别的,那么是否对连续数据进行分组操作。

  对于连续变量,也可以使用箱形图(boxplot)还有小提琴图(violinplot),前者可以发现数据中的异常点,中位数等信息。后者可以看中位数,还有数据分布的概率密度情况。

 

连续变量和连续变量结合:

  这个时候可以使用散点图(scatter)来看它们之间的关系,从散点图里面能够看出一些信息,比如是不是线性相关,或者是呈现指数分布。另外还可以从中发现出来一些异常点。

 

连续变量和分类变量结合

  连续变量和分类变量结合的时候,假如不是只使用连续变量的某类信息,(比如只使用连续变量的均值作为一个轴上面的信息),那么还是要使用上述连续变量所使用的几种图形的。这个时候通常将分类变量当做一个坐标轴上的一个个取值,在这个取值下面观察连续变量的分布情况。比如分类变量作为x轴,y轴用箱形图观察变量的分布。

 

分类变量

对于分类变量,可以使用条形图(barplot), 点图(pointplot),观察他们之间的关系。观察分类变量和目标变量之间的关系。在绘图的时候,分类变量通常要和分类变量结合,或者和连续变量结合,同时看好几个变量结合起来的情况。

 

查看整体情况

对于很多变量,有没有一些方法来查看这些变量之间的整体情况,或者两两变量之间的关系?这个时候可以使用pairplot和heatmap(热图)来进行查看。前者可以查看到两个变量的分布情况,后者可以查看到变量之间的相关性。

 

问题与总结:

上面写的就是当我们观察各个变量的时候使用的一般策略。在进行变量观察的时候,难的不是画图这个动作,而是决定看哪些变量与哪些变量之间的关系,以及以及如何进行观察。选择的变量和观察方式不同,我们能够得到的结论就不同。


推荐阅读
  • 注意力汇聚:NadarayaWatson 核回归
    Nadaraya-Watson核回归是具有注意力机制的机器学习范例。Nadaraya-Watson核回归的注意力汇聚是对训练数据中输出的加权平均。从注意力的角度来看, ... [详细]
  • 开发笔记:共享单车数据分析
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了共享单车数据分析相关的知识,希望对你有一定的参考价值。共享单车数据分析和共享单车用户行为分析PPT从数据分 ... [详细]
  • seaborn箱线图_Seaborn线图的数据可视化
    seaborn箱线图Hello,folks!Inthisarticle,wewillbetakingtheSeaborntutorialaheadandunderstandingt ... [详细]
  • 循环发电厂电能输出预测
    前言本次项目是就某联合循环发电厂的数据,运用线性回归模型进行预测电能输出,若文中出现错误的地方,还望指正,谢谢!目录1.数据来源及背景2.数据探索分析3.相关分析4.回 ... [详细]
  • Python交叉分析学习笔记
    Python交叉分析学习笔记本文将介绍两种方法来进行交叉分析:1.独立T检验2.数据透视表。数据源:百度网盘,课程来源:慕课网数据源共包括10个变量,如下:satisfaction ... [详细]
  • Giventhefollowingexample:给出以下示例:X<-matrix(nrow3,ncol3)X[1,]<-c(0.3,0.4,0.45)X ... [详细]
  • 从CornerNet到CornerNetLite再到训练自己的数据
    从CornerNet到CornerNet-Lite再到训练自己的数据相关论文与代码相关工作CornerNetCornerNet-Lite训练自己的数据一.论文论 ... [详细]
  • Python使用支持向量机(SVM)方法对UCI 乳腺癌诊断数据集二分类任务
    数据集:本文数据来自UCIrepository美国威斯康星州的乳腺癌诊断数据集,实验所用的编译环境为python3.6,主要引用numpy ... [详细]
  • #encodingutf-8importnumpyasnpdefmain():importmatplotlib.pyplotasplt##lesson1:画图#xnp.linsp ... [详细]
  • 学习1010种热图绘制方法
    转载自Epigenetics表观遗传学,略有修改和补充。题目有感于德国天才数学家莱布尼兹对二进制的阐述,和其传教士好友布维对易经等汉学的传播。有兴趣的可 ... [详细]
  • [Paper Reading3d] AFDetV2: RealTime AnchorFree SingleStage 3D Detection with IoUAwareness
    Paper:https:arxiv.orgabs2107.14342TL;DR地平线在Waymo自动驾驶挑战赛2020中方法(AFDet)的升级版-AFDetv2。模型是one ... [详细]
  • 使用ComplexHeatmap包绘制个性化热图
    文章目录使用ComplexHeatmap包绘制个性化热图检测安装加载包创建测试数据集一行命令绘图调参美化猜你喜欢写在后面使用ComplexHeatmap包绘制个性化热图作者&#x ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • 向QTextEdit拖放文件的方法及实现步骤
    本文介绍了在使用QTextEdit时如何实现拖放文件的功能,包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数,并结合QMimeData和QUrl等类,可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]
author-avatar
morimodomasaaki
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有