热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

python(describe())_Python预览数据的几种常见方法

用Python数据分析,往往得先把原始数据导入到pandas的Dataframe.如下图处理数据前,我们得先粗略了解数据面貌,至少要清楚数据有几列,有几行,哪些是数值,能求平均数、

用Python数据分析, 往往得先把原始数据导入到pandas的Dataframe. 如下图

90c8a462f285c7920bd3fee5339e3fde.png

处理数据前, 我们得先粗略了解数据面貌, 至少要清楚数据有几列, 有几行, 哪些是数值, 能求平均数、最大值、最小值, 哪些些类别型数据, 需要统计数量.

1. 几行几列

db

英文shape, 表示形状, 数据结果为

(318,20)

表示数据共有318行, 20列

2. 前几行, 最后几列

db.head()

42cdf0694d1404f34ac071f3428f057a.png

默认输出前5列, 可以在()写想要的行数. 比如需要显示前10行,

db.head(10)

用tail()显示最后几列,

db.tail()

tail意思是“尾巴”.

你可能注意到, 刚刚输出结果的列显示不全. 除了往右拖鼠标查看(列数太多也会不方便), 还可以用下面方法.

3. 每一列的内容是什么

信息总览, 首选info (information)

db.info()

6a224731d2a698918e37496e4ca92786.png

上图结果, 学过英文, 很容易理解

[1] index: 索引,作用相当于excel最左边的1,2,3, 用来定位第几行; entry (entries) 表示条目/记录, 上图显示db一共有318条记录(行). Afghanistan是第一条的索引, Zimbabwe是最后一条的索引.

9677ab870b41d54cbbba2f775fad2b59.png

[2] column (columns): 列, 本次数据共有20列 ( 不含索引)

6a224731d2a698918e37496e4ca92786.png

[3] 每一列的名称

[4]non-null: null表示“空”, non=非, 因此non-null表示该列不是空白的单元格.

float64: 单元格里面数据的类型, float表示带小数点的数值, 64占64bits内存

有时候, 只想了解一下列名就行, columns能派上用场了.

db.columns

b026b751a34d17ac5f45bf15d3d5b699.png

数据有上百列时, .columns特别有用

4. 每一列的数据有什么特征

  • 数值类 (numerical data)

想要了解每一个的最大值, 最小值, 平均值等统计信息时, .describe()一键搞定

db.describe()

98594b4952db3b0ea5c8bcc875a63a2c.png

结果包括

  • count: 非空格行数
  • mean: 平均值, excel中的average
  • std: standard deviation缩写, 标准差
  • min: minimum缩写, 最小值
  • 25%, 50%...(percentile) : 第25%的值
  • max: maximum缩写, 最大值

我们也可以定制化统计内容, 比如只求所有行的平均数

db.agg(np.mean)

1fb3a27674b9b82892a6769c2eec3336.png
  • agg: aggregate缩写. aggregate英文意思是“合计, 总计“, ()里面填写需要合集的公式
  • np.mean: 使用前, 需先导入numpy库

你可以按需要多加几个统计量, 比如平均值,最小值, 最大值

db.agg([np.mean, min, max])

acfd98ff9c0f7136f9ce485185bed615.png

注意, 此时agg() 里面是一个列表(list), 所有公式外加[]

  • 类别型数据(categorical data)

类别型数据, 就是那些不能四则运算的数据

0227c34e148fe947ec2f6b23ac22b8ee.png

describe()也同样适用

db.describe()

99d19587f21773cf788c8b4d3e1c765a.png
  • count: 统计共有多少行
  • unique: 比如State那列是50, 表示State(州)那列, 除掉重复的, 共有几个州
  • top: 出现频率最高的一项
  • freq: frequence缩写, 出现最高频率是几次

看到这, 你难免想知道哪个州出现频率第二多, 第三多, 哪个州最少, 可以用value_counts()

db['State'].value_counts()

4e4ba8da33f0c73e50cb18a1659f1d3b.png
  • db['State']: 选择State列

系统默认下从高频项排到低频项, 想要从小到大排列, 可以加ascending=False

db

  • ascending: 来自ascend (上升)+ ing

如果想知道每一项的出现频率占比, 只要加入normalize=True即可

db['State'].value_counts(normalize=True)

63cdd4bed8a31194adec9176bd8df911.png

这是我自学数据分析的第一篇总结.

相关阅读:

沧海为水:Python文本处理(一)基础小抄​zhuanlan.zhihu.com
1591ea163a719cd0dea5c66f3b662126.png
沧海为水:Python文本处理(二)文本格式化(formatting)​zhuanlan.zhihu.com
1591ea163a719cd0dea5c66f3b662126.png

这是我的第1篇Python学习笔记. 题图来自unsplash.



推荐阅读
  • 本文总结了使用不同方式生成 Dataframe 的方法,包括通过CSV文件、Excel文件、python dictionary、List of tuples和List of dictionary。同时介绍了一些注意事项,如使用绝对路径引入文件和安装xlrd包来读取Excel文件。 ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • 学习SLAM的女生,很酷
    本文介绍了学习SLAM的女生的故事,她们选择SLAM作为研究方向,面临各种学习挑战,但坚持不懈,最终获得成功。文章鼓励未来想走科研道路的女生勇敢追求自己的梦想,同时提到了一位正在英国攻读硕士学位的女生与SLAM结缘的经历。 ... [详细]
  • 向QTextEdit拖放文件的方法及实现步骤
    本文介绍了在使用QTextEdit时如何实现拖放文件的功能,包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数,并结合QMimeData和QUrl等类,可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]
  • Postgresql备份和恢复的方法及命令行操作步骤
    本文介绍了使用Postgresql进行备份和恢复的方法及命令行操作步骤。通过使用pg_dump命令进行备份,pg_restore命令进行恢复,并设置-h localhost选项,可以完成数据的备份和恢复操作。此外,本文还提供了参考链接以获取更多详细信息。 ... [详细]
  • 本文介绍了使用Python编写购物程序的实现步骤和代码示例。程序启动后,用户需要输入工资,并打印商品列表。用户可以根据商品编号选择购买商品,程序会检测余额是否充足,如果充足则直接扣款,否则提醒用户。用户可以随时退出程序,在退出时打印已购买商品的数量和余额。附带了完整的代码示例。 ... [详细]
  • 手把手教你使用GraphPad Prism和Excel绘制回归分析结果的森林图
    本文介绍了使用GraphPad Prism和Excel绘制回归分析结果的森林图的方法。通过展示森林图,可以更加直观地将回归分析结果可视化。GraphPad Prism是一款专门为医学专业人士设计的绘图软件,同时也兼顾统计分析的功能,操作便捷,可以帮助科研人员轻松绘制出高质量的专业图形。文章以一篇发表在JACC杂志上的研究为例,利用其中的多因素回归分析结果来绘制森林图。通过本文的指导,读者可以学会如何使用GraphPad Prism和Excel绘制回归分析结果的森林图。 ... [详细]
  • 本文介绍了Python语言程序设计中文件和数据格式化的操作,包括使用np.savetext保存文本文件,对文本文件和二进制文件进行统一的操作步骤,以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • “你永远都不知道明天和‘公司的意外’哪个先来。”疫情期间,这是我们最战战兢兢的心情。但是显然,有些人体会不了。这份行业数据,让笔者“柠檬” ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • WhenIusepythontoapplythepymysqlmoduletoaddafieldtoatableinthemysqldatabase,itdo ... [详细]
  • Python爬虫中使用正则表达式的方法和注意事项
    本文介绍了在Python爬虫中使用正则表达式的方法和注意事项。首先解释了爬虫的四个主要步骤,并强调了正则表达式在数据处理中的重要性。然后详细介绍了正则表达式的概念和用法,包括检索、替换和过滤文本的功能。同时提到了re模块是Python内置的用于处理正则表达式的模块,并给出了使用正则表达式时需要注意的特殊字符转义和原始字符串的用法。通过本文的学习,读者可以掌握在Python爬虫中使用正则表达式的技巧和方法。 ... [详细]
  • 合并列值-合并为一列问题需求:createtabletab(Aint,Bint,Cint)inserttabselect1,2,3unionallsel ... [详细]
  • EPPlus绘制刻度线的方法及示例代码
    本文介绍了使用EPPlus绘制刻度线的方法,并提供了示例代码。通过ExcelPackage类和List对象,可以实现在Excel中绘制刻度线的功能。具体的方法和示例代码在文章中进行了详细的介绍和演示。 ... [详细]
author-avatar
懒得张开眼睛看你
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有