热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

python(describe())_Python预览数据的几种常见方法

用Python数据分析,往往得先把原始数据导入到pandas的Dataframe.如下图处理数据前,我们得先粗略了解数据面貌,至少要清楚数据有几列,有几行,哪些是数值,能求平均数、

用Python数据分析, 往往得先把原始数据导入到pandas的Dataframe. 如下图

90c8a462f285c7920bd3fee5339e3fde.png

处理数据前, 我们得先粗略了解数据面貌, 至少要清楚数据有几列, 有几行, 哪些是数值, 能求平均数、最大值、最小值, 哪些些类别型数据, 需要统计数量.

1. 几行几列

db

英文shape, 表示形状, 数据结果为

(318,20)

表示数据共有318行, 20列

2. 前几行, 最后几列

db.head()

42cdf0694d1404f34ac071f3428f057a.png

默认输出前5列, 可以在()写想要的行数. 比如需要显示前10行,

db.head(10)

用tail()显示最后几列,

db.tail()

tail意思是“尾巴”.

你可能注意到, 刚刚输出结果的列显示不全. 除了往右拖鼠标查看(列数太多也会不方便), 还可以用下面方法.

3. 每一列的内容是什么

信息总览, 首选info (information)

db.info()

6a224731d2a698918e37496e4ca92786.png

上图结果, 学过英文, 很容易理解

[1] index: 索引,作用相当于excel最左边的1,2,3, 用来定位第几行; entry (entries) 表示条目/记录, 上图显示db一共有318条记录(行). Afghanistan是第一条的索引, Zimbabwe是最后一条的索引.

9677ab870b41d54cbbba2f775fad2b59.png

[2] column (columns): 列, 本次数据共有20列 ( 不含索引)

6a224731d2a698918e37496e4ca92786.png

[3] 每一列的名称

[4]non-null: null表示“空”, non=非, 因此non-null表示该列不是空白的单元格.

float64: 单元格里面数据的类型, float表示带小数点的数值, 64占64bits内存

有时候, 只想了解一下列名就行, columns能派上用场了.

db.columns

b026b751a34d17ac5f45bf15d3d5b699.png

数据有上百列时, .columns特别有用

4. 每一列的数据有什么特征

  • 数值类 (numerical data)

想要了解每一个的最大值, 最小值, 平均值等统计信息时, .describe()一键搞定

db.describe()

98594b4952db3b0ea5c8bcc875a63a2c.png

结果包括

  • count: 非空格行数
  • mean: 平均值, excel中的average
  • std: standard deviation缩写, 标准差
  • min: minimum缩写, 最小值
  • 25%, 50%...(percentile) : 第25%的值
  • max: maximum缩写, 最大值

我们也可以定制化统计内容, 比如只求所有行的平均数

db.agg(np.mean)

1fb3a27674b9b82892a6769c2eec3336.png
  • agg: aggregate缩写. aggregate英文意思是“合计, 总计“, ()里面填写需要合集的公式
  • np.mean: 使用前, 需先导入numpy库

你可以按需要多加几个统计量, 比如平均值,最小值, 最大值

db.agg([np.mean, min, max])

acfd98ff9c0f7136f9ce485185bed615.png

注意, 此时agg() 里面是一个列表(list), 所有公式外加[]

  • 类别型数据(categorical data)

类别型数据, 就是那些不能四则运算的数据

0227c34e148fe947ec2f6b23ac22b8ee.png

describe()也同样适用

db.describe()

99d19587f21773cf788c8b4d3e1c765a.png
  • count: 统计共有多少行
  • unique: 比如State那列是50, 表示State(州)那列, 除掉重复的, 共有几个州
  • top: 出现频率最高的一项
  • freq: frequence缩写, 出现最高频率是几次

看到这, 你难免想知道哪个州出现频率第二多, 第三多, 哪个州最少, 可以用value_counts()

db['State'].value_counts()

4e4ba8da33f0c73e50cb18a1659f1d3b.png
  • db['State']: 选择State列

系统默认下从高频项排到低频项, 想要从小到大排列, 可以加ascending=False

db

  • ascending: 来自ascend (上升)+ ing

如果想知道每一项的出现频率占比, 只要加入normalize=True即可

db['State'].value_counts(normalize=True)

63cdd4bed8a31194adec9176bd8df911.png

这是我自学数据分析的第一篇总结.

相关阅读:

沧海为水:Python文本处理(一)基础小抄​zhuanlan.zhihu.com
1591ea163a719cd0dea5c66f3b662126.png
沧海为水:Python文本处理(二)文本格式化(formatting)​zhuanlan.zhihu.com
1591ea163a719cd0dea5c66f3b662126.png

这是我的第1篇Python学习笔记. 题图来自unsplash.



推荐阅读
  • 本文将指导你如何通过自定义配置,使 Windows Terminal 中的 PowerShell 7 更加高效且美观。我们将移除默认的广告和提示符,设置快捷键,并添加实用的别名和功能。 ... [详细]
  • 构建Python自助式数据查询系统
    在现代数据密集型环境中,业务团队频繁需要从数据库中提取特定信息。为了提高效率并减少IT部门的工作负担,本文探讨了一种利用Python语言实现的自助数据查询工具的设计与实现。 ... [详细]
  • ECharts图表绘制函数集
    本文档提供了使用ECharts库创建柱状图、饼图和双折线图的JavaScript函数。每个函数都详细列出了参数说明,并通过示例展示了如何调用这些函数以生成不同类型的图表。 ... [详细]
  • 本文详细介绍了Python中的流程控制与条件判断技术,包括数据导入、数据变换、统计描述、假设检验、可视化以及自定义函数的创建等方面的内容。 ... [详细]
  • Python闭包深度解析与应用实例
    本文详细介绍了Python闭包的基本概念、必要条件及其实现方式,并通过具体示例说明闭包在提高代码复用性和维护性方面的作用。文章最后还探讨了闭包的内部机制及其在实际项目中的应用。 ... [详细]
  • 本文详细介绍了如何在本地环境中安装配置Frida及其服务器组件,以及如何通过Frida进行基本的应用程序动态分析,包括获取应用版本和加载的类信息。 ... [详细]
  • 使用R语言进行Foodmart数据的关联规则分析与可视化
    本文探讨了如何利用R语言中的arules和arulesViz包对Foodmart数据集进行关联规则的挖掘与可视化。文章首先介绍了数据集的基本情况,然后逐步展示了如何进行数据预处理、规则挖掘及结果的图形化呈现。 ... [详细]
  • 本文由公众号【数智物语】(ID: decision_engine)发布,关注获取更多干货。文章探讨了从数据收集到清洗、建模及可视化的全过程,介绍了41款实用工具,旨在帮助数据科学家和分析师提升工作效率。 ... [详细]
  • 本文详细介绍了如何通过配置 Chrome 和 VS Code 来实现对 Vue 项目的高效调试。步骤包括启用 Chrome 的远程调试功能、安装 VS Code 插件以及正确配置 launch.json 文件。 ... [详细]
  • MVC框架下使用DataGrid实现时间筛选与枚举填充
    本文介绍如何在ASP.NET MVC项目中利用DataGrid组件增强搜索功能,具体包括使用jQuery UI的DatePicker插件添加时间筛选条件,并通过枚举数据填充下拉列表。 ... [详细]
  • 1<table>2<tr>3<th>ID<th>4 ... [详细]
  • 本文章利用header()函数来实现页面跳,我们介绍到404,302,301等状态跳转哦,下面有很多的状态自定的函数有需要的同学可以测试一下。heade ... [详细]
  • 字符、字符串和文本的处理之Char类型
    .NetFramework中处理字符和字符串的主要有以下这么几个类:(1)、System.Char类一基础字符串处理类(2)、System.String类一处理不可变的字符串(一经 ... [详细]
  • 本文详细介绍了在Mac操作系统中使用Python连接MySQL数据库的方法,包括常见的错误处理及解决方案。 ... [详细]
  • 本文主要解决了在编译CM10.2时出现的关于Samsung Exynos 4 HDMI HAL库中SecHdmiV4L2Utils.cpp文件的编译错误。 ... [详细]
author-avatar
懒得张开眼睛看你
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有