这10个小技巧，让你的Python数据分析加速50%！

作者：Jie | 来源：互联网 | 2023-09-13 15:55

来自公众号：优达学城Udacity作者：ParulPandey，译者：欧剃，编辑：肉松原文链接&

来自公众号&＃xff1a;优达学城Udacity
作者&＃xff1a;Parul Pandey&＃xff0c;译者&＃xff1a;欧剃&＃xff0c;编辑&＃xff1a;肉松
原文链接&＃xff1a;https://towardsdatascience.com/10-simple-hacks-to-speed-up-your-data-analysis-in-python-ec18c6396e6b

在编程的世界里&＃xff0c;有时候一些小窍门和小技巧&＃xff0c;能帮你节省不少时间和生命。有时可能是一个不起眼的快捷操作&＃xff0c;或者一个小小的插件。希望今天分享的这 10 个超级实用的 Python 数据分析技巧&＃xff0c;可以“撬动”你的生产力&＃xff01;

■ 1 对 pandas 数据表进行预览分析&＃xff08;Profiling&＃xff09;

预览分析是一个能帮助我们理解数据的过程。Pandas Profiling 这个 Python 库就是专门用来进行预览分析的&＃xff0c;它能让你简单而快速地对 Pandas 数据表进行探索性数据分析&＃xff08;Exploratory Data Analysis&＃xff0c;缩写 EDA&＃xff09;。在 EDA 的第一步&＃xff0c;我们往往会用到 pandas 的 df.describe() 和 df.info() 函数&＃xff0c;但它们只给出非常基本的数据概况&＃xff0c;在处理大型数据集的时候能起到的帮助十分有限。

另一方面&＃xff0c;使用 Pandas Profiling 提供的 df.profile_report() 函数&＃xff0c;你只需要一行代码就能快速生成一个包含了大量详细信息的交互式 HTML 报告。

对于给出的某个具体数据集&＃xff0c;Pandas Profiling 库能计算出以下这些统计信息&＃xff1a;

安装

pip install pandas-profiling

或

conda install -c anaconda pandas-profiling

使用

让我们用泰坦尼克号乘客的老古董数据集来举个栗子&＃xff1a;

要在 Jupyter notebook 里显示数据预览分析的结果&＃xff0c;你只需要这么一行代码就够了。生成的结果相当详细&＃xff0c;包含了各种你可能会需要的图表。

你还可以用这样的代码把结果导出成一个交互式 HTML 文件&＃xff1a;

你可以在这个库的官方文档&＃xff08;链接见文末&＃xff09;中查询到更详细的用法和实例代码。

■ 2 创建可交互的 Pandas 图表

Pandas 库已经为数据表&＃xff08;DataFrame 类&＃xff09;内置了一个 .plot() 的绘图函数。然而&＃xff0c;用这个函数生成的可视化结果并不支持交互&＃xff0c;也就没那么引人瞩目。而另一方面&＃xff0c;pandas.DataFrame.plot() 函数生成图表的便利性也是无可取代的。

那么&＃xff0c;我们能不能在不对代码进行太多修改的情况下&＃xff0c;用 Pandas 绘制出交互式图表呢&＃xff1f;事实上&＃xff0c;你可以通过 Cufflinks 库来实现这个目的。

安装

安装 cufflinks 前&＃xff0c;要先安装它依赖的 Plotly 库&＃xff1a;

使用

还是以泰坦尼克号数据集为例&＃xff0c;用这一行代码演示一下黑魔法&＃xff1a;

df.iplot()

&＃xff08;df.iplot() 和 df.plot() 的对比&＃xff09;

比起下图的静态图表&＃xff0c;上图的交互式图表能显示出更详细的信息&＃xff0c;而这一切并不需要太多的语法变化。

你可以在官方示例&＃xff08;链接见文末&＃xff09;中看到更详细的例子。

■ 3 来一点“魔法”

Jupyter Notebooks 中的“魔法命令”是一系列便捷的函数&＃xff0c;用于解决标准数据分析时的一些常见问题。你可以用 %lsmagic 命令来列出所有的“魔法命令”。

&＃xff08;所有可用的“魔法命令”的列表&＃xff09;

魔法命令又分成两类&＃xff0c;一种是行魔法&＃xff0c;前缀为单个 % 字符&＃xff0c;只作用于单行代码&＃xff1b;另一种是单元格魔法&＃xff0c;以 %% 为前缀&＃xff0c;能作用于整个单元格。如果 Notebook 的 Automagic 选项设置为 1 &＃xff0c;你可以省略单行魔法命令的前缀 %。

让我们看看几个在通常的数据分析中十分有用的命令吧。

%pastebin

%pastebin 命令将一段代码上传到 Pastebin 上&＃xff0c;并返回对应的链接。Pastebin 是一个在线剪贴板分享服务&＃xff0c;用户可以在上面存储各种纯文本内容&＃xff08;比如代码片段&＃xff09;&＃xff0c;然后将对应的链接分享给其他人。事实上 Github gist 也是一个类似 pastbin 的服务&＃xff0c;只不过它带有版本控制功能。

假设有一个 python 脚本文件 file.py&＃xff0c;内容如下&＃xff1a;

然后在 Jupyter Notebook 里用 %pastebin 生成一个分享链接&＃xff1a;

%matplotlib notebook

%matplotlib inline 命令会让静态的 matplotlib 图表在 Jupyter notebook 的运行结果区域内显示。如果你把命令中的 inline 换成 notebook&＃xff0c;你还能轻松获得一个可缩放和调整大小的图表。你应当在导入 matplotlib 库之前先运行 %matplotlib 命令。

&＃xff08;%matplotlib inline 和 %matplotlib notebook 的对比&＃xff09;

%run

%run 命令可以在 notebook 中运行外部 python 脚本&＃xff1a;

%run file.py

%%writefile

%%writefile 能将一个单元格的内容保存成文件。下面这段代码就会被写入 foo.py 文件中&＃xff0c;并保存在当前目录下。

%%latex

%%latex 命令让你可以用 LaTeX 语法渲染单元格的内容。在编写数学公式和方程的时候很好用。

■ 4 排查代码错误

其实交互式调试器&＃xff08;interactive debugger&＃xff09;本身也是一个魔法命令&＃xff0c;但我把它单独拿出来说。

如果你在运行一个代码单元格的时候出现了异常&＃xff0c;你可以新起一行&＃xff0c;运行 %debug 命令。这将打开一个交互式的调试环境&＃xff0c;把你带到异常发生的位置。你可以在此检查程序中各个变量的值&＃xff0c;并执行各种操作。输入 q 退出调试器。

■ 5 美化 print 输出

如果你想为数据结构生成美观的输出信息&＃xff0c;pprint 就是首选的模块。它在输出字典对象或 JSON 数据的时候特别有用。下面是一个用 print 和 pprint 输出信息的例子&＃xff1a;

■ 6 显示醒目的注释

在 Jupyter Notebooks 中&＃xff0c;你可以用警告/注释框来高亮显示一些重要或需要注意的信息。注释框的颜色取决于你指定的“警告”类型。你可以在需要的地方试试下面几种代码&＃xff1a;

蓝色框&＃xff1a;提示


提示: 使用蓝色提示框(属性为alert-info)来显示提示和注释。
如果是注释&＃xff0c;则可以省略上面的“提示”字样。

黄色框&＃xff1a;示例


示例&＃xff1a; 使用黄色提示框&＃xff08;属性为alert-warning&＃xff09;来显示额外的示例或数学公式。

绿色框&＃xff1a;相关


绿色提示框&＃xff08;属性为alert-success&＃xff09;一般只在必要的时候使用&＃xff0c;来显示和内容相关的链接等。

红色框&＃xff1a;警告


警告&＃xff1a; 红色提示框&＃xff08;属性为alert-danger&＃xff09;一般不常用&＃xff0c;不过可以用在警告用户不要删除一些重要代码等情况。

下面是几种提示的运行效果&＃xff1a;

■ 7 把一个单元格中的所有输出都显示出来

假设有一个Jupyter Notebook 的单元格里&＃xff0c;有这样一段代码&＃xff1a;

对代码单元格来说&＃xff0c;通常只输出单元格最后一个表达式的结果。如果需要显示其他表达式的结果&＃xff0c;则需要手动加上 print() 函数。不过&＃xff0c;也可以通过在 notebook 的开头运行这样一段代码&＃xff0c;让单元格显示所有表达式的结果&＃xff1a;

再运行下&＃xff0c;就会发现所有表达式的值都被依次打印出来了&＃xff1a;

要恢复成默认设置&＃xff0c;可以用&＃xff1a;

■ 8 使用 &＃39;-i&＃39; 参数运行 python 脚本

运行一个 Python 脚本的典型做法是在命令行下输入 python hello.py。然而&＃xff0c;如果你多加一个 -i 参数&＃xff0c;也就是用 python -i hello.py 来运行脚本&＃xff0c;会带来一些额外的好处&＃xff1a;

首先&＃xff0c;当程序运行结束&＃xff0c;或是异常退出的时候&＃xff0c;python 解释器并不会被关闭。在这种情况下&＃xff0c;我们可以检查变量的值&＃xff0c;核对函数是否正常工作等。

其次&＃xff0c;既然解释器还在&＃xff0c;我们可以很容易地调用 Python 调试器来排查问题&＃xff1a;

这将会带我们到程序出错的地方&＃xff0c;方便我们检查并修改代码。

■ 9 自动注释掉当前行

在编辑器中按下 Ctrl &＃43; /&＃xff08;Mac用户是 ⌘ &＃43; /&＃xff09;快捷键&＃xff0c;可以自动注释掉光标所在的行。再按一次取消注释。

■ 10 手残误删&＃xff0c;这样能救

你是否也曾不小心误删了 Jupyter Notebook 中的某个单元格&＃xff1f;记住这个快捷键&＃xff0c;你还有救&＃xff1a;

如果你是不小心删除了单元格中的一部分内容&＃xff0c;可以用 Ctrl &＃43; Z 快捷键&＃xff08;Mac 用户是 ⌘ &＃43; Z&＃xff09;撤销。

如果你需要恢复整个被删除的单元格&＃xff0c;请按 ESC&＃43;Z&＃xff0c;或在菜单上选择编辑&＃xff08;EDIT&＃xff09;-> 撤销删除&＃xff08;Undo Delete Cells&＃xff09;

这些技巧&＃xff0c;在日常使用 Python 和 Jupyter Notebooks 进行数据分析的时候都会经常用到。希望它们也能让你更快更高效地完成数据分析工作。如果你有更加黑科技的数据分析技巧&＃xff0c;欢迎在下面留言分享鸭。

------end------

推荐阅读

settings
PyCharm下载与安装指南

本文详细介绍如何从官方渠道下载并安装PyCharm集成开发环境（IDE），涵盖Windows、macOS和Linux系统，同时提供详细的安装步骤及配置建议。 ... [详细]

蜡笔小新 2024-12-28 09:42:41
settings
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
list
FastJSON解析与数据提取技巧

探讨如何高效使用FastJSON进行JSON数据解析，特别是从复杂嵌套结构中提取特定字段值的方法。 ... [详细]

蜡笔小新 2024-12-27 19:49:07
php
CentOS7源码编译安装MySQL5.6

2019独角兽企业重金招聘Python工程师标准一、先在cmake官网下个最新的cmake源码包cmake官网：https:www.cmake.org如此时最新 ... [详细]

蜡笔小新 2024-12-27 17:49:56
php
Python爬虫实战：豆瓣电影Top250数据抓取

本文详细介绍了如何使用Python编写爬虫程序，从豆瓣电影Top250页面抓取电影信息。文章涵盖了从基础的网页请求到处理反爬虫机制，再到多页数据抓取的全过程，并提供了完整的代码示例。 ... [详细]

蜡笔小新 2024-12-27 16:55:07
list
使用 Azure Service Principal 和 Microsoft Graph API 获取 AAD 用户列表

本文介绍了一段通用代码示例，该代码不仅能够操作 Azure Active Directory (AAD)，还可以通过 Azure Service Principal 的授权访问和管理 Azure 订阅资源。Azure 的架构可以分为两个层级：AAD 和 Subscription。 ... [详细]

蜡笔小新 2024-12-27 16:07:12
callback
分页插件3指定到某一页

前言--页数多了以后需要指定到某一页（只做了功能，样式没有细调）html ... [详细]

蜡笔小新 2024-12-27 15:19:01
callback
在Ubuntu 16.04 LTS上配置Qt Creator开发环境

本文详细介绍了如何在Ubuntu 16.04 LTS系统中安装和配置Qt Creator，涵盖了从下载到安装的全过程，并提供了常见问题的解决方案。 ... [详细]

蜡笔小新 2024-12-27 13:19:53
callback
离线环境下的Python及其第三方库安装指南

在项目开发中，有时会遇到电脑只能连接内网或完全无法联网的情况。本文将详细介绍如何在这种环境下安装Python及其所需的第三方库，确保开发工作的顺利进行。 ... [详细]

蜡笔小新 2024-12-26 19:51:48
list
Python 爬虫基础教程及代码实例

根据最新发布的《互联网人才趋势报告》，尽管大量IT从业者已转向Python开发，但随着人工智能和大数据领域的迅猛发展，仍存在巨大的人才缺口。本文将详细介绍如何使用Python编写一个简单的爬虫程序，并提供完整的代码示例。 ... [详细]

蜡笔小新 2024-12-26 10:42:40
php
国内BI工具迎战国际巨头Tableau，稳步崛起

尽管商业智能（BI）工具在中国的普及程度尚不及国际市场，但近年来，随着本土企业的持续创新和市场推广，国内主流BI工具正逐渐崭露头角。面对国际品牌如Tableau的强大竞争，国内BI工具通过不断优化产品和技术，赢得了越来越多用户的认可。 ... [详细]

蜡笔小新 2024-12-28 11:12:44
php
QBlog开源博客系统：Page_Load生命周期与参数传递优化（第四部分）

本教程将深入探讨QBlog开源博客系统的Page_Load生命周期，并介绍一种简洁的参数传递重构方法。通过视频演示和详细讲解，帮助开发者更好地理解和应用这些技术。 ... [详细]

蜡笔小新 2024-12-28 10:39:53
php
Java 中的 BigDecimal pow()方法，示例

Java 中的 BigDecimal pow()方法，示例 ... [详细]

蜡笔小新 2024-12-27 20:54:03
list
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
plugins
JQuery基础：省市联动与表单验证

本文介绍了如何使用JQuery实现省市二级联动和表单验证。首先，通过change事件监听用户选择的省份，并动态加载对应的城市列表。其次，详细讲解了使用Validation插件进行表单验证的方法，包括内置规则、自定义规则及实时验证功能。 ... [详细]

蜡笔小新 2024-12-27 17:10:48

Jie

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章