当前位置: 开发笔记 > 编程语言 > 正文

python数据集_Python数据集探索与可视化实例指南

作者：curlt_357 | 来源：互联网 | 2023-09-24 09:45

翻译：AI研习社（Suen）在今天的文章中，您将学习：如何合并和整理数据，如何探索和分析数据

翻译&＃xff1a;AI研习社&＃xff08;Suen&＃xff09;

在今天的文章中&＃xff0c;您将学习&＃xff1a;如何合并和整理数据&＃xff0c;

如何探索和分析数据&＃xff0c;

如何创建漂亮的图形以可视化您的发现

本文适用于谁&＃xff1a;经常处理数据的人

对Python和Pandas有基本了解的人

情景再现&＃xff1a;

你的任务是提高销售团队的绩效。在我们假设的情况下&＃xff0c;潜在客户有相当自发的需求。当这种情况发生时&＃xff0c;您的销售团队会在系统中放置一个订单线索。然后&＃xff0c;您的销售代表会设法安排一次会议&＃xff0c;会议将在订单线索被注意到的时候举行。有时在前&＃xff0c;有时在后。你的销售代表有一个把会议和餐费结合起来的开支预算。销售代表花费他们的成本&＃xff0c;并将发票交给会计团队处理。在潜在客户决定是否接受您的报价后&＃xff0c;销售代表会跟踪订单线索是否转化为销售。

对于分析&＃xff0c;您可以访问以下三个数据源&＃xff1a;订单线索&＃xff08;包含所有订单线索和转换信息&＃xff09;

销售团队&＃xff08;包括公司和负责的销售代表&＃xff09;

发票&＃xff08;提供发票和参与者的信息&＃xff09;

导入和安装&＃xff1a;

需要安装标准库&＃xff0c;此外&＃xff0c;通过使用以下命令,在你的Notebook上安装seaborn.

!pip install seaborn

下载数据&＃xff1a;

您可以按照上周的说明下载并合并数据&＃xff0c;也可以从此处下载文件并将其加载到 Notebook中。

sales_team 数据表的前两行

order_leads数据表的前两行

invoices数据表的前两行

开始探索

总转化率发展&＃xff1a;转化率随时间的变化

事情似乎在2017年初走下坡路。经过与首席销售官核实&＃xff0c;发现大约在那个时候有一个竞争对手进入了这个市场。很高兴知道&＃xff0c;但我们现在无能为力。

_ &＃61; order_leads.set_index(pd.DatetimeIndex(order_leads.Date)).groupby( pd.Grouper(freq&＃61;&＃39;D&＃39;)

)[&＃39;Converted&＃39;].mean() ax &＃61; _.rolling(60).mean().plot(figsize&＃61;(20,7),title&＃61;&＃39;Conversion Rate Over Time&＃39;) vals &＃61; ax.get_yticks() ax.set_yticklabels([&＃39;{:,.0f}%&＃39;.format(x*100) for x in vals]) sns.despine()我们使用下划线_作为临时变量。对于以后不再使用的一次性变量&＃xff0c;我通常会这样做。

我们在order_leads.Date上使用了pd.DateTimeIndex并将结果设置为索引&＃xff0c;这使我们能够

使用pd.Grouped&＃xff08;freq &＃61;&＃39;D&＃39;&＃xff09;按天对数据进行分组。或者&＃xff0c;您可以将频率更改为W&＃xff0c;M&＃xff0c;Q或Y&＃xff08;每周&＃xff0c;每月&＃xff0c;每季度或每年&＃xff09;

我们计算每天“转换”的平均值&＃xff0c;这将给出当天订单的换算率。

我们使用.roll&＃xff08;60&＃xff09;和.mean&＃xff08;&＃xff09;来获得60天的滚动平均值。

然后我们格式化yticklables&＃xff0c;使它们显示一个百分号。

各销售代表的转化率&＃xff1a;

各个销售代表之间似乎存在很大的差异。让我们对此进行更多调查。

就所使用的功能而言&＃xff0c;这里没有太多新内容。但是请注意我们如何使用sns.distplot将数据绘制到轴上。

如果我们回顾sales_team数据&＃xff0c;我们会记住并非所有的销售代表都拥有相同数量的客户&＃xff0c;这肯定会产生影响&＃xff01; 让我们检查。按分配的帐户数分配的转换率

我们可以看到&＃xff0c;转换率数字似乎与分配给销售代表的帐户数量成反比。那些降低的转化率是有道理的。毕竟&＃xff0c;代表拥有的帐户越多&＃xff0c;他可以花在每个人身上的时间就越少。

在这里&＃xff0c;我们首先创建一个辅助函数&＃xff0c;该函数将垂直线映射到每个子图中&＃xff0c;并用数据的均值和标准差注释该线。然后我们设置一些seaborn绘图默认值&＃xff0c;例如较大的font_scale和whitegrid设置为样式。

进餐影响&＃xff1a;进餐数据

看来我们已经确定了用餐的日期和时间&＃xff0c;让我们快速了解一下时间分布&＃xff1a;

invoices[&＃39;Date of Meal&＃39;] &＃61; pd.to_datetime(invoices[&＃39;Date of Meal&＃39;])

invoices[&＃39;Date of Meal&＃39;].dt.time.value_counts().sort_index()

out:

07:00:00 5536

08:00:00 5613

09:00:00 5473

12:00:00 5614

13:00:00 5412

14:00:00 5633

20:00:00 5528

21:00:00 5534

22:00:00 5647

总结:

invoices[&＃39;Type of Meal&＃39;] &＃61; pd.cut(

invoices[&＃39;Date of Meal&＃39;].dt.hour, bins&＃61;[0,10,15,24], labels&＃61;[&＃39;breakfast&＃39;,&＃39;lunch&＃39;,&＃39;dinner&＃39;] )

注意&＃xff0c;这里我们是如何使用pd.cut为数字数据分配类别的&＃xff0c;这很有意义&＃xff0c;因为毕竟&＃xff0c;早餐是在8点还是9点开始&＃xff0c;都没有关系。

另外&＃xff0c;请注意我们如何使用.dt.hour&＃xff0c;我们只能这样做&＃xff0c;因为我们将

invoices[&＃39;Date of Meal&＃39;]转换为之前的日期时间。 .dt是所谓的访问器&＃xff0c;其中有三个cat&＃xff0c;str和dt。如果您的数据类型正确&＃xff0c;则可以使用这些访问器及其方法进行直接操作&＃xff08;计算有效且简洁&＃xff09;。不幸的是&＃xff0c;invoices [&＃39;Participants&＃39;]是一个字符串&＃xff0c;我们必须首先将其转换为合法的JSON&＃xff0c;以便我们可以提取参与者的数量。

def replace(x):

return x.replace("\n ",",").replace("&＃39; &＃39;","&＃39;,&＃39;").replace("&＃39;",&＃39;"&＃39;) invoices[&＃39;Participants&＃39;] &＃61; invoices[&＃39;Participants&＃39;].apply(lambda x: replace(x)) invoices[&＃39;Number Participants&＃39;] &＃61; invoices[&＃39;Participants&＃39;].apply(lambda x: len(json.loads(x)))

现在&＃xff0c;我们合并数据。为此&＃xff0c;我们首先将公司ID上的所有发票左连接到order_leads。但是&＃xff0c;合并数据会导致所有餐点都加入所有订单。也有古老的饭菜&＃xff0c;以最近的订单。为了缓解这种情况&＃xff0c;我们计算了进餐和点餐之间的时间差&＃xff0c;并且仅考虑订单周围五天的进餐。

仍然有一些订单已分配多餐。当同时有两个订单和两餐时&＃xff0c;可能会发生这种情况。然后&＃xff0c;两餐将分配给两个订单线索。要删除这些重复项&＃xff0c;我们仅使餐点最接近该订单。组合数据的部分

我创建了一个绘图栏功能&＃xff0c;其中已经包含一些样式。通过该功能进行绘图可以使目视检查更快。我们将在一秒钟内使用它。

进餐类型的影响&＃xff1a;

orders_with_meals[&＃39;Type of Meal&＃39;].fillna(&＃39;no meal&＃39;,inplace&＃61;True)

_ &＃61; orders_with_meals.groupby(&＃39;Type of Meal&＃39;).agg({&＃39;Converted&＃39;: np.mean}) plot_bars(_,x_col&＃61;&＃39;Type of Meal&＃39;,y_col&＃61;&＃39;Converted&＃39;)

哇&＃xff01; 用餐相关的订单与不用餐相关的订单之间的转换率差异非常大。不过&＃xff0c;看起来午餐的转化率略低于晚餐或早餐。

时间的影响&＃xff08;即进餐之前或之后进餐&＃xff09;&＃xff1a;

_ &＃61; orders_with_meals.groupby([&＃39;Days of meal before order&＃39;]).agg(

{&＃39;Converted&＃39;: np.mean} ) plot_bars(data&＃61;_,x_col&＃61;&＃39;Days of meal before order&＃39;,y_col&＃61;&＃39;Converted&＃39;)

“订购前用餐天数”为负数表示用餐是在订单线索输入之后进行的。我们可以看到&＃xff0c;如果膳食在订单线索进入之前发生&＃xff0c;则对转化率似乎有积极影响。订单的先验知识似乎在这里给我们的销售代表带来了优势。

结合所有&＃xff1a;

现在&＃xff0c;我们将使用热图同时可视化数据的多个维度。为此&＃xff0c;首先创建一个辅助函数。

然后&＃xff0c;我们使用一些最终数据进行争辩&＃xff0c;以额外考虑餐食价格与订单价值的关系&＃xff0c;并将交货时间分配到“订购前”&＃xff0c;“订购前后”&＃xff0c;“订购后”&＃xff0c;而不是从负4到正4的天数&＃xff0c;因为这在解释方面有些繁琐。

运行以下代码片段将产生多维热图。

draw_heatmap(

data&＃61;data, outer_row&＃61;&＃39;Timing of Meal&＃39;, outer_col&＃61;&＃39;Type of Meal&＃39;, inner_row&＃61;&＃39;Meal Price / Order Value&＃39;, inner_col&＃61;&＃39;Number Participants&＃39;, values&＃61;&＃39;Converted&＃39; )热图可在一幅图中可视化四个维度

该热图当然很漂亮&＃xff0c;尽管起初有点难读。因此&＃xff0c;让我们来看一下。图表总结了4个不同维度的影响&＃xff1a;用餐时间&＃xff1a;订购后&＃xff0c;订购前后&＃xff0c;订购前&＃xff08;外排&＃xff09;

用餐类型&＃xff1a;早餐&＃xff0c;晚餐&＃xff0c;午餐&＃xff08;外栏&＃xff09;

餐单价格&＃xff1a;最低价格&＃xff0c;最低价格&＃xff0c;比例价格&＃xff0c;最高价格&＃xff0c;最高价格&＃xff08;内排&＃xff09;

参加人数&＃xff1a;1,2,3,4,5&＃xff08;内栏&＃xff09;

当然&＃xff0c;图表底部的颜色似乎更深/更高&＃xff0c;这表明&＃xff1a;在点餐之前用餐时&＃xff0c;转化率会更高

当只有一名参与者时&＃xff0c;晚餐转化率似乎更高

与订单价值相比&＃xff0c;看起来更昂贵的餐食对转化率有积极影响

结果&＃xff1a;销售代表的帐户不要超过9个&＃xff08;转化率会迅速下降&＃xff09;

确保每个订单线索都伴随有会议/进餐&＃xff08;因为这会使转换率翻倍当只有一位员工来访时&＃xff0c;晚餐最有效

您的销售代表应支付的餐费约为订单金额的8&＃xff05;至10&＃xff05;

时间是关键&＃xff0c;理想情况下&＃xff0c;您的销售代表应尽早知道即将达成交易。

备注为热图&＃xff1a;

要解决可能出现的格式错误&＃xff0c;可以先卸载&＃xff08;然后在终端中必须这样做&＃xff09;&＃xff0c;然后运行以下命令&＃xff0c;将matplotlib降级到3.1.0版&＃xff1a;!pip install matplotlib&＃61;&＃61;3.1.0

雷锋字幕组是一个由AI爱好者组成的翻译团队&＃xff0c;汇聚五五多位志愿者的力量&＃xff0c;分享最新的海外AI资讯&＃xff0c;交流关于人工智能技术领域的行业转变与技术创新的见解。

团队成员有大数据专家&＃xff0c;算法工程师&＃xff0c;图像处理工程师&＃xff0c;产品经理&＃xff0c;产品运营&＃xff0c;IT咨询人&＃xff0c;在校师生&＃xff1b;志愿者们来自IBM&＃xff0c;AVL&＃xff0c;Adobe&＃xff0c;阿里&＃xff0c;百度等知名企业&＃xff0c;北大&＃xff0c;清华&＃xff0c;港大&＃xff0c;中科院&＃xff0c;南卡罗莱纳大学&＃xff0c;早稻田大学等海内外高校研究所。

如果&＃xff0c;你也是位热爱分享的AI爱好者。欢迎与雷锋字幕组一起&＃xff0c;学习新知&＃xff0c;分享成长。

字幕组招募添加微信&＃xff1a;leiphonefansub&＃xff1b;备注你的名字&＃43;知乎

未经授权禁止转载。

推荐阅读

int
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
command
在VSCode中添加自定义外部命令

通过将常用的外部命令集成到VSCode中，可以提高开发效率。本文介绍如何在VSCode中配置和使用自定义的外部命令，从而简化命令执行过程。 ... [详细]

蜡笔小新 2024-11-13 16:57:15
int
CentOS 7 中配置开机自动挂载 NFS 的解决方案

本文详细介绍了在 CentOS 7 系统中配置 fstab 文件以实现开机自动挂载 NFS 共享目录的方法，并解决了常见的配置失败问题。 ... [详细]

蜡笔小新 2024-11-13 12:05:24
command
MDT2010实验部署手册（一）

MicrosoftDeploymentToolkit2010部署培训实验手册V1.0目录实验环境说明3实验环境虚拟机使用信息3注意：4实验手册正文说 ... [详细]

蜡笔小新 2024-11-12 20:02:27
schema
PTArchiver工作原理详解与应用分析

PTArchiver工作原理及其应用分析本文详细解析了PTArchiver的工作机制，探讨了其在数据归档和管理中的应用。PTArchiver通过高效的压缩算法和灵活的存储策略，实现了对大规模数据的高效管理和长期保存。文章还介绍了其在企业级数据备份、历史数据迁移等场景中的实际应用案例，为用户提供了实用的操作建议和技术支持。 ... [详细]

蜡笔小新 2024-11-11 13:40:49
int
高端存储技术演进与趋势

本文探讨了高端存储技术的发展趋势，包括松耦合架构、虚拟化、高性能、高安全性和智能化等方面。同时，分析了全闪存阵列和中端存储集群对高端存储市场的冲击，以及高端存储在不同应用场景中的发展趋势。 ... [详细]

蜡笔小新 2024-11-14 11:58:22
string
CentOS 6.4 安装 QT5 时无法找到 GLIBCXX_3.4.15 的解决方案

在 CentOS 6.4 上安装 QT5 并启动 Qt Creator 时，可能会遇到缺少 GLIBCXX_3.4.15 的问题。这是由于系统中的 libstdc++.so.6 版本过低。本文将详细介绍如何通过更新 GCC 版本来解决这一问题。 ... [详细]

蜡笔小新 2024-11-13 16:52:41
int
Java 并发编程：深入解析 AtomicInteger 和 CAS 无锁算法

在多线程并发环境中，普通变量的操作往往是线程不安全的。本文通过一个简单的例子，展示了如何使用 AtomicInteger 类及其核心的 CAS 无锁算法来保证线程安全。 ... [详细]

蜡笔小新 2024-11-12 16:40:04
int
Python 使用 DOM 和 SAX 解析 XML 的应用实例

本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件，并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]

蜡笔小新 2024-11-12 16:10:39
triggers
解决 Ubuntu 下 Samba 重新安装时配置文件未重新生成的问题

在 Ubuntu 中遇到 Samba 服务器故障时，尝试卸载并重新安装 Samba 发现配置文件未重新生成。本文介绍了解决该问题的方法。 ... [详细]

蜡笔小新 2024-11-12 13:02:23
triggers
深入解析数据库并发控制机制

本文详细介绍了数据库并发控制的基本概念、重要性和具体实现方法。并发控制是确保多个事务在同时操作数据库时保持数据一致性的关键机制。文章涵盖了锁机制、多版本并发控制（MVCC）、乐观并发控制和悲观并发控制等内容。 ... [详细]

蜡笔小新 2024-11-12 12:37:08
int
开机自启动的几种方式

0x01快速自启动目录快速启动目录自启动方式源于Windows中的一个目录，这个目录一般叫启动或者Startup。位于该目录下的PE文件会在开机后进行自启动 ... [详细]

蜡笔小新 2024-11-12 11:16:30
web
如何在Linux服务器上配置MySQL和Tomcat的开机自动启动

在Linux服务器上部署Web项目时，通常需要确保MySQL和Tomcat服务能够随系统启动而自动运行。本文将详细介绍如何在Linux环境中配置MySQL和Tomcat的开机自启动，以确保服务的稳定性和可靠性。通过合理的配置，可以有效避免因服务未启动而导致的项目故障。 ... [详细]

蜡笔小新 2024-11-11 19:41:03
copy
Xcode 多项目联合调试技巧与实践

在软件开发过程中，经常需要将多个项目或模块进行集成和调试，尤其是当项目依赖于第三方开源库（如Cordova、CocoaPods）时。本文介绍了如何在Xcode中高效地进行多项目联合调试，分享了一些实用的技巧和最佳实践，帮助开发者解决常见的调试难题，提高开发效率。 ... [详细]

蜡笔小新 2024-11-11 18:24:27
int
基于Net Core 3.0与Web API的前后端分离开发：Vue.js在前端的应用

本文介绍了如何使用Net Core 3.0和Web API进行前后端分离开发，并重点探讨了Vue.js在前端的应用。后端采用MySQL数据库和EF Core框架进行数据操作，开发环境为Windows 10和Visual Studio 2019，MySQL服务器版本为8.0.16。文章详细描述了API项目的创建过程、启动步骤以及必要的插件安装，为开发者提供了一套完整的开发指南。 ... [详细]

蜡笔小新 2024-11-11 10:58:21

curlt_357

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章