当前位置: 开发笔记 > 编程语言 > 正文

财务数据分析sqlpython_Python数据分析：让你像写Sql语句一样，使用Pandas做数据分析...

作者：mobiledu2502870587 | 来源：互联网 | 2023-09-11 20:12

Python数据分析：让你像写Sql语句一样，使用Pandas做数据分析一、加载数据importpandasaspdimportnumpyasnp

Python 数据分析&＃xff1a;让你像写 Sql 语句一样&＃xff0c;使用 Pandas 做数据分析

一、加载数据

import pandas as pd

import numpy as np

url &＃61; (&＃39;https://raw.github.com/pandas-dev/pandas/master/pandas/tests/data/tips.csv&＃39;)

tips &＃61; pd.read_csv(url)

output &＃61; tips.head()

Output:

total_bill tip sex smoker day time size

0 16.99 1.01 Female No Sun Dinner 2

1 10.34 1.66 Male No Sun Dinner 3

2 21.01 3.50 Male No Sun Dinner 3

3 23.68 3.31 Male No Sun Dinner 2

4 24.59 3.61 Female No Sun Dinner 4

二、SELECT 的使用方式

sql 语句&＃xff1a; SELECT total_bill, tip, smoker, time FROM tips LIMIT 5;。

output &＃61; tips[[&＃39;total_bill&＃39;, &＃39;tip&＃39;, &＃39;smoker&＃39;, &＃39;time&＃39;]].head(5)

Output:

total_bill tip smoker time

0 16.99 1.01 No Dinner

1 10.34 1.66 No Dinner

2 21.01 3.50 No Dinner

3 23.68 3.31 No Dinner

4 24.59 3.61 No Dinner

三、WHERE 的使用方式

1. 举个栗子

sql 语句&＃xff1a; SELECT * FROM tips WHERE time &＃61; ‘Dinner‘ LIMIT 5;

output &＃61; tips[tips[&＃39;time&＃39;] &＃61;&＃61; &＃39;Dinner&＃39;].head(5)

# 或者

output &＃61; tips.query("time &＃61;&＃61; &＃39;Dinner&＃39;").head(5)

Output:

total_bill tip sex smoker day time size

0 16.99 1.01 Female No Sun Dinner 2

1 10.34 1.66 Male No Sun Dinner 3

2 21.01 3.50 Male No Sun Dinner 3

3 23.68 3.31 Male No Sun Dinner 2

4 24.59 3.61 Female No Sun Dinner 4

2. 比较运算符&＃xff1a;等于 &＃61;&＃61;、大于 >、大于等于 >&＃61;、小于等于 <&＃61;、不等于 !&＃61;

2.1 等于 &＃61;&＃61;

sql 语句&＃xff1a;SELECT * FROM tips WHERE time &＃61; ‘Dinner‘;。

output &＃61; tips[(tips[&＃39;time&＃39;] &＃61;&＃61; &＃39;Dinner&＃39;)]

2.2 大于 >

sql 语句&＃xff1a;SELECT * FROM tips WHERE tip > 5.00;。

output &＃61; tips[(tips[&＃39;tip&＃39;] > 5.00)]

2.3 大于等于 >&＃61;

sql 语句&＃xff1a;SELECT * FROM tips WHERE tip >&＃61; 5.00;。

output &＃61; tips[(tips[&＃39;size&＃39;] >&＃61; 5)]

2.4 小于等于 <&＃61;

sql 语句&＃xff1a;SELECT * FROM tips WHERE tip <&＃61; 5.00;。

output &＃61; tips[(tips[&＃39;size&＃39;] <&＃61; 5)]

2.5 不等于 !&＃61;

sql 语句&＃xff1a;SELECT * FROM tips WHERE tip <> 5.00;。

output &＃61; tips[(tips[&＃39;size&＃39;] !&＃61; 5)]

3. 逻辑运算符&＃xff1a;且 &、或 |、非 -

3.1 且 &

sql 语句&＃xff1a;SELECT * FROM tips WHERE time &＃61; ‘Dinner‘ AND tip > 5.00;

output &＃61; tips[(tips[&＃39;time&＃39;] &＃61;&＃61; &＃39;Dinner&＃39;) & (tips[&＃39;tip&＃39;] > 5.00)]

3.2 或 |

sql 语句&＃xff1a;SELECT * FROM tips WHERE size >&＃61; 5 OR total_bill > 45;。

output &＃61; tips[(tips[&＃39;size&＃39;] >&＃61; 5) | (tips[&＃39;total_bill&＃39;] > 45)]

3.3 非 -

sql 语句&＃xff1a;SELECT * FROM tips WHERE not (size <> 5 AND size > 4);

output &＃61; df[-((df[&＃39;size&＃39;] !&＃61; 5) & (df[&＃39;size&＃39;] > 4))]

4. Null 的判断

这里重新定义一个包含 NaN 数据的 DataFrame。

frame &＃61; pd.DataFrame({

&＃39;col1&＃39;: [&＃39;A&＃39;, &＃39;B&＃39;, np.NaN, &＃39;C&＃39;, &＃39;D&＃39;],

&＃39;col2&＃39;: [&＃39;F&＃39;, np.NaN, &＃39;G&＃39;, &＃39;H&＃39;, &＃39;I&＃39;]

})

output &＃61; frame

Output:

col1 col2

0 A F

1 B NaN

2 NaN G

3 C H

4 D I

4.1 判断列是 Null

sql 语句&＃xff1a;SELECT * FROM frame WHERE col2 IS NULL;。

output &＃61; frame[frame[&＃39;col2&＃39;].isna()]

Output:

col1 col2

1 B NaN

4.2 判断列不是 Null

sql 语句&＃xff1a;SELECT * FROM frame WHERE col1 IS NOT NULL;。

output &＃61; frame[frame[&＃39;col1&＃39;].notna()]

Output:

col1 col2

0 A F

1 B NaN

3 C H

4 D I

5. In、Like 操作

5.1 In

sql 语句&＃xff1a;SELECT * FROM tips WHERE siez in (5, 6);。

output &＃61; tips[tips[&＃39;size&＃39;].isin([2, 5])]

5.2 Like

sql 语句&＃xff1a;SELECT * FROM tips WHERE time like ‘Din%‘;。

output &＃61; tips[tips.time.str.contains(&＃39;Din*&＃39;)]

四、GROUP BY 的使用方式

sql 语句&＃xff1a;SELECT sex, count(*) FROM tips GROUP BY sex;

output &＃61; tips.groupby(&＃39;sex&＃39;).size()

# 获取相应的结果

output[&＃39;Male&＃39;]

output[&＃39;Female&＃39;]

output &＃61; tips.groupby(&＃39;sex&＃39;).count()

# 获取相应的结果

output[&＃39;tip&＃39;][&＃39;Female&＃39;]

output &＃61; tips.groupby(&＃39;sex&＃39;)[&＃39;total_bill&＃39;].count()

# 获取相应的结果

output[&＃39;Male&＃39;]

output[&＃39;Female&＃39;]

sql 语句&＃xff1a;SELECT day, AVG(tip), COUNT(*) FROM tips GROUP BY day;

output &＃61; tips.groupby(&＃39;day&＃39;).agg({&＃39;tip&＃39;: np.mean, &＃39;day&＃39;: np.size})

# 获取相应的结果

output[&＃39;day&＃39;][&＃39;Fri&＃39;]

output[&＃39;tip&＃39;][&＃39;Fri&＃39;]

sql 语句&＃xff1a;SELECT smoker, day, COUNT(*), AVG(tip) FROM tips GROUP BY smoker, day;

output &＃61; tips.groupby([&＃39;smoker&＃39;, &＃39;day&＃39;]).agg({&＃39;tip&＃39;: [np.size, np.mean]})

# 获取相应的结果

output[&＃39;tip&＃39;][&＃39;size&＃39;][&＃39;No&＃39;][&＃39;Fri&＃39;]

sql 语句&＃xff1a;SELECT tip, count(distinct sex) FROM tips GROUP BY tip;

output &＃61; tips.groupby(&＃39;tip&＃39;).agg({&＃39;sex&＃39;: pd.Series.nunique})

五、JOIN 连接的使用方式

定义两个 DataFrame。

df1 &＃61; pd.DataFrame({&＃39;key&＃39;: [&＃39;A&＃39;, &＃39;B&＃39;, &＃39;C&＃39;, &＃39;D&＃39;], &＃39;value&＃39;: np.random.randn(4)})

df2 &＃61; pd.DataFrame({&＃39;key&＃39;: [&＃39;B&＃39;, &＃39;D&＃39;, &＃39;D&＃39;, &＃39;E&＃39;], &＃39;value&＃39;: np.random.randn(4)})

1. 内连接 Inner Join

sql 语句&＃xff1a;SELECT * FROM df1 INNER JOIN df2 ON df1.key &＃61; df2.key;

output &＃61; pd.merge(df1, df2, on&＃61;&＃39;key&＃39;)

# 或

indexed_df2 &＃61; df2.set_index(&＃39;key&＃39;)

pd.merge(df1, indexed_df2, left_on&＃61;&＃39;key&＃39;, right_index&＃61;True)

2. 左连接 Left Outer Join

sql 语句&＃xff1a;SELECT * FROM df1 LEFT OUTER JOIN df2 ON df1.key &＃61; df2.key;

output &＃61; pd.merge(df1, df2, on&＃61;&＃39;key&＃39;, how&＃61;&＃39;left&＃39;)

# 或

output &＃61; df1.join(df2, on&＃61;&＃39;key&＃39;, how&＃61;&＃39;left&＃39;)

3. 右连接 Right Join

sql 语句&＃xff1a;SELECT * FROM df1 RIGHT OUTER JOIN df2 ON df1.key &＃61; df2.key;

output &＃61; pd.merge(df1, df2, on&＃61;&＃39;key&＃39;, how&＃61;&＃39;right&＃39;)

4. 全连接 Full Join

sql 语句&＃xff1a;SELECT * FROM df1 FULL OUTER JOIN df2 ON df1.key &＃61; df2.key;

output &＃61; pd.merge(df1, df2, on&＃61;&＃39;key&＃39;, how&＃61;&＃39;outer&＃39;)

五、UNION 的使用方式

df1 &＃61; pd.DataFrame({&＃39;city&＃39;: [&＃39;Chicago&＃39;, &＃39;San Francisco&＃39;, &＃39;New York City&＃39;], &＃39;rank&＃39;: range(1, 4)})

df2 &＃61; pd.DataFrame({&＃39;city&＃39;: [&＃39;Chicago&＃39;, &＃39;Boston&＃39;, &＃39;Los Angeles&＃39;], &＃39;rank&＃39;: [1, 4, 5]})

sql 语句&＃xff1a;SELECT city, rank FROM df1 UNION ALL SELECT city, rank FROM df2;

output &＃61; pd.concat([df1, df2])

sql 语句&＃xff1a;SELECT city, rank FROM df1 UNION SELECT city, rank FROM df2;

output &＃61; pd.concat([df1, df2]).drop_duplicates()

六、与 SQL 等价的其他语法

1. 去重 Distinct

sql 语句&＃xff1a;SELECT DISTINCT sex FROM tips;

output &＃61; tips.drop_duplicates(subset&＃61;[&＃39;sex&＃39;], keep&＃61;&＃39;first&＃39;, inplace&＃61;False)

2. 修改列别名 As

sql 语句&＃xff1a;SELECT total_bill AS total, sex AS xes FROM tips;

output &＃61; tips.rename(columns&＃61;{&＃39;total_bill&＃39;: &＃39;total&＃39;, &＃39;sex&＃39;: &＃39;xes&＃39;}, inplace&＃61;False)

3. Limit 与 Offset

sql 语句&＃xff1a;SELECT * FROM tips ORDER BY tip DESC LIMIT 10 OFFSET 5;

output &＃61; tips.nlargest(10 &＃43; 5, columns&＃61;&＃39;tip&＃39;).tail(10)

4. 每个 Group 的前几行

sql 语句&＃xff1a;

SELECT * FROM (

SELECT

t.*,

ROW_NUMBER() OVER(PARTITION BY day ORDER BY total_bill DESC) AS rn

FROM tips t

)

WHERE rn <3

ORDER BY day, rn;

output &＃61; tips.assign(rn&＃61;tips.sort_values([&＃39;total_bill&＃39;], ascending&＃61;False). groupby([&＃39;day&＃39;]).cumcount() &＃43; 1). query(&＃39;rn <3&＃39;). sort_values([&＃39;day&＃39;, &＃39;rn&＃39;])

七、Update 的使用方式

sql 语句&＃xff1a;UPDATE tips SET tip &＃61; tip*2 WHERE tip <2;

output &＃61; tips.loc[tips[&＃39;tip&＃39;] <2, &＃39;tip&＃39;] *&＃61; 2

八、Delete 的使用方式

sql 语句&＃xff1a;DELETE FROM tips WHERE tip > 9;

output &＃61; tips &＃61; tips.loc[tips[&＃39;tip&＃39;] <&＃61; 9]

九、参考文章

原文&＃xff1a;https://www.cnblogs.com/yxhblogs/p/11026575.html

推荐阅读

int
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
int
基于dlib的人脸68特征点提取(眨眼张嘴检测)python版本

文章目录引言开发环境和库流程设计张嘴和闭眼的检测引言(1)利用Dlib官方训练好的模型“shape_predictor_68_face_landmarks.dat”进行68个点标定 ... [详细]

蜡笔小新 2023-12-12 13:27:42
int
十大经典排序算法动图演示+Python实现

本文介绍了十大经典排序算法的原理、演示和Python实现。排序算法分为内部排序和外部排序，常见的内部排序算法有插入排序、希尔排序、选择排序、冒泡排序、归并排序、快速排序、堆排序、基数排序等。文章还解释了时间复杂度和稳定性的概念，并提供了相关的名词解释。 ... [详细]

蜡笔小新 2023-12-10 19:28:59
int
超级简单加解密工具的方案和功能

本文介绍了一个超级简单的加解密工具的方案和功能。该工具可以读取文件头，并根据特定长度进行加密，加密后将加密部分写入源文件。同时，该工具也支持解密操作。加密和解密过程是可逆的。本文还提到了一些相关的功能和使用方法，并给出了Python代码示例。 ... [详细]

蜡笔小新 2023-12-10 16:38:34
int
Python 教学 016

Python教学练习二Python1-12练习二一、判断季节用户输入月份，判断这个月是哪个季节？3，4，5月----春 ... [详细]

蜡笔小新 2023-12-09 08:28:13
int
花瓣|目标值_Compose 动画边学边做夏日彩虹

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Compose动画边学边做-夏日彩虹相关的知识，希望对你有一定的参考价值。引言Comp ... [详细]

蜡笔小新 2023-10-17 21:58:22
int
python字符串随机生成密码_Mac OS生成随机密码的Python脚本

很多时候在注册一些比较重要的帐号，或者使用一些比较重要的接口的时候，需要使用到随机字符串，为了方便，我们设计这个脚本需要注意 ... [详细]

蜡笔小新 2023-10-17 18:20:12
int
词向量计算文本相似度,通过词向量求文本相似度

基于词向量计算文本相似度1.测试数据：链接：https:pan.baidu.coms1fXJjcujAmAwTfsuTg2CbWA提取码：f4vx2.实验代码：imp ... [详细]

蜡笔小新 2023-10-17 12:10:15
io
python创建一个窗口_等一个大佬啊要求用python创建一个窗口，窗口按钮功能是创建一个球体或立方体。明天上课之前交给我...

展开全部下面的代码是创建一个立方体Thisexamplescreatesanddisplaysasimplebox.#Thefirstlineloadstheinit_disp ... [详细]

蜡笔小新 2023-12-13 16:26:09
int
Python张量流中的device spec make_merged_spec()方法使用说明

本文介绍了在Python张量流中使用make_merged_spec()方法合并设备规格对象的方法和语法，以及参数和返回值的说明，并提供了一个示例代码。 ... [详细]

蜡笔小新 2023-12-11 12:15:19
io
使用n3-charts绘制以日期为x轴的数据

本文介绍了如何使用n3-charts绘制以日期为x轴的数据，并提供了相应的代码示例。通过设置x轴的类型为日期，可以实现对日期数据的正确显示和处理。同时，还介绍了如何设置y轴的类型和其他相关参数。通过本文的学习，读者可以掌握使用n3-charts绘制日期数据的方法。 ... [详细]

蜡笔小新 2023-12-10 00:19:21
header
Git版本控制工具中自动增加版本号的替代方案

本文讨论了在使用Git进行版本控制时，如何提供类似CVS中自动增加版本号的功能。作者介绍了Git中的其他版本表示方式，如git describe命令，并提供了使用这些表示方式来确定文件更新情况的示例。此外，文章还介绍了启用$Id:$功能的方法，并讨论了一些开发者在使用Git时的需求和使用场景。 ... [详细]

蜡笔小新 2023-12-09 09:55:13
instance
org.apache.hadoop.hive.ql.plan.ExprNodeColumnDesc.getTypeInfo()方法的使用及代码示例

本文整理了Java中org.apache.hadoop.hive.ql.plan.ExprNodeColumnDesc.getTypeInfo()方法的一些代码示例，展 ... [详细]

蜡笔小新 2023-10-17 21:32:56
int
七月在线爬虫班学习笔记（七）——高级内容-并发编程

第七课主要内容：多进程多线程FIFO,LIFO,优先队列线程局部变量进程与线程的选择线程池异步IO概念及twisted案例股票数据抓取 ... [详细]

蜡笔小新 2023-10-17 20:16:36
int
Opencv Python版学习笔记（八）字符识别-分类器（SVM，KNearest，RTrees，Boost，MLP）

Opencv提供了几种分类器，例程里通过字符识别来进行说明的1、支持向量机（SVM）：给定训练样本，支持向量机建立一个超平面作为决策平面，使得正例和反例之间的隔离边缘被最大化。函数原型：训练原型cv ... [详细]

蜡笔小新 2023-10-17 17:02:44

mobiledu2502870587

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章