30个Python技巧，加速你的数据分析处理速度

作者：鑫瑜Twinkle | 来源：互联网 | 2023-09-24 18:49

pandas的下载使用命令下载：pipinstallpandas或者自行下载whl文件安装https:www.lfd.uci.edu~gohlkepytho

30 个 Python 技巧，加速你的数据分析处理速度

pandas的下载

使用命令下载：

pip install pandas

或者自行下载whl文件安装

https://www.lfd.uci.edu/~gohlke/pythonlibs/

创建DataFrame数据

pd_data = pd.DataFrame({
    "name":["小明","小红","小孙","王小","关宇","刘蓓","张菲"],
    "age":[20,18,27,20,28,18,25],
    "sex":["男","女","男","男","男","女","女"],
    "score":[669,570,642,590,601,619,701],
    "address":["北京","深圳","广州","武汉","深圳","广州","长沙"]
})

print(pd_data)

读取本地文件

pd_data = pd.read_excel("./测试.xlsx")

pd.set_option("display.max_columns", None)   # 显示完整的列
pd.set_option("display.max_rows", None)  # 显示完整的行
pd.set_option("display.expand_frame_repr", False)  # 设置不折叠数据

print(pd_data)

查看数据是否有缺失

# 如果缺失显示为True，否则显示False
isnull = pd_data.isnull()        
print(isnull)

统计缺失值个数

# 统计缺失值个数
null_count = pd_data.isnull().sum()
print(null_count)

缺失值填充

# 填充数据 我选择了8.888,你随意
pd_data.fillna(8.888, inplace=True)
print(pd_data)

缺失值删除

# 如果有缺失值，删除此行
exist_col = pd_data.dropna()
print(exist_col)

查看头尾文件

# 查看头尾文件
print("头文件:", pd_data.head())
print("尾文件:", pd_data.tail())

取单列值

# 单列值
pd_data = pd.read_excel("./测试.xlsx")
print(pd_data["全款价"])

取多列值

# 多列值
pd_data = pd.read_excel("./测试.xlsx")
print(pd_data[["车辆概况", "全款价"]])

单条件取值

pd_data = pd.read_excel("./测试.xlsx")
print(pd_data[pd_data["全款价"] == 4])
print("-"*100)
print(pd_data[pd_data["汽车排量"] == "2.0T"])

多条件取值-与

# 多条件筛选数据
print(pd_data[(pd_data["车龄"] == "2018年") & (pd_data["变速箱"] == "自动")])

多条件取值-或

# 多条件筛选数据
print(pd_data[(pd_data["车龄"] == "2018年") | (pd_data["变速箱"] == "自动")])

字符串的开始函数

# 找出在 车辆概况 中以"大众"开头的
cars = pd_data[pd_data["车辆概况"].str.startswith("大众")]
print(cars)

字符串的结尾函数

# 找出在 车辆概况 中以"豪华型"结尾的
cars = pd_data[pd_data["车辆概况"].str.endswith("豪华型")]
print(cars)

字符串的包含函数‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

# 找出在 车辆概况 中包含"进口"的
cars = pd_data[pd_data["车辆概况"].str.contains("进口")]
print(cars)

统计元素个数

# 统计 过户分类 以及对应次数
trans_count = pd_data["过户情况"].value_counts()
print(trans_count)

为了便于进一步的数据分析，我希望将它们置于不同的数组之中，可以采用如下方法：

# 统计 过户分类 以及对应次数
trans_count = pd_data["过户情况"].value_counts()
# 针对于过户情况的分类
x1_data = trans_count.index.tolist()    
# 分类后各组数据的统计
x2_data = trans_count.tolist()      

print(x1_data)
print(x2_data)

这种格式的数据才是最适合做可视化分析的！

这里再多介绍两种方法，条条大路通罗马

都能轻松实现你的目标。

# 统计 过户分类 以及对应次数
trans_count = pd_data["过户情况"].value_counts()
# 针对于过户情况的分类
x1_data = trans_count.index.tolist()
x11_data = trans_count.index
x12_data = trans_count.index.values
# 类后各组数据的统计
x2_data = trans_count.tolist()
print("index.tolist():", x1_data)
print("index:", x11_data)
print("index.values:", x12_data)
print("x2:", x2_data)

分割字符串

这个功能也很实用，大家可以看看我的汽车名称数据这一列，我的目标仅仅是车名而已，后面的车型、车龄、排列、变速箱信息对我来说都是冗余信息。

非常不利于我后续数据可视化

所以字符串分割在这里就显得尤为重要。

# 对 汽车名称 这一列按照空格分割 并取第一个字符
pd_data["汽车名称"] = pd_data["车辆概况"].map(lambda x: x.split(" ")[0])
name = pd_data["汽车名称"].value_counts()
# 汽车名称分类
name1 = name.index.tolist()  
# 汽车名称对应数量
name2 = name.tolist()  
print(name1)
print(name2)

看到我取出来数据的样子了吗，要的就是这个！

清理数据

当我们相对汽车里程做进一步的分析时会发现数据后面都有一个’万公里’，这种数据要做可视化必须先对数据进行处理，

就是先要去除数字后面的字符

我们可以使用字符串的replace()方法，使用空格替换字符

pd_data.loc[:, "表显里程new"] = pd_data["表显里程"].str.replace("万公里", "").astype("float32")  # 去除 30 ’万公里‘
# 保存数据
pd_data.to_excel("测试1.xlsx")

黄色一列是我们处理之前的数据

绿色一列是我们处理之后的数据

已经达到了我们想要的效果

划分区间

现在有这么一个需求，我想要按照汽车的行驶里程分类，基本上每个车的行驶里程都是不一样的，如果将每个数据都反映在图标上就会看起来很冗余，

也就失去了作图的意义

所以我们可以按照区间来划分，例如5w-10w公里、10w-15w公里这样图表展示展示出来的效果就会很好了。

pd_data.loc[:, "表显里程new"] = pd_data["表显里程"].str.replace("万公里", "").astype("float32")  # 去除 30 ’万公里‘
# 划分区间
pd_data["里程区间"] = pd.cut(pd_data["表显里程new"], [0, 2, 4, 6, 8, 10, 20],
                             labels=["0-2", "2-4", "4-6", "6-8", "8-10", ">10"])
mile = pd_data["里程区间"].value_counts()
mile1 = mile.index.tolist()         # 里程区间分类
mile2 = mile.tolist()               # 里程区间分类对应数量
print(mile1)
print(mile2)

重置索引

其实我们在上面案例的演示中已经发现了，根据条件取出来的数据的索引都是处理数据之前的索引，

我们现在要重置索引的话要怎么办呢？

我们可是使用_reset_index()_来索引重置

重置索引前：

# 找出在 过户情况 中所有"0次"的汽车
cars = pd_data[pd_data["过户情况"].str.contains("0次")]
print(cars.reset_index())

重置索引后：

很好，但是不完美。多了一列colm name叫做 index的先前序列号。

不想看到它，有办法吗？

drop = True

# 找出在 过户情况 中所有"0次"的汽车
cars = pd_data[pd_data["过户情况"].str.contains("0次")]
print(cars.reset_index(drop=True))

column重命名

# 重命名
pd_data = pd_data.rename(columns = {"车辆概况":"车辆详情"})
print(pd_data)

分组统计groupby-单条件

# 统计不同变速箱总里程
pd_data.loc[:, "表显里程new"] = pd_data["表显里程"].str.replace("万公里", "").astype("float32")    # 去除 30 ’万公里‘
trans_mile = pd_data.groupby("变速箱")["表显里程new"].sum()
print(trans_mile)

分组统计groupby-多条件

# 统计不同变速箱和过户情况总里程
pd_data.loc[:, "表显里程new"] = pd_data["表显里程"].str.replace("万公里", "").astype("float32")    # 去除 30 ’万公里‘
trans_mile = pd_data.groupby(["变速箱","过户情况"])["表显里程new"].sum()
print(trans_mile)

如果再加上一个重置索引 trans_mile.reset_index()

求平均

# 统计不同过户次数车辆平均里程
pd_data.loc[:, "表显里程new"] = pd_data["表显里程"].str.replace("万公里", "").astype("float32")    # 去除 30 ’万公里‘
trans_mile = pd_data.groupby("过户情况")["表显里程new"].mean()
print(trans_mile.reset_index())

apply函数

还记得我们爬取大学的那个教程吗？

我们爬出来的数据如果是985或者是211显示为1，

如果非985或者211，显示为2

现在我不想要1和2了，因为我看不懂它是什么意思？如果是985或者211，就显示是，如果不是，就显示否！

pd_data = pd.read_excel("./全国高校数据.xlsx")
print(pd_data)
pd_data1 = pd_data.copy()  # 生成一个副本, 防止数据损坏
pd_data["f985"] = pd_data["f985"].apply(lambda x: "是" if x == 1 else "否")       # 通过匿名函数解决
pd_data["f211"] = pd_data["f985"].apply(lambda x: "是" if x == 1 else "否")       # 通过匿名函数解决
print(pd_data)

同理利用_lambda_函数我们还可以

给省份这一列后面加个’省’

pd_data = pd.read_excel("./全国高校数据.xlsx")
print(pd_data)
pd_data1 = pd_data.copy()  # 生成一个副本, 防止数据损坏

pd_data["province_name"] = pd_data["province_name"].apply(lambda x: x+"省")       # 通过匿名函数解决
print(pd_data)
"""

同理利用_lambda_函数我们还可以给

人气值view_total这一列最后面的’w’

pd_data["view_total"] = pd_data["view_total"].apply(lambda x: x[:-1])       # 通过匿名函数解决
print(pd_data)

求最大最小值

max_view_total = pd_data[pd_data["view_total"] == pd_data["view_total"].max()]
print(max_view_total)

min_view_total = pd_data[pd_data["view_total"] == pd_data["view_total"].min()]
print(min_view_total)

时间提取

为了便于演示，我加上了一列 Date 选项，如下：

现在我们想提取其中的年份或者月份，我们可以使用 "DatetimeIndex’这个方法来实现。

pd_data = pd.read_excel("./全国高校数据.xlsx")
pd_data["year"] = pd.DatetimeIndex(pd_data["Date"]).year
pd_data["month"] = pd.DatetimeIndex(pd_data["Date"]).month
pd_data["day"] = pd.DatetimeIndex(pd_data["Date"]).day
print(pd_data)

增加列

我想把刚才的生成的年+月+日方法到前三列，可以使用insert()方法来实现

Year = pd.DatetimeIndex(pd_data["Date"]).year
Month = pd.DatetimeIndex(pd_data["Date"]).month
day = pd.DatetimeIndex(pd_data["Date"]).day
pd_data.insert(0, "Year", Year)
pd_data.insert(1, "Month", Month)
pd_data.insert(2, "day", day)
print(pd_data)

推荐阅读

replace
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
config
Dockerfile 编写与 Docker 网络配置详解

本文详细介绍了 Dockerfile 的编写方法及其在网络配置中的应用，涵盖基础指令、镜像构建与发布流程，并深入探讨了 Docker 的默认网络、容器互联及自定义网络的实现。 ... [详细]

蜡笔小新 2024-12-27 17:31:41
eval
中央电视台电影频道节目预告及优化分析

本文详细介绍了中央电视台电影频道的节目预告，并通过专业工具分析了其加载方式，确保用户能够获取最准确的电视节目信息。 ... [详细]

蜡笔小新 2024-12-25 21:01:14
eval
[论文笔记] Crowdsourcing Translation: Professional Quality from Non-Professionals (ACL, 2011)

Time:4hoursTimespan:Apr15–May3,2012OmarZaidan,ChrisCallison-Burch:CrowdsourcingTra ... [详细]

蜡笔小新 2024-12-28 13:39:05
uri
Transforming the Future of Virtual Worlds

Explore how Matterverse is redefining the metaverse experience, creating immersive and meaningful virtual environments that foster genuine connections and economic opportunities. ... [详细]

蜡笔小新 2024-12-28 09:44:49
uri
PyCharm下载与安装指南

本文详细介绍如何从官方渠道下载并安装PyCharm集成开发环境（IDE），涵盖Windows、macOS和Linux系统，同时提供详细的安装步骤及配置建议。 ... [详细]

蜡笔小新 2024-12-28 09:42:41
uri
CentOS7源码编译安装MySQL5.6

2019独角兽企业重金招聘Python工程师标准一、先在cmake官网下个最新的cmake源码包cmake官网：https:www.cmake.org如此时最新 ... [详细]

蜡笔小新 2024-12-27 17:49:56
plugins
JQuery基础：省市联动与表单验证

本文介绍了如何使用JQuery实现省市二级联动和表单验证。首先，通过change事件监听用户选择的省份，并动态加载对应的城市列表。其次，详细讲解了使用Validation插件进行表单验证的方法，包括内置规则、自定义规则及实时验证功能。 ... [详细]

蜡笔小新 2024-12-27 17:10:48
uri
使用 Azure Service Principal 和 Microsoft Graph API 获取 AAD 用户列表

本文介绍了一段通用代码示例，该代码不仅能够操作 Azure Active Directory (AAD)，还可以通过 Azure Service Principal 的授权访问和管理 Azure 订阅资源。Azure 的架构可以分为两个层级：AAD 和 Subscription。 ... [详细]

蜡笔小新 2024-12-27 16:07:12
join
深入理解Python的os和sys模块

本文详细解析了Python中的os和sys模块，介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]

蜡笔小新 2024-12-26 22:04:19
blob
Python 提取和替换 Word 文档中的图片

本文介绍如何使用 Python 提取和替换 .docx 文件中的图片。.docx 文件本质上是压缩文件，通过解压可以访问其中的图片资源。此外，我们还将探讨使用第三方库 docx 的方法来简化这一过程。 ... [详细]

蜡笔小新 2024-12-26 18:52:14
uri
解析JSON格式文本并处理数据

本文介绍如何使用阿里云的fastjson库解析包含时间戳、IP地址和参数等信息的JSON格式文本，并进行数据处理和保存。 ... [详细]

蜡笔小新 2024-12-26 16:06:09
buffer
计算机图形学实训：OpenGL入门与直线光栅化算法

本教程涵盖OpenGL基础操作及直线光栅化技术，包括点的绘制、简单图形绘制、直线绘制以及DDA和中点画线算法。通过逐步实践，帮助读者掌握OpenGL的基本使用方法。 ... [详细]

蜡笔小新 2024-12-26 12:24:25
hash
Scala 实现 UTF-8 编码属性文件读取与克隆

本文介绍如何使用 Scala 以 UTF-8 编码方式读取属性文件，并实现属性文件的克隆功能。通过这种方式，可以确保配置文件在多线程环境下的一致性和高效性。 ... [详细]

蜡笔小新 2024-12-26 08:25:19
replace
深入解析JDBC源码

本文详细探讨了JDBC（Java数据库连接）的内部机制，重点分析其作为服务提供者接口（SPI）框架的应用。通过类图和代码示例，展示了JDBC如何注册驱动程序、建立数据库连接以及执行SQL查询的过程。 ... [详细]

蜡笔小新 2024-12-25 19:59:15

鑫瑜Twinkle

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章