pandas模块的使用(二)

作者：活跃的爱味儿县_454 | 来源：互联网 | 2023-07-19 15:42

数据合并之join:join:默认情况下他是把行索引相同的数据合并到一起In[6]:t1pd.DataFrame(np.zeros((2,5)),index[A,B],c

数据合并之join:

join:默认情况下他是把行索引相同的数据合并到一起In [6]: t1 &＃61; pd.DataFrame(np.zeros((2,5)),index&＃61;["A","B"],columns&＃61;list("VWXYZ"))In [7]: t1 Out[7]: V W X Y Z A 0.0 0.0 0.0 0.0 0.0 B 0.0 0.0 0.0 0.0 0.0In [8]: t2 &＃61; pd.DataFrame(np.ones((3,4)),index&＃61;list("ABC"),columns&＃61;list("0123"))In [9]: t2 Out[9]: 0 1 2 3 A 1.0 1.0 1.0 1.0 B 1.0 1.0 1.0 1.0 C 1.0 1.0 1.0 1.0In [10]: t1.join(t2) Out[10]: V W X Y Z 0 1 2 3 A 0.0 0.0 0.0 0.0 0.0 1.0 1.0 1.0 1.0 B 0.0 0.0 0.0 0.0 0.0 1.0 1.0 1.0 1.0In [11]: t2.join(t1) Out[11]: 0 1 2 3 V W X Y Z A 1.0 1.0 1.0 1.0 0.0 0.0 0.0 0.0 0.0 B 1.0 1.0 1.0 1.0 0.0 0.0 0.0 0.0 0.0 C 1.0 1.0 1.0 1.0 NaN NaN NaN NaN NaN可以看到join是将index相同的行进行了合并,以左操作数为基础进行合并

数据合并之merge:

In [25]: t1 Out[25]: V W X Y Z A 0.0 0.0 c 0.0 0.0 B 0.0 0.0 d 0.0 0.0In [26]: t2 Out[26]: M N P Q O A 1.0 1.0 1.0 1.0 a B 1.0 1.0 1.0 1.0 b C 1.0 1.0 1.0 1.0 cIn [27]: t1.merge(t2,left_on&＃61;"X",right_on&＃61;"O") # 默认的合并方式inner,交集 Out[27]: V W X Y Z M N P Q O 0 0.0 0.0 c 0.0 0.0 1.0 1.0 1.0 1.0 cIn [28]: t1.merge(t2,left_on&＃61;"X",right_on&＃61;"O",how&＃61;"inner") # 内连接 Out[28]: V W X Y Z M N P Q O 0 0.0 0.0 c 0.0 0.0 1.0 1.0 1.0 1.0 cIn [29]: t1.merge(t2,left_on&＃61;"X",right_on&＃61;"O",how&＃61;"outer") # 外连接 merge outer,并集,NaN补全 Out[29]: V W X Y Z M N P Q O 0 0.0 0.0 c 0.0 0.0 1.0 1.0 1.0 1.0 c 1 0.0 0.0 d 0.0 0.0 NaN NaN NaN NaN NaN 2 NaN NaN NaN NaN NaN 1.0 1.0 1.0 1.0 a 3 NaN NaN NaN NaN NaN 1.0 1.0 1.0 1.0 bIn [30]: t1.merge(t2,left_on&＃61;"X",right_on&＃61;"O",how&＃61;"left") # 左连接 merge left,左边为准,NaN补全 Out[30]: V W X Y Z M N P Q O 0 0.0 0.0 c 0.0 0.0 1.0 1.0 1.0 1.0 c 1 0.0 0.0 d 0.0 0.0 NaN NaN NaN NaN NaNIn [31]: t1.merge(t2,left_on&＃61;"X",right_on&＃61;"O",how&＃61;"right") # 右连接 merge right,右边为准,NaN补全 Out[31]: V W X Y Z M N P Q O 0 NaN NaN NaN NaN NaN 1.0 1.0 1.0 1.0 a 1 NaN NaN NaN NaN NaN 1.0 1.0 1.0 1.0 b 2 0.0 0.0 c 0.0 0.0 1.0 1.0 1.0 1.0 c可以看到merge是以指定的columns对应的两个列中元素相同的连接为一行

例题:

现在我们有一组关于全球星巴克店铺的统计数据,如果我想知道美国的星巴克数量和中国的哪个多,或者我想知道中国每个省份星巴克的数量的情况,那么应该怎么办&＃xff1f;
要统计美国和中国的星巴克的数量,我们应该怎么做&＃xff1f;
数据来源&＃xff1a;https://www.kaggle.com/starbucks/store-locations/data
数据格式:

Brand Store Number Store Name Ownership Type Street Address City State/Province Country Postcode Phone Number Timezone Longitude LatitudeStarbucks 47370-257954 Meritxell, 96 Licensed Av. Meritxell, 96 Andorra la Vella 7 AD AD500 376818720 GMT&＃43;1:00 Europe/Andorra 1.53 42.51Starbucks 22331-212325 Ajman Drive Thru Licensed 1 Street 69, Al Jarf Ajman AJ AE GMT&＃43;04:00 Asia/Dubai 55.47 25.42Starbucks 47089-256771 Dana Mall Licensed Sheikh Khalifa Bin Zayed St. Ajman AJ AE GMT&＃43;04:00 Asia/Dubai 55.47 25.39

代码:

import pandas as pddf &＃61; pd.read_csv("./starbucks_store_worldwide.csv")# print(df.info()) # print(df.head(1))# 按照国家进行分组(聚合) country_info &＃61; df.groupby(by&＃61;"Country")# 遍历输出分组后的信息 for i,j in country_info:print("-"*50)print(i)print("*"*50)print(j)# 计算分组后每一个国家牌子的数量 country_num &＃61; country_info["Brand"].count() print(country_num)df[df["Country"]&＃61;&＃61;"US"]# 分别输出美国和中国的星巴克Brand的数量 print(country_num["US"]) print(country_num["CN"])# 统计中国每个省店铺的数量 china_data &＃61; df[df["Country"] &＃61;&＃61; "CN"]# 按照省分组 grouped &＃61; china_data.groupby(by&＃61;"State/Province").count()["Brand"]print(grouped)# 将数据按照多个条件分组 grouped &＃61; df["Brand"].groupby(by&＃61;[df["Country"],df["State/Province"]]).count() print(grouped) print(type(grouped))# 按多条件进行分组,返回DataFrame grouped1 &＃61; df[["Brand"]].groupby(by&＃61;[df["Country"],df["State/Province"]]).count() grouped2 &＃61; df.groupby(by&＃61;[df["Country"],df["State/Province"]]).count()[["Brand"]] grouped3 &＃61; df.groupby(by&＃61;[df["Country"],df["State/Province"]])[["Brand"]].count()print(grouped1,type(grouped1)) # print("*"*50) print(grouped2,type(grouped2)) # print("*"*50) print(grouped3,type(grouped3)) #

分组和聚合:

在pandas中类似的分组的操作我们有很简单的方式来完成df.groupby(by&＃61;"columns_name")grouped &＃61; df.groupby(by&＃61;"columns_name") grouped是一个DataFrameGroupBy对象,是可迭代的 grouped中的每一个元素是一个元组元组里面是&＃xff08;索引(分组的值),分组之后的DataFrame&＃xff09;如果我们需要对国家和省份进行分组统计,应该怎么操作呢&＃xff1f;grouped &＃61; df.groupby(by&＃61;[df["Country"],df["State/Province"]])很多时候我们只希望对获取分组之后的某一部分数据,或者说我们只希望对某几列数据进行分组,这个时候我们应该怎么办呢&＃xff1f;获取分组之后的某一部分数据:df.groupby(by&＃61;["Country","State/Province"])["Country"].count()对某几列数据进行分组:df["Country"].groupby(by&＃61;[df["Country"],df["State/Province"]]).count()观察结果,由于只选择了一列数据,所以结果是一个Series类型t1 &＃61; df[["Country"]].groupby(by&＃61;[df["Country"],df["State/Province"]]).count()t2 &＃61; df.groupby(by&＃61;["Country","State/Province"])[["Country"]].count()以上的两条命令结果一样和之前的结果的区别在于当前返回的是一个DataFrame类型.DataFrameGroupBy对象有很多经过优化的方法:函数名说明count 分组中非NA值的数量 sum 非NA值的和 mean 非NA值的平均值 median 非NA值的算术中位数 std、var 无偏&＃xff08;分母为n-1&＃xff09;标准差和方差min、max 非NA值的最小值和最大值

索引和复合索引:

简单的索引操作&＃xff1a; 获取index: df.index 指定index: df.index &＃61; [&＃39;x&＃39;,&＃39;y&＃39;] 重新设置index: df.reindex(list("abcedf")) # 新的index对应的值都为NaN 指定某一列作为index: df.set_index("Country",drop&＃61;False) # drop为False时在数据中保留原来的列返回index的唯一值: df.set_index("Country").index.unique()假设a为一个DataFrame,那么当a.set_index(["c","d"])即设置两个索引的时候是什么样子的结果呢&＃xff1f;a &＃61; pd.DataFrame({&＃39;a&＃39;: range(7),&＃39;b&＃39;: range(7, 0, -1),&＃39;c&＃39;: [&＃39;one&＃39;,&＃39;one&＃39;,&＃39;one&＃39;,&＃39;two&＃39;,&＃39;two&＃39;,&＃39;two&＃39;, &＃39;two&＃39;],&＃39;d&＃39;: list("hjklmno")})

Series复合索引:

In [52]: a Out[52]: a b c d 0 0 7 one h 1 1 6 one j 2 2 5 one k 3 3 4 two l 4 4 3 two m 5 5 2 two n 6 6 1 two oIn [53]: X &＃61; a.set_index(["c","d"])["a"]In [54]: X Out[54]: c d one h 0j 1k 2 two l 3m 4n 5o 6 Name: a, dtype: int64In [55]: X["one","h"] # Series符合索引取值,直接在括号里面写索引就行 Out[55]: 0In [10]: type(X) Out[10]: pandas.core.series.SeriesIn [11]: X.swaplevel() # 交换索引的里外层 Out[11]: d c h one 0 j one 1 k one 2 l two 3 m two 4 n two 5 o two 6 Name: a, dtype: int64In [12]: X.swaplevel()["h"] # 此时可以直接取"h"索引 Out[12]: c one 0 Name: a, dtype: int64In [13]: X.index.levels Out[13]: FrozenList([[&＃39;one&＃39;, &＃39;two&＃39;], [&＃39;h&＃39;, &＃39;j&＃39;, &＃39;k&＃39;, &＃39;l&＃39;, &＃39;m&＃39;, &＃39;n&＃39;, &＃39;o&＃39;]])In [14]: X.swaplevel().index.levels Out[14]: FrozenList([[&＃39;h&＃39;, &＃39;j&＃39;, &＃39;k&＃39;, &＃39;l&＃39;, &＃39;m&＃39;, &＃39;n&＃39;, &＃39;o&＃39;], [&＃39;one&＃39;, &＃39;two&＃39;]])In [18]: a Out[18]: a b c d 0 0 7 one h 1 1 6 one j 2 2 5 one k 3 3 4 two l 4 4 3 two m 5 5 2 two n 6 6 1 two oIn [19]: x &＃61; a.set_index(["c","d"])[["a"]] # pandas.core.frame.DataFrameIn [20]: x Out[20]: a c d one h 0j 1k 2 two l 3m 4n 5o 6In [21]: x.loc["one"] Out[21]: a d h 0 j 1 k 2In [22]: x.loc["one"].loc["h"] Out[22]: a 0 Name: h, dtype: int64

根据上个例题的数据:

使用matplotlib呈现出店铺总数排名前10的国家
使用matplotlib呈现出中国每个城市的店铺数量

代码1:

import pandas as pd from matplotlib import pyplot as plt# 准备数据 df &＃61; pd.read_csv("./starbucks_store_worldwide.csv")# 提取数据 country_data &＃61; df.groupby(by&＃61;"Country")["Brand"].count().sort_values(ascending&＃61;False)[:10]# 设置图片大小 plt.figure(figsize&＃61;(20,8),dpi&＃61;80)# 画条型图 plt.bar(range(len(country_data)),country_data,width&＃61;0.4,color&＃61;"pink")# 设置x刻度 plt.xticks(range(len(country_data)),country_data.index)# 显示图片 plt.show()

效果图:

在这里插入图片描述

代码2:

import pandas as pd from matplotlib import pyplot as plt import matplotlibfont &＃61; {&＃39;family&＃39; : &＃39;WenQuanYi Micro Hei&＃39;,&＃39;weight&＃39; : &＃39;bold&＃39;, &＃39;size&＃39; : &＃39;10&＃39;} # 设置中文字体 matplotlib.rc("font",**font)# 准备数据 df &＃61; pd.read_csv("./starbucks_store_worldwide.csv")print(df.info())# 提取数据 df &＃61; df[df["Country"]&＃61;&＃61;"CN"] china_data &＃61; df.groupby(by&＃61;"City")["Brand"].count().sort_values(ascending&＃61;False)[:25] print(china_data)# 设置图片大小 plt.figure(figsize&＃61;(20,8),dpi&＃61;80)# 绘制直方图 plt.bar(range(25),china_data.values,width&＃61;0.4,color&＃61;"green")# 设置x刻度 plt.xticks(range(25),china_data.index)# 显示图片 plt.show()

效果图:

在这里插入图片描述

例题:

现在我们有全球排名靠前的10000本书的数据&＃xff0c;那么请统计一下下面几个问题&＃xff1a;

不同年份书的数量
不同年份书的平均评分情况

收据来源&＃xff1a;https://www.kaggle.com/zygmunt/goodbooks-10k

数据格式:

在这里插入图片描述

代码:

import pandas as pd from matplotlib import pyplot as plt# 准备数据 df &＃61; pd.read_csv("./books.csv") # print(df.info()) # print(df.head(1))# 去除空数据所在行 # df &＃61; df[pd.notnull(df["original_publication_year"])] # 提取数据 # data_book_count &＃61; df.groupby(by&＃61;"original_publication_year").count()["title"]data_book_avg &＃61; df["average_rating"].groupby(by&＃61;df["original_publication_year"]).mean()_x &＃61; data_book_avg.index _y &＃61; data_book_avg.values # 设置图片大小 plt.figure(figsize&＃61;(20,8),dpi&＃61;80)# 画折线图 plt.plot(range(len(_x)),_y)# 设置x刻度 plt.xticks(list(range(len(_x)))[::10],_x[::10],rotation&＃61;45)# 显示 plt.show()

效果图:

在这里插入图片描述

推荐阅读

ip
logistic回归（线性和非线性）的开发笔记

本文由编程笔记#小编为大家整理，主要介绍了logistic回归（线性和非线性）相关的知识，包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-12-14 21:40:43
ip
Linux重启网络命令实例及关机和重启示例教程

本文介绍了Linux系统中重启网络命令的实例，以及使用不同方式关机和重启系统的示例教程。包括使用图形界面和控制台访问系统的方法，以及使用shutdown命令进行系统关机和重启的句法和用法。 ... [详细]

蜡笔小新 2023-12-14 15:52:52
ip
CF：3D City Model（小思维）问题解析和代码实现

本文通过解析CF：3D City Model问题，介绍了问题的背景和要求，并给出了相应的代码实现。该问题涉及到在一个矩形的网格上建造城市的情景，每个网格单元可以作为建筑的基础，建筑由多个立方体叠加而成。文章详细讲解了问题的解决思路，并给出了相应的代码实现供读者参考。 ... [详细]

蜡笔小新 2023-12-13 14:17:11
ip
MooTools和JQuery并排 - MooTools and JQuery Side by Side

IjustinheritedsomewebpageswhichusesMooTools.IneverusedMooTools.NowIneedtoaddsomef ... [详细]

蜡笔小新 2023-12-12 13:43:58
utf-8
基于dlib的人脸68特征点提取(眨眼张嘴检测)python版本

文章目录引言开发环境和库流程设计张嘴和闭眼的检测引言(1)利用Dlib官方训练好的模型“shape_predictor_68_face_landmarks.dat”进行68个点标定 ... [详细]

蜡笔小新 2023-12-12 13:27:42
perl
欢乐的票圈重构之旅——RecyclerView的头尾布局增加

项目重构的Git地址：https:github.comrazerdpFriendCircletreemain-dev项目同步更新的文集：http:www.jianshu.comno ... [详细]

蜡笔小新 2023-12-11 19:09:56
ip
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
ip
baresip android编译、运行教程1语音通话

本文介绍了如何在安卓平台上编译和运行baresip android，包括下载相关的sdk和ndk，修改ndk路径和输出目录，以及创建一个c++的安卓工程并将目录考到cpp下。详细步骤可参考给出的链接和文档。 ... [详细]

蜡笔小新 2023-12-14 10:53:48
ip
使用在线工具jsonschema2pojo根据json生成java对象

本文介绍了使用在线工具jsonschema2pojo根据json生成java对象的方法。通过该工具，用户只需将json字符串复制到输入框中，即可自动将其转换成java对象。该工具还能解析列表式的json数据，并将嵌套在内层的对象也解析出来。本文以请求github的api为例，展示了使用该工具的步骤和效果。 ... [详细]

蜡笔小新 2023-12-13 21:23:45
list
推荐系统遇上深度学习(十七）详解推荐系统中的常用评测指标

原创：石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人，希望在平日的工作学习中，挖掘数据的价值， ... [详细]

蜡笔小新 2023-12-13 19:35:25
process
scrapy存入excel时，excel文件被反复擦除重写。文件大小始终不超过100k，请问这种情况改如何解决

怀疑是每次都在新建文件，具体代码如下 ... [详细]

蜡笔小新 2023-12-13 17:53:49
express
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
express
python创建一个窗口_等一个大佬啊要求用python创建一个窗口，窗口按钮功能是创建一个球体或立方体。明天上课之前交给我...

展开全部下面的代码是创建一个立方体Thisexamplescreatesanddisplaysasimplebox.#Thefirstlineloadstheinit_disp ... [详细]

蜡笔小新 2023-12-13 16:26:09
ip
不同优化算法的比较分析及实验验证

本文介绍了神经网络优化中常用的优化方法，包括学习率调整和梯度估计修正，并通过实验验证了不同优化算法的效果。实验结果表明，Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]

蜡笔小新 2023-12-13 16:05:14
ip
Python瓦片图下载、合并、绘图、标记的代码示例

本文提供了Python瓦片图下载、合并、绘图、标记的代码示例，包括下载代码、多线程下载、图像处理等功能。通过参考geoserver，使用PIL、cv2、numpy、gdal、osr等库实现了瓦片图的下载、合并、绘图和标记功能。代码示例详细介绍了各个功能的实现方法，供读者参考使用。 ... [详细]

蜡笔小新 2023-12-13 12:14:55

活跃的爱味儿县_454

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章