pandasframe删除一行_Pandas进阶修炼120题完整版

作者：MYJIE2502897603 | 来源：互联网 | 2023-10-12 18:15

↑关注星标~有趣的不像个技术号每晚九点，我们准时相约作者：刘早起来源：早起python，禁止二次转载『Pandas进阶修炼1

↑ 关注 &＃43; 星标 ~ 有趣的不像个技术号每晚九点&＃xff0c;我们准时相约

作者&＃xff1a;刘早起

来源&＃xff1a;早起python&＃xff0c;禁止二次转载

『Pandas进阶修炼120题』系列现已完结&＃xff0c;我们对Pandas中常用的操作以习题的形式发布。从读取数据到高级操作全部包含&＃xff0c;希望可以通过刷题的方式来完整学习pandas中数据处理的各种方法&＃xff0c;当然如果你是高手&＃xff0c;也欢迎尝试给出与答案不同的解法。

1创建DataFrame题目&＃xff1a;将下面的字典创建为DataFrame

data &＃61; {"grammer":["Python","C","Java","GO",np.nan,"SQL","PHP","Python"], "score":[1,2,np.nan,4,5,6,7,10]}难度&＃xff1a;⭐期望结果

答案&＃xff1a;

df &＃61; pd.DataFrame(data)本期所有题目均基于该数据框给出 2数据提取题目&＃xff1a;提取含有字符串"Python"的行难度&＃xff1a;⭐⭐期望结果

grammer score 0 Python 1.0 7 Python 10.0答案&＃xff1a;

result&＃61;df[df[&＃39;grammer&＃39;].str.contains("Python")]3提取列名题目&＃xff1a;输出df的所有列名难度&＃xff1a;⭐期望结果

Index([&＃39;grammer&＃39;, &＃39;score&＃39;], dtype&＃61;&＃39;object&＃39;)答案

df.columns4修改列名题目&＃xff1a;修改第二列列名为&＃39;popularity&＃39;难度&＃xff1a;⭐⭐答案

df.rename(columns&＃61;{&＃39;score&＃39;:&＃39;popularity&＃39;}, inplace &＃61; True)5字符统计题目&＃xff1a;统计grammer列中每种编程语言出现的次数难度&＃xff1a;⭐⭐答案

df[&＃39;grammer&＃39;].value_counts()6缺失值处理题目&＃xff1a;将空值用上下值的平均值填充难度&＃xff1a;⭐⭐⭐答案

df[&＃39;popularity&＃39;] &＃61; df[&＃39;popularity&＃39;].fillna(df[&＃39;popularity&＃39;].interpolate())7数据提取题目&＃xff1a;提取popularity列中值大于3的行难度&＃xff1a;⭐⭐答案

df[df[&＃39;popularity&＃39;] > 3]8数据去重题目&＃xff1a;按照grammer列进行去重难度&＃xff1a;⭐⭐答案

df.drop_duplicates([&＃39;grammer&＃39;])9数据计算题目&＃xff1a;计算popularity列平均值难度&＃xff1a;⭐⭐答案

df[&＃39;popularity&＃39;].mean()10格式转换题目&＃xff1a;将grammer列转换为list难度&＃xff1a;⭐⭐答案

df[&＃39;grammer&＃39;].to_list()11数据保存题目&＃xff1a;将DataFrame保存为EXCEL难度&＃xff1a;⭐⭐答案

df.to_excel(&＃39;filename.xlsx&＃39;)12数据查看题目&＃xff1a;查看数据行列数难度&＃xff1a;⭐答案

df.shape13数据提取题目&＃xff1a;提取popularity列值大于3小于7的行难度&＃xff1a;⭐⭐答案

df[(df[&＃39;popularity&＃39;] > 3) & (df[&＃39;popularity&＃39;] 7)]14位置处理题目&＃xff1a;交换两列位置难度&＃xff1a;⭐⭐⭐答案

&＃39;&＃39;&＃39; 方法1 &＃39;&＃39;&＃39; temp &＃61; df[&＃39;popularity&＃39;] df.drop(labels&＃61;[&＃39;popularity&＃39;], axis&＃61;1,inplace &＃61; True) df.insert(0, &＃39;popularity&＃39;, temp) df &＃39;&＃39;&＃39; 方法2 cols &＃61; df.columns[[1,0]] df &＃61; df[cols] df &＃39;&＃39;&＃39;15数据提取题目&＃xff1a;提取popularity列最大值所在行难度&＃xff1a;⭐⭐答案

df[df[&＃39;popularity&＃39;] &＃61;&＃61; df[&＃39;popularity&＃39;].max()]16数据查看题目&＃xff1a;查看最后5行数据难度&＃xff1a;⭐答案

df.tail()17数据修改题目&＃xff1a;删除最后一行数据难度&＃xff1a;⭐答案

df.drop([len(df)-1],inplace&＃61;True)18数据修改题目&＃xff1a;添加一行数据[&＃39;Perl&＃39;,6.6]难度&＃xff1a;⭐⭐答案

row&＃61;{&＃39;grammer&＃39;:&＃39;Perl&＃39;,&＃39;popularity&＃39;:6.6} df &＃61; df.append(row,ignore_index&＃61;True)19数据整理题目&＃xff1a;对数据按照"popularity"列值的大小进行排序难度&＃xff1a;⭐⭐答案

df.sort_values("popularity",inplace&＃61;True)20字符统计题目&＃xff1a;统计grammer列每个字符串的长度难度&＃xff1a;⭐⭐⭐答案

df[&＃39;grammer&＃39;].map(lambda x: len(x))

第二期&＃xff1a;数据处理基础

21数据读取题目&＃xff1a;读取本地EXCEL数据难度&＃xff1a;⭐答案

df &＃61; pd.read_excel(&＃39;pandas120.xlsx&＃39;)

本期部分习题与该数据相关

22数据查看题目&＃xff1a;查看df数据前5行难度&＃xff1a;⭐期望输出

答案

df.head()23数据计算题目&＃xff1a;将salary列数据转换为最大值与最小值的平均值难度&＃xff1a;⭐⭐⭐⭐期望输出

答案

#备注&＃xff0c;在某些版本pandas中.ix方法可能失效&＃xff0c;可使用.iloc&＃xff0c;参考https://mp.weixin.qq.com/s/5xJ-VLaHCV9qX2AMNOLRtw #为什么不能直接使用max&＃xff0c;min函数&＃xff0c;因为我们的数据中是20k-35k这种字符串&＃xff0c;所以需要先用正则表达式提取数字 import re for i in range(len(df)): str1 &＃61; df.ix[i,2] k &＃61; re.findall(r"\d&＃43;\.?\d*",str1) salary &＃61; ((int(k[0]) &＃43; int(k[1]))/2)*1000 df.ix[i,2] &＃61; salary df24数据分组题目&＃xff1a;将数据根据学历进行分组并计算平均薪资难度&＃xff1a;⭐⭐⭐期望输出

education salary 不限 19600.000000 大专 10000.000000 本科 19361.344538 硕士 20642.857143答案

df.groupby(&＃39;education&＃39;).mean()25时间转换题目&＃xff1a;将createTime列时间转换为月-日难度&＃xff1a;⭐⭐⭐期望输出

答案

#备注&＃xff0c;在某些版本pandas中.ix方法可能失效&＃xff0c;可使用.iloc&＃xff0c;参考https://mp.weixin.qq.com/s/5xJ-VLaHCV9qX2AMNOLRtw for i in range(len(df)): df.ix[i,0] &＃61; df.ix[i,0].to_pydatetime().strftime("%m-%d") df.head()26数据查看题目&＃xff1a;查看索引、数据类型和内存信息难度&＃xff1a;⭐期望输出

RangeIndex: 135 entries, 0 to 134 Data columns (total 4 columns): createTime 135 non-null object education 135 non-null object salary 135 non-null int64 categories 135 non-null category dtypes: category(1), int64(1), object(2) memory usage: 3.5&＃43; KB答案

df.info()27数据查看题目&＃xff1a;查看数值型列的汇总统计难度&＃xff1a;⭐答案

df.describe()28数据整理题目&＃xff1a;新增一列根据salary将数据分为三组难度&＃xff1a;⭐⭐⭐⭐输入期望输出

答案

bins &＃61; [0,5000, 20000, 50000] group_names &＃61; [&＃39;低&＃39;, &＃39;中&＃39;, &＃39;高&＃39;] df[&＃39;categories&＃39;] &＃61; pd.cut(df[&＃39;salary&＃39;], bins, labels&＃61;group_names)29数据整理题目&＃xff1a;按照salary列对数据降序排列难度&＃xff1a;⭐⭐答案

df.sort_values(&＃39;salary&＃39;, ascending&＃61;False)30数据提取题目&＃xff1a;取出第33行数据难度&＃xff1a;⭐⭐答案

df.loc[32]31数据计算题目&＃xff1a;计算salary列的中位数难度&＃xff1a;⭐⭐答案

np.median(df[&＃39;salary&＃39;])32数据可视化题目&＃xff1a;绘制薪资水平频率分布直方图难度&＃xff1a;⭐⭐⭐期望输出

答案

df.salary.plot(kind&＃61;&＃39;hist&＃39;)33数据可视化题目&＃xff1a;绘制薪资水平密度曲线难度&＃xff1a;⭐⭐⭐期望输出

答案

df.salary.plot(kind&＃61;&＃39;kde&＃39;,xlim&＃61;(0,80000))34数据删除题目&＃xff1a;删除最后一列categories难度&＃xff1a;⭐答案

del df[&＃39;categories&＃39;]35数据处理题目&＃xff1a;将df的第一列与第二列合并为新的一列难度&＃xff1a;⭐⭐答案

df[&＃39;test&＃39;] &＃61; df[&＃39;education&＃39;]&＃43;df[&＃39;createTime&＃39;]36数据处理题目&＃xff1a;将education列与salary列合并为新的一列难度&＃xff1a;⭐⭐⭐备注&＃xff1a;salary为int类型&＃xff0c;操作与35题有所不同答案

df["test1"] &＃61; df["salary"].map(str) &＃43; df[&＃39;education&＃39;]37数据计算题目&＃xff1a;计算salary最大值与最小值之差难度&＃xff1a;⭐⭐⭐答案

df[[&＃39;salary&＃39;]].apply(lambda x: x.max() - x.min())38数据处理题目&＃xff1a;将第一行与最后一行拼接难度&＃xff1a;⭐⭐答案

pd.concat([df[:1], df[-2:-1]])39数据处理题目&＃xff1a;将第8行数据添加至末尾难度&＃xff1a;⭐⭐答案

df.append(df.iloc[7])40数据查看题目&＃xff1a;查看每列的数据类型难度&＃xff1a;⭐期望结果

createTime object education object salary int64 test object test1 object dtype: object答案

df.dtypes41数据处理题目&＃xff1a;将createTime列设置为索引难度&＃xff1a;⭐⭐答案

df.set_index("createTime")42数据创建题目&＃xff1a;生成一个和df长度相同的随机数dataframe难度&＃xff1a;⭐⭐答案

df1 &＃61; pd.DataFrame(pd.Series(np.random.randint(1, 10, 135)))43数据处理题目&＃xff1a;将上一题生成的dataframe与df合并难度&＃xff1a;⭐⭐答案

df&＃61; pd.concat([df,df1],axis&＃61;1)44数据计算题目&＃xff1a;生成新的一列new为salary列减去之前生成随机数列难度&＃xff1a;⭐⭐答案

df["new"] &＃61; df["salary"] - df[0]45缺失值处理题目&＃xff1a;检查数据中是否含有任何缺失值难度&＃xff1a;⭐⭐⭐答案

df.isnull().values.any()46数据转换题目&＃xff1a;将salary列类型转换为浮点数难度&＃xff1a;⭐⭐⭐答案

df[&＃39;salary&＃39;].astype(np.float64)47数据计算题目&＃xff1a;计算salary大于10000的次数难度&＃xff1a;⭐⭐答案

len(df[df[&＃39;salary&＃39;]>10000])48数据统计题目&＃xff1a;查看每种学历出现的次数难度&＃xff1a;⭐⭐⭐期望输出

本科 119 硕士 7 不限 5 大专 4 Name: education, dtype: int64答案

df.education.value_counts()49数据查看题目&＃xff1a;查看education列共有几种学历难度&＃xff1a;⭐⭐答案

df[&＃39;education&＃39;].nunique()50数据提取题目&＃xff1a;提取salary与new列的和大于60000的最后3行难度&＃xff1a;⭐⭐⭐⭐期望输出

答案

df1 &＃61; df[[&＃39;salary&＃39;,&＃39;new&＃39;]] rowsums &＃61; df1.apply(np.sum, axis&＃61;1) res &＃61; df.iloc[np.where(rowsums > 60000)[0][-3:], :]

第三期&＃xff1a;金融数据处理

51数据读取题目&＃xff1a;使用绝对路径读取本地Excel数据难度&＃xff1a;⭐答案

data &＃61; pd.read_excel(&＃39;/Users/Desktop/600000.SH.xls&＃39;)

备注

请将答案中路径替换为自己机器存储数据的绝对路径&＃xff0c;本期相关习题与该数据有关

52数据查看题目&＃xff1a;查看数据前三行难度&＃xff1a;⭐期望结果

答案

data.head(3)53缺失值处理题目&＃xff1a;查看每列数据缺失值情况难度&＃xff1a;⭐⭐期望结果

代码 1 简称 2 日期 2 前收盘价(元) 2 开盘价(元) 2 最高价(元) 2 最低价(元) 2 收盘价(元) 2 成交量(股) 2 成交金额(元) 2 .................

答案

data.isnull().sum()54缺失值处理题目&＃xff1a;提取日期列含有空值的行难度&＃xff1a;⭐⭐期望结果

答案

data[data[&＃39;日期&＃39;].isnull()]55缺失值处理题目&＃xff1a;输出每列缺失值具体行数难度&＃xff1a;⭐⭐⭐期望结果

列名&＃xff1a;"代码", 第[327]行位置有缺失值列名&＃xff1a;"简称", 第[327, 328]行位置有缺失值列名&＃xff1a;"日期", 第[327, 328]行位置有缺失值列名&＃xff1a;"前收盘价(元)", 第[327, 328]行位置有缺失值列名&＃xff1a;"开盘价(元)", 第[327, 328]行位置有缺失值列名&＃xff1a;"最高价(元)", 第[327, 328]行位置有缺失值列名&＃xff1a;"最低价(元)", 第[327, 328]行位置有缺失值列名&＃xff1a;"收盘价(元)", 第[327, 328]行位置有缺失值 ................

答案

for columname in data.columns: if data[columname].count() !&＃61; len(data): loc &＃61; data[columname][data[columname].isnull().values&＃61;&＃61;True].index.tolist() print(&＃39;列名&＃xff1a;"{}", 第{}行位置有缺失值&＃39;.format(columname,loc))56缺失值处理题目&＃xff1a;删除所有存在缺失值的行难度&＃xff1a;⭐⭐答案

data.dropna(axis&＃61;0, how&＃61;&＃39;any&＃39;, inplace&＃61;True)

备注

axis&＃xff1a;0-行操作(默认)&＃xff0c;1-列操作 how&＃xff1a;any-只要有空值就删除(默认)&＃xff0c;all-全部为空值才删除 inplace&＃xff1a;False-返回新的数据集(默认)&＃xff0c;True-在原数据集上操作57数据可视化题目&＃xff1a;绘制收盘价的折线图难度&＃xff1a;⭐⭐期望结果

答案

data[&＃39;收盘价(元)&＃39;].plot()58数据可视化题目&＃xff1a;同时绘制开盘价与收盘价难度&＃xff1a;⭐⭐⭐期望结果

答案

data[[&＃39;收盘价(元)&＃39;,&＃39;开盘价(元)&＃39;]].plot()

备注

中文显示请自己设置&＃xff0c;我的字体乱了

59数据可视化题目&＃xff1a;绘制涨跌幅的直方图难度&＃xff1a;⭐⭐期望结果

答案

data[&＃39;涨跌幅(%)&＃39;].hist()60数据可视化题目&＃xff1a;让直方图更细致难度&＃xff1a;⭐⭐期望结果

答案

data[&＃39;涨跌幅(%)&＃39;].hist(bins &＃61; 30)61数据创建题目&＃xff1a;以data的列名创建一个dataframe难度&＃xff1a;⭐⭐答案

temp &＃61; pd.DataFrame(columns &＃61; data.columns.to_list())62异常值处理题目&＃xff1a;打印所有换手率不是数字的行难度&＃xff1a;⭐⭐⭐期望结果

答案

for i in range(len(data)): if type(data.iloc[i,13]) !&＃61; float: temp &＃61; temp.append(data.loc[i]) temp63异常值处理题目&＃xff1a;打印所有换手率为--的行难度&＃xff1a;⭐⭐⭐答案

data[data[&＃39;换手率(%)&＃39;].isin([&＃39;--&＃39;])]

备注

通过上一题我们发现换手率的异常值只有--

64数据处理题目&＃xff1a;重置data的行号难度&＃xff1a;⭐答案

data &＃61; data.reset_index()

备注

有时我们修改数据会导致索引混乱

65异常值处理题目&＃xff1a;删除所有换手率为非数字的行难度&＃xff1a;⭐⭐⭐答案

k &＃61;[] for i in range(len(data)): if type(data.iloc[i,13]) !&＃61; float: k.append(i) data.drop(labels&＃61;k,inplace&＃61;True)66数据可视化题目&＃xff1a;绘制换手率的密度曲线难度&＃xff1a;⭐⭐⭐期望结果

答案

data[&＃39;换手率(%)&＃39;].plot(kind&＃61;&＃39;kde&＃39;)67数据计算题目&＃xff1a;计算前一天与后一天收盘价的差值难度&＃xff1a;⭐⭐答案

data[&＃39;收盘价(元)&＃39;].diff()68数据计算题目&＃xff1a;计算前一天与后一天收盘价变化率难度&＃xff1a;⭐⭐答案

data[&＃39;收盘价(元)&＃39;].pct_change()69数据处理题目&＃xff1a;设置日期为索引难度&＃xff1a;⭐答案

data.set_index(&＃39;日期&＃39;)70指标计算

题目&＃xff1a;以5个数据作为一个数据滑动窗口&＃xff0c;在这个5个数据上取均值(收盘价)

难度&＃xff1a;⭐⭐⭐答案

data[&＃39;收盘价(元)&＃39;].rolling(5).mean()71指标计算

题目&＃xff1a;以5个数据作为一个数据滑动窗口&＃xff0c;计算这五个数据总和(收盘价)

难度&＃xff1a;⭐⭐⭐答案

data[&＃39;收盘价(元)&＃39;].rolling(5).sum()72数据可视化

题目&＃xff1a;将收盘价5日均线、20日均线与原始数据绘制在同一个图上

难度&＃xff1a;⭐⭐⭐期望结果

答案

data[&＃39;收盘价(元)&＃39;].plot() data[&＃39;收盘价(元)&＃39;].rolling(5).mean().plot() data[&＃39;收盘价(元)&＃39;].rolling(20).mean().plot()73数据重采样

题目&＃xff1a;按周为采样规则&＃xff0c;取一周收盘价最大值

难度&＃xff1a;⭐⭐⭐ 答案

data[&＃39;收盘价(元)&＃39;].resample(&＃39;W&＃39;).max()74Spyder——Python编程的“热带雨林”

题目&＃xff1a;绘制重采样数据与原始数据

难度&＃xff1a;⭐⭐⭐ 期望结果

答案

data[&＃39;收盘价(元)&＃39;].plot() data[&＃39;收盘价(元)&＃39;].resample(&＃39;7D&＃39;).max().plot()75数据处理题目&＃xff1a;将数据往后移动5天难度&＃xff1a;⭐⭐答案

data.shift(5)76数据处理题目&＃xff1a;将数据向前移动5天难度&＃xff1a;⭐⭐答案

data.shift(-5)77数据计算题目&＃xff1a;使用expending函数计算开盘价的移动窗口均值难度&＃xff1a;⭐⭐答案

data[&＃39;开盘价(元)&＃39;].expanding(min_periods&＃61;1).mean()78数据可视化题目&＃xff1a;绘制上一题的移动均值与原始数据折线图难度&＃xff1a;⭐⭐⭐期望结果

答案

data[&＃39; expanding Open mean&＃39;]&＃61;data[&＃39;开盘价(元)&＃39;].expanding(min_periods&＃61;1).mean() data[[&＃39;开盘价(元)&＃39;, &＃39;expanding Open mean&＃39;]].plot(figsize&＃61;(16, 6))79数据计算题目&＃xff1a;计算布林指标难度&＃xff1a;⭐⭐⭐⭐答案

data[&＃39;former 30 days rolling Close mean&＃39;]&＃61;data[&＃39;收盘价(元)&＃39;].rolling(20).mean() data[&＃39;upper bound&＃39;]&＃61;data[&＃39;former 30 days rolling Close mean&＃39;]&＃43;2*data[&＃39;收盘价(元)&＃39;].rolling(20).std()#在这里我们取20天内的标准差 data[&＃39;lower bound&＃39;]&＃61;data[&＃39;former 30 days rolling Close mean&＃39;]-2*data[&＃39;收盘价(元)&＃39;].rolling(20).std()80数据可视化题目&＃xff1a;计算布林线并绘制难度&＃xff1a;⭐⭐⭐期望结果

答案

data[[&＃39;收盘价(元)&＃39;, &＃39;former 30 days rolling Close mean&＃39;,&＃39;upper bound&＃39;,&＃39;lower bound&＃39; ]].plot(figsize&＃61;(16, 6))

第四期&＃xff1a;当Pandas遇上NumPy

81数据查看题目&＃xff1a;导入并查看pandas与numpy版本难度&＃xff1a;⭐答案

import pandas as pd import numpy as np print(np.__version__) print(pd.__version__)82数据创建题目&＃xff1a;从NumPy数组创建DataFrame难度&＃xff1a;⭐备注使用numpy生成20个0-100随机数答案

tem &＃61; np.random.randint(1,100,20) df1 &＃61; pd.DataFrame(tem)83数据创建题目&＃xff1a;从NumPy数组创建DataFrame难度&＃xff1a;⭐备注使用numpy生成20个0-100固定步长的数答案

tem &＃61; np.arange(0,100,5) df2 &＃61; pd.DataFrame(tem)84数据创建题目&＃xff1a;从NumPy数组创建DataFrame难度&＃xff1a;⭐备注使用numpy生成20个指定分布(如标准正态分布)的数答案

tem &＃61; np.random.normal(0, 1, 20) df3 &＃61; pd.DataFrame(tem)85数据创建题目&＃xff1a;将df1&＃xff0c;df2&＃xff0c;df3按照行合并为新DataFrame难度&＃xff1a;⭐⭐答案

df &＃61; pd.concat([df1,df2,df3],axis&＃61;0,ignore_index&＃61;True)86数据创建题目&＃xff1a;将df1&＃xff0c;df2&＃xff0c;df3按照列合并为新DataFrame难度&＃xff1a;⭐⭐期望结果

0 1 2 0 95 0 0.022492 1 22 5 -1.209494 2 3 10 0.876127 3 21 15 -0.162149 4 51 20 -0.815424 5 30 25 -0.303792 ...............答案

df &＃61; pd.concat([df1,df2,df3],axis&＃61;1,ignore_index&＃61;True) df87数据查看题目&＃xff1a;查看df所有数据的最小值、25%分位数、中位数、75%分位数、最大值难度&＃xff1a;⭐⭐答案

print(np.percentile(df, q&＃61;[0, 25, 50, 75, 100]))88数据修改题目&＃xff1a;修改列名为col1,col2,col3难度&＃xff1a;⭐答案

df.columns &＃61; [&＃39;col1&＃39;,&＃39;col2&＃39;,&＃39;col3&＃39;]89数据提取题目&＃xff1a;提取第一列中不在第二列出现的数字难度&＃xff1a;⭐⭐⭐答案

df[&＃39;col1&＃39;][~df[&＃39;col1&＃39;].isin(df[&＃39;col2&＃39;])]90数据提取题目&＃xff1a;提取第一列和第二列出现频率最高的三个数字难度&＃xff1a;⭐⭐⭐答案

temp &＃61; df[&＃39;col1&＃39;].append(df[&＃39;col2&＃39;]) temp.value_counts().index[:3]91数据提取题目&＃xff1a;提取第一列中可以整除5的数字位置难度&＃xff1a;⭐⭐⭐答案

np.argwhere(df[&＃39;col1&＃39;] % 5&＃61;&＃61;0)92数据计算题目&＃xff1a;计算第一列数字前一个与后一个的差值难度&＃xff1a;⭐⭐答案

df[&＃39;col1&＃39;].diff().tolist()93数据处理题目&＃xff1a;将col1,col2,clo3三列顺序颠倒难度&＃xff1a;⭐⭐答案

df.ix[:, ::-1]94数据提取题目&＃xff1a;提取第一列位置在1,10,15的数字难度&＃xff1a;⭐⭐答案

df[&＃39;col1&＃39;].take([1,10,15])95数据查找题目&＃xff1a;查找第一列的局部最大值位置难度&＃xff1a;⭐⭐⭐⭐备注即比它前一个与后一个数字的都大的数字答案

tem &＃61; np.diff(np.sign(np.diff(df[&＃39;col1&＃39;]))) np.where(tem &＃61;&＃61; -2)[0] &＃43; 196数据计算题目&＃xff1a;按行计算df的每一行均值难度&＃xff1a;⭐⭐答案

df[[&＃39;col1&＃39;,&＃39;col2&＃39;,&＃39;col3&＃39;]].mean(axis&＃61;1)97数据计算题目&＃xff1a;对第二列计算移动平均值难度&＃xff1a;⭐⭐⭐备注每次移动三个位置&＃xff0c;不可以使用自定义函数答案

np.convolve(df[&＃39;col2&＃39;], np.ones(3)/3, mode&＃61;&＃39;valid&＃39;)98数据修改题目&＃xff1a;将数据按照第三列值的大小升序排列难度&＃xff1a;⭐⭐答案

df.sort_values("col3",inplace&＃61;True)99数据修改题目&＃xff1a;将第一列大于50的数字修改为&＃39;高&＃39;难度&＃xff1a;⭐⭐答案

df.col1[df[&＃39;col1&＃39;] > 50]&＃61; &＃39;高&＃39;100数据计算题目&＃xff1a;计算第一列与第二列之间的欧式距离难度&＃xff1a;⭐⭐⭐备注不可以使用自定义函数答案

np.linalg.norm(df[&＃39;col1&＃39;]-df[&＃39;col2&＃39;])

第五期&＃xff1a;一些补充

101数据读取题目&＃xff1a;从CSV文件中读取指定数据难度&＃xff1a;⭐⭐备注从数据1中的前10行中读取positionName, salary两列答案

df &＃61; pd.read_csv(&＃39;数据1.csv&＃39;,encoding&＃61;&＃39;gbk&＃39;, usecols&＃61;[&＃39;positionName&＃39;, &＃39;salary&＃39;],nrows &＃61; 10)102数据读取题目&＃xff1a;从CSV文件中读取指定数据难度&＃xff1a;⭐⭐备注从数据2中读取数据并在读取数据时将薪资大于10000的为改为高

答案

df &＃61; pd.read_csv(&＃39;数据2.csv&＃39;,converters&＃61;{&＃39;薪资水平&＃39;: lambda x: &＃39;高&＃39; if float(x) > 10000 else &＃39;低&＃39;} )103数据计算题目&＃xff1a;从dataframe提取数据难度&＃xff1a;⭐⭐⭐备注从上一题数据中&＃xff0c;对薪资水平列每隔20行进行一次抽样

期望结果

答案

df.iloc[::20, :][[&＃39;薪资水平&＃39;]]104数据处理题目&＃xff1a;将数据取消使用科学计数法难度&＃xff1a;⭐⭐输入

df &＃61; pd.DataFrame(np.random.random(10)**10, columns&＃61;[&＃39;data&＃39;])

期望结果

答案

df.round(3)105数据处理题目&＃xff1a;将上一题的数据转换为百分数难度&＃xff1a;⭐⭐⭐期望结果

答案

df.style.format({&＃39;data&＃39;: &＃39;{0:.2%}&＃39;.format})106数据查找题目&＃xff1a;查找上一题数据中第3大值的行号难度&＃xff1a;⭐⭐⭐答案

df[&＃39;data&＃39;].argsort()[::-1][7]107数据处理题目&＃xff1a;反转df的行难度&＃xff1a;⭐⭐答案

df.iloc[::-1, :]108数据重塑题目&＃xff1a;按照多列对数据进行合并难度&＃xff1a;⭐⭐输入

df1&＃61; pd.DataFrame({&＃39;key1&＃39;: [&＃39;K0&＃39;, &＃39;K0&＃39;, &＃39;K1&＃39;, &＃39;K2&＃39;], &＃39;key2&＃39;: [&＃39;K0&＃39;, &＃39;K1&＃39;, &＃39;K0&＃39;, &＃39;K1&＃39;], &＃39;A&＃39;: [&＃39;A0&＃39;, &＃39;A1&＃39;, &＃39;A2&＃39;, &＃39;A3&＃39;], &＃39;B&＃39;: [&＃39;B0&＃39;, &＃39;B1&＃39;, &＃39;B2&＃39;, &＃39;B3&＃39;]}) df2&＃61; pd.DataFrame({&＃39;key1&＃39;: [&＃39;K0&＃39;, &＃39;K1&＃39;, &＃39;K1&＃39;, &＃39;K2&＃39;], &＃39;key2&＃39;: [&＃39;K0&＃39;, &＃39;K0&＃39;, &＃39;K0&＃39;, &＃39;K0&＃39;], &＃39;C&＃39;: [&＃39;C0&＃39;, &＃39;C1&＃39;, &＃39;C2&＃39;, &＃39;C3&＃39;], &＃39;D&＃39;: [&＃39;D0&＃39;, &＃39;D1&＃39;, &＃39;D2&＃39;, &＃39;D3&＃39;]})答案

pd.merge(df1, df2, on&＃61;[&＃39;key1&＃39;, &＃39;key2&＃39;])109数据重塑题目&＃xff1a;按照多列对数据进行合并难度&＃xff1a;⭐⭐

备注

只保存df1的数据

答案

pd.merge(df1, df2, how&＃61;&＃39;left&＃39;, on&＃61;[&＃39;key1&＃39;, &＃39;key2&＃39;])110数据处理题目&＃xff1a;再次读取数据1并显示所有的列难度&＃xff1a;⭐⭐备注数据中由于列数较多中间列不显示答案

df &＃61; pd.read_csv(&＃39;数据1.csv&＃39;,encoding&＃61;&＃39;gbk&＃39;) pd.set_option("display.max.columns", None) df111数据查找题目&＃xff1a;查找secondType与thirdType值相等的行号难度&＃xff1a;⭐⭐答案

np.where(df.secondType &＃61;&＃61; df.thirdType)112数据查找题目&＃xff1a;查找薪资大于平均薪资的第三个数据难度&＃xff1a;⭐⭐⭐答案

np.argwhere(df[&＃39;salary&＃39;] > df[&＃39;salary&＃39;].mean())[2]113数据计算题目&＃xff1a;将上一题数据的salary列开根号难度&＃xff1a;⭐⭐答案

df[[&＃39;salary&＃39;]].apply(np.sqrt)114数据处理题目&＃xff1a;将上一题数据的linestaion列按_拆分难度&＃xff1a;⭐⭐答案

df[&＃39;split&＃39;] &＃61; df[&＃39;linestaion&＃39;].str.split(&＃39;_&＃39;)115数据查看题目&＃xff1a;查看上一题数据中一共有多少列难度&＃xff1a;⭐答案

df.shape[1]116数据提取题目&＃xff1a;提取industryField列以&＃39;数据&＃39;开头的行难度&＃xff1a;⭐⭐答案

df[df[&＃39;industryField&＃39;].str.startswith(&＃39;数据&＃39;)]117数据计算题目&＃xff1a;按列制作数据透视表难度&＃xff1a;⭐⭐⭐答案

pd.pivot_table(df,values&＃61;["salary","score"],index&＃61;"positionId")118数据计算题目&＃xff1a;同时对salary、score两列进行计算难度&＃xff1a;⭐⭐⭐答案

df[["salary","score"]].agg([np.sum,np.mean,np.min])119数据计算题目&＃xff1a;对不同列执行不同的计算难度&＃xff1a;⭐⭐⭐备注对salary求平均&＃xff0c;对score列求和答案

df.agg({"salary":np.sum,"score":np.mean})120数据计算题目&＃xff1a;计算并提取平均薪资最高的区难度&＃xff1a;⭐⭐⭐⭐答案

df[[&＃39;district&＃39;,&＃39;salary&＃39;]].groupby(by&＃61;&＃39;district&＃39;).mean().sort_values(&＃39;salary&＃39;,ascending&＃61;False).head(1)

以上就是Pandas进阶修炼120题全部内容&＃xff0c;如果能坚持走到这里的读者&＃xff0c;我想你已经掌握了处理数据的常用操作&＃xff0c;并且在之后的数据分析中碰到相关问题&＃xff0c;希望武装了Pandas的你能够从容的解决&＃xff01;

另外我已将习题与源码整理成电子版&＃xff0c;后台回复 120 即可下载

近期文章&＃xff0c;点击图片即刻查看

后台回复「进群」&＃xff0c;加入读者交流群~

昨日最多赞留言“HeoiJinChan”&＃43;26积分&＃xff1b;

纯眼熟留言“瓜”&＃43;50积分

点击「积分」&＃xff0c;了解积分规则~

五

【凹凸数据】本次联合【机械工业出版社】为大家送上1本《Hive性能调优实战》&＃xff0c;限时500积分即可兑换&＃xff0c;先到先得

朱小五

pandasframe删除一行_Pandas进阶修炼120题完整版

Dockerfile 编写与 Docker 网络配置详解

golang常用库：配置文件解析库/管理工具viper使用

使用Numpy实现无外部库依赖的双线性插值图像缩放

Transforming the Future of Virtual Worlds

技术分享：从动态网站提取站点密钥的解决方案

Java 中的 BigDecimal pow()方法，示例

FastJSON解析与数据提取技巧

新浪笔试题

网络链路质量监控：Smokeping部署与配置

DNN Community 和 Professional 版本的主要差异

使用 SQLiteJDBC 和 HikariCP 实现 Java 程序连接 SQLite 数据库

Vue 2 中解决页面刷新和按钮跳转导致导航栏样式失效的问题

DataGridView 保存时，为什么当前单元格的值无法保存？

在 Linux 系统中部署 PostgreSQL 数据库

解决SQL Server动态SQL中LIKE语句参数传递导致无返回值的问题