作者:爱这奋斗 | 来源:互联网 | 2023-06-20 16:49
第一章第一节数据加载——载入数据数据集下载https:www.kaggle.comctitanicoverview数据集采用的是kaggle竞赛的官方数据集把数据分块读取
第一章第一节 数据加载——载入数据
- 数据集下载 https://www.kaggle.com/c/titanic/overview
- 数据集采用的是kaggle竞赛的官方数据集
把数据分块读取(chunksize)
更改列名
- 可以选择直接全部更改,甚至可以制定某一行作为第一列的索引列
初步观察
查看前10行和后15行的数据
查看基本数据特征
数据最基础操作——判空
- 以前五行为例:
保存数据到新的csv
第一章第二节 数据加载——pandas基础
pandas中有两个数据类型DateFrame和Series
series如下:
dataframe如下:
查看全部列名
查看某一列的所有取值
删除某一列
del test_1['a']
选择性忽视某些列
- 其中有一个属性为inplace,默认情况下是FALSE,如果设置为TRUE,表明进行对原来数据的覆盖
对列属性的条件筛选
年龄小于10岁的
df[df["Age"]<10].head(3)
以"Age"为条件,将年龄在10岁以上和50岁以下的乘客信息显示出来,并将这个数据命名为midage
midage = df[(df["Age"]>10)& (df["Age"]<50)]
midage.head(3)
reset_index
- 数据清洗时,会将带空值的行删除,此时DataFrame或Series类型的数据不再是连续的索引,可以使用reset_index()重置索引。
选择多行多列数据
midage的数据中第100,105,108行的"Pclass","Name"和"Sex"的数据显示出来
midage.loc[[100,105,108],[&#39;Pclass&#39;,&#39;Name&#39;,&#39;Sex&#39;]]
midage.iloc[[100,105,108],[2,3,4]]
第一章第三节 数据加载——探索性数据分析
按照某一列进行升序、降序排列
frame.sort_values(by=&#39;c&#39;, ascending=True)
- by参数指向要排列的列,ascending参数指向排序的方式(升序还是降序)