sh说明:本pandas非卧龙的pandas,而是Python众多科学计算包中的pandas。
本次Pandas的简洁介绍,针对的是此包的新手,但已假设你已懂得Python语言的基本语法,以及安装了Pandas包。如需了解更多Pandas包的高级用法,请移步此链接:
Cookbook - pandas 0.25.3 documentationpandas.pydata.org
(一)给使用者的话
pandas拥有简洁、优雅、明确的两种基本数据结构,此二者将使对关系型数据的处理变得便捷和直观。
pandas的以上特点使它的用户在分析来自现实世界(无论是观测值还是统计值)的数据方面,可以不关注其内部实现细节,做到“拿来即用”。
此外,pandas有它自己更好的愿景,那就是做一个可以对接任何编程语言的开源数据分析工具。
适用于pandas的数据类型很丰富。
- 例如表格型数据,就像SQL表格和Excel表格中的数据结构(译者的话,Pandas的实现机制不要求每一列的每个数据值都同属一个Python语言的内置数据类型,但使用同一数据类型,可使程序的运行时间缩短。)
- 有序的和无序的(不要求频率相同)时间序列数据。
- 任意拥有列标签和行标签的矩阵数据,矩阵里面的数值数据类型可要求不同(译者的话,我觉得在此,仍然使用相同数据类型好一点,使用不同数据类型对时间要求不可能不变,假设为O(n),想一想,如果你处理百万数量级数据呢?对为i5的电脑恐怕也是够呛的吧?提升到千万级别呢?)
- 任何其他的观测值和统计值数据集。这些数据就真的不必带着标签奔入pandas的怀抱了。
Pandas拥有两大内置数据结构,一维数据结构-Series,二维数据结构-DataFrame。这两个数据结构被广泛应用于处理金融、统计、社会科学和其他工程领域。对于R语言的使用者来说,DataFrame带来了远远超过R语言data.frame提供的便利。pandas是基于Numpy而建立的(当然,绝不是对Numpy的简单包装),通过与其他Python包结合,旨在共同建立一个可用来进行科学计算的环境。
pandas擅长哪些事呢?
- 处理缺失值,无论是在浮点数和非浮点数中;
- 可调整大小:比如在二维数据结构的列可被增加或者删除,在更高维的数据结构中亦如此;
- 自动的和明确的数据值对齐,此种操作通过数据集的标签来对齐,或者使用者跳过标签,让Series互相对其或者DataFrame互相对齐,如果在你的计算中,你有此必要。
- 强有力和灵活的聚合函数,让你在执行分列、合并、使用其他函数去计合、转置数据时显得得心应手。
- 在Numpy和Python的其他数据结构中,若存在着数据值类型凌乱的、索引不同的数据集,你可以使用Pandas很方便地将其转换为Pandas的DataFrame对象。
- 对较大的数据集实现以列标签为基础地切片、索引和子设置。
- 直观地合并和加入其他数据集。
- 灵活地调整和透视其他数据集。
- Hierarchical labeling of axes (possible to have multiple labels per tick)轴的分层标记中(这里的轴就是:比如一个有三张表(三张DataFrame)的数据集中,则每一张表就是一个轴,而tick表示是对列的抽象,每一个具体的列对象用一个列标签表示,若仍有疑惑的,可翻一翻此链接https://matplotlib.org/api/axes_api.html?highlight=axes#module-matplotlib.axes)。
- 便捷的数据导入导出接口,这些数据可来自CSV或者txt文本,execl文件,数据库,以及HDF5文档。
- 时间序列数据的特殊处理,比如日期范围的生成,抽取频率的确定,移动窗口、线性回归,日期偏移和滞后等(可看看,这个链接https://zhuanlan.zhihu.com/p/92349149)。
以上这些原则可以帮助我们克服使用其他语言的科学计算包而遇到的不便。
数据的科学计算通常被拆解成以下的流程:
- 清洗和一致化数据;
- 分析和建模;
- 可视化数据分析结果;
pandas对其中的各个流程都是理想的工具。
pandas还有其他特点
- pandas的运行效率高。因为Cython像C语言一样接近底层的算术运算单元,而Cython是一种编译型语言,旨在用来实现CPython拓展模块(或许这个链接解释地更清楚,https://cn.bing.com/search?q=what%20is%20Cython%20code&qs=n&form=QBRE&sp=-1&pq=what%20is%20cython%20code&sc=1-19&sk=&cvid=90868BB6518047D88FECB36BE1DED43D),pandas就是其中的拓展模块。
- pandas是一个独立地统计计算模块,这使它成为Python科学计算系统中地重要组成部分。
- pandas在金融数据分析应用中具有可拓展性。
Padnas数据结构
为何不止一种数据结构?
我们何不认为pandas数据结构是其更低维度数据结构的容器呢?比如,DataFrame是序列的容器(如上图所示),序列是标量的容器(标量就是一个具体的数值)。我们可以像使用Python内置数据结构dict一样对这些容器对象进行插入或者移除。
对于使用过Numpy中ndarray的人来说,会问:对时间序列或者样本数据集的方向控制,pandas会提供哪些API方法呢?
译者举个实例
假设我们导入一个6维数据呢,若以此方法,这是不是让人眼花缭乱呢?
但pandas的表格型数据结构(DataFrame)使用索引(表示行)和标签(表示列)来帮助大家减轻这种精神负担。
DataFrame中的列是可迭代的对象,说明如下:
for col in df.columns:series = df[col]# do something with series
数据的可变性和数据复制
所有pandas数据结构中的数值都是可变的,但不是所有数据结构中的大小是可变的。
比如,Series的长度是不能改变的,但是列缺可以被插入DataFrame中。然而因为有大量产生新DataFrame对象的方法,因此可以让新进来的数据进入新表中。保持DataFrame的大小不变,在大多数情况下是个明智的选择。
(二)正式介绍pandas的方法
本次翻译包含这样几个方面:
(1)对象的创建
Pandas的基本数据结构为序列和dataframe
(2)数据查看
以行的方式、以列的方式、以索引的方式、以Numpy数组的方式、以转置的方式、以轴的方式、以某一列作为筛选列的方式
(3)数据索引或切片、定位
以索引来选择选择数据,方法自然被称为数据索引,选取某(几)列或某(几)行,方法自然被称为数据切片;选取数据通过类似于横纵坐标的方式,方法自然被称为数据定位;
增加列的方式
作为以上的拓展,还有以布尔值判断作为数据索引或切片、定位的方式,以及增加列;
(4)缺失值的处理
Pandas在处理缺失值方面,使用其自定义的方法,np.nan。
(5)使用Pandas处理数据的基本方法
比如在数据清理方面,pandas有其可直接使用的方法,但实际中,数据清理过程可能略显复杂,因此还可以使用Pandas的apply函数,它是以其他函数作为参数。
(6)值计数
(7)处理字符串的方法
这里要求Series内部值得数据类型为字符,而后便按照字符串惯有的处理方法,比如典型的有字母序。
(8)合并和加入
对于Series和DataFrame对象的合并,pandas提供了许多便捷的方法,比如join和merge-type操作。
不过,此合并的内部逻辑是:按照索引值来合并在一起或者进行算术运算。
(9)聚合函数
聚合函数(group by)大大减少了我们对pandas数据对象进行复杂操作的步骤。
它可以和其他函数写在同一行代码中,通过“点语法”。
这些复杂操作方法包括如下:
- Splitting
- Applying
- Combining
(10)栈
(11)透视表
(12)时间序列
pandas在样本选取方式的修改上,有着堪称简洁、优雅、明确的方法。涉及的方式修改上包括频率的修改、时间戳的修改。
这些方法可以被运用在但不限于金融数据的处理上。
(13)数值类型化
DataFrame是能够容纳一些表属性的数据的。
(15)可视化
在DataFrame或者Series对象中,实现数据可视化可用plot()方法。
(16)数据的导入与导出
支持的格式有csv、text、xlsx。
(17)异常
正式开始
- 导入此包的规范
2.对象创建
通过以list作为参数,来创建一个Series对象,pandas给这个对象加上默认的索引值。
通过以Numpy数组作为参数,创建一个DataFrame对象,日期时间对象作索引,并且给它加上列标签。
通过传入dict作为参数
DataFrame对象-字典作为参数此时,每个列的数据类型可不同。
查看数据类型用dtypes方法3.查看数据
怎样查看DataFrame的最上面几行和最下面几行呢?
显示索引和列名
DataFrame.to_numpy()给了我们一个像查看数组一样得方法,不过数组还有索引,此方法返回得结果既无索引,也无列名。
如果使用此方法,一旦列之间得数据类型不同,则付出的时间代价是很大的,这或许来自pandas和numpy的基础性差别:Numpy的数组是一种数据类型,而pandas得DataFrames的列与列之间可为不同数据类型。但DataFrame拥有两种或两种以上的不同数据类型时,DataFrame.to_numpy()返回的结果有一个表示此结果为object的对象,object为Python语言中抽象级别最高的对象,比如所有类都是从object继承过来的。
describe()可以对数据做描述性统计。
数据转置
通过列排序
列排序列排序的可视化列排序的可视化通过值排序
大家看到B标签那个突起的倒三角形没?那个是spyderIDE提供的,很方便吧!根本不用输入这些函数!!!选取
1.Getting
选取一个单列,返回一个Series对象,效果等同于df.A
通过[],可以对行进行切片
可以自己传入表示区间的整数
也可以传入索引
通过loc函数
1.传入某一索引值,返回此索引值所在行的全部数据值。
2.传入两个参数,两个参数都可作为目标范围。
倘若要得到一个具体的标量值呢?
此时,at函数和loc函数具有同样的效果定位
不管你传入几个一个参数,还是两个参数,第一个参数一定是表示索引的区间,第二个参数表示列的区间。
比如我要选取每一列的第三行
比如我要选取一二列的第四行和第五行呢?
比如我要隔一行隔一列的取呢?
如果我要索引列只选取部分,而选择全部其他列呢?,没错!用‘:’来作贪婪匹配!
如果要选取全部索引列呢?没错,我们也用贪婪匹配,
如果要实现精确打击呢?根据上面的推理,我们给每个位置参数传入一个整数就行了。
你看,出现iat了用boolean值来选取
如果我们要选取想某一列的值全部大于零呢?
如果我们想对DataFrame表格全部大于零的值进行选取呢?
假如我们像选取某个特定的数据值呢?
假如我们要加一个新的列呢?
这里我们先创建一个新序列,毕竟你的有数据加上去啊!
加入一个新的列,
倘若我们要对某一值进行重置呢?道理是一样的,先进行定位,定位之后再赋值
此时第二种方法,写法上更简单点,只需传入两个合理的整数即可,没错就是iat函数了,
把某个列的值全部进行替换,也是进行定位,然后再赋值。
还可以用布尔值进行定位,然后再赋值
以上便是查看数据部分,很简单吧,拿来就用!!!,现在介绍缺失值处理部分!!!
处理缺失值
对于缺失值,我们是不能进行任何计算的!
我们先根据df创造一个新的dataframe出来,这个新的dataframe具有如下特点,首先它的索引值变成了4个,然后增加一个新的列,新列的部分值成为了1.这样,我们可以复习下,上卖弄的方法。
没错,这里的主要需要解决的就是重置索引值,我们使用reindex函数。
假设我们要删除有缺失值的每一行呢?,使用dropna函数,传入how条件表示的参数
如果我们想给缺失值补上一个值呢?
如果我们想把缺失值用True来表示呢?以方便进一步使用统计推断方法呢?
现在就开始对数据使用初步的统计推断方法了。
求平均值
假如我们想求每一列的平均值?
假如我们想求某一行的平均值?
今天先改到这了。。。。。。