pandas是Python下强大的数据分析工具,这篇文章代码主要来自于
10 Minutes to pandas,我将示例代码进行了重跑和修改,基本可以满足所有操作,但是使用更高级的功能可以达到事半功倍的效果:原文如下:
http://pandas.pydata.org/pandas-docs/stable/10min.html
初次使用pandas,很多人最头痛的就是Merge, join等表的操作了,下面这个官方手册用图形的形式形象的展示出来了表操作的方式:
http://pandas.pydata.org/pandas-docs/stable/merging.html
创建dataframe
DataFrame和Series作为padans两个主要的数据结构,是数据处理的载体和基础。
def create():
s = pd.Series([1,3,5,np.nan,6,8])
print s
dates = pd.date_range('20130101', periods=6)
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))
print df
df2 = pd.DataFrame({ 'A' : 1.,
'B' : pd.Timestamp('20130102'),
'C' : pd.Series(1,index=list(range(4)),dtype='float32'),
'D' : np.array([3] * 4,dtype='int32'),
'E' : pd.Categorical(["test","train","test","train"]),
'F' : 'foo' })
print df2
print df2.dtypes
查看dataframe属性
我们生成数据或者从文件加在数据后,首先要看数据是否符合我们的需求,比如行和列数目,每列的基本统计信息等,这些信息可以让我们认识数据的特点或者检查数据的正确性:
def see():
dates = pd.date_range('20130101', periods=6)
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))
print df
print df.head(2)
print df.tail(1)
print df.index
print df.columns
print df.values
print df.shape[0]
print df.shape[1]
print df.describe()
print df.T
print df.sort_index(axis=0, ascending=False)
print df.sort(column='B')
print df[0].value_counts()
print df[u'hah'].value_counts()
df.dtypes
df[['two', 'three']] = df[['two', 'three']].astype(float)
选取数据
了解了数据基本信息后,我们可能要对数据进行一些裁剪。很多情况下,我们并不需要数据的全部信息,因此我们要学会选取出我们感兴趣的数据和行列,接下来的例子就是对数据的裁剪:
def selection():
dates = pd.date_range('20130101', periods=6)
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))
print df
print df['A']
print df.A
print df[0:3]
print df['20130102':'20130104']
print df.loc[dates[0]]
print df.loc[:,['A','B']]
print df.loc['20130102':'20130104',['A','B']]
print df.loc[dates[0],'A']
print df.at[dates[0],'A']
print df.iloc[3]
print df.iloc[3:5,0:2]
print df.iloc[[1,2,4],[0,2]]
print df.iloc[1:3,:]
print df.iloc[1,1]
print df.iat[1,1]
print df[df.A > 0]
df2 = df.copy()
df2['E'] = ['one', 'one','two','three','four','three']
print df2[df2['E'].isin(['two','four'])]
print df[df > 0]
df2[df2 > 0] = -df2
s1 = pd.Series([1,2,3,4,5,6], index=pd.date_range('20130102', periods=6))
df['F'] = s1
print df
df.at[dates[0],'A'] = 0
df.iat[0,1] = 0
print df
df.loc[:,'D'] = np.array([5] * len(df))
print df
文件操作
很多时候,我们的数据并不是自己生成的,而是从文件中读取的,数据文件则具有各种各样的来源,下面就展示如何加载和保存数据。pandas提供了多种API,可以加载txt/csv/libsvm等各个格式的数据,完全可以满足数据分析的需求
def file():
ts = pd.Series(np.random.randn(1000), index=pd.date_range('1/1/2000', periods=1000))
df = pd.DataFrame(np.random.randn(1000, 4), index=ts.index,
columns=['A', 'B', 'C', 'D'])
pd.read_csv('foo.csv')
df.to_csv('foo.csv')