热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

pandas数据处理常用函数demo之创建/行列操作/查看/文件操作

pandas是Python下强大的数据分析工具,这篇文章代码主要来自于10Minutestopandas,我将示例代码进行了重跑和修改,基本可以满足所有操作,但是使用更高级的功

pandas是Python下强大的数据分析工具,这篇文章代码主要来自于
10 Minutes to pandas,我将示例代码进行了重跑和修改,基本可以满足所有操作,但是使用更高级的功能可以达到事半功倍的效果:原文如下:
http://pandas.pydata.org/pandas-docs/stable/10min.html
初次使用pandas,很多人最头痛的就是Merge, join等表的操作了,下面这个官方手册用图形的形式形象的展示出来了表操作的方式:
http://pandas.pydata.org/pandas-docs/stable/merging.html

创建dataframe

DataFrame和Series作为padans两个主要的数据结构,是数据处理的载体和基础。

def create():

#create Series
s = pd.Series([1,3,5,np.nan,6,8])
print s

#create dataframe
dates = pd.date_range('20130101', periods=6)
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))
print df

#Creating a DataFrame by passing a dict of objects that can be converted to series-like.
df2 = pd.DataFrame({ 'A' : 1.,
'B' : pd.Timestamp('20130102'),
'C' : pd.Series(1,index=list(range(4)),dtype='float32'),
'D' : np.array([3] * 4,dtype='int32'),
'E' : pd.Categorical(["test","train","test","train"]),
'F' : 'foo' })
print df2
#Having specific dtypes
print df2.dtypes

查看dataframe属性

我们生成数据或者从文件加在数据后,首先要看数据是否符合我们的需求,比如行和列数目,每列的基本统计信息等,这些信息可以让我们认识数据的特点或者检查数据的正确性:

def see():

dates = pd.date_range('20130101', periods=6)
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))
print df

#See the top & bottom rows of the frame'''
print df.head(2)
print df.tail(1)

#Display the index, columns, and the underlying numpy data,num of line and col
print df.index
print df.columns
print df.values
print df.shape[0]
print df.shape[1]

#Describe shows a quick statistic summary of your data
print df.describe()

#Transposing your data
print df.T

#Sorting by an axis,0 is y,1 is x,ascending True is zhengxv,false is daoxv
print df.sort_index(axis=0, ascending=False)

#Sorting by values
print df.sort(column='B')

#see valuenums
print df[0].value_counts()
print df[u'hah'].value_counts()

#see type and change
df.dtypes
df[['two', 'three']] = df[['two', 'three']].astype(float)

选取数据

了解了数据基本信息后,我们可能要对数据进行一些裁剪。很多情况下,我们并不需要数据的全部信息,因此我们要学会选取出我们感兴趣的数据和行列,接下来的例子就是对数据的裁剪:

def selection():

dates = pd.date_range('20130101', periods=6)
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))
print df

#Selecting a single column, which yields a Series, equivalent to df.A
print df['A']
print df.A

#Selecting via [], which slices the rows.
print df[0:3]
print df['20130102':'20130104']

#Selection by Label

#For getting a cross section using a label
print df.loc[dates[0]]

#Selecting on a multi-axis by label
print df.loc[:,['A','B']]

#Showing label slicing, both endpoints are included
print df.loc['20130102':'20130104',['A','B']]

#For getting a scalar value
print df.loc[dates[0],'A']
print df.at[dates[0],'A']


#Selection by Position

#Select via the position of the passed integers
print df.iloc[3]

#By integer slices, acting similar to numpy/python
print df.iloc[3:5,0:2]

#By lists of integer position locations, similar to the numpy/python style
print df.iloc[[1,2,4],[0,2]]

#For slicing rows explicitly
print df.iloc[1:3,:]

#For getting a value explicitly
print df.iloc[1,1]
print df.iat[1,1]


#Boolean Indexing

#Using a single column's values to select data.
print df[df.A > 0]

#Using the isin() method for filtering:
df2 = df.copy()
df2['E'] = ['one', 'one','two','three','four','three']
print df2[df2['E'].isin(['two','four'])]

#A where operation for getting.
print df[df > 0]
df2[df2 > 0] = -df2

#Setting
#Setting a new column automatically aligns the data by the indexes
s1 = pd.Series([1,2,3,4,5,6], index=pd.date_range('20130102', periods=6))
df['F'] = s1
print df

#Setting values by label/index
df.at[dates[0],'A'] = 0
df.iat[0,1] = 0
print df

#Setting by assigning with a numpy array
df.loc[:,'D'] = np.array([5] * len(df))
print df

文件操作

很多时候,我们的数据并不是自己生成的,而是从文件中读取的,数据文件则具有各种各样的来源,下面就展示如何加载和保存数据。pandas提供了多种API,可以加载txt/csv/libsvm等各个格式的数据,完全可以满足数据分析的需求

def file():
ts = pd.Series(np.random.randn(1000), index=pd.date_range('1/1/2000', periods=1000))
df = pd.DataFrame(np.random.randn(1000, 4), index=ts.index,
columns=['A', 'B', 'C', 'D'])
pd.read_csv('foo.csv')
df.to_csv('foo.csv')

推荐阅读
  • 毕业设计:基于机器学习与深度学习的垃圾邮件(短信)分类算法实现
    本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程,并提供了具体的代码示例和实验结果。 ... [详细]
  • 尽管使用TensorFlow和PyTorch等成熟框架可以显著降低实现递归神经网络(RNN)的门槛,但对于初学者来说,理解其底层原理至关重要。本文将引导您使用NumPy从头构建一个用于自然语言处理(NLP)的RNN模型。 ... [详细]
  • 社交网络中的级联行为 ... [详细]
  • 本文详细介绍了Java中org.neo4j.helpers.collection.Iterators.single()方法的功能、使用场景及代码示例,帮助开发者更好地理解和应用该方法。 ... [详细]
  • 本文详细介绍了Java中org.w3c.dom.Text类的splitText()方法,通过多个代码示例展示了其实际应用。该方法用于将文本节点在指定位置拆分为两个节点,并保持在文档树中。 ... [详细]
  • 基于KVM的SRIOV直通配置及性能测试
    SRIOV介绍、VF直通配置,以及包转发率性能测试小慢哥的原创文章,欢迎转载目录?1.SRIOV介绍?2.环境说明?3.开启SRIOV?4.生成VF?5.VF ... [详细]
  • 深入理解Redis的数据结构与对象系统
    本文详细探讨了Redis中的数据结构和对象系统的实现,包括字符串、列表、集合、哈希表和有序集合等五种核心对象类型,以及它们所使用的底层数据结构。通过分析源码和相关文献,帮助读者更好地理解Redis的设计原理。 ... [详细]
  • 开发笔记:9.八大排序
    开发笔记:9.八大排序 ... [详细]
  • 本文详细介绍了如何通过RPM包在Linux系统(如CentOS)上安装MySQL 5.6。涵盖了检查现有安装、下载和安装RPM包、配置MySQL以及设置远程访问和开机自启动等步骤。 ... [详细]
  • 反向投影技术主要用于在大型输入图像中定位特定的小型模板图像。通过直方图对比,它能够识别出最匹配的区域或点,从而确定模板图像在输入图像中的位置。 ... [详细]
  • Python处理Word文档的高效技巧
    本文详细介绍了如何使用Python处理Word文档,涵盖从基础操作到高级功能的各种技巧。我们将探讨如何生成文档、定义样式、提取表格数据以及处理超链接和图片等内容。 ... [详细]
  • 利用决策树预测NBA比赛胜负的Python数据挖掘实践
    本文通过使用2013-14赛季NBA赛程与结果数据集以及2013年NBA排名数据,结合《Python数据挖掘入门与实践》一书中的方法,展示如何应用决策树算法进行比赛胜负预测。我们将详细讲解数据预处理、特征工程及模型评估等关键步骤。 ... [详细]
  • 基因组浏览器中的Wig格式解析
    本文详细介绍了Wiggle(Wig)格式及其在基因组浏览器中的应用,涵盖variableStep和fixedStep两种主要格式的特点、适用场景及具体使用方法。同时,还提供了关于数据值和自定义参数的补充信息。 ... [详细]
  • 深入解析JMeter中的JSON提取器及其应用
    本文详细介绍了如何在JMeter中使用JSON提取器来获取和处理API响应中的数据。特别是在需要将一个接口返回的数据作为下一个接口的输入时,JSON提取器是一个非常有用的工具。 ... [详细]
  • 本文深入探讨了 Python 中的循环结构(包括 for 循环和 while 循环)、函数定义与调用,以及面向对象编程的基础概念。通过详细解释和代码示例,帮助读者更好地理解和应用这些核心编程元素。 ... [详细]
author-avatar
浅笑二度
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有