热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

pythonpandas处理excel表单整合_使用python处理excel表格——pandas(1)

一.基本概念excel文件打开之后,该文件叫工作簿(workbook)。每个工作簿中包含多张表单(worksheet),正在操作的表单被成为活跃的表单(activew

一.基本概念

excel文件打开之后,该文件叫工作簿(workbook)。

每个工作簿中包含多张表单(worksheet),正在操作的表单被成为活跃的表单(active worksheet)。

每一张表单中,有行(row),列(column)。行号:1,2,3;列号A,B,C。

特定的行和列构成单元格(cell)

表单中还会含有索引(index)

二.内容

1.创建文件

A.创建空表格

import pandas as pd

#创建表格,dataframe()空括号表示创建的是空表格

#dataframe为数据帧

df=pd.DataFrame()

#保存路径

df.to_excel('D:/output.xlsx')

print('Done!')

B.创建非空表格

import pandas as pd

#创建表格,dataframe()空括号表示创建的是空表格

#dataframe为数据帧

df=pd.DataFrame({'ID':[1,2,3],'NAME':['Wang','Zhang','Lee']})

#保存路径

df.to_excel('D:/output.xlsx')

print('Done!')

效果:

前面多出来的这一列为dataframe的索引,因为我们没有给他指定索引,所以其自动生成。如果我们想要拿ID这一列做索引,则:

import pandas as pd

#创建表格,dataframe()空括号表示创建的是空表格

#dataframe为数据帧

df=pd.DataFrame({'ID':[1,2,3],'NAME':['Wang','Zhang','Lee']})

df=df.set_index('ID')

#保存路径

df.to_excel('D:/output.xlsx')

print('Done!')

2.读取文件

【演示文件情况】

该文件内容全为虚构,没有任何含义,仅作演示使用

共三个sheet:sheet1、sheet2、sheet3

其中(不包含标题行):

sheet1——(5,2)、sheet2——(6,4)、sheet3——(7,3)

A.读取整个表格

(1)读取有多个sheet的excel

pandas读取的常用格式pd.read_excel(file, sheet_name),其中sheetname可以使用数字进行替代,从0开始,默认为0

pandas写入的格式为data.to_excel(‘filename’,sheet_name=‘A’)

import pandas as pd

import pandas as pd

path = 'D:\python学习\表格/people.xlsx'

#读取数据,设置None可以生成一个字典,字典中的key值即为sheet名字

#此时使用DataFram,会报错

data = pd.read_excel(path,None)

print(data.keys())#查看sheet的名字

for sh_name in data.keys():

print('sheet名字:',sh_name)

#获得每一个sheet中的内容

sh_data = pd.DataFrame(pd.read_excel(path,sh_name))

print(sh_data)

结果:

(2).title在首行

表格样式(sheet1):

import pandas as pd

people=pd.read_excel('D:/people.xlsx')#读取文件

print(people.shape)#读取行列数

print(people.columns)#读取列名

print(people.head(3))#查看表格内容—head,默认为5行

print('=========================')#分割行

print(people.tail(3))#查看表格内容—tail

结果:

(3)title不在首行

pandas在读取数据的时候默认,会默认第0行为title。

-title之前的行为空

正常读取文件,pandas可以正常识别

-title之前的行非空

只要有一行是脏的,就需要

表格样式(sheet1):

import pandas as pd

people=pd.read_excel('D:/people2.xlsx',header=1)#读取文件

print(people.columns)#读取列名

-无title

import pandas as pd

people=pd.read_excel('D:/people2.xlsx',header=None)#读取文件

people.columns=['名称','数量']#人为设定列名

#将‘名称’列设为索引,且在原表上进行修改

people.set_index('名称',inplace= True)

print(people.columns)#读取列名

people.to_excel('D:/output.xlsx')#输出为output.xlsx

print('DONE!')

(如果不认为的设定,则自动生成0,1,2,3,为title)

列名只有’数量’,‘名称’变为了索index

(4).已知index列

在使用pandas进行excel数据表读取的时候,如不特定指明第一列为index,则其会默认加一列索引。所以,如若已知某列为index,则需指明。

import pandas as pd

#读取文件,且指定‘名称’列为索引

df=pd.read_excel('D:/output.xlsx',index_col='名称')

df.to_excel('D:/output2.xlsx')#生成新的excel文件

print('Done!')

B.读取某一行、列

(1)读取整个行/列

import pandas as pd

path = 'D:\python学习\表格/people.xlsx'

data = pd.DataFrame(pd.read_excel(path))#读取数据

print('行的索引名称:',data.index)#获取行的索引名称

print('列的索引名称:',data.columns)#获取列的索引名称

print('======================')#分割线

print(data['名称'])#获取列名为姓名这一列的内容

print('======================')#分割线

print(data.loc[0])#获取行名为0这一行的内容

结果:

(2)读取部分行(筛选)

筛选使用的是 data.loc[列名称 = 提取的信息]

import pandas as pd

path = 'D:\python学习\表格/people.xlsx'

data = pd.DataFrame(pd.read_excel(path))#读取数据

#获取列名为名称,内容为“上海市”的内容

result = data.loc[data['名称'] == '上海市']

print(result)

结果:

3.生成行、列

行列视为序列(seties),则单元格就是不同的序列中的元素。

A.创建series

-从directory转为series

【基础知识】字典-键值对

import pandas as pd

d={'x':100,'y':200,'z':300}#生成字典,由基本键值对构成

print(d.keys())#字典keys集合

print(d.values())#字典values集合

print(d['x'])#查看x:100这个键值对

结果:

将directory转变为series,则keys变为indexs,将values转变为data。

则生成series:

import pandas as pd

d={'x':100,'y':200,'z':300}#生成字典

s1=pd.Series(d)

print(s1)

print(s1.index)

-直接生成series

import pandas as pd

L1=(100,2,30)

L2=('x','y','z')

s1=pd.Series(L1,index=L2)

#或者s1=pd.Series((100,2,30),index=('x','y','z'))

print(s1)

B.创建行、列

将series按照不同的方法加入dataframe中,就可以创建不同的行和列:

以list的形式将序列加入dataframe,则把不同的序列看为一行,序列的名字看为行号;以dictory的形式将序列加入dataframe,则把不同的序列看为一列,序列的名字看为列名。

-创建列

以directory加入

每个list的index与dataframe中的index呈对齐关系。

“index-index一一对齐”

import pandas as pd

s1=pd.Series([1,2,3],index=[1,2,3],name='A')#index特指行号

s2=pd.Series([10,20,30],index=[1,2,3],name='B')

s3=pd.Series([100,200,300],index=[1,2,3],name='C')

df=pd.DataFrame({s1.name:s1,s2.name:s2,s3.name:s3})

print(df)

“index-index不对齐”

import pandas as pd

s1=pd.Series([1,2,3],index=[1,2,3],name='A')#index特指行号

s2=pd.Series([10,20,30],index=[1,2,3],name='B')

s3=pd.Series([100,200,300],index=[2,3,4],name='C')

df=pd.DataFrame({s1.name:s1,s2.name:s2,s3.name:s3})

print(df)

在空值区会自动以NaN填充(NaN:not a number)

-创建行

以list形式

import pandas as pd

s1=pd.Series([1,2,3],index=[1,2,3],name='A')#index特指行号

s2=pd.Series([10,20,30],index=[1,2,3],name='B')

s3=pd.Series([100,200,300],index=[1,2,3],name='C')

df=pd.DataFrame([s1,s2,s3])

print(df)

本文地址:https://blog.csdn.net/mmmmmyyyy/article/details/107641294

如您对本文有疑问或者有任何想说的,请点击进行留言回复,万千网友为您解惑!



推荐阅读
  • 本文详细解析了Python中的os和sys模块,介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]
  • 掌握远程执行Linux脚本和命令的技巧
    本文将详细介绍如何利用Python的Paramiko库实现远程执行Linux脚本和命令,帮助读者快速掌握这一实用技能。通过具体的示例和详尽的解释,让初学者也能轻松上手。 ... [详细]
  • 本文介绍如何使用Python进行文本处理,包括分词和生成词云图。通过整合多个文本文件、去除停用词并生成词云图,展示文本数据的可视化分析方法。 ... [详细]
  • PyCharm下载与安装指南
    本文详细介绍如何从官方渠道下载并安装PyCharm集成开发环境(IDE),涵盖Windows、macOS和Linux系统,同时提供详细的安装步骤及配置建议。 ... [详细]
  • 本文详细介绍如何使用Python进行配置文件的读写操作,涵盖常见的配置文件格式(如INI、JSON、TOML和YAML),并提供具体的代码示例。 ... [详细]
  • 技术分享:从动态网站提取站点密钥的解决方案
    本文探讨了如何从动态网站中提取站点密钥,特别是针对验证码(reCAPTCHA)的处理方法。通过结合Selenium和requests库,提供了详细的代码示例和优化建议。 ... [详细]
  • 1.如何在运行状态查看源代码?查看函数的源代码,我们通常会使用IDE来完成。比如在PyCharm中,你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢?当我们想使用一个函 ... [详细]
  • 本文详细介绍了如何使用 Yii2 的 GridView 组件在列表页面实现数据的直接编辑功能。通过具体的代码示例和步骤,帮助开发者快速掌握这一实用技巧。 ... [详细]
  • 本文深入探讨 MyBatis 中动态 SQL 的使用方法,包括 if/where、trim 自定义字符串截取规则、choose 分支选择、封装查询和修改条件的 where/set 标签、批量处理的 foreach 标签以及内置参数和 bind 的用法。 ... [详细]
  • Python自动化处理:从Word文档提取内容并生成带水印的PDF
    本文介绍如何利用Python实现从特定网站下载Word文档,去除水印并添加自定义水印,最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]
  • 离线环境下的Python及其第三方库安装指南
    在项目开发中,有时会遇到电脑只能连接内网或完全无法联网的情况。本文将详细介绍如何在这种环境下安装Python及其所需的第三方库,确保开发工作的顺利进行。 ... [详细]
  • 本文介绍如何使用 Python 提取和替换 .docx 文件中的图片。.docx 文件本质上是压缩文件,通过解压可以访问其中的图片资源。此外,我们还将探讨使用第三方库 docx 的方法来简化这一过程。 ... [详细]
  • 使用Python在SAE上开发新浪微博应用的初步探索
    最近重新审视了新浪云平台(SAE)提供的服务,发现其已支持Python开发。本文将详细介绍如何利用Django框架构建一个简单的新浪微博应用,并分享开发过程中的关键步骤。 ... [详细]
  • 根据最新发布的《互联网人才趋势报告》,尽管大量IT从业者已转向Python开发,但随着人工智能和大数据领域的迅猛发展,仍存在巨大的人才缺口。本文将详细介绍如何使用Python编写一个简单的爬虫程序,并提供完整的代码示例。 ... [详细]
  • 本文详细介绍了Python中文件的基本操作,包括打开、读取、写入和关闭文件的方法,并通过实例展示了如何将Excel文件转换为CSV文件以及进一步转换为HTML文件。此外,还涉及了成绩等级替换的具体实现。 ... [详细]
author-avatar
StrAiGhT-OuT
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有