当前位置: 开发笔记 > 编程语言 > 正文

pythonpandas处理excel表单整合_使用python处理excel表格——pandas（1）

作者：StrAiGhT-OuT | 来源：互联网 | 2023-10-10 09:57

一.基本概念excel文件打开之后，该文件叫工作簿(workbook)。每个工作簿中包含多张表单(worksheet),正在操作的表单被成为活跃的表单(activew

一.基本概念

excel文件打开之后&＃xff0c;该文件叫工作簿(workbook)。

每个工作簿中包含多张表单(worksheet),正在操作的表单被成为活跃的表单(active worksheet)。

每一张表单中&＃xff0c;有行(row)&＃xff0c;列(column)。行号&＃xff1a;1&＃xff0c;2&＃xff0c;3&＃xff1b;列号A,B,C。

特定的行和列构成单元格(cell)

表单中还会含有索引(index)

二.内容

1.创建文件

A.创建空表格

import pandas as pd

#创建表格,dataframe()空括号表示创建的是空表格

#dataframe为数据帧

df&＃61;pd.DataFrame()

#保存路径

df.to_excel(&＃39;D:/output.xlsx&＃39;)

print(&＃39;Done!&＃39;)

B.创建非空表格

import pandas as pd

#创建表格,dataframe()空括号表示创建的是空表格

#dataframe为数据帧

df&＃61;pd.DataFrame({&＃39;ID&＃39;:[1,2,3],&＃39;NAME&＃39;:[&＃39;Wang&＃39;,&＃39;Zhang&＃39;,&＃39;Lee&＃39;]})

#保存路径

df.to_excel(&＃39;D:/output.xlsx&＃39;)

print(&＃39;Done!&＃39;)

效果&＃xff1a;

前面多出来的这一列为dataframe的索引&＃xff0c;因为我们没有给他指定索引&＃xff0c;所以其自动生成。如果我们想要拿ID这一列做索引&＃xff0c;则&＃xff1a;

import pandas as pd

#创建表格,dataframe()空括号表示创建的是空表格

#dataframe为数据帧

df&＃61;pd.DataFrame({&＃39;ID&＃39;:[1,2,3],&＃39;NAME&＃39;:[&＃39;Wang&＃39;,&＃39;Zhang&＃39;,&＃39;Lee&＃39;]})

df&＃61;df.set_index(&＃39;ID&＃39;)

#保存路径

df.to_excel(&＃39;D:/output.xlsx&＃39;)

print(&＃39;Done!&＃39;)

2.读取文件

【演示文件情况】

该文件内容全为虚构&＃xff0c;没有任何含义&＃xff0c;仅作演示使用

共三个sheet&＃xff1a;sheet1、sheet2、sheet3

其中(不包含标题行)&＃xff1a;

sheet1——(5&＃xff0c;2)、sheet2——(6&＃xff0c;4)、sheet3——(7&＃xff0c;3)

A.读取整个表格

(1)读取有多个sheet的excel

pandas读取的常用格式pd.read_excel(file, sheet_name)&＃xff0c;其中sheetname可以使用数字进行替代&＃xff0c;从0开始&＃xff0c;默认为0

pandas写入的格式为data.to_excel(‘filename’,sheet_name&＃61;‘A’)

import pandas as pd

path &＃61; &＃39;D:\python学习\表格/people.xlsx&＃39;

#读取数据,设置None可以生成一个字典&＃xff0c;字典中的key值即为sheet名字

#此时使用DataFram&＃xff0c;会报错

data &＃61; pd.read_excel(path,None)

print(data.keys())#查看sheet的名字

for sh_name in data.keys():

print(&＃39;sheet名字&＃xff1a;&＃39;,sh_name)

#获得每一个sheet中的内容

sh_data &＃61; pd.DataFrame(pd.read_excel(path,sh_name))

print(sh_data)

结果&＃xff1a;

(2).title在首行

表格样式(sheet1)&＃xff1a;

import pandas as pd

people&＃61;pd.read_excel(&＃39;D:/people.xlsx&＃39;)#读取文件

print(people.shape)#读取行列数

print(people.columns)#读取列名

print(people.head(3))#查看表格内容—head,默认为5行

print(&＃39;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃39;)#分割行

print(people.tail(3))#查看表格内容—tail

结果&＃xff1a;

(3)title不在首行

pandas在读取数据的时候默认&＃xff0c;会默认第0行为title。

-title之前的行为空

正常读取文件&＃xff0c;pandas可以正常识别

-title之前的行非空

只要有一行是脏的&＃xff0c;就需要

表格样式(sheet1)&＃xff1a;

import pandas as pd

people&＃61;pd.read_excel(&＃39;D:/people2.xlsx&＃39;,header&＃61;1)#读取文件

print(people.columns)#读取列名

-无title

import pandas as pd

people&＃61;pd.read_excel(&＃39;D:/people2.xlsx&＃39;,header&＃61;None)#读取文件

people.columns&＃61;[&＃39;名称&＃39;,&＃39;数量&＃39;]#人为设定列名

#将‘名称’列设为索引&＃xff0c;且在原表上进行修改

people.set_index(&＃39;名称&＃39;,inplace&＃61; True)

print(people.columns)#读取列名

people.to_excel(&＃39;D:/output.xlsx&＃39;)#输出为output.xlsx

print(&＃39;DONE!&＃39;)

(如果不认为的设定&＃xff0c;则自动生成0&＃xff0c;1&＃xff0c;2&＃xff0c;3&＃xff0c;为title)

列名只有’数量’&＃xff0c;‘名称’变为了索index

(4).已知index列

在使用pandas进行excel数据表读取的时候&＃xff0c;如不特定指明第一列为index&＃xff0c;则其会默认加一列索引。所以&＃xff0c;如若已知某列为index&＃xff0c;则需指明。

import pandas as pd

#读取文件&＃xff0c;且指定‘名称’列为索引

df&＃61;pd.read_excel(&＃39;D:/output.xlsx&＃39;,index_col&＃61;&＃39;名称&＃39;)

df.to_excel(&＃39;D:/output2.xlsx&＃39;)#生成新的excel文件

print(&＃39;Done!&＃39;)

B.读取某一行、列

(1)读取整个行/列

import pandas as pd

path &＃61; &＃39;D:\python学习\表格/people.xlsx&＃39;

data &＃61; pd.DataFrame(pd.read_excel(path))#读取数据

print(&＃39;行的索引名称&＃xff1a;&＃39;,data.index)#获取行的索引名称

print(&＃39;列的索引名称&＃xff1a;&＃39;,data.columns)#获取列的索引名称

print(&＃39;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃39;)#分割线

print(data[&＃39;名称&＃39;])#获取列名为姓名这一列的内容

print(&＃39;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃39;)#分割线

print(data.loc[0])#获取行名为0这一行的内容

结果&＃xff1a;

(2)读取部分行(筛选)

筛选使用的是 data.loc[列名称 &＃61; 提取的信息]

import pandas as pd

path &＃61; &＃39;D:\python学习\表格/people.xlsx&＃39;

data &＃61; pd.DataFrame(pd.read_excel(path))#读取数据

#获取列名为名称&＃xff0c;内容为“上海市”的内容

result &＃61; data.loc[data[&＃39;名称&＃39;] &＃61;&＃61; &＃39;上海市&＃39;]

print(result)

结果&＃xff1a;

3.生成行、列

行列视为序列(seties)&＃xff0c;则单元格就是不同的序列中的元素。

A.创建series

-从directory转为series

【基础知识】字典-键值对

import pandas as pd

d&＃61;{&＃39;x&＃39;:100,&＃39;y&＃39;:200,&＃39;z&＃39;:300}#生成字典&＃xff0c;由基本键值对构成

print(d.keys())#字典keys集合

print(d.values())#字典values集合

print(d[&＃39;x&＃39;])#查看x&＃xff1a;100这个键值对

结果&＃xff1a;

将directory转变为series&＃xff0c;则keys变为indexs,将values转变为data。

则生成series&＃xff1a;

import pandas as pd

d&＃61;{&＃39;x&＃39;:100,&＃39;y&＃39;:200,&＃39;z&＃39;:300}#生成字典

s1&＃61;pd.Series(d)

print(s1)

print(s1.index)

-直接生成series

import pandas as pd

L1&＃61;(100,2,30)

L2&＃61;(&＃39;x&＃39;,&＃39;y&＃39;,&＃39;z&＃39;)

s1&＃61;pd.Series(L1,index&＃61;L2)

#或者s1&＃61;pd.Series((100,2,30),index&＃61;(&＃39;x&＃39;,&＃39;y&＃39;,&＃39;z&＃39;))

print(s1)

B.创建行、列

将series按照不同的方法加入dataframe中&＃xff0c;就可以创建不同的行和列&＃xff1a;

以list的形式将序列加入dataframe&＃xff0c;则把不同的序列看为一行&＃xff0c;序列的名字看为行号&＃xff1b;以dictory的形式将序列加入dataframe&＃xff0c;则把不同的序列看为一列&＃xff0c;序列的名字看为列名。

-创建列

以directory加入

每个list的index与dataframe中的index呈对齐关系。

“index-index一一对齐”

import pandas as pd

s1&＃61;pd.Series([1,2,3],index&＃61;[1,2,3],name&＃61;&＃39;A&＃39;)#index特指行号

s2&＃61;pd.Series([10,20,30],index&＃61;[1,2,3],name&＃61;&＃39;B&＃39;)

s3&＃61;pd.Series([100,200,300],index&＃61;[1,2,3],name&＃61;&＃39;C&＃39;)

df&＃61;pd.DataFrame({s1.name:s1,s2.name:s2,s3.name:s3})

print(df)

“index-index不对齐”

import pandas as pd

s1&＃61;pd.Series([1,2,3],index&＃61;[1,2,3],name&＃61;&＃39;A&＃39;)#index特指行号

s2&＃61;pd.Series([10,20,30],index&＃61;[1,2,3],name&＃61;&＃39;B&＃39;)

s3&＃61;pd.Series([100,200,300],index&＃61;[2,3,4],name&＃61;&＃39;C&＃39;)

df&＃61;pd.DataFrame({s1.name:s1,s2.name:s2,s3.name:s3})

print(df)

在空值区会自动以NaN填充(NaN:not a number)

-创建行

以list形式

import pandas as pd

s1&＃61;pd.Series([1,2,3],index&＃61;[1,2,3],name&＃61;&＃39;A&＃39;)#index特指行号

s2&＃61;pd.Series([10,20,30],index&＃61;[1,2,3],name&＃61;&＃39;B&＃39;)

s3&＃61;pd.Series([100,200,300],index&＃61;[1,2,3],name&＃61;&＃39;C&＃39;)

df&＃61;pd.DataFrame([s1,s2,s3])

print(df)

本文地址&＃xff1a;https://blog.csdn.net/mmmmmyyyy/article/details/107641294

如您对本文有疑问或者有任何想说的&＃xff0c;请点击进行留言回复&＃xff0c;万千网友为您解惑&＃xff01;

推荐阅读

python
掌握远程执行Linux脚本和命令的技巧

本文将详细介绍如何利用Python的Paramiko库实现远程执行Linux脚本和命令，帮助读者快速掌握这一实用技能。通过具体的示例和详尽的解释，让初学者也能轻松上手。 ... [详细]

蜡笔小新 2024-12-26 19:47:05
python
深入理解Python的os和sys模块

本文详细解析了Python中的os和sys模块，介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]

蜡笔小新 2024-12-26 22:04:19
python
Python 使用 xlrd 库读取 Excel 文件

本文介绍如何使用 Python 的 xlrd 库读取 Excel 文件，并将其数据处理后存储到数据库中。通过实际案例，详细讲解了文件路径、合并单元格处理等常见问题。 ... [详细]

蜡笔小新 2024-12-24 17:29:27
python
Python 实现字符串双拆分并转换为矩阵

本文介绍如何使用 Python 将一个字符串按照指定的行和元素分隔符进行两次拆分，最终将字符串转换为矩阵形式。通过两种不同的方法实现这一功能：一种是使用循环与 split() 方法，另一种是利用列表推导式。 ... [详细]

蜡笔小新 2024-12-28 12:15:45
int
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
python
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
web
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
python
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
python
Python - 检查列表中是否存在交替峰值

本文介绍如何使用 Python 编写程序，检查给定列表中的元素是否形成交替峰值模式。我们将探讨两种不同的方法来实现这一目标，并提供详细的代码示例。 ... [详细]

蜡笔小新 2024-12-27 15:40:11
python
Python自动化处理：从Word文档提取内容并生成带水印的PDF

本文介绍如何利用Python实现从特定网站下载Word文档，去除水印并添加自定义水印，最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]

蜡笔小新 2024-12-27 13:10:20
int
ABBYY FineReader：高效PDF转换、精准OCR识别与文档对比工具

在处理PDF转换和OCR识别时，您是否遇到过格式混乱、识别率低或图表无法正常识别的问题？ABBYY FineReader以其强大的功能和高精度的识别技术，完美解决这些问题，帮助您轻松找到最终版文档。 ... [详细]

蜡笔小新 2024-12-21 23:24:02
python
Go+ 中的上下文处理指南

本文详细介绍 Go+ 编程语言中的上下文处理机制，涵盖其基本概念、关键方法及应用场景。Go+ 是一门结合了 Go 的高效工程开发特性和 Python 数据科学功能的编程语言。 ... [详细]

蜡笔小新 2024-12-28 11:05:31
io
Deepin系统下MySQL 5.7安装指南

本文详细记录了在基于Debian的Deepin 20操作系统上安装MySQL 5.7的具体步骤，包括软件包的选择、依赖项的处理及远程访问权限的配置。 ... [详细]

蜡笔小新 2024-12-28 10:48:41
io
解决Windows和SSMS中未注册'microsoft.ACE.oledb.12.0'提供程序的问题

本文介绍了解决在Windows操作系统或SQL Server Management Studio (SSMS) 中遇到的“microsoft.ACE.oledb.12.0”提供程序未注册问题的方法，特别针对Access Database Engine组件的安装。 ... [详细]

蜡笔小新 2024-12-21 15:21:22
go
Java SpringMVC SSM 实现多模块集成：操作日志、文件管理、头像编辑、权限控制及缓存优化

本文介绍了一个基于 Java SpringMVC 和 SSM 框架的综合系统，涵盖了操作日志记录、文件管理、头像编辑、权限控制、以及多种技术集成如 Shiro、Redis 等，旨在提供一个高效且功能丰富的开发平台。 ... [详细]

蜡笔小新 2024-12-20 19:17:47

StrAiGhT-OuT

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章