用pandas库修改excel文件里的内容，并把excel文件格式存为csv格式，再将csv格式改为html格式

作者：女人放聪明点碧 | 来源：互联网 | 2023-10-16 17:56

假设有Excel文件data.xlsx，其中内容为： ID age height sex weight张三 1 39 181 female 85李四 2 40 180 male 80王五 3 38 178 female 78赵六 4 59 1

假设有Excel文件data.xlsx，其中内容为：

ID age height     sex weight
张三   1   39     181 female      85
李四   2   40     180    male      80
王五   3   38     178 female      78
赵六   4   59     170    male      66

现在需要将这个Excel文件中的数据读入pandas，并且在后续的处理中不关心ID列，还需要把sex列的female替换为1，把sex列的male替换为0。本文演示有关的几个操作。

（1）导入pandas模块

>>> import pandas as pd

（2）把Excel文件中的数据读入pandas

df = pd.read_excel('data.xlsx')
df

执行效果：

   ID age height     sex weight
张三   1   39     181 female      85
李四   2   40     180    male      80
王五   3   38     178 female      78
赵六   4   59     170    male      66

（3）删除ID列

可以得到新的DataFrame：

>>> df.drop('ID', axis=1)
   age height     sex weight
张三   39     181 female      85
李四   40     180    male      80
王五   38     178 female      78
赵六   59     170    male      66

也可以直接在原DataFrame上原地删除：

df.drop('ID', axis=1, inplace=True)
df

   age height     sex weight
张三   39     181 female      85
李四   40     180    male      80
王五   38     178 female      78
赵六   59     170    male      66

（4）替换sex列

方法一：使用replace()方法替换sex列，得到新的DataFrame，如果指定参数inplace=True，则可以原地替换。

>>> df.replace({'female':1, 'male':0})
age height sex weight

df.replace({'female':1, 'male':0})

age height sex weight

张三   39     181    1      85
李四   40     180    0      80
王五   38     178    1      78
赵六   59     170    0      66

方法二：使用map()方法+lambda表达式，原地替换。

df1 = df[:]
df1['sex'] = df1['sex'].map(lambda x:1 if x=='female' else 0)
df1

   age height sex weight
张三   39     181    1      85
李四   40     180    0      80
王五   38     178    1      78
赵六   59     170    0      66

方法三：使用map()方法+字典，原地替换。

df1 = df[:]
df1['sex'] = df1['sex'].map({'female':1, 'male':0})
df1

   age height sex weight
张三   39     181    1      85
李四   40     180    0      80
王五   38     178    1      78
赵六   59     170    0      66

方法四：使用loc类，原地替换。

>>>

df1 = df[:]
>>> df1.loc[df['sex']=='female', 'sex'] = 1
>>> df1.loc[df['sex']=='male', 'sex'] = 0
>>> df1

age height sex weight
张三   39     181   1      85
李四   40     180   0      80
王五   38     178   1      78
赵六   59     170   0      66

二、运用上述功能进行实战

1、先读取一个excel文件：

代码如下：

df = pd.read_excel('file:///D:/文档/Python成绩.xlsx', index_col=None, na_values=['NA'])  # 读取excel文件中的数据

如果想知道文件是否读取成功可以用print函数将数据输出

如：

print(df)

然后会显示文件的数据，效果如下：

用pandas库修改excel文件里的内容，并把excel文件格式存为csv格式，再将csv格式改为html格式

2、修改excel文件内容：

运用上述的方法三：使用map()方法+字典，原地替换。

现在要将优秀改为90，良好改为80，及格改为60

代码如下：

1 df1=df[:]
2 df1['第二次']=df1['第二次'].map({'优秀':90,'良好':80,'及格':60})
3 df1['第三次:圆周率']=df1['第三次:圆周率'].map({'优秀':90,'良好':80,'及格':60})
4 df1['第四次：汉诺塔']=df1['第四次：汉诺塔'].map({'优秀':90,'良好':80,'及格':60})
5 df1['第五次：jieba库']=df1['第五次：jieba库'].map({'优秀':90,'良好':80,'及格':60})
6 df1['第六次：图片处理']=df1['第六次：图片处理'].map({'优秀':90,'良好':80,'及格':60})

效果如下：

用pandas库修改excel文件里的内容，并把excel文件格式存为csv格式，再将csv格式改为html格式

三、再将上述的NaN改为0

只需要用数据清洗之缺失数据填充fillna（）就可以完成

运行代码如下：

df1=df1.fillna(0)
print(df1)

效果如下：

用pandas库修改excel文件里的内容，并把excel文件格式存为csv格式，再将csv格式改为html格式

四、最后将excel文件保存为csv文件

代码如下：

df1.to_csv('D:/文档\\thon.csv')

最后会在你保存的文件你多了一个csv文件。

五、同时可以将csv文件保存为html格式

方法一(用工具实现）:

　　代码如下：

　df1.to_html('d:\\st.html')

同样会在你保存的文件夹中会多出一个html格式的文件

方法二：

　　代码如下：

seg1 = '''
\n\n\n
2016年7月部分大中城市新建住宅价格指数
\n'''
seg2 = "\n"
seg3 = "
\n\n"
def fill_data(locls):
    seg = '{}{}{}{}\n'.format(*locls)
    return seg
fr = open("D:\\文档\Python123.csv", "r",encoding="utf-8-sig")
ls = []
for line in fr:
    line = line.replace("\n","")
    ls.append(line.split(","))
fr.close()
fw = open("D:\\文档\Python5.html", "w")
fw.write(seg1)
fw.write('{}\n{}\n{}\n{}\n'.format(*ls[0]))
fw.write(seg2)
for i in range(len(ls)-1):
    fw.write(fill_data(ls[i+1]))
fw.write(seg3)
fw.close()

推荐阅读

split
400string(99) php,PHP: 字符串Manual

addcslashes—以C语言风格使用反斜线转义字符串中的字符addslashes—使用反斜线引用字符串bin2hex—函数把包含数据的二进制字符串转换为十六进制值chop—rt ... [详细]

蜡笔小新 2024-12-15 12:31:43
main
Python 文件操作与数据转换

本文详细介绍了Python中文件的基本操作，包括打开、读取、写入和关闭文件的方法，并通过实例展示了如何将Excel文件转换为CSV文件以及进一步转换为HTML文件。此外，还涉及了成绩等级替换的具体实现。 ... [详细]

蜡笔小新 2024-12-25 21:45:13
io
使用Pandas高效读取SQL脚本中的数据

本文详细介绍了如何利用Pandas直接读取和解析SQL脚本，提供了一种高效的数据处理方法。该方法适用于各种数据库导出的SQL脚本，并且能够显著提升数据导入的速度和效率。 ... [详细]

蜡笔小新 2024-12-24 21:56:10
io
HTML5与JavaScript实现本地文件读取、写入及路径获取

本文探讨了如何利用HTML5和JavaScript在浏览器中进行本地文件的读取和写入操作，并介绍了获取本地文件路径的方法。HTML5提供了一系列API，使得这些操作变得更加简便和安全。 ... [详细]

蜡笔小新 2024-12-20 18:36:06
io
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
split
深入解析JDBC源码

本文详细探讨了JDBC（Java数据库连接）的内部机制，重点分析其作为服务提供者接口（SPI）框架的应用。通过类图和代码示例，展示了JDBC如何注册驱动程序、建立数据库连接以及执行SQL查询的过程。 ... [详细]

蜡笔小新 2024-12-25 19:59:15
join
DLP数据泄露检测原理浅析

最近团队在部署DLP，作为一个技术人员对于黑盒看不到的地方还是充满了好奇心。多次咨询乙方人员DLP的算法原理是什么，他们都以商业秘密为由避而不谈，不得已只能自己查资料学习，于是有了下面的浅见。身为甲方，虽然不需要开发DLP产品，但是也有必要弄明白DLP基本的原理。俗话说工欲善其事必先利其器，只有在懂这个工具的原理之后才能更加灵活地使用这个工具，即使出现意外情况也能快速排错，越接近底层，越接近真相。根据DLP的实际用途，本文将DLP检测分为2部分，泄露关键字检测和近似重复文档检测。 ... [详细]

蜡笔小新 2024-12-25 18:19:32
split
Python——对象自省

对象自省自省在计算机编程领域里，是指在运行时判断一个对象的类型和能力。dir能够返回一个列表，列举了一个对象所拥有的属性和方法。my_list[ ... [详细]

蜡笔小新 2024-12-23 12:55:35
io
解决FCKeditor应用主题后上传问题及优化配置

本文介绍了在Freetextbox收费后选择FCKeditor作为替代方案时遇到的上传问题及其解决方案。通过调整配置文件和调试工具，最终解决了上传失败的问题，并对相关配置进行了优化。 ... [详细]

蜡笔小新 2024-12-23 12:43:29
split
利用决策树预测NBA比赛胜负的Python数据挖掘实践

本文通过使用2013-14赛季NBA赛程与结果数据集以及2013年NBA排名数据，结合《Python数据挖掘入门与实践》一书中的方法，展示如何应用决策树算法进行比赛胜负预测。我们将详细讲解数据预处理、特征工程及模型评估等关键步骤。 ... [详细]

蜡笔小新 2024-12-23 09:07:40
eval
实用正则表达式有哪些

小编给大家分享一下实用正则表达式有哪些，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下 ... [详细]

蜡笔小新 2024-12-22 13:59:04
eval
Python 工具推荐 | PyHubWeekly 第二十一期：提升命令行体验的五大工具

本期 PyHubWeekly 为大家精选了 GitHub 上五个优秀的 Python 工具，涵盖金融数据可视化、终端美化、国际化支持、图像增强和远程 Shell 环境配置。欢迎关注并参与项目。 ... [详细]

蜡笔小新 2024-12-21 14:45:11
split
ML学习笔记20210824分类算法模型选择与调优

3.模型选择和调优3.1交叉验证定义目的为了让模型得精度更加可信3.2超参数搜索GridSearch对K值进行选择。k[1,2,3,4,5,6]循环遍历搜索。API参数1& ... [详细]

蜡笔小新 2024-12-19 09:10:33
select
PySpark实战：高效使用DataFrame超越RDD

本文深入探讨了PySpark中DataFrame的使用方法及其相对于传统RDD的优势，旨在帮助开发者更好地理解和利用这一强大工具。 ... [详细]

蜡笔小新 2024-12-15 17:19:11
io
主板市盈率、市净率及股息率的自动化抓取

本文介绍了如何通过Python脚本自动从中国指数有限公司网站抓取主板的市盈率、市净率和股息率等关键财务指标，并将这些数据存储到CSV文件中。涉及的技术包括网页解析、正则表达式以及异常处理。 ... [详细]

蜡笔小新 2024-12-15 14:26:17

女人放聪明点碧

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章