当前位置: 开发笔记 > 编程语言 > 正文

python中html.replace()_对从包含Unicode的HTML文件中读取的字符串使用.replace（）方法...

作者：黑马理财投资 | 来源：互联网 | 2024-10-18 19:12

我想将.html文件作为原始文本读取，并将包含unicode字符的子字符串的实例替换为另一个子字符串。假设文件mm03.html只包含一行文本：test

我想将.html文件作为原始文本读取&＃xff0c;并将包含unicode字符的子字符串的实例替换为另一个子字符串。假设文件mm03.html只包含一行文本&＃xff1a;«test»

我想读取mm03.html&＃xff0c;将其原始文本解析为字符串&＃xff0c;然后调用replace&＃xff0c;这样输出结果如下所示&＃xff1a;

^{pr2}$

我第一次尝试这样做时&＃xff0c;我写了以下代码。。。在# -*- coding: utf-8 -*-

import codecs

htmlBase &＃61; codecs.open("mm03.html",&＃39;r&＃39;)

htmlFill &＃61; htmlBase.read()

print htmlFill

htmlFill &＃61; htmlFill.replace("«test»","TEST")

print htmlFill

htmlBase.close()

…期望它首先打印上面列出的原始行&＃xff0c;然后再打印第二行。相反&＃xff0c;它列出了第一行两次。在

好吧。所以可能是Unicode解码问题&＃xff0c;对吧&＃xff1f;也许吧&＃xff0c;但当我根据这个网站上找到的与Unicode相关的建议修改代码时&＃xff0c;各种阴影的问题仍然存在。此外&＃xff0c;通过将htmlBase显式定义为。。。在htmlBase &＃61; """«test»"""

…这让我相信在python中读取html文件有些东西我不知道。我尝试过在&＃39;w&＃39;模式下打开mmo3.html&＃xff0c;但这似乎不起作用&＃xff0c;而且会破坏原始文件。从只读文件中读取的字符串本身应该是只读的没有多大意义&＃xff0c;但我可能错了。在

下面是我仔细研究过的几个脚本/输出对。在在要替换的字符串之前添加未加引号的字符&＃39;u&＃39;# -*- coding: utf-8 -*-

import codecs

htmlBase &＃61; codecs.open("mm03.html",&＃39;r&＃39;)

htmlFill &＃61; htmlBase.read()

print htmlFill

htmlFill &＃61; htmlFill.replace(u"«test»","TEST")

print htmlFill

htmlBase.close()

输出&＃xff1a;½test╗

Traceback (most recent call last):

File "test2.py", line 6, in

htmlFill &＃61; htmlFill.replace(u"┬½test┬╗","TEST")

UnicodeDecodeError: &＃39;ascii&＃39; codec can&＃39;t decode byte 0xab in position 31: ordinal not in range(128)

将.decode(&＃39;utf-8&＃39;)应用于从.read()传递的字符串# -*- coding: utf-8 -*-

import codecs

htmlBase &＃61; codecs.open("mm03.html",&＃39;r&＃39;)

htmlFill &＃61; htmlBase.read().decode(&＃39;utf-8&＃39;)

print htmlFill

htmlFill &＃61; htmlFill.replace(u"«test»","TEST")

print htmlFill

htmlBase.close()

输出&＃xff1a;Traceback (most recent call last):

File "test2.py", line 4, in

htmlFill &＃61; htmlBase.read().decode(&＃39;utf-8&＃39;)

File "C:\Python27\lib\encodings\utf_8.py", line 16, in decode

return codecs.utf_8_decode(input, errors, True)

UnicodeDecodeError: &＃39;utf8&＃39; codec can&＃39;t decode byte 0xab in position 31: invalid start byte

将.encode(&＃39;utf-8&＃39;)应用于从.read()传递的字符串# -*- coding: utf-8 -*-

import codecs

htmlBase &＃61; codecs.open("mm03.html",&＃39;r&＃39;)

htmlFill &＃61; htmlBase.read().encode(&＃39;utf-8&＃39;)

print htmlFill

htmlFill &＃61; htmlFill.replace(u"«test»","TEST")

print htmlFill

htmlBase.close()

输出&＃xff1a;Traceback (most recent call last):

File "test2.py", line 4, in

htmlFill &＃61; htmlBase.read().encode(&＃39;utf-8&＃39;)

UnicodeDecodeError: &＃39;ascii&＃39; codec can&＃39;t decode byte 0xab in position 31: ordinal not in range(128)

将.decode(&＃39;utf-8&＃39;)应用于从.read()传递的字符串&＃xff0c;目标子字符串上没有“u”后缀# -*- coding: utf-8 -*-

import codecs

htmlBase &＃61; codecs.open("mm03.html",&＃39;r&＃39;)

htmlFill &＃61; htmlBase.read().decode(&＃39;utf-8&＃39;)

print htmlFill

htmlFill &＃61; htmlFill.replace("«test»","TEST")

print htmlFill

htmlBase.close()

输出&＃xff1a;Traceback (most recent call last):

File "test2.py", line 4, in

htmlFill &＃61; htmlBase.read().decode(&＃39;utf-8&＃39;)

File "C:\Python27\lib\encodings\utf_8.py", line 16, in decode

return codecs.utf_8_decode(input, errors, True)

UnicodeDecodeError: &＃39;utf8&＃39; codec can&＃39;t decode byte 0xab in position 31: invalid start byte

将.encode(&＃39;utf-8&＃39;)应用于从.read()传递的字符串&＃xff0c;目标子字符串上没有“u”后缀# -*- coding: utf-8 -*-

import codecs

htmlBase &＃61; codecs.open("mm03.html",&＃39;r&＃39;)

htmlFill &＃61; htmlBase.read().encode(&＃39;utf-8&＃39;)

print htmlFill

htmlFill &＃61; htmlFill.replace("«test»","TEST")

print htmlFill

htmlBase.close()

输出&＃xff1a;Traceback (most recent call last):

File "test2.py", line 4, in

htmlFill &＃61; htmlBase.read().encode(&＃39;utf-8&＃39;)

UnicodeDecodeError: &＃39;ascii&＃39; codec can&＃39;t decode byte 0xab in position 31: ordinal not in range(128)

推荐阅读

python
PyCharm下载与安装指南

本文详细介绍如何从官方渠道下载并安装PyCharm集成开发环境（IDE），涵盖Windows、macOS和Linux系统，同时提供详细的安装步骤及配置建议。 ... [详细]

蜡笔小新 2024-12-28 09:42:41
request
深入理解Tornado模板系统

本文详细介绍了Tornado框架中模板系统的使用方法。Tornado自带的轻量级、高效且灵活的模板语言位于tornado.template模块，支持嵌入Python代码片段，帮助开发者快速构建动态网页。 ... [详细]

蜡笔小新 2024-12-27 19:22:16
callback
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
client
Python自动化处理：从Word文档提取内容并生成带水印的PDF

本文介绍如何利用Python实现从特定网站下载Word文档，去除水印并添加自定义水印，最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]

蜡笔小新 2024-12-27 13:10:20
python
使用Python在SAE上开发新浪微博应用的初步探索

最近重新审视了新浪云平台（SAE）提供的服务，发现其已支持Python开发。本文将详细介绍如何利用Django框架构建一个简单的新浪微博应用，并分享开发过程中的关键步骤。 ... [详细]

蜡笔小新 2024-12-26 13:36:52
python
Python 文件操作与数据转换

本文详细介绍了Python中文件的基本操作，包括打开、读取、写入和关闭文件的方法，并通过实例展示了如何将Excel文件转换为CSV文件以及进一步转换为HTML文件。此外，还涉及了成绩等级替换的具体实现。 ... [详细]

蜡笔小新 2024-12-25 21:45:13
string
使用Pandas高效读取SQL脚本中的数据

本文详细介绍了如何利用Pandas直接读取和解析SQL脚本，提供了一种高效的数据处理方法。该方法适用于各种数据库导出的SQL脚本，并且能够显著提升数据导入的速度和效率。 ... [详细]

蜡笔小新 2024-12-24 21:56:10
python
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
request
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
string
Java并发编程：LinkedBlockingQueue的实际应用

本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ... [详细]

蜡笔小新 2024-12-27 18:51:49
function
深入理解Python的os和sys模块

本文详细解析了Python中的os和sys模块，介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]

蜡笔小新 2024-12-26 22:04:19
function
寻找满足特定条件的整数N的最大和(a+b)

本文探讨了如何在给定整数N的情况下，找到两个不同的整数a和b，使得它们的和最大，并且满足特定的数学条件。 ... [详细]

蜡笔小新 2024-12-26 19:26:18
request
Python 爬虫基础教程及代码实例

根据最新发布的《互联网人才趋势报告》，尽管大量IT从业者已转向Python开发，但随着人工智能和大数据领域的迅猛发展，仍存在巨大的人才缺口。本文将详细介绍如何使用Python编写一个简单的爬虫程序，并提供完整的代码示例。 ... [详细]

蜡笔小新 2024-12-26 10:42:40
python
Python文本处理与可视化：分词及词云生成

本文介绍如何使用Python进行文本处理，包括分词和生成词云图。通过整合多个文本文件、去除停用词并生成词云图，展示文本数据的可视化分析方法。 ... [详细]

蜡笔小新 2024-12-26 08:37:18
callback
掌握远程执行Linux脚本和命令的技巧

本文将详细介绍如何利用Python的Paramiko库实现远程执行Linux脚本和命令，帮助读者快速掌握这一实用技能。通过具体的示例和详尽的解释，让初学者也能轻松上手。 ... [详细]

蜡笔小新 2024-12-26 19:47:05

黑马理财投资

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章