当前位置: 开发笔记 > 编程语言 > 正文

python解析cdata（python解析html标签）

作者： | 来源：互联网 | 2023-08-28 10:34

本文目录一览：1、如何用Python输出漂亮的xml文件

本文目录一览：

1、如何用Python输出漂亮的xml文件

2、python解析CData

3、python3.0怎么用json从文件解析

4、求助：python如何按位解析二进制数据

如何用Python输出漂亮的xml文件

最近要用Python处理一个xml文件。平时习惯了用xml.etree.ElementTree，结果发现此库存在一些让人无法忍受的缺点：

1. 无法处理comment和cdata

2. 输出后的xml文件没有换行，没有缩进，十分难以阅读

于是尝试这用xml.dom.minidom，前两个问题几乎全部解决了。唯一让人看着不爽的是minidom对于text的处理。比如，我期待的xml输入如下：

[html] view plain copy

pre name="code" class="html"pre name="code" class="html"root

host192.168.0.1/host

/root

但是使用xml.dom.minidom.Document.writexml后，输出的结果却是这样的：

[html] view plain copy

root

host

192.168.0.1

/host

/root

开始的时候，我考虑重写Document.writexml函数，觉得太麻烦，有用牛刀杀鸡之感。后来想想，其实自己的需求非常简单，只是需要对Document的输出结果做个二次处理即可。使用python的正则表达式库就可以实现：

[python] view plain copy

def save_xml(self, file_name):

xml_str = self.m_dom.toprettyxml(indent=" ")

repl = lambda x: "%s/" % x.group(1).strip() if len(x.group(1).strip()) != 0 else x.group(0)

pretty_str = re.sub(r'\n\s*([^]+)/', repl, xml_str)

open(file_name, 'w').write(pretty_str)

先将Document输出到字符串，然后使用正则表达式将text中的空行去掉即可。

黑马程序员的PYthon是国内最早开设的真正人工智能课程。课程全面系统，紧跟时代潮流。

python解析CData

亲，python爬虫的解析框架的我也把握不准，我都是用re里面的正则表达式的匹配

myItems = re.findall('a class="breadInfo" href="board.jsp(.*?)/a',unicodePage,re.S)

myItems里面的内容是(.*?)所匹配到的，如果你的这个what,thefuck,你可以写成myItems = re.findall('!CDATA[[d（。*？）/d]],所以for i in myItems :

print i 就会得到What,the fuck!

python解析cdata（python解析html标签）

python3.0怎么用json从文件解析

1、说明：

python3通过json模块load函数来解析文件。

2、代码示例：

首先编写一个json文件j.txt,内容如下：

{"errno":1,"errmsg":"操作成功！","data":[]}

python代码如下：

import json

with open('j.txt', 'r') as fr:

o = json.load(fr)

print(o['errno'])

print(o['errmsg'])

print(len(o['data']))

输出如下：

操作成功！

3、函数说明：

load(fp, cls=None, object_hook=None, parse_float=None, parse_int=None, parse_cOnstant=None, object_pairs_hook=None, **kw)

反序列化fp（一个.read（）包含 - 支持类文件对象一个JSON文件），以一个Python对象。

object_hook是将与被调用的可选功能任何对象文本解码（一个``dict``）的结果。返回值object_hook将用来代替dict。此功能可用于实现自定义解码器（例如JSON-RPC级提示）。

object_pairs_hook是将与被调用的可选功能任何对象的结果与对的有序列表字面解码。该的返回值object_pairs_hook将用来代替dict。

此功能可用于实现依赖于定制解码器命令该键和值对被解码（例如，collections.OrderedDict会记得插入的顺序）。如果object_hook也定义了object_pairs_hook优先。

要使用自定义JSONDecoder子类，与cls指定它kwarg;否则JSONDecoder使用。

4、其它说明：

也可以使用json.loads函数来直接处理字符串，方法如下：

o=json.loads('{"errno":0,"errmsg":"操作成功！","data":[]}')

求助：python如何按位解析二进制数据

可以的，二进制是计算机内的表示方法，处理二进制数据是最基本的能力。

如果是二进制字符串转十进制：

x = '10101010'

int(x, 2)

170

如果是从文件或网络中获取的数据，要知道某一位是0还是1的话，获取的数据可以按字符读取，由于一个字符由8位二进制表示，分别读取1到8位的二进制值就可以了：

get_char_bit = lambda char, n: (char (8-n)) 1 # 从高到低分别为第1～8位

data = b'ab' # 在python3中字符串默认是unicode，所以加上b前缀兼容

# 在python3中按字符读取byte字符串是数字，而python2读出来的却是字符，但bytearray是一致的都是数字

data = bytearray(data)

result = []

for char in data:

for i in range(1, 9):

result.append(get_char_bit(char, i))

result

[0, 1, 1, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0]

还有一种比较简单的方法是使用内置的bin函数

data = bytearray(b'ab')

result = []

for char in data:

result.extend(bin(char)[2:].rjust(8, '0'))

result

['0', '1', '1', '0', '0', '0', '0', '1', '0', '1', '1', '0', '0', '0', '1', '0']

推荐阅读

copy
IOS开发Xib 九宫格应用管理

Xib九宫格应用管理使用xib封装一个自定义view的步骤1新建一个继承UIView的自定义view,假设类名叫做(AppView)2新建一个AppView.xib文件来描述 ... [详细]

蜡笔小新 2024-09-29 23:11:30
copy
git的cherrypick与rebase命令

cherry-pick命令cherry-pick命令可以将另一分支的commit内容合并到当前分支。假如现在有两个分支v1.0，v1.1。v1.0有如下commit:commit4 ... [详细]

蜡笔小新 2024-09-29 12:12:25
copy
objc runtime 挂载

#import挂载对象所需要的参数（UIAlertView挂载对象）staticconstcharkRepresente ... [详细]

蜡笔小新 2024-09-28 16:28:32
ip
POJ2253(floyd)

FroggerTimeLimit:1000MSMemoryLimit:65536KTotalSubmissions:32257Accepted:10396DescriptionFr ... [详细]

蜡笔小新 2024-09-30 20:13:09
include
九宫格计算

九宫格计算. ... [详细]

蜡笔小新 2024-09-30 19:37:45
include
MyBatis模糊查询和多条件查询

MyBatis模糊查询和多条件查询一、ISmbmsUserDao层根据姓名模糊查询publicListgetUser();多条件查询publicList ... [详细]

蜡笔小新 2024-09-30 13:26:10
ip
贴图的支持及设置:关于贴图分辨率的支持及设置的用户指南

http:hi.baidu.comdbfr2011818itemeef1eac8df31a2d69744520b贴图分辨率虚幻引擎3支持的贴图分辨率是从1x1到4096x4096 ... [详细]

蜡笔小新 2024-09-30 13:00:03
ip
java – 什么是notifyItemRangeChanged(0,this.data.size());在这个例子中,它是如何工作的？

我理解ViewHolder的onBindViewHolder如何工作,但是我不清楚notifyItemRangeChanged(0,this.data.size())如何;适用于此示例以及它的确 ... [详细]

蜡笔小新 2024-09-29 20:59:44
tree
SENDMESSAGE函数巧应用

在这一期的SendMessage函数应用中，我将向大家介绍如何利用消息函数来扩展树型列表(TreeView)控件的功能相信对于树型列表控件大家十分的熟悉， ... [详细]

蜡笔小新 2024-09-29 19:45:57
web
jquery popupDialog 使用加载jsp页面办法

php教程|PHP开发jqueryphp教程-PHP开发如下所示：软件市场源码,vsCode字体不变,ubuntu的所有版本,taotomcat,sqlite连接php,个人域名服 ... [详细]

蜡笔小新 2024-09-29 19:32:31
web
作业迁移

背景：数据库服务器更换，1、数据库迁移(BACKUPRESTORE)；2、数据库登录名用户迁移(注意孤立用户)；3、作业迁移数据库迁移，备份数据库、拷贝备份文件到新服务器，还原数据 ... [详细]

蜡笔小新 2024-09-29 15:47:02
case
Android Studio 使用BottomNavigationView 实现底部 tabs (一)

一、在androidStudio中实现tabs比较简单，新建项目就可以选择tabs模板进行创建，默认实现tabs功能：直接运行项目就可以看到效果：可以说非常简单，但是我们在实际开发 ... [详细]

蜡笔小新 2024-09-28 19:42:55
ip
[二分图]JZOJ 4612 游戏

DescriptionInputOutputSampleInput44#****#****#*xxx#SampleOutput5DataConstraint分析非常眼熟࿰ ... [详细]

蜡笔小新 2024-09-28 18:03:01
include
Educational Codeforces Round 43 (Rated for Div. 2)

EducationalCodeforcesRound43(RatedforDiv.2)https:codeforces.comcontest976A ... [详细]

蜡笔小新 2024-09-28 14:07:52
include
leetcode之Sort List

SortalinkedlistinO(nlogn)timeusingconstantspacecomplexity.这道题属于人生中第一次对链表进行操作，首先，不同于C++中的st ... [详细]

蜡笔小新 2024-09-28 11:15:21

Tags | 热门标签

RankList | 热门文章