作者:涐們的故事丘 | 来源:互联网 | 2023-09-23 15:32
有人能告诉我如何提取和删除所有 HTML文档中的标记,并将它们添加到文档的末尾,就在 body> html> ;?之前我想尽量避免使用lxml.
谢谢.
解决方法:
答案很简单,可能会遗漏许多细微差别.但是,这应该让你知道如何去做,一般来说改进它.我相信这可以改进,但你应该能够在文档的帮助下快速完成.
参考文档:http://www.crummy.com/software/BeautifulSoup/documentation.html
from bs4 import BeautifulSoup
doc = ['',
'This is paragraph one.',
'
This is paragraph two.',
'']
soup = BeautifulSoup(''.join(doc))
for tag in soup.findAll('script'):
# Use extract to remove the tag
tag.extract()
# use simple insert
soup.body.insert(len(soup.body.contents), tag)
print soup.prettify()
输出:
This is paragraph
one
.
This is paragraph
two
.