Python3使用BeautifulSoup4爬取《三国演义》

作者：手机用户2502860581 | 来源：互联网 | 2023-05-17 01:57

#!surbinpython#condingutf-8importurllib.requestfrombs4importBeautifulSoupurlhttp:www.shi

#!/sur/bin/python
#cOnding=utf-8
import urllib.request
from bs4 import BeautifulSoup
url="http://www.shicimingju.com/book/sanguoyanyi.html" # 要爬取的网络地址
menuCode=urllib.request.urlopen(url).read()  # 将网页源代码赋予menuCode
soup=BeautifulSoup(menuCode,'html.parser')  # 使用html解析器进行解析
menu=soup.find_all(id="mulu")  # 在soup中找到id为mulu的节点
values = ','.join(str(v) for v in menu) # 将 menu转换为str类型
soup2=BeautifulSoup(values,'html.parser')
soup2=soup2.ul  # 用子节点代替soup2
print("-------------------soup2.contents----------------------------")
print(soup2.contents)

bookName=soup.h1.string # 找到了书名
print(u"----------------------'书名'------------------------------")
print(u"书名："+bookName)
f=open('D://'+bookName+'.doc','a',encoding='utf8')
f.write(bookName+"\n")#写入书名
Desc=soup.p.get_text() #简介
f.write(Desc+"\n")#写入简介
print(u"---------------------'简介'------------------------------")
print(Desc)


bookMenu=[] # 章节list
bookMenuUrl=[] # 章节url的list
#遍历list要in len(list)-1,因为list第一个元素list[0]
print(u"----------------------------章节和对应的url链接----------------------------")
for i in range(1,len(soup2.contents)-1): # 依次爬取书的章节
  bookMenu.append(soup2.contents[i].string)
  bookMenuUrl.append(soup2.contents[i].a['href'])
  con=u'章节：%s,URL：%s' %(soup2.contents[i].string,soup2.contents[i].a['href'])
  print(con)
  f.write(con+"\n")#写入章节以及对应的URL链接

#获取文章内容：
"""
通过遍历章节的url来获取每个url对应的文章内容。
"""
urlBegin="http://www.shicimingju.com" #初始URL
for i  in  range (0,len(bookMenuUrl)):# 依次替换每个章节的url，读取每章页面的内容
 chapterCode=urllib.request.urlopen(urlBegin+bookMenuUrl[i]).read()#拼接成完整的URL，然后读出内容
 chapterSoup=BeautifulSoup(chapterCode,'html.parser') # 使用BS读取解析网页代码
 chapterResult=chapterSoup.find_all(id='con2')  # 找到id=‘con2’的节点
 chapterResult = ','.join(str(v) for v in chapterResult) # 将节点内的代码转为str类型
 chapterSoup2=BeautifulSoup(chapterResult,'html.parser') # 使用BS解析节点内代码
 # print(chapterSoup2.contents) #.contents把内容转化为list形式
 chapterText=chapterSoup2.get_text()#获取节点内文档内容
 print(chapterText)
 f.write(bookMenu[i]) # 写入文件每章标题
 f.write(chapterText)

#结果：

推荐阅读

text
Go+ 中的上下文处理指南

本文详细介绍 Go+ 编程语言中的上下文处理机制，涵盖其基本概念、关键方法及应用场景。Go+ 是一门结合了 Go 的高效工程开发特性和 Python 数据科学功能的编程语言。 ... [详细]

蜡笔小新 2024-12-28 11:05:31
ip
深入理解org.neo4j.helpers.collection.Iterators.single()方法及其应用

本文详细介绍了Java中org.neo4j.helpers.collection.Iterators.single()方法的功能、使用场景及代码示例，帮助开发者更好地理解和应用该方法。 ... [详细]

蜡笔小新 2024-12-28 10:51:55
import
Java并发编程：LinkedBlockingQueue的实际应用

本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ... [详细]

蜡笔小新 2024-12-27 18:51:49
text
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
text
Akka BackoffSupervisor的深入解析与实践

本文详细介绍了Akka中的BackoffSupervisor机制，探讨其在处理持久化失败和Actor重启时的应用。通过具体示例，展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]

蜡笔小新 2024-12-27 15:04:09
import
将Web服务部署到Tomcat

本文介绍了如何在JDeveloper 12c中创建一个Java项目，并将其打包为Web服务，然后部署到Tomcat服务器。内容涵盖从项目创建、编写Web服务代码、配置相关XML文件到最终的本地部署和验证。 ... [详细]

蜡笔小新 2024-12-27 11:48:15
version
深入理解Python的os和sys模块

本文详细解析了Python中的os和sys模块，介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]

蜡笔小新 2024-12-26 22:04:19
sum
寻找满足特定条件的整数N的最大和(a+b)

本文探讨了如何在给定整数N的情况下，找到两个不同的整数a和b，使得它们的和最大，并且满足特定的数学条件。 ... [详细]

蜡笔小新 2024-12-26 19:26:18
install
Python 爬虫基础教程及代码实例

根据最新发布的《互联网人才趋势报告》，尽管大量IT从业者已转向Python开发，但随着人工智能和大数据领域的迅猛发展，仍存在巨大的人才缺口。本文将详细介绍如何使用Python编写一个简单的爬虫程序，并提供完整的代码示例。 ... [详细]

蜡笔小新 2024-12-26 10:42:40
python3
python3怎样中文转换编码

这篇文章给大家分享的是有关python3怎样中文转换编码的内容。小编觉得挺实用的，因此分享给大家做个参考。一起跟随小编过来看看吧。示例：处理 ... [详细]

蜡笔小新 2023-09-24 08:01:17
python3
Python Flask学习之安装SQL,python3,Pycharm（网上下载安装即可）

1，下载时更改pypi源。可以额外安装虚拟化环境：pipinstall-ihttp:pypi.douban.comsimple--trusted-hos ... [详细]

蜡笔小新 2023-09-18 12:10:16
text
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
python3
浅谈Python3中打开文件的方式(With open)

浅谈Python3中打开文件的方式(With open)-目录0.背景知识1.常规方式：读取文件-----open()2.推荐方式：读取文件-----WithOpen1).读取方式 ... [详细]

蜡笔小新 2023-09-23 12:43:45
python3
Python3怎么获取文件属性

这篇文章给大家分享的是有关Python3怎么获取文件属性的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。os.stat(path ... [详细]

蜡笔小新 2023-09-23 12:27:42
python3
python教程分享POC漏洞批量验证程序Python脚本编写

编写目的批量验证poc，python代码练习。需求分析1、poc尽可能简单。2、多线程。3、联动fofa获取目标。4、随机请求头.实现过程脚本分为三个模块，获取poc及目标、多线程 ... [详细]

蜡笔小新 2023-09-15 18:49:11

手机用户2502860581

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章