当前位置: 开发笔记 > 编程语言 > 正文

whitepages爬取_爬取新笔趣阁小说！适合新手入门的小案例

作者：我家在波力牧场 | 来源：互联网 | 2023-10-13 11:41

爬取笔趣阁小说(搜索爬取)首先看看最终效果(gif)：实现步骤：1.探查网站“http:www.xbiquge.la”，看看网站的实现原理

爬取笔趣阁小说(搜索&＃43;爬取)
首先看看最终效果(gif)&＃xff1a;

实现步骤&＃xff1a;
1.探查网站“http://www.xbiquge.la/”&＃xff0c;看看网站的实现原理。
2.编写搜索功能(获取每本书目录的URL)。
3.编写写入功能(按章节写入文件)。
4.完善代码(修修bug&＃xff0c;建了文件夹)。
ps:所需模块 &＃xff1a;
`import requestsimport bs4 # 爬网站必备两个模块不解释import os # 用来创建文件夹的import sys # 没啥用单纯为了好看import timeimport random # 使用随机数设置延时123456`
一、网站搜索原理&＃xff0c;并用Python实现。
我本以为这个网站和一般网站一样&＃xff0c;通过修改URL来进行搜索&＃xff0c;结果并不然。

可以看出这个网站不会因搜索内容改变而改变URL。
那还有一种可能&＃xff1a;通过POST请求&＃xff0c;来更新页面。让我们打开Network验证一下。

我的猜想是对的。接下来开始模拟。
headers &＃61; { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36", "COOKIE": "_abcde_qweasd&＃61;0; Hm_lvt_169609146ffe5972484b0957bd1b46d6&＃61;1583122664; bdshare_firstime&＃61;1583122664212; Hm_lpvt_169609146ffe5972484b0957bd1b46d6&＃61;1583145548", "Host": "www.xbiquge.la"} # 设置头尽量多一点以防万一x &＃61; str(input("输入书名或作者名:")) # 通过变量来控制我们要搜索的内容data &＃61; {&＃39;searchkey&＃39;: x}url &＃61; &＃39;http://www.xbiquge.la/modules/article/waps.php&＃39;r &＃61; requests.post(url, data&＃61;data, headers&＃61;headers)soup &＃61; bs4.BeautifulSoup(r.text.encode(&＃39;utf-8&＃39;), "html.parser") # 用BeautifulSoup方法方便我们提取网页内容网页123456789
可是如果现在我printf(soup)后发现里面的中文全为乱码&＃xff01;

这不难看出是编码格式不对&＃xff0c;但我们可以用encoding方法来获取编码方式。

改完编码后就可以正常提取了&＃xff0c;并且和浏览器显示的一致&＃xff0c;都是我们搜索的内容。
二、接下来我们就来在这一堆代码里找到我们想要的内容了(书名&＃xff0c;作者&＃xff0c;目录URL)
通过元素审查我们很容易就可以定位到它们所在位置。

链接和书名在"td class even" 标签里&＃xff0c;作者在"td class&＃61;even"里。
什么&＃xff01;标签重名了&＃xff01;怎么办&＃xff01;管他三七二十一&＃xff01;先把"td class&＃61;even"全打印出来看看。
`book_author &＃61; soup.find_all("td", class_&＃61;"even")for each in book_author: print(each)123`
可以发现每个each分为两层。

那我们可以奇偶循环来分别处理这两层。(因为如果不分层处理的话第一层要用的方法(each.a.get(“href”)在第二层会报错&＃xff0c;好像try也可以处理这个错,没试)
并且用创建两个三个列表来储存三个值。
`books &＃61; [] #　书名authors &＃61; [] # 作者名directory &＃61; [] # 目录链接tem &＃61; 1for each in book_author: if tem &＃61;&＃61; 1: books.append(each.text) tem -&＃61; 1 directory.append(each.a.get("href")) else: authors.append(each.text) tem &＃43;&＃61; 1123456789101112`

成功&＃xff01;三个列表全部一样对应&＃xff01;
那么要如何实现选择一个序号&＃xff0c;来让Python获得一个目录链接呢&＃xff1f;
我们可以这样&＃xff1a;
`print(&＃39;搜索结果&＃xff1a;&＃39;)for num,book, author in zip(range(1, len(books)&＃43;1),books, authors): print((str(num)&＃43;": ").ljust(4)&＃43;(book&＃43;"").ljust(25) &＃43; ("作者&＃xff1a;" &＃43; author).ljust(20))search &＃61; dict(zip(books, directory))1234`

是不是很神奇&＃xff01;“search”是我们用书名和目录URL组成的字典&＃xff0c;我们只要return search[books[i-1]]
就可以让下一个函数得到这本书的目录URL了。
三、获取章节URL&＃xff0c;获取文本内容&＃xff0c;写入文件。
我们得到目录的URL后就可以用相同的方法获取每一章节的URL了(不赘述了)。
def get_text_url(titel_url): url &＃61; titel_url global headers r &＃61; requests.get(url, headers&＃61;headers) soup &＃61; bs4.BeautifulSoup(r.text.encode(&＃39;ISO-8859-1&＃39;), "html.parser") titles &＃61; soup.find_all("dd") texts &＃61; [] names &＃61; [] texts_names &＃61; [] for each in titles: texts.append("http://www.xbiquge.la"&＃43;each.a["href"]) names.append(each.a.text) texts_names.append(texts) texts_names.append(names) return texts_names # 注意这里的返回值是一个包含两个列表的列表&＃xff01;&＃xff01;123456789101112131415
注意这里的返回值是一个包含两个列表的列表&＃xff01;&＃xff01;texts_names[0] 就是每一章节的 URL, texts_names[0] 是章节名
为下一个写内容的函数方便调用。
接下来接是写文件了&＃xff01;
search &＃61; dict(zip(books, directory))url &＃61; texts_url[0][n]name &＃61; texts_url[1][n]req &＃61; requests.get(url&＃61;url, headers&＃61;headers)time.sleep(random.uniform(0, 0.5)) # 即使设置了延迟&＃xff0c;他还有会可能503(没办法小网站)req.encoding &＃61; &＃39;UTF-8&＃39; # 这里的编码是UTF-8&＃xff0c;跟目录不一样&＃xff0c;要注意&＃xff01;html &＃61; req.textsoup &＃61; bs4.BeautifulSoup(html, features&＃61;"html.parser")texts &＃61; soup.find_all("div", id&＃61;"content")while (len(texts) &＃61;&＃61; 0): # 他如果503的话&＃xff0c;读取内容就什么都木有&＃xff0c;那直接让他再读一次&＃xff0c;直到读出来为止。 req &＃61; requests.get(url&＃61;url, headers&＃61;headers) time.sleep(random.uniform(0, 0.5)) req.encoding &＃61; &＃39;UTF-8&＃39; html &＃61; req.text soup &＃61; bs4.BeautifulSoup(html, features&＃61;"html.parser") texts &＃61; soup.find_all("div", id&＃61;"content")else: content &＃61; texts[0].text.replace(&＃39;xa0&＃39; * 8, &＃39;&＃39;) content &＃61; content.replace( "亲,点击进去,给个好评呗,分数越高更新越快,据说给新笔趣阁打满分的最后都找到了漂亮的老婆哦!手机站全新改版升级地址&＃xff1a;http://m.xbiquge.la&＃xff0c;数据和书签与电脑站同步&＃xff0c;无广告清新阅读&＃xff01;", "") # 使用text属性&＃xff0c;提取文本内容&＃xff0c;滤除br标签&＃xff0c;随后使用replace方法&＃xff0c;去掉八个空格符号&＃xff0c;并用回车代替再去除每一页都有得结尾with open(name &＃43; &＃39;.txt&＃39;, "w", encoding&＃61;&＃39;utf-8&＃39;)as f: f.write(content) sys.stdout.write("已下载{}章&＃xff0c;还剩下{}章".format(count, max - count)) # sys模块就在这用了一次&＃xff0c;为了不让他换行。。。 count &＃43;&＃61; 112345678910111213141516171819202122232425
n就是章节的序列&＃xff0c;直接for循环就可以把所有章节写成文件了
这里处理503的方法虽然很暴力&＃xff0c;可是是最有用的&＃xff01;
四、整理代码&＃xff0c;修修bug。
把上面的思路写成三道四个函数打包一下。
然后测试一下&＃xff0c;看看有什么bug&＃xff0c;能修就修复&＃xff0c;修复不了就直接try掉。(哈哈哈)
想要文件夹的可以研究研究os模块&＃xff0c;很简单&＃xff0c;这里不赘述了。
最后附上完整代码&＃xff01;
import requestsimport bs4 # 爬网站必备两个模块不解释import os # 用来创建文件夹的import sys # 没啥用单纯为了好看import timeimport random # 使用随机数设置延时headers &＃61; { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36", "COOKIE": "_abcde_qweasd&＃61;0; Hm_lvt_169609146ffe5972484b0957bd1b46d6&＃61;1583122664; bdshare_firstime&＃61;1583122664212; Hm_lpvt_169609146ffe5972484b0957bd1b46d6&＃61;1583145548", "Host": "www.xbiquge.la"} # 设置头尽量多一点以防万一b_n &＃61; ""def get_title_url(): x &＃61; str(input("输入书名或作者名:")) data &＃61; {&＃39;searchkey&＃39;: x} url &＃61; &＃39;http://www.xbiquge.la/modules/article/waps.php&＃39; global headers, b_n r &＃61; requests.post(url, data&＃61;data, headers&＃61;headers) soup &＃61; bs4.BeautifulSoup(r.text.encode(&＃39;ISO-8859-1&＃39;), "html.parser") book_author &＃61; soup.find_all("td", class_&＃61;"even") books &＃61; [] #　书名 authors &＃61; [] # 作者名 directory &＃61; [] # 目录链接 tem &＃61; 1 for each in book_author: if tem &＃61;&＃61; 1: books.append(each.text) tem -&＃61; 1 directory.append(each.a.get("href")) else: authors.append(each.text) tem &＃43;&＃61; 1 print(&＃39;搜索结果&＃xff1a;&＃39;) for num,book, author in zip(range(1, len(books)&＃43;1),books, authors): print((str(num)&＃43;": ").ljust(4)&＃43;(book&＃43;"").ljust(25) &＃43; ("作者&＃xff1a;" &＃43; author).ljust(20)) search &＃61; dict(zip(books, directory)) if books &＃61;&＃61; []: print("没有找到任何一本书&＃xff0c;请重新输入!") get_title_url() try: i &＃61; int(input("输入需要下载的序列号(重新搜索输入&＃39;0&＃39;)")) except: print("输入错误重新输入:") i &＃61; int(input("输入需要下载的序列号(重新搜索输入&＃39;0&＃39;)")) if i &＃61;&＃61; 0: books &＃61; [] authors &＃61; [] directory &＃61; [] get_title_url() if i>len(books) or i<0: print("输入错误重新输入:") i &＃61; int(input("输入需要下载的序列号(重新搜索输入&＃39;0&＃39;)")) b_n&＃61;books[i-1] try: os.mkdir(books[i-1]) os.chdir(b_n) except: os.chdir(b_n) b_n &＃61; books[i - 1] return search[books[i-1]]def get_text_url(titel_url): url &＃61; titel_url global headers r &＃61; requests.get(url, headers&＃61;headers) soup &＃61; bs4.BeautifulSoup(r.text.encode(&＃39;ISO-8859-1&＃39;), "html.parser") titles &＃61; soup.find_all("dd") texts &＃61; [] names &＃61; [] texts_names &＃61; [] for each in titles: texts.append("http://www.xbiquge.la"&＃43;each.a["href"]) names.append(each.a.text) texts_names.append(texts) texts_names.append(names) return texts_names # 注意这里的返回值是一个包含两个列表的列表&＃xff01;&＃xff01;def readnovel(texts_url): global headers,b_n count&＃61;1 max&＃61;len(texts_url[1]) print("预计耗时{}分钟".format((max // 60)&＃43;1)) tishi &＃61; input(str(b_n)&＃43;"一共{}章&＃xff0c;确认下载输入&＃39;y&＃39;,输入其他键取消".format(max)) if tishi &＃61;&＃61; "y"or tishi &＃61;&＃61;"Y": for n in range(max): url &＃61; texts_url[0][n] name &＃61; texts_url[1][n] req &＃61; requests.get(url&＃61;url,headers&＃61;headers) time.sleep(random.uniform(0, 0.5)) # 即使设置了延迟&＃xff0c;他还有会可能503(没办法小网站) req.encoding &＃61; &＃39;UTF-8&＃39; # 这里的编码是UTF-8&＃xff0c;跟目录不一样&＃xff0c;要注意&＃xff01; html &＃61; req.text soup &＃61; bs4.BeautifulSoup(html, features&＃61;"html.parser") texts &＃61; soup.find_all("div", id&＃61;"content") while (len(texts) &＃61;&＃61; 0): # 他如果503的话&＃xff0c;读取内容就什么都木有&＃xff0c;那直接让他再读一次&＃xff0c;直到读出来为止。 req &＃61; requests.get(url&＃61;url, headers&＃61;headers) time.sleep(random.uniform(0,0.5)) req.encoding &＃61; &＃39;UTF-8&＃39; html &＃61; req.text soup &＃61; bs4.BeautifulSoup(html, features&＃61;"html.parser") texts &＃61; soup.find_all("div", id&＃61;"content") else: content &＃61; texts[0].text.replace(&＃39;xa0&＃39; * 8, &＃39;&＃39;) content&＃61;content.replace("亲,点击进去,给个好评呗,分数越高更新越快,据说给新笔趣阁打满分的最后都找到了漂亮的老婆哦!手机站全新改版升级地址&＃xff1a;http://m.xbiquge.la&＃xff0c;数据和书签与电脑站同步&＃xff0c;无广告清新阅读&＃xff01;","") # 使用text属性&＃xff0c;提取文本内容&＃xff0c;滤除br标签&＃xff0c;随后使用replace方法&＃xff0c;去掉八个空格符号&＃xff0c;并用回车代替再去除每一页都有得结尾 with open(name&＃43;&＃39;.txt&＃39;,"w",encoding&＃61;&＃39;utf-8&＃39;)as f: f.write(content) sys.stdout.write("已下载{}章&＃xff0c;还剩下{}章".format(count,max-count)) # sys模块就在这用了一次&＃xff0c;为了不让他换行。。。 count &＃43;&＃61; 1 print("全部下载完毕") else: print("已取消!") os.chdir(&＃39;..&＃39;) os.rmdir(b_n) main()def main(): titel_url &＃61; get_title_url() texts_url &＃61; get_text_url(titel_url) readnovel(texts_url) input("输入任意键退出")if name &＃61;&＃61; &＃39;main&＃39;: print("小说资源全部来自于&＃39;新笔趣阁&＃39;---》http://www.xbiquge.la所以搜不到我也没办法..........&＃64;晓轩为了确保下载完整&＃xff0c;每章设置了0.5秒到1秒延时&＃xff01;") main()
源码后台私信小编 01

推荐阅读

get
PHP 编程疑难解析与知识点汇总

本文详细解答了 PHP 编程中的常见问题，并提供了丰富的代码示例和解决方案，帮助开发者更好地理解和应用 PHP 知识。 ... [详细]

蜡笔小新 2024-12-28 12:22:34
python
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
python
深入理解Tornado模板系统

本文详细介绍了Tornado框架中模板系统的使用方法。Tornado自带的轻量级、高效且灵活的模板语言位于tornado.template模块，支持嵌入Python代码片段，帮助开发者快速构建动态网页。 ... [详细]

蜡笔小新 2024-12-27 19:22:16
get
深入理解Cookie与Session会话管理

本文详细介绍了如何通过HTTP响应和请求处理浏览器的Cookie信息，以及如何创建、设置和管理Cookie。同时探讨了会话跟踪技术中的Session机制，解释其原理及应用场景。 ... [详细]

蜡笔小新 2024-12-27 18:20:43
const
使用 Azure Service Principal 和 Microsoft Graph API 获取 AAD 用户列表

本文介绍了一段通用代码示例，该代码不仅能够操作 Azure Active Directory (AAD)，还可以通过 Azure Service Principal 的授权访问和管理 Azure 订阅资源。Azure 的架构可以分为两个层级：AAD 和 Subscription。 ... [详细]

蜡笔小新 2024-12-27 16:07:12
get
如何在ASP.NET中操作没有runat='server'属性的HTML元素

本文探讨了在不使用服务器控件的情况下，如何通过多种方法获取并修改页面中的HTML元素值。除了常见的AJAX方式，还介绍了其他可行的技术方案。 ... [详细]

蜡笔小新 2024-12-27 06:30:46
input
使用Vultr云服务器和Namesilo域名搭建个人网站

本文详细介绍了如何通过Vultr云服务器和Namesilo域名搭建一个功能齐全的个人网站，包括购买、配置服务器以及绑定域名的具体步骤。文章还提供了详细的命令行操作指南，帮助读者顺利完成建站过程。 ... [详细]

蜡笔小新 2024-12-26 16:36:34
client
Hadoop入门与核心组件详解

本文详细介绍了Hadoop的基础知识及其核心组件，包括HDFS、MapReduce和YARN。通过本文，读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]

蜡笔小新 2024-12-26 13:12:48
get
如何使用JavaScript或jQuery检测文本框焦点状态和鼠标悬停事件

本文介绍了如何利用JavaScript或jQuery来判断网页中的文本框是否处于焦点状态，以及如何检测鼠标是否悬停在指定的HTML元素上。 ... [详细]

蜡笔小新 2024-12-27 21:33:33
get
PHP检测AJAX请求的有效方法

本文详细介绍了如何使用PHP检测AJAX请求，通过分析预定义服务器变量来判断请求是否来自XMLHttpRequest。此方法简单实用，适用于各种Web开发场景。 ... [详细]

蜡笔小新 2024-12-27 21:20:10
get
PHP 5.2.5 安装与配置指南

本文详细介绍了 PHP 5.2.5 的安装和配置步骤，帮助开发者解决常见的环境配置问题，特别是上传图片时遇到的错误。通过本教程，您可以顺利搭建并优化 PHP 运行环境。 ... [详细]

蜡笔小新 2024-12-27 19:05:41
import
Java并发编程：LinkedBlockingQueue的实际应用

本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ... [详细]

蜡笔小新 2024-12-27 18:51:49
plugins
JQuery基础：省市联动与表单验证

本文介绍了如何使用JQuery实现省市二级联动和表单验证。首先，通过change事件监听用户选择的省份，并动态加载对应的城市列表。其次，详细讲解了使用Validation插件进行表单验证的方法，包括内置规则、自定义规则及实时验证功能。 ... [详细]

蜡笔小新 2024-12-27 17:10:48
input
Yii2 GridView 实现列表页数据直接编辑的完整指南

本文详细介绍了如何使用 Yii2 的 GridView 组件在列表页面实现数据的直接编辑功能。通过具体的代码示例和步骤，帮助开发者快速掌握这一实用技巧。 ... [详细]

蜡笔小新 2024-12-27 16:27:52
input
5G至4G空闲态移动TAU流程解析

本文详细解析了用户从5G网络移动到4G网络时，在空闲态下触发的跟踪区更新（TAU）流程。通过N26接口实现无缝迁移，确保用户体验不受影响。 ... [详细]

蜡笔小新 2024-12-26 10:49:49

我家在波力牧场

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章