热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

whitepages爬取_爬取新笔趣阁小说!适合新手入门的小案例

爬取笔趣阁小说(搜索爬取)首先看看最终效果(gif):实现步骤:1.探查网站“http:www.xbiquge.la”,看看网站的实现原理

爬取笔趣阁小说(搜索+爬取)

首先看看最终效果(gif):

eb19bfc1ecb899360b49a601f50a4eec.gif


实现步骤:
1.探查网站“http://www.xbiquge.la/”,看看网站的实现原理。

2.编写搜索功能(获取每本书目录的URL)。

3.编写写入功能(按章节写入文件)。

4.完善代码(修修bug,建了文件夹)。

ps:所需模块 :

import requestsimport bs4 # 爬网站必备两个模块不解释import os # 用来创建文件夹的import sys # 没啥用单纯为了好看import timeimport random # 使用随机数设置延时123456

一、网站搜索原理,并用Python实现。

我本以为这个网站和一般网站一样,通过修改URL来进行搜索,结果并不然。

bd317d90e42f63b508efc969f560896b.png
dc5fd48cb69afee0e446f2d967042ee5.png


可以看出这个网站不会因搜索内容改变而改变URL
那还有一种可能:通过POST请求,来更新页面。让我们打开Network验证一下。

3de3506e4edb04b7a5b00f5633784e81.png
921b6f31621914c177700117e07a5ec0.png


我的猜想是对的。接下来开始模拟。

headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36", "COOKIE": "_abcde_qweasd=0; Hm_lvt_169609146ffe5972484b0957bd1b46d6=1583122664; bdshare_firstime=1583122664212; Hm_lpvt_169609146ffe5972484b0957bd1b46d6=1583145548", "Host": "www.xbiquge.la"} # 设置头尽量多一点 以防万一x = str(input("输入书名或作者名:")) # 通过变量来控制我们要搜索的内容data = {'searchkey': x}url = 'http://www.xbiquge.la/modules/article/waps.php'r = requests.post(url, data=data, headers=headers)soup = bs4.BeautifulSoup(r.text.encode('utf-8'), "html.parser") # 用BeautifulSoup方法方便我们提取网页内容网页123456789

可是如果现在我printf(soup)后发现里面的中文全为乱码!

b380618df6e72dfdea5b3bd3ea9f63da.png


这不难看出是编码格式不对,但我们可以用encoding方法来获取编码方式。

8d913f03d1ad75969f5e7645e5698d1c.png


改完编码后就可以正常提取了,并且和浏览器显示的一致,都是我们搜索的内容。

2ec460214a429da4d277711c1ceea695.png

二、接下来我们就来在这一堆代码里找到我们想要的内容了(书名,作者,目录URL)

通过元素审查我们很容易就可以定位到它们所在位置。

13d91537eacc3795246696fcc3d858af.png


链接和书名在"td class even" 标签里,作者在"td class=even"里。

什么!标签重名了!怎么办!管他三七二十一!先把"td class=even"全打印出来看看。

book_author = soup.find_all("td", class_="even")for each in book_author: print(each)123

可以发现每个each分为两层。

7aad22b5d79a792d2f08ad0d3eea6a79.png


那我们可以奇偶循环来分别处理这两层。(因为如果不分层处理的话第一层要用的方法(each.a.get(“href”)在第二层会报错,好像try也可以处理这个错,没试)

并且用创建两个三个列表来储存三个值。

books = [] #  书名authors = [] # 作者名directory = [] # 目录链接tem = 1for each in book_author: if tem == 1: books.append(each.text) tem -= 1 directory.append(each.a.get("href")) else: authors.append(each.text) tem += 1123456789101112

c1454750674b3b4f6e30c0e47851ab50.png


成功!三个列表全部一样对应!
那么要如何实现选择一个序号,来让Python获得一个目录链接呢?
我们可以这样:

print('搜索结果:')for num,book, author in zip(range(1, len(books)+1),books, authors): print((str(num)+": ").ljust(4)+(book+"").ljust(25) + ("作者:" + author).ljust(20))search = dict(zip(books, directory))1234

08c587142903943228fb15b049414c3f.png


是不是很神奇!“search”是我们用书名和目录URL组成的字典,我们只要return search[books[i-1]]
就可以让下一个函数得到这本书的目录URL了。

三、获取章节URL,获取文本内容,写入文件。

我们得到目录的URL后就可以用相同的方法获取每一章节的URL了(不赘述了)。

def get_text_url(titel_url): url = titel_url global headers r = requests.get(url, headers=headers) soup = bs4.BeautifulSoup(r.text.encode('ISO-8859-1'), "html.parser") titles = soup.find_all("dd") texts = [] names = [] texts_names = [] for each in titles: texts.append("http://www.xbiquge.la"+each.a["href"]) names.append(each.a.text) texts_names.append(texts) texts_names.append(names) return texts_names # 注意这里的返回值是一个包含两个列表的列表!!123456789101112131415

注意这里的返回值是一个包含两个列表的列表!!texts_names[0] 就是每一章节的 URL, texts_names[0] 是章节名
为下一个写内容的函数方便调用。
接下来接是写文件了!

search = dict(zip(books, directory))url = texts_url[0][n]name = texts_url[1][n]req = requests.get(url=url, headers=headers)time.sleep(random.uniform(0, 0.5)) # 即使设置了延迟,他还有会可能503(没办法小网站)req.encoding = 'UTF-8' # 这里的编码是UTF-8,跟目录不一样,要注意!html = req.textsoup = bs4.BeautifulSoup(html, features="html.parser")texts = soup.find_all("div", id="content")while (len(texts) == 0): # 他如果503的话,读取内容就什么都木有,那直接让他再读一次,直到读出来为止。 req = requests.get(url=url, headers=headers) time.sleep(random.uniform(0, 0.5)) req.encoding = 'UTF-8' html = req.text soup = bs4.BeautifulSoup(html, features="html.parser") texts = soup.find_all("div", id="content")else: content = texts[0].text.replace('xa0' * 8, '') content = content.replace( "亲,点击进去,给个好评呗,分数越高更新越快,据说给新笔趣阁打满分的最后都找到了漂亮的老婆哦!手机站全新改版升级地址:http://m.xbiquge.la,数据和书签与电脑站同步,无广告清新阅读!", "") # 使用text属性,提取文本内容,滤除br标签,随后使用replace方法,去掉八个空格符号,并用回车代替 再去除每一页都有得结尾with open(name + '.txt', "w", encoding='utf-8')as f: f.write(content) sys.stdout.write("已下载{}章,还剩下{}章".format(count, max - count)) # sys模块就在这用了一次,为了不让他换行。。。 count += 112345678910111213141516171819202122232425

n就是章节的序列,直接for循环就可以把所有章节写成文件了
这里处理503的方法虽然很暴力,可是是最有用的!

四、整理代码,修修bug。

把上面的思路写成三道四个函数打包一下。
然后测试一下,看看有什么bug,能修就修复,修复不了就直接try掉。(哈哈哈)
想要文件夹的可以研究研究os模块,很简单,这里不赘述了。
最后附上完整代码!

import requestsimport bs4 # 爬网站必备两个模块不解释import os # 用来创建文件夹的import sys # 没啥用单纯为了好看import timeimport random # 使用随机数设置延时headers &#61; { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36", "COOKIE": "_abcde_qweasd&#61;0; Hm_lvt_169609146ffe5972484b0957bd1b46d6&#61;1583122664; bdshare_firstime&#61;1583122664212; Hm_lpvt_169609146ffe5972484b0957bd1b46d6&#61;1583145548", "Host": "www.xbiquge.la"} # 设置头尽量多一点 以防万一b_n &#61; ""def get_title_url(): x &#61; str(input("输入书名或作者名:")) data &#61; {&#39;searchkey&#39;: x} url &#61; &#39;http://www.xbiquge.la/modules/article/waps.php&#39; global headers, b_n r &#61; requests.post(url, data&#61;data, headers&#61;headers) soup &#61; bs4.BeautifulSoup(r.text.encode(&#39;ISO-8859-1&#39;), "html.parser") book_author &#61; soup.find_all("td", class_&#61;"even") books &#61; [] #  书名 authors &#61; [] # 作者名 directory &#61; [] # 目录链接 tem &#61; 1 for each in book_author: if tem &#61;&#61; 1: books.append(each.text) tem -&#61; 1 directory.append(each.a.get("href")) else: authors.append(each.text) tem &#43;&#61; 1 print(&#39;搜索结果&#xff1a;&#39;) for num,book, author in zip(range(1, len(books)&#43;1),books, authors): print((str(num)&#43;": ").ljust(4)&#43;(book&#43;"").ljust(25) &#43; ("作者&#xff1a;" &#43; author).ljust(20)) search &#61; dict(zip(books, directory)) if books &#61;&#61; []: print("没有找到任何一本书&#xff0c;请重新输入!") get_title_url() try: i &#61; int(input("输入需要下载的序列号(重新搜索输入&#39;0&#39;)")) except: print("输入错误重新输入:") i &#61; int(input("输入需要下载的序列号(重新搜索输入&#39;0&#39;)")) if i &#61;&#61; 0: books &#61; [] authors &#61; [] directory &#61; [] get_title_url() if i>len(books) or i<0: print("输入错误重新输入:") i &#61; int(input("输入需要下载的序列号(重新搜索输入&#39;0&#39;)")) b_n&#61;books[i-1] try: os.mkdir(books[i-1]) os.chdir(b_n) except: os.chdir(b_n) b_n &#61; books[i - 1] return search[books[i-1]]def get_text_url(titel_url): url &#61; titel_url global headers r &#61; requests.get(url, headers&#61;headers) soup &#61; bs4.BeautifulSoup(r.text.encode(&#39;ISO-8859-1&#39;), "html.parser") titles &#61; soup.find_all("dd") texts &#61; [] names &#61; [] texts_names &#61; [] for each in titles: texts.append("http://www.xbiquge.la"&#43;each.a["href"]) names.append(each.a.text) texts_names.append(texts) texts_names.append(names) return texts_names # 注意这里的返回值是一个包含两个列表的列表&#xff01;&#xff01;def readnovel(texts_url): global headers,b_n count&#61;1 max&#61;len(texts_url[1]) print("预计耗时{}分钟".format((max // 60)&#43;1)) tishi &#61; input(str(b_n)&#43;"一共{}章&#xff0c;确认下载输入&#39;y&#39;,输入其他键取消".format(max)) if tishi &#61;&#61; "y"or tishi &#61;&#61;"Y": for n in range(max): url &#61; texts_url[0][n] name &#61; texts_url[1][n] req &#61; requests.get(url&#61;url,headers&#61;headers) time.sleep(random.uniform(0, 0.5)) # 即使设置了延迟&#xff0c;他还有会可能503(没办法小网站) req.encoding &#61; &#39;UTF-8&#39; # 这里的编码是UTF-8&#xff0c;跟目录不一样&#xff0c;要注意&#xff01; html &#61; req.text soup &#61; bs4.BeautifulSoup(html, features&#61;"html.parser") texts &#61; soup.find_all("div", id&#61;"content") while (len(texts) &#61;&#61; 0): # 他如果503的话&#xff0c;读取内容就什么都木有&#xff0c;那直接让他再读一次&#xff0c;直到读出来为止。 req &#61; requests.get(url&#61;url, headers&#61;headers) time.sleep(random.uniform(0,0.5)) req.encoding &#61; &#39;UTF-8&#39; html &#61; req.text soup &#61; bs4.BeautifulSoup(html, features&#61;"html.parser") texts &#61; soup.find_all("div", id&#61;"content") else: content &#61; texts[0].text.replace(&#39;xa0&#39; * 8, &#39;&#39;) content&#61;content.replace("亲,点击进去,给个好评呗,分数越高更新越快,据说给新笔趣阁打满分的最后都找到了漂亮的老婆哦!手机站全新改版升级地址&#xff1a;http://m.xbiquge.la&#xff0c;数据和书签与电脑站同步&#xff0c;无广告清新阅读&#xff01;","") # 使用text属性&#xff0c;提取文本内容&#xff0c;滤除br标签&#xff0c;随后使用replace方法&#xff0c;去掉八个空格符号&#xff0c;并用回车代替 再去除每一页都有得结尾 with open(name&#43;&#39;.txt&#39;,"w",encoding&#61;&#39;utf-8&#39;)as f: f.write(content) sys.stdout.write("已下载{}章&#xff0c;还剩下{}章".format(count,max-count)) # sys模块就在这用了一次&#xff0c;为了不让他换行。。。 count &#43;&#61; 1 print("全部下载完毕") else: print("已取消!") os.chdir(&#39;..&#39;) os.rmdir(b_n) main()def main(): titel_url &#61; get_title_url() texts_url &#61; get_text_url(titel_url) readnovel(texts_url) input("输入任意键退出")if __name__ &#61;&#61; &#39;__main__&#39;: print("小说资源全部来自于&#39;新笔趣阁&#39;---》http://www.xbiquge.la所以搜不到我也没办法..........&#64;晓轩为了确保下载完整&#xff0c;每章设置了0.5秒到1秒延时&#xff01;") main()

源码后台私信小编 01



推荐阅读
  • PyCharm下载与安装指南
    本文详细介绍如何从官方渠道下载并安装PyCharm集成开发环境(IDE),涵盖Windows、macOS和Linux系统,同时提供详细的安装步骤及配置建议。 ... [详细]
  • 技术分享:从动态网站提取站点密钥的解决方案
    本文探讨了如何从动态网站中提取站点密钥,特别是针对验证码(reCAPTCHA)的处理方法。通过结合Selenium和requests库,提供了详细的代码示例和优化建议。 ... [详细]
  • 本文详细介绍了如何使用Python编写爬虫程序,从豆瓣电影Top250页面抓取电影信息。文章涵盖了从基础的网页请求到处理反爬虫机制,再到多页数据抓取的全过程,并提供了完整的代码示例。 ... [详细]
  • 本文介绍了在Windows环境下使用pydoc工具的方法,并详细解释了如何通过命令行和浏览器查看Python内置函数的文档。此外,还提供了关于raw_input和open函数的具体用法和功能说明。 ... [详细]
  • 2023 ARM嵌入式系统全国技术巡讲旨在分享ARM公司在半导体知识产权(IP)领域的最新进展。作为全球领先的IP提供商,ARM在嵌入式处理器市场占据主导地位,其产品广泛应用于90%以上的嵌入式设备中。此次巡讲将邀请来自ARM、飞思卡尔以及华清远见教育集团的行业专家,共同探讨当前嵌入式系统的前沿技术和应用。 ... [详细]
  • 本文将介绍如何编写一些有趣的VBScript脚本,这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例,帮助您了解VBScript的基本语法和功能。 ... [详细]
  • 深入理解Cookie与Session会话管理
    本文详细介绍了如何通过HTTP响应和请求处理浏览器的Cookie信息,以及如何创建、设置和管理Cookie。同时探讨了会话跟踪技术中的Session机制,解释其原理及应用场景。 ... [详细]
  • 使用 Azure Service Principal 和 Microsoft Graph API 获取 AAD 用户列表
    本文介绍了一段通用代码示例,该代码不仅能够操作 Azure Active Directory (AAD),还可以通过 Azure Service Principal 的授权访问和管理 Azure 订阅资源。Azure 的架构可以分为两个层级:AAD 和 Subscription。 ... [详细]
  • 在Ubuntu 16.04 LTS上配置Qt Creator开发环境
    本文详细介绍了如何在Ubuntu 16.04 LTS系统中安装和配置Qt Creator,涵盖了从下载到安装的全过程,并提供了常见问题的解决方案。 ... [详细]
  • 使用Python在SAE上开发新浪微博应用的初步探索
    最近重新审视了新浪云平台(SAE)提供的服务,发现其已支持Python开发。本文将详细介绍如何利用Django框架构建一个简单的新浪微博应用,并分享开发过程中的关键步骤。 ... [详细]
  • 根据最新发布的《互联网人才趋势报告》,尽管大量IT从业者已转向Python开发,但随着人工智能和大数据领域的迅猛发展,仍存在巨大的人才缺口。本文将详细介绍如何使用Python编写一个简单的爬虫程序,并提供完整的代码示例。 ... [详细]
  • 本文介绍如何使用Python进行文本处理,包括分词和生成词云图。通过整合多个文本文件、去除停用词并生成词云图,展示文本数据的可视化分析方法。 ... [详细]
  • PHP数组平均值计算方法详解
    本文详细介绍了如何在PHP中计算数组的平均值,涵盖基本概念、具体实现步骤及示例代码。通过本篇文章,您将掌握使用PHP函数array_sum()和count()来求解数组元素的平均值。 ... [详细]
  • 作为一名专业的Web前端工程师,掌握HTML和CSS的命名规范是至关重要的。良好的命名习惯不仅有助于提高代码的可读性和维护性,还能促进团队协作。本文将详细介绍Web前端开发中常用的HTML和CSS命名规范,并提供实用的建议。 ... [详细]
  • 百度搜索结果链接提取工具 UrlGetter V1.43
    该工具专为获取百度搜索引擎的结果页面中的网址链接而设计,能够解析并转换为原始URL。通过正则表达式匹配技术,精准提取网页链接,并提供详细的使用说明和下载资源。 ... [详细]
author-avatar
我家在波力牧场
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有