热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

使用Python爬取妙笔阁小说信息并保存为TXT和CSV格式

本文介绍了如何使用Python爬取妙笔阁小说网仙侠系列中所有小说的信息,并将其保存为TXT和CSV格式。主要内容包括如何构造请求头以避免被网站封禁,以及如何利用XPath解析HTML并提取所需信息。

本文介绍如何使用Python爬取妙笔阁小说网仙侠系列中所有小说的信息,并将其保存为TXT和CSV格式。首先,打开妙笔阁小说网仙侠系列的页面,可以看到如下所示的小说列表。

小说列表

我们需要爬取的信息包括小说的书名、作者、最新更新时间和简介。为了防止网站禁止爬取,需要构造请求头,模拟浏览器访问网站。

构造请求头

在想要爬取的页面按F12,然后点击Network,按F5刷新,随便点击进入一个请求,找到User-Agent字段,如下图所示。

User-Agent
user_agent = 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36'
headers = {'User-Agent': user_agent}

发送请求并解析HTML

使用requests库发送HTTP请求,并将响应内容转换为HTML格式。

respOnse= requests.get("http://www.mbige.com/bookstore/xianxia/default-0-0-0-0-0-0-1.html")
response.encoding = response.apparent_encoding
html = lxml.html.fromstring(response.text)

解析HTML并保存为TXT文件

利用XPath解析HTML,提取所需信息并写入TXT文件。

with open("E:/xiaoshuo.txt", 'a+', encoding='utf8') as f:
    divlst = html.xpath('//div[@id="alistbox"]')
    for i in divlst:
        title = ''.join(i.xpath('.//h2/a/text()'))
        author = ''.join(i.xpath('.//div[@class="title"]/span/text()'))
        newest = ''.join(i.xpath('.//li/a/text()'))
        intro = ''.join([x.strip('\n') for x in i.xpath('.//div[@class="intro"]/text()') if x])
        f.write(str(title) + '\n' + str(author) + '\n' + str(newest) + '\n' + str(intro) + '\n\n')

完整代码(保存为TXT格式)

import requests
import lxml.html

class myspider:
    def __init__(self):
        user_agent = 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36'
        self.headers = {'User-Agent': user_agent}
    
    def gethtml(self, url):
        try:
            respOnse= requests.get(url)
        except:
            respOnse= None
        else:
            response.encoding = 'gb18030'
        finally:
            html = lxml.html.fromstring(response.text)
        return html
    
    def getpage(self, url):
        with open("E:/xiaoshuo.txt", 'a+', encoding='utf-8') as f:
            html = self.gethtml(url)
            divlst = html.xpath('//div[@id="alistbox"]')
            for i in divlst:
                title = ''.join(i.xpath('.//h2/a/text()'))
                author = ''.join(i.xpath('.//div[@class="title"]/span/text()'))
                newest = ''.join(i.xpath('.//li/a/text()'))
                intro = ''.join([x.strip('\n') for x in i.xpath('.//div[@class="intro"]/text()') if x])
                f.write(str(title) + '\n' + str(author) + '\n' + str(newest) + '\n' + str(intro) + '\n\n')

if __name__ == '__main__':
    sp = myspider()
    url1 = 'http://www.mbige.com/bookstore/xianxia/default-0-0-0-0-0-0-{0}.html'
    for num in range(1, 161):
        url = url1.format(num)
        sp.getpage(url)
        print(str(num) + "page")

保存为CSV格式

保存为CSV格式只需在上述代码中增加几行代码。

import requests
import lxml.html
import csv

class myspider:
    def __init__(self):
        user_agent = 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36'
        self.headers = {'User-Agent': user_agent}
    
    def gethtml(self, url):
        try:
            respOnse= requests.get(url)
        except:
            respOnse= None
        else:
            response.encoding = 'gb18030'
        finally:
            html = lxml.html.fromstring(response.text)
        return html
    
    def getpage(self, url):
        with open("E:/xiaoshuo.csv", 'a+', encoding='utf-8') as f:
            f1 = csv.writer(f)
            f1.writerow(['书名', '作者', '最新更新', '简介'])
            html = self.gethtml(url)
            divlst = html.xpath('//div[@id="alistbox"]')
            for i in divlst:
                title = ''.join(i.xpath('.//h2/a/text()'))
                author = ''.join(i.xpath('.//div[@class="title"]/span/text()'))
                newest = ''.join(i.xpath('.//li/a/text()'))
                intro = [x.strip('\n') for x in i.xpath('.//div[@class="intro"]/text()') if x]
                f1.writerow([str(title), str(author), str(newest), str(intro)])

if __name__ == '__main__':
    sp = myspider()
    url1 = 'http://www.mbige.com/bookstore/xianxia/default-0-0-0-0-0-0-{0}.html'
    for num in range(1, 161):
        url = url1.format(num)
        sp.getpage(url)
        print(str(num) + "page")

得到的xiaoshuo.csv文件内容如下:

CSV文件内容

如果打开CSV文件时出现乱码,可以使用Notepad++打开文件,修改编码后再打开。

修改编码

推荐阅读
  • 本文详细介绍了 Spark 中的弹性分布式数据集(RDD)及其常见的操作方法,包括 union、intersection、cartesian、subtract、join、cogroup 等转换操作,以及 count、collect、reduce、take、foreach、first、saveAsTextFile 等行动操作。 ... [详细]
  • 本文将介绍如何在混合开发(Hybrid)应用中实现Native与HTML5的交互,包括基本概念、学习目标以及具体的实现步骤。 ... [详细]
  • 本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节,作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识,为后续的机器学习应用打下坚实的基础。 ... [详细]
  • 本文将带你快速了解 SpringMVC 框架的基本使用方法,通过实现一个简单的 Controller 并在浏览器中访问,展示 SpringMVC 的强大与简便。 ... [详细]
  • Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]
  • 本教程详细介绍了如何使用 Spring Boot 创建一个简单的 Hello World 应用程序。适合初学者快速上手。 ... [详细]
  • 大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式
    大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式 ... [详细]
  • 本文是Java并发编程系列的开篇之作,将详细解析Java 1.5及以上版本中提供的并发工具。文章假设读者已经具备同步和易失性关键字的基本知识,重点介绍信号量机制的内部工作原理及其在实际开发中的应用。 ... [详细]
  • C语言编写线程池的简单实现方法
    2019独角兽企业重金招聘Python工程师标准好文章,一起分享——有时我们会需要大量线程来处理一些相互独立的任务,为了避免频繁的申请释放线程所带 ... [详细]
  • 我有一个从C项目编译的.o文件,该文件引用了名为init_static_pool ... [详细]
  • 本文详细介绍了在 CentOS 7 系统中配置 fstab 文件以实现开机自动挂载 NFS 共享目录的方法,并解决了常见的配置失败问题。 ... [详细]
  • 利用python爬取豆瓣电影Top250的相关信息,包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容,然后将爬取的信息写入Exce ... [详细]
  • 多线程基础概览
    本文探讨了多线程的起源及其在现代编程中的重要性。线程的引入是为了增强进程的稳定性,确保一个进程的崩溃不会影响其他进程。而进程的存在则是为了保障操作系统的稳定运行,防止单一应用程序的错误导致整个系统的崩溃。线程作为进程的逻辑单元,多个线程共享同一CPU,需要合理调度以避免资源竞争。 ... [详细]
  • Python 序列图分割与可视化编程入门教程
    本文介绍了如何使用 Python 进行序列图的快速分割与可视化。通过一个实际案例,详细展示了从需求分析到代码实现的全过程。具体包括如何读取序列图数据、应用分割算法以及利用可视化库生成直观的图表,帮助非编程背景的用户也能轻松上手。 ... [详细]
  • 本文全面解析了 Python 中字符串处理的常用操作与技巧。首先介绍了如何通过 `s.strip()`, `s.lstrip()` 和 `s.rstrip()` 方法去除字符串中的空格和特殊符号。接着,详细讲解了字符串复制的方法,包括使用 `sStr1 = sStr2` 进行简单的赋值复制。此外,还探讨了字符串连接、分割、替换等高级操作,并提供了丰富的示例代码,帮助读者深入理解和掌握这些实用技巧。 ... [详细]
author-avatar
手机用户2502941293
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有