热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

使用Python爬取妙笔阁小说信息并保存为TXT和CSV格式

本文介绍了如何使用Python爬取妙笔阁小说网仙侠系列中所有小说的信息,并将其保存为TXT和CSV格式。主要内容包括如何构造请求头以避免被网站封禁,以及如何利用XPath解析HTML并提取所需信息。

本文介绍如何使用Python爬取妙笔阁小说网仙侠系列中所有小说的信息,并将其保存为TXT和CSV格式。首先,打开妙笔阁小说网仙侠系列的页面,可以看到如下所示的小说列表。

小说列表

我们需要爬取的信息包括小说的书名、作者、最新更新时间和简介。为了防止网站禁止爬取,需要构造请求头,模拟浏览器访问网站。

构造请求头

在想要爬取的页面按F12,然后点击Network,按F5刷新,随便点击进入一个请求,找到User-Agent字段,如下图所示。

User-Agent
user_agent = 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36'
headers = {'User-Agent': user_agent}

发送请求并解析HTML

使用requests库发送HTTP请求,并将响应内容转换为HTML格式。

respOnse= requests.get("http://www.mbige.com/bookstore/xianxia/default-0-0-0-0-0-0-1.html")
response.encoding = response.apparent_encoding
html = lxml.html.fromstring(response.text)

解析HTML并保存为TXT文件

利用XPath解析HTML,提取所需信息并写入TXT文件。

with open("E:/xiaoshuo.txt", 'a+', encoding='utf8') as f:
    divlst = html.xpath('//div[@id="alistbox"]')
    for i in divlst:
        title = ''.join(i.xpath('.//h2/a/text()'))
        author = ''.join(i.xpath('.//div[@class="title"]/span/text()'))
        newest = ''.join(i.xpath('.//li/a/text()'))
        intro = ''.join([x.strip('\n') for x in i.xpath('.//div[@class="intro"]/text()') if x])
        f.write(str(title) + '\n' + str(author) + '\n' + str(newest) + '\n' + str(intro) + '\n\n')

完整代码(保存为TXT格式)

import requests
import lxml.html

class myspider:
    def __init__(self):
        user_agent = 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36'
        self.headers = {'User-Agent': user_agent}
    
    def gethtml(self, url):
        try:
            respOnse= requests.get(url)
        except:
            respOnse= None
        else:
            response.encoding = 'gb18030'
        finally:
            html = lxml.html.fromstring(response.text)
        return html
    
    def getpage(self, url):
        with open("E:/xiaoshuo.txt", 'a+', encoding='utf-8') as f:
            html = self.gethtml(url)
            divlst = html.xpath('//div[@id="alistbox"]')
            for i in divlst:
                title = ''.join(i.xpath('.//h2/a/text()'))
                author = ''.join(i.xpath('.//div[@class="title"]/span/text()'))
                newest = ''.join(i.xpath('.//li/a/text()'))
                intro = ''.join([x.strip('\n') for x in i.xpath('.//div[@class="intro"]/text()') if x])
                f.write(str(title) + '\n' + str(author) + '\n' + str(newest) + '\n' + str(intro) + '\n\n')

if __name__ == '__main__':
    sp = myspider()
    url1 = 'http://www.mbige.com/bookstore/xianxia/default-0-0-0-0-0-0-{0}.html'
    for num in range(1, 161):
        url = url1.format(num)
        sp.getpage(url)
        print(str(num) + "page")

保存为CSV格式

保存为CSV格式只需在上述代码中增加几行代码。

import requests
import lxml.html
import csv

class myspider:
    def __init__(self):
        user_agent = 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36'
        self.headers = {'User-Agent': user_agent}
    
    def gethtml(self, url):
        try:
            respOnse= requests.get(url)
        except:
            respOnse= None
        else:
            response.encoding = 'gb18030'
        finally:
            html = lxml.html.fromstring(response.text)
        return html
    
    def getpage(self, url):
        with open("E:/xiaoshuo.csv", 'a+', encoding='utf-8') as f:
            f1 = csv.writer(f)
            f1.writerow(['书名', '作者', '最新更新', '简介'])
            html = self.gethtml(url)
            divlst = html.xpath('//div[@id="alistbox"]')
            for i in divlst:
                title = ''.join(i.xpath('.//h2/a/text()'))
                author = ''.join(i.xpath('.//div[@class="title"]/span/text()'))
                newest = ''.join(i.xpath('.//li/a/text()'))
                intro = [x.strip('\n') for x in i.xpath('.//div[@class="intro"]/text()') if x]
                f1.writerow([str(title), str(author), str(newest), str(intro)])

if __name__ == '__main__':
    sp = myspider()
    url1 = 'http://www.mbige.com/bookstore/xianxia/default-0-0-0-0-0-0-{0}.html'
    for num in range(1, 161):
        url = url1.format(num)
        sp.getpage(url)
        print(str(num) + "page")

得到的xiaoshuo.csv文件内容如下:

CSV文件内容

如果打开CSV文件时出现乱码,可以使用Notepad++打开文件,修改编码后再打开。

修改编码

推荐阅读
  • Python处理Word文档的高效技巧
    本文详细介绍了如何使用Python处理Word文档,涵盖从基础操作到高级功能的各种技巧。我们将探讨如何生成文档、定义样式、提取表格数据以及处理超链接和图片等内容。 ... [详细]
  • 本文深入探讨了HTTP请求和响应对象的使用,详细介绍了如何通过响应对象向客户端发送数据、处理中文乱码问题以及常见的HTTP状态码。此外,还涵盖了文件下载、请求重定向、请求转发等高级功能。 ... [详细]
  • 本文详细介绍了如何使用 Yii2 的 GridView 组件在列表页面实现数据的直接编辑功能。通过具体的代码示例和步骤,帮助开发者快速掌握这一实用技巧。 ... [详细]
  • 本文介绍如何使用阿里云的fastjson库解析包含时间戳、IP地址和参数等信息的JSON格式文本,并进行数据处理和保存。 ... [详细]
  • 根据最新发布的《互联网人才趋势报告》,尽管大量IT从业者已转向Python开发,但随着人工智能和大数据领域的迅猛发展,仍存在巨大的人才缺口。本文将详细介绍如何使用Python编写一个简单的爬虫程序,并提供完整的代码示例。 ... [详细]
  • 解决网站乱码问题的综合指南
    本文总结了导致网站乱码的常见原因,并提供了详细的解决方案,包括文件编码、HTML元标签设置、服务器响应头配置、数据库字符集调整以及PHP与MySQL交互时的编码处理。 ... [详细]
  • 本文介绍了ArcXML配置文件的分类及其在不同服务中的应用,详细解释了地图配置文件的结构和功能,包括其在Image Service、Feature Service以及ArcMap Server中的使用方法。 ... [详细]
  • 采用IKE方式建立IPsec安全隧道
    一、【组网和实验环境】按如上的接口ip先作配置,再作ipsec的相关配置,配置文本见文章最后本文实验采用的交换机是H3C模拟器,下载地址如 ... [详细]
  • 本文介绍如何使用 Angular 6 的 HttpClient 模块来获取 HTTP 响应头,包括代码示例和常见问题的解决方案。 ... [详细]
  • 本文详细介绍了如何使用PHP检测AJAX请求,通过分析预定义服务器变量来判断请求是否来自XMLHttpRequest。此方法简单实用,适用于各种Web开发场景。 ... [详细]
  • 使用 Azure Service Principal 和 Microsoft Graph API 获取 AAD 用户列表
    本文介绍了一段通用代码示例,该代码不仅能够操作 Azure Active Directory (AAD),还可以通过 Azure Service Principal 的授权访问和管理 Azure 订阅资源。Azure 的架构可以分为两个层级:AAD 和 Subscription。 ... [详细]
  • 深入解析Spring Cloud Ribbon负载均衡机制
    本文详细介绍了Spring Cloud中的Ribbon组件如何实现服务调用的负载均衡。通过分析其工作原理、源码结构及配置方式,帮助读者理解Ribbon在分布式系统中的重要作用。 ... [详细]
  • 本文介绍了如何通过 Maven 依赖引入 SQLiteJDBC 和 HikariCP 包,从而在 Java 应用中高效地连接和操作 SQLite 数据库。文章提供了详细的代码示例,并解释了每个步骤的实现细节。 ... [详细]
  • 并发编程:深入理解设计原理与优化
    本文探讨了并发编程中的关键设计原则,特别是Java内存模型(JMM)的happens-before规则及其对多线程编程的影响。文章详细介绍了DCL双重检查锁定模式的问题及解决方案,并总结了不同处理器和内存模型之间的关系,旨在为程序员提供更深入的理解和最佳实践。 ... [详细]
  • 探讨如何从数据库中按分组获取最大N条记录的方法,并分享新年祝福。本文提供多种解决方案,适用于不同数据库系统,如MySQL、Oracle等。 ... [详细]
author-avatar
手机用户2502941293
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有