当前位置: 开发笔记 > 编程语言 > 正文

怎么使用PythonScrap框架爬取某食品论坛数据

作者：谢諭宥 | 来源：互联网 | 2023-05-19 06:47

本篇内容主要讲解“怎么使用PythonScrap框架爬取某食品论坛数据”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小

本篇内容主要讲解“怎么使用Python Scrap框架爬取某食品论坛数据”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“怎么使用Python Scrap框架爬取某食品论坛数据”吧!

一、前言

网络爬虫（又称为网页蜘蛛，网络机器人），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

说人话就是，爬虫是用来海量规则化获取数据，然后进行处理和运用，在大数据、金融、机器学习等等方面都是必须的支撑条件之一。

目前在一线城市中，爬虫的岗位薪资待遇都是比较客观的，之后提升到中、高级爬虫工程师，数据分析师、大数据开发岗位等，都是很好的过渡。

二、项目目标

本次介绍的项目其实不用想得太过复杂，最终要实现的目标也就是将帖子的每条评论爬取到数据库中，并且做到可以更新数据，防止重复爬取，反爬等措施。

三、项目准备

软件：PyCharm

需要的库：Scrapy， selenium， pymongo， user_agent，datetime

目标网站：

http://bbs.foodmate.net

插件：chromedriver（版本要对）

四、项目分析

1、确定爬取网站的结构

简而言之：确定网站的加载方式，怎样才能正确的一级一级的进入到帖子中抓取数据，使用什么格式保存数据等。

其次，观察网站的层级结构，也就是说，怎么根据板块，一点点进入到帖子页面中，这对本次爬虫任务非常重要，也是主要编写代码的部分。

2、如何选择合适的方式爬取数据？

目前我知道的爬虫方法大概有如下（不全，但是比较常用）：

1）request框架：运用这个http库可以很灵活的爬取需要的数据，简单但是过程稍微繁琐，并且可以配合抓包工具对数据进行获取。但是需要确定headers头以及相应的请求参数，否则无法获取数据；很多app爬取、图片视频爬取随爬随停，比较轻量灵活，并且高并发与分布式部署也非常灵活，对于功能可以更好实现。

2）scrapy框架：scrapy框架可以说是爬虫最常用，最好用的爬虫框架了，优点很多：scrapy 是异步的；采取可读性更强的 xpath 代替正则；强大的统计和 log 系统；同时在不同的 url 上爬行；支持 shell 方式，方便独立调试；支持写 middleware方便写一些统一的过滤器；可以通过管道的方式存入数据库等等。这也是本次文章所要介绍的框架（结合selenium库）。

五、项目实现

1、第一步：确定网站类型

首先解释一下是什么意思，看什么网站，首先要看网站的加载方式，是静态加载，还是动态加载（js加载），还是别的方式；根据不一样的加载方式需要不同的办法应对。然后我们观察今天爬取的网站，发现这是一个有年代感的论坛，首先猜测是静态加载的网站；我们开启组织 js 加载的插件，如下图所示。

怎么使用Python Scrap框架爬取某食品论坛数据

刷新之后发现确实是静态网站（如果可以正常加载基本都是静态加载的）。

2、第二步：确定层级关系

其次，我们今天要爬取的网站是食品论坛网站，是静态加载的网站，在之前分析的时候已经了解了，然后是层级结构：

怎么使用Python Scrap框架爬取某食品论坛数据

部分代码展示：

一级界面：

def parse(self, response):
    self.logger.info("已进入网页！")
    self.logger.info("正在获取版块列表！")
    column_path_list = response.css(&＃39;#ct > div.mn > div:nth-child(2) > div&＃39;)[:-1]
    for column_path in column_path_list:
        col_paths = column_path.css(&＃39;div > table > tbody > tr > td > div > a&＃39;).xpath(&＃39;@href&＃39;).extract()
        for path in col_paths:
            block_url = response.urljoin(path)
            yield scrapy.Request(
                url=block_url,
                callback=self.get_next_path,

二级界面：

def get_next_path(self, response):
    self.logger.info("已进入版块！")
    self.logger.info("正在获取文章列表！")
    if response.url == &＃39;http://www.foodmate.net/know/&＃39;:
        pass
    else:
        try:
            nums = response.css(&＃39;#fd_page_bottom > div > label > span::text&＃39;).extract_first().split(&＃39; &＃39;)[-2]
        except:
            nums = 1
        for num in range(1, int(nums) + 1):
            tbody_list = response.css(&＃39;#threadlisttableid > tbody&＃39;)
            for tbody in tbody_list:
                if &＃39;normalthread&＃39; in str(tbody):
                    item = LunTanItem()
                    item[&＃39;article_url&＃39;] = response.urljoin(
                        tbody.css(&＃39;* > tr > th > a.s.xst&＃39;).xpath(&＃39;@href&＃39;).extract_first())
                    item[&＃39;type&＃39;] = response.css(
                        &＃39;#ct > div > div.bm.bml.pbn > div.bm_h.cl > h2 > a::text&＃39;).extract_first()
                    item[&＃39;title&＃39;] = tbody.css(&＃39;* > tr > th > a.s.xst::text&＃39;).extract_first()
                    item[&＃39;spider_type&＃39;] = "论坛"
                    item[&＃39;source&＃39;] = "食品论坛"
                    if item[&＃39;article_url&＃39;] != &＃39;http://bbs.foodmate.net/&＃39;:
                        yield scrapy.Request(
                            url=item[&＃39;article_url&＃39;],
                            callback=self.get_data,
                            meta={&＃39;item&＃39;: item, &＃39;content_info&＃39;: []}
                        )
        try:
            callback_url = response.css(&＃39;#fd_page_bottom > div > a.nxt&＃39;).xpath(&＃39;@href&＃39;).extract_first()
            callback_url = response.urljoin(callback_url)
            yield scrapy.Request(
                url=callback_url,
                callback=self.get_next_path,
            )
        except IndexError:
            pass

三级界面：

def get_data(self, response):
    self.logger.info("正在爬取论坛数据！")
    item = response.meta[&＃39;item&＃39;]
    content_list = []
    divs = response.xpath(&＃39;//*[@id="postlist"]/div&＃39;)
    user_name = response.css(&＃39;div > div.pi > div:nth-child(1) > a::text&＃39;).extract()
    publish_time = response.css(&＃39;div.authi > em::text&＃39;).extract()
    floor = divs.css(&＃39;* strong> a> em::text&＃39;).extract()
    s_id = divs.xpath(&＃39;@id&＃39;).extract()
    for i in range(len(divs) - 1):
        content = &＃39;&＃39;
        try:


            strong = response.css(&＃39;#postmessage_&＃39; + s_id[i].split(&＃39;_&＃39;)[-1] + &＃39;&＃39;).xpath(&＃39;string(.)&＃39;).extract()
            for s in strong:
                content += s.split(&＃39;;&＃39;)[-1].lstrip(&＃39;\r\n&＃39;)
            datas = dict(cOntent=content,  # 内容
                         reply_id=0,  # 回复的楼层,默认0
                         user_name=user_name[i],  # ⽤户名
                         publish_time=publish_time[i].split(&＃39;于 &＃39;)[-1],  # %Y-%m-%d %H:%M:%S&＃39;
                         id=&＃39;#&＃39; + floor[i],  # 楼层
                         )
            content_list.append(datas)
        except IndexError:
            pass
    item[&＃39;content_info&＃39;] = response.meta[&＃39;content_info&＃39;]
    item[&＃39;scrawl_time&＃39;] = datetime.now().strftime(&＃39;%Y-%m-%d %H:%M:%S&＃39;)
    item[&＃39;content_info&＃39;] += content_list


    data_url = response.css(&＃39;#ct > div.pgbtn > a&＃39;).xpath(&＃39;@href&＃39;).extract_first()
    if data_url != None:
        data_url = response.urljoin(data_url)
        yield scrapy.Request(
            url=data_url,
            callback=self.get_data,
            meta={&＃39;item&＃39;: item, &＃39;content_info&＃39;: item[&＃39;content_info&＃39;]}
        )
    else:
        item[&＃39;scrawl_time&＃39;] = datetime.now().strftime(&＃39;%Y-%m-%d %H:%M:%S&＃39;)
        self.logger.info("正在存储！")
        print(&＃39;储存成功&＃39;)
        yield item

3、第三步：确定爬取方法

由于是静态网页，首先决定采用的是scrapy框架直接获取数据，并且通过前期测试发现方法确实可行，不过当时年少轻狂，小看了网站的保护措施，由于耐心有限，没有加上定时器限制爬取速度，导致我被网站加了限制，并且网站由静态加载网页变为：动态加载网页验证算法之后再进入到该网页，直接访问会被后台拒绝。

但是这种问题怎么会难道我这小聪明，经过我短暂地思考（1天），我将方案改为scrapy框架 + selenium库的方法，通过调用chromedriver，模拟访问网站，等网站加载完了再爬取不就完了，后续证明这个方法确实可行，并且效率也不错。

实现部分代码如下：

def process_request(self, request, spider):
    chrome_options = Options()
    chrome_options.add_argument(&＃39;--headless&＃39;)  # 使用无头谷歌浏览器模式
    chrome_options.add_argument(&＃39;--disable-gpu&＃39;)
    chrome_options.add_argument(&＃39;--no-sandbox&＃39;)
    # 指定谷歌浏览器路径
    self.driver = webdriver.Chrome(chrome_optiOns=chrome_options,
                                   executable_path=&＃39;E:/pycharm/workspace/爬虫/scrapy/chromedriver&＃39;)
    if request.url != &＃39;http://bbs.foodmate.net/&＃39;:
        self.driver.get(request.url)
        html = self.driver.page_source
        time.sleep(1)
        self.driver.quit()
        return scrapy.http.HtmlResponse(url=request.url, body=html.encode(&＃39;utf-8&＃39;), encoding=&＃39;utf-8&＃39;,
                                        request=request)

4、第四步：确定爬取数据的储存格式

这部分不用多说，根据自己需求，将需要爬取的数据格式设置在items.py中。在工程中引用该格式保存即可：

class LunTanItem(scrapy.Item):
    """
        论坛字段
    """
    title = Field()  # str: 字符类型 | 论坛标题
    content_info = Field()  # str: list类型 | 类型list: [LunTanContentInfoItem1, LunTanContentInfoItem2]
    article_url = Field()  # str: url | 文章链接
    scrawl_time = Field()  # str: 时间格式 参照如下格式 2019-08-01 10:20:00 | 数据爬取时间
    source = Field()  # str: 字符类型 | 论坛名称 eg: 未名BBS, 水木社区, 天涯论坛
    type = Field()  # str: 字符类型 | 板块类型 eg: &＃39;财经&＃39;, &＃39;体育&＃39;, &＃39;社会&＃39;
    spider_type = Field()  # str: forum | 只能写 &＃39;forum&＃39;

5、第五步：确定保存数据库

本次项目选择保存的数据库为mongodb，由于是非关系型数据库，优点显而易见，对格式要求没有那么高，可以灵活储存多维数据，一般是爬虫优选数据库（不要和我说redis，会了我也用，主要是不会）

代码：

import pymongo


class FMPipeline():
    def __init__(self):
        super(FMPipeline, self).__init__()
        # client = pymongo.MongoClient(&＃39;139.217.92.75&＃39;)
        client = pymongo.MongoClient(&＃39;localhost&＃39;)
        db = client.scrapy_FM
        self.collection = db.FM


    def process_item(self, item, spider):
        query = {
            &＃39;article_url&＃39;: item[&＃39;article_url&＃39;]
        }
        self.collection.update_one(query, {"$set": dict(item)}, upsert=True)
m

这时，有聪明的盆友就会问：如果运行两次爬取到了一样的数据怎么办呢？（换句话说就是查重功能）

这个问题之前我也没有考虑，后来在我询问大佬的过程中知道了，在我们存数据的时候就已经做完这件事了，就是这句：

query = {
    &＃39;article_url&＃39;: item[&＃39;article_url&＃39;]
}
self.collection.update_one(query, {"$set": dict(item)}, upsert=True)

通过帖子的链接确定是否有数据爬取重复，如果重复可以理解为将其覆盖，这样也可以做到更新数据。

6、其他设置

像多线程、headers头，管道传输顺序等问题，都在settings.py文件中设置，具体可以参考小编的项目去看，这里不再赘述。

七、效果展示

1、点击运行，结果显示在控制台，如下图所示。

怎么使用Python Scrap框架爬取某食品论坛数据

2、中间会一直向队列中堆很多帖子的爬取任务，然后多线程处理，我设置的是16线程，速度还是很可观的。

怎么使用Python Scrap框架爬取某食品论坛数据

content_info中存放着每个帖子的全部留言以及相关用户的公开信息。

到此，相信大家对“怎么使用Python Scrap框架爬取某食品论坛数据”有了更深的了解，不妨来实际操作一番吧！这里是编程笔记网站，更多相关内容可以进入相关频道进行查询，关注我们，继续学习！

推荐阅读

int
使用Python爬取妙笔阁小说信息并保存为TXT和CSV格式

本文介绍了如何使用Python爬取妙笔阁小说网仙侠系列中所有小说的信息，并将其保存为TXT和CSV格式。主要内容包括如何构造请求头以避免被网站封禁，以及如何利用XPath解析HTML并提取所需信息。 ... [详细]

蜡笔小新 2024-11-14 19:54:58
int
Python3爬虫实战：突破网站反爬虫机制的方法

本文详细探讨了使用Python3编写爬虫时如何应对网站的反爬虫机制，通过实例讲解了如何模拟浏览器访问，帮助读者更好地理解和应用相关技术。 ... [详细]

蜡笔小新 2024-11-14 19:48:54
buffer
MySQL Administrator: 监控与管理工具

本文介绍了 MySQL Administrator 的主要功能，包括图形化监控 MySQL 服务器的实时状态、连接健康度、内存健康度以及如何创建自定义的健康图表。此外，还详细解释了状态变量和系统变量的管理。 ... [详细]

蜡笔小新 2024-11-18 08:20:16
version
SIP基础概览

本文介绍了SIP（Session Initiation Protocol，会话发起协议）的基本概念、功能、消息格式及其实现机制。SIP是一种在IP网络上用于建立、管理和终止多媒体通信会话的应用层协议。 ... [详细]

蜡笔小新 2024-11-21 17:42:08
int
Spring MVC 中利用拦截器与自定义注解实现权限控制

本文探讨了如何在 Spring MVC 框架下，通过自定义注解和拦截器机制来实现细粒度的权限管理功能。 ... [详细]

蜡笔小新 2024-11-22 14:35:02
java
Java TCP 并发处理：连接数、请求数与用户数解析

本文详细探讨了在Java TCP编程中，如何理解和测量并发连接数、请求数及并发用户数，并提供了实际应用中的测试方法和优化建议。 ... [详细]

蜡笔小新 2024-11-22 11:06:05
int
PHP与MySQL实现高效分页查询

本文探讨了如何在PHP与MySQL环境中实现高效的分页查询，包括基本的分页实现、性能优化技巧以及高级的分页策略。 ... [详细]

蜡笔小新 2024-11-22 05:45:48
java
软件测试行业深度解析：迈向高薪的必经之路

本文深入探讨了软件测试行业的发展现状及未来趋势，旨在帮助有志于在该领域取得高薪的技术人员明确职业方向和发展路径。 ... [详细]

蜡笔小新 2024-11-21 17:32:44
python
python3 基础回忆录

整理于2020年10月下旬：总结过去，展望未来Itistoughtodayandtomorrowwillbetougher.butthedayaftertomorrowisbeau ... [详细]

蜡笔小新 2024-11-17 10:24:41
int
周排行与月排行榜开发总结

本文详细介绍了如何在PHP中实现周排行和月排行榜的开发，包括数据库设计、数据记录和查询方法。涉及的知识点包括MySQL的GROUP BY、WEEK和MONTH函数。 ... [详细]

蜡笔小新 2024-11-14 19:14:58
int
PHP 5.5.31 和 PHP 5.6.17 安全更新发布

PHP 5.5.31 和 PHP 5.6.17 已正式发布，主要包含多个安全修复。强烈建议所有用户尽快升级至最新版本以确保系统安全。 ... [详细]

蜡笔小新 2024-11-14 17:40:40
int
浅析python实现布隆过滤器及Redis中的缓存穿透原理_python

本文带你了解了位图的实现，布隆过滤器的原理及Python中的使用，以及布隆过滤器如何应对Redis中的缓存穿透，相信你对布隆过滤 ... [详细]

蜡笔小新 2024-11-13 16:43:07
int
使用Xshell与Xftp传输文件及通过Pure-FTPd搭建FTP服务

本文详细介绍了如何利用Xshell配合Xftp实现文件传输，以及如何使用Pure-FTPd构建FTP服务，并探讨了VSFTP与MySQL结合存储虚拟用户的方法。 ... [详细]

蜡笔小新 2024-11-22 00:07:45
int
Maven + Spring + MyBatis + MySQL 环境搭建与实例解析

本文详细介绍如何使用MySQL数据库进行环境搭建，包括创建数据库表并插入示例数据。随后，逐步指导如何配置Maven项目，整合Spring框架与MyBatis，实现高效的数据访问。 ... [详细]

蜡笔小新 2024-11-21 18:39:23
int
JUnit下的测试和suite

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2024-11-21 16:03:49

谢諭宥

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章