基于Selenium爬取淘宝商品+pyquery解析+MongoDB存储

作者：悦爱张晓桀 | 来源：互联网 | 2023-06-09 18:12

一、前言你未看此花时，此花与汝同归于寂；你来看此花时，则此花颜色一时明白起来，便知此花不在你的心外。喜欢阳明的哲学，也希望以后可以身心力行，知行合一。二、环境搭建

一、前言

你未看此花时，此花与汝同归于寂；你来看此花时，则此花颜色一时明白起来，便知此花不在你的心外。

喜欢阳明的哲学，也希望以后可以身心力行，知行合一。

二、环境搭建

本文主要在window系统下，基于python3环境。
selenium安装： pip3 install selenium
pyquery安装： pip3 install pyquery
pymongo安装： pip3 install pymongo
配置Chromedriver： 根据Chrome版本下载相应版本，具体参见上篇博客selenium使用
Mongodb安装：
1、下载地址
https://www.mongodb.com/download-center#community

2、双击安装，选择common选项指定路径，点击next安装成功即可。下面设定你的安装路径为C:\MongoDB\Server\3.4
3、在此路径bin目录下新建【同级目录】data文件夹，进入data文件夹，新建子文件夹db来存储数据目录。
4、打开命令行，输入cmd命令，进入C:\MongoDB\Server\3.4\data\db目录下，运行MongoDB服务，如下：

mongod --dbpath "C:\MongoDB\Server\3.4\data\db"

运行之后会打印一些信息，这样我们就启动MongoDB服务了。但这个命令行不能关闭，否则MongoDB这个服务就不能使用了。这显然不是我们想要的，接下来还需要将mongdb配置成系统服务。
a、以管理员模式运行命令行，【记住一定要用管理员身份】。
b、在bin目录新建同级目录logs，进入之后新建一个mongodb.log文件，用于保存MongoDB的运行日志。然后a步骤启动的命令行里输入

mongod --bind_ip 0.0.0.0 --logpath "C:\MongoDB\Server\3.4\logs\mongodb.log" --logappend --dbpath "C:\MongoDB\Server\3.4\data\db" --port 27017 --serviceName "MongoDB" --serviceDisplayName "MongoDB" --install

这里意思是绑定ip为0.0.0.0（任意IP可以访问)，指定日志路径、数据库路径和端口，指定服务名称，如果没有出错，说明MongoDB服务已经安装成功，然后启动。可以在服务管理页面查看到系统服务。

注：记得把之前根据命令行启动mongdb的cmd命令框关闭，然后这个服务设置成自动启动或者手动启动，这样可以非常方便的关联MongoDB服务了。

三、目标数据

我们利用selenium抓取淘宝商品并用pyquery解析得到商品的图片、名称、价格、购买人数、店铺名称和店铺所在地信息，并保存在MongoDB。

抓取的入口就是在淘宝搜索页面，例如输入iPad，就可以直接访问https://s.taobao.com/search?q=iPad，呈现第一页的搜索结果，如图所示：

页面下方，有一个分页导航，可以下一页，也可以跳转页面跳转链接，一共100页。
注：这里不直接点击下一页，原因是：一旦爬取过程中出现异常退出，就无法快速切换到对应的后续页面了，而且在爬取过程中还要记录当前页面数，一旦点击下一页之后页面加载失败，还需要做异常检测，检测当前页面是加载到第几页了，整个流程比较复杂。所以这里直接用跳转的方式爬取。
当我们成功加载出某一页商品列表，利用Selenium获取页面源码，然后再用相应的解析库，这里选用pyquery进行解析，然后用mongdb存储，具体实现如下操作，相应库的使用方法，会另开博文叙述。

四、获取商品列表

分析下思路：如何利用selenium获取商品的链接页（获取的源码和浏览器看到的一样）；如何对商品链接页解析，提取数据；如何保存数据到mongdb中。
首先根据我们的思路着手操作
获取商品的链接页

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

from selenium import webdriver
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
from urllib.parse import quote
from pyquery import PyQuery as pq
from pymongo import MongoClient

# 声明浏览器对象，这里使用Chrome浏览器
browser = webdriver.Chrome(r'c:\bin\chromedriver.exe')
# 引入WebDriverWait对象，指定显示等待，最长等待时间10s
wait = WebDriverWait(browser, 10)
KeyWord = 'ipad'
# 总页数
MAX_PAGE = 100
MONGO_URL = 'localhost'
MONGO_DB = 'taobao'
MONGO_COLLECTION = 'products'
client = MongoClient(MONGO_URL)
db = client[MONGO_DB]
# 获取商品链接页
def index_page(page):
    print('正在爬取第',page,'页')
    # 搜索关键词在淘宝中的首页链接地址
    try:
        # quote作用是字符串编码，对应的unquote是解码，自己可以动手操作
        url = 'https://s.taobao.com/search?q=' + quote(KeyWord)
        browser.get(url)
        # 如果寻找第2/3/4……页，开始利用跳转输入，确定搜索。
        if page>1:
            # 找到数字输入框的节点，传入presence_of_element_located条件，代表节点出现的意思，参数是节点的定位元组
            # 这样做到的效果就是在10s内如果这个输入框节点成功加载处理，就返回该节点，超过10s还没加载出来，就抛出异常
            input = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,'#mainsrp-pager > div > div > div > div.form > input')))
            # 找到确定按钮的输入框节点，同上解释，不过是按钮节点
            submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR,'#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit')))
            input.clear()
            input.send_keys(page)
            submit.click()
        # text_to_be_present_in_element方法，判断元素中存在指定文本,用来判断当前高亮页面是当前的页面数即可，说明跳转页数成功
        wait.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR,'#mainsrp-pager > div > div > div > ul > li.item.active > span'),str(page)))
        wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR,'#mainsrp-itemlist > div > div > div')))
        get_products()
    except TimeoutException:
        index_page(page)
# 解析商品列表
def get_products():
    # 获取各种渲染后的源码
    html = browser.page_source
    doc = pq(html)
    items = doc('#mainsrp-itemlist .items .item').items()
    for item in items:
        product = {
            'image': item.find('.pic .img').attr('data-src'),
            'price': item.find('.price').text().replace('\n',''),
            'deal': item.find('.deal-cnt').text(),
            'title':item.find('.title').text().replace('\n',''),
            'shop': item.find('.shop').text(),
            'location': item.find('.location').text()
        }
        print(product)
        save_to_mongo(product)
def save_to_mongo(result):
    try:
        if db[MONGO_COLLECTION].insert(result):
            print('存储MongoDB成功')
    except Exception:
        print('存储MongoDB失败')

def main():
    for i in range(1,MAX_PAGE+1):
        index_page(i)

if __name__=='__main__':
    main()

打印成功页面

存储到MongoDB数据库

到此为止，我们成功的爬取了淘宝的商品信息。

五、对接PhantomJS

如果不想使用Chrome的Headless模式，还可以使用PhantomJS(无界面浏览器)来抓取。不会弹出窗口，只需要在WebDriver的声明修改一下即可

browser = webdriver.PhantomJS()

另外，它还支持命令行配置，比如，可以设置缓存和禁止图片加载的功能，进一步提高爬取效率：

SERVICE_ARGS = ['--load-images=false', '--disk-cache=true']
browser = webdriver.PhantomJS(service_args=SERVICE_ARGS)

六、结束

本文主要基于静觅大神的博客，自己动手操作而成，有自己的理解，有少量代码中参数的一些不同,但结果应该都一样，后续还会持续向静觅大神学习爬虫技术，欢迎交流。

推荐阅读

cmd
Docker安全策略与管理

本文探讨了Docker的安全挑战、核心安全特性及其管理策略，旨在帮助读者深入理解Docker安全机制，并提供实用的安全管理建议。 ... [详细]

蜡笔小新 2024-11-21 20:03:03
select
Oracle 11g 创建表空间与基础配置

本文详细介绍了Oracle 11g中的创建表空间的方法，以及如何设置客户端和服务端的基本配置，包括用户管理、环境变量配置等。 ... [详细]

蜡笔小新 2024-11-21 18:54:39
install
MongoDB 高可用集群搭建指南：分片、读写分离与负载均衡

本文详细介绍了如何搭建一个高可用的MongoDB集群，包括环境准备、用户配置、目录创建、MongoDB安装、配置文件设置、集群组件部署等步骤。特别关注分片、读写分离及负载均衡的实现。 ... [详细]

蜡笔小新 2024-11-20 18:28:16
install
Linux环境下MySQL的安装与部署指南

本文详细介绍了在Linux操作系统上安装和部署MySQL数据库的过程，包括必要的环境准备、安装步骤、配置优化及安全设置等内容。 ... [详细]

蜡笔小新 2024-11-20 18:10:53
select
Oracle 数据库间通过 DBLink 进行交互的方法

本文介绍了如何在两个Oracle数据库（假设为数据库A和数据库B）之间设置DBLink，以便能够从数据库A中直接访问和操作数据库B中的数据。文章详细描述了创建DBLink前的必要准备步骤以及具体的创建方法。 ... [详细]

蜡笔小新 2024-11-20 11:20:35
search
开发笔记:前端之前端初识

开发笔记:前端之前端初识 ... [详细]

蜡笔小新 2024-11-16 16:05:59
install
Oracle VM VirtualBox 使用指南：创建静态网页及高级功能

本文详细介绍了如何在Oracle VM VirtualBox中实现主机与虚拟机之间的数据交换，包括安装Guest Additions增强功能，以及如何利用这些功能进行文件传输、屏幕调整等操作。 ... [详细]

蜡笔小新 2024-11-21 18:13:22
select
Web动态服务器Python基本实现

Web动态服务器Python基本实现 ... [详细]

蜡笔小新 2024-11-21 08:01:30
shell
设置Shadowsocks公共代理的关键步骤

本文详细介绍了如何正确设置Shadowsocks公共代理，包括调整超时设置、检查系统限制、防止滥用及遵守DMCA法规等关键步骤。 ... [详细]

蜡笔小新 2024-11-20 20:41:33
schema
使用Service Locator模式实现高效的服务命名访问

本文探讨了如何通过Service Locator模式来简化和优化在B/S架构中的服务命名访问，特别是对于需要频繁访问的服务，如JNDI和XMLNS。该模式通过缓存机制减少了重复查找的成本，并提供了对多种服务的统一访问接口。 ... [详细]

蜡笔小新 2024-11-20 19:26:30
metadata
深入解析WebP图片格式及其应用

随着互联网技术的发展，无论是PC端还是移动端，图片数据流量占据了很大比重。尤其在高分辨率屏幕普及的背景下，如何在保证图片质量的同时减少文件大小，成为了亟待解决的问题。本文将详细介绍Google推出的WebP图片格式，探讨其在实际项目中的应用及优化策略。 ... [详细]

蜡笔小新 2024-11-20 16:31:47
install
实践指南：使用Express、Create React App与MongoDB搭建React开发环境

本文详细介绍了如何利用Express、Create React App和MongoDB构建一个高效的React应用开发环境，旨在为开发者提供一套完整的解决方案，包括环境搭建、数据模拟及前后端交互。 ... [详细]

蜡笔小新 2024-11-20 10:05:15
cookie
Cookie学习小结

Cookie学习小结 ... [详细]

蜡笔小新 2024-11-14 16:26:25
runtime
在OpenShift上部署基于MongoDB和Node.js的多层应用程序

本文档详细介绍了如何在OpenShift 4.x环境中部署一个包含MongoDB数据库和Node.js后端及前端的多层应用程序。通过逐步指导，读者可以轻松完成整个部署过程。 ... [详细]

蜡笔小新 2024-11-14 11:29:04
runtime
调整微软云服务器时区及设置指南

本文详细介绍了如何在Azure DevOps Services和Azure DevOps Server中调整时区设置，以及这些设置对不同功能的影响。 ... [详细]

蜡笔小新 2024-11-21 13:51:52

悦爱张晓桀

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章