当前位置: 开发笔记 > 编程语言 > 正文

Scrapy爬虫实战：百度搜索找到自己

作者：美甲控Alily | 来源：互联网 | 2023-09-25 18:10

Scrapy爬虫实战：百度搜索找到自己,Go语言社区,Golang程序员人脉社

Scrapy爬虫实战：百度搜索找到自己

背景
分析

怎么才算找到了自己
怎么才能拿到百度搜索标题
怎么爬取更多页面

baidu_search.py
声明BaiDuSearchItem

Items
items.py

Item Pipeline

pipelines.py

配置Pipeline

settings.py

运行测试

这里我们演示从百度找到我自己来让大家理解了解爬虫的魅力。

背景

有啥不懂的问度娘，百度搜索引擎可以搜到我们想要的内容，这里我们可以尝试爬取百度搜索引擎搜出来的东西，然后找到我们想要的内容。

例如：我们可以这样来搜索 https://www.baidu.com/s?wd=灵动的艺术
百度搜索

当然，因为我的博客是新开的，第一个自然不是我，并且能排名第一的必然也是要花钱的，大家懂的。

并且不但第一个不是我，可能第一页也可能都找不到我。我们需要不断过滤更多页才能找到我自己
更多页面

分析

怎么才算找到了自己

这里我演示找到我自己的博客就算是找到了我自己，判定方法有多种，比如找到了标题为【灵动的艺术的博客】新开始,新旅程 - CSDN博客就可以算是找到了我，或者百度连接为 http://www.baidu.com/link?url=9MdeR3DMon9bNvI8_loZk8MWb2s8zApEZx43oiOQgcsKAiSF3mvOD98YE811awwwm6NXYm8w7bVwfCF-a5VDerAiCmJyM1qFM9u5YrVraIO 这个，也算是找到了我自己。

这里我们以标题为例：

怎么才能拿到百度搜索标题

如下图，我们利用浏览器的检查功能，利用选择工具，选中标题，我们就可以看到当前页面的内容

这里我们可以知道我们的标题内容在'//div[@class="result c-container "]/h3/a'标签里面，那么我们需要获取这类标签的内容。

那么我们可以知道//div[@id="page"]/strong/span[@class="pc"]/text()标签可以拿到当前页。//div[@id="page"]/a/@href可以拿到更多页面的跳转连接。

baidu_search.py

这里我们修改之前的baidu_search.py

# -*- coding: utf-8 -*- import scrapy from tutorial.items import BaiDuSearchItem class BaiduSearchSpider(scrapy.Spider): name = 'baidu_search' allowed_domains = ['www.baidu.com'] start_urls = ['http://www.baidu.com/s?wd=灵动的艺术'] def parse(self, response): # 拿到当前页码 current_page = int(response.xpath('//div[@id="page"]/strong/span[@class="pc"]/text()').extract_first()) #当前页面查找内容 for i,a in enumerate(response.xpath('//div[@class="result c-container "]/h3/a')): #拿到标题文本 title = ''.join(a.xpath('./em/text() | ./text()').extract()) # 精确找到自己 if title.find('灵动的艺术的博客') > -1: item = BaiDuSearchItem() item['visit_url'] = a.xpath('@href').extract() # 提取链接 item['page'] = current_page item['rank'] = i+1 item['title'] = title yield item #依次访问百度下面的更多页面，再次分别查找 for p in response.xpath('//div[@id="page"]/a'): p_url = 'http://www.baidu.com' + str(p.xpath('./@href').extract_first()) yield scrapy.Request(p_url, callback=self.parse_other_page) def parse_other_page(self, response): #拿到当前页码 current_page = int(response.xpath('//div[@id="page"]/strong/span[@class="pc"]/text()').extract_first()) #当前页面查找内容 for i,a in enumerate(response.xpath('//div[@class="result c-container "]/h3/a')): # 拿到标题文本 title = ''.join(a.xpath('./em/text() | ./text()').extract()) # 精确找到自己 if title.find('灵动的艺术的博客') > -1: item = BaiDuSearchItem() item['visit_url'] = a.xpath('@href').extract() # 提取链接 item['page'] = current_page item['rank'] = i+1 item['title'] = title yield item

代码比较简单，简单明了

声明BaiDuSearchItem

Items

爬取的主要目标就是从非结构性的数据源提取结构性数据，例如网页。 Scrapy spider可以以python的dict来返回提取的数据.虽然dict很方便，并且用起来也熟悉，但是其缺少结构性，容易打错字段的名字或者返回不一致的数据，尤其在具有多个spider的大项目中。。

为了定义常用的输出数据，Scrapy提供了 Item 类。 Item 对象是种简单的容器，保存了爬取到得数据。其提供了类似于词典(dictionary-like) 的API以及用于声明可用字段的简单语法。

许多Scrapy组件使用了Item提供的额外信息: exporter根据Item声明的字段来导出数据、序列化可以通过Item字段的元数据(metadata)来定义、 trackref 追踪Item实例来帮助寻找内存泄露 (see 使用 trackref 调试内存泄露) 等等。

items.py

# -*- coding: utf-8 -*- # Define here the models for your scraped items # # See documentation in: # https://doc.scrapy.org/en/latest/topics/items.html import scrapy class BaiDuSearchItem(scrapy.Item): visit_url = scrapy.Field() # 链接 page = scrapy.Field() # 页码 rank = scrapy.Field() # 第几位 title = scrapy.Field() # 主标题
Item Pipeline

当Item在Spider中被收集之后，它将会被传递到Item Pipeline，一些组件会按照一定的顺序执行对Item的处理。

每个item pipeline组件(有时称之为“Item Pipeline”)是实现了简单方法的Python类。他们接收到Item并通过它执行一些行为，同时也决定此Item是否继续通过pipeline，或是被丢弃而不再进行处理。

以下是item pipeline的一些典型应用：

清理HTML数据

验证爬取的数据(检查item包含某些字段)

查重(并丢弃)

将爬取结果保存到数据库中

pipelines.py

# -*- coding: utf-8 -*- # Define your item pipelines here # # Don't forget to add your pipeline to the ITEM_PIPELINES setting # See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html class BaiDuSearchPipeline(object): def process_item(self, item, spider): print('BaiDuSearchPipeline',item) return item
配置Pipeline

我们需要在settings.py中配置Pipeline

settings.py

# Configure item pipelines # See https://doc.scrapy.org/en/latest/topics/item-pipeline.html ITEM_PIPELINES = { 'tutorial.pipelines.BaiDuSearchPipeline': 1, }
运行测试

#进入虚拟环境 cd /data/code/python/venv/venv_Scrapy/ #crawl开始爬虫 ../bin/python3 ../bin/scrapy crawl baidu_search

结果表明，百度搜索出来的结果，我们在第2页第一个和第5页第八个都找到了我自己。

GitHub源码

推荐阅读

select
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
cmd
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
get
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
email
移动 UI 设计基础：打造简洁高效的用户界面

本章将深入探讨移动 UI 设计的核心原则，帮助开发者构建简洁、高效且用户友好的界面。通过学习设计规则和用户体验优化技巧，您将能够创建出既美观又实用的移动应用。 ... [详细]

蜡笔小新 2024-12-27 08:43:40
select
Go+ 中的上下文处理指南

本文详细介绍 Go+ 编程语言中的上下文处理机制，涵盖其基本概念、关键方法及应用场景。Go+ 是一门结合了 Go 的高效工程开发特性和 Python 数据科学功能的编程语言。 ... [详细]

蜡笔小新 2024-12-28 11:05:31
get
Transforming the Future of Virtual Worlds

Explore how Matterverse is redefining the metaverse experience, creating immersive and meaningful virtual environments that foster genuine connections and economic opportunities. ... [详细]

蜡笔小新 2024-12-28 09:44:49
get
Handling Null Object Encoding in OAuth 1.0a API Implementation

Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]

蜡笔小新 2024-12-28 08:54:34
get
解决Uploadify在IE浏览器中的兼容性问题

本文详细介绍了如何解决Uploadify插件在Internet Explorer（IE）9和10版本中遇到的点击失效及JQuery运行时错误问题。通过修改相关JavaScript代码，确保上传功能在不同浏览器环境中的一致性和稳定性。 ... [详细]

蜡笔小新 2024-12-27 22:07:40
get
分页插件3指定到某一页

前言--页数多了以后需要指定到某一页（只做了功能，样式没有细调）html ... [详细]

蜡笔小新 2024-12-27 15:19:01
get
深入理解Python的os和sys模块

本文详细解析了Python中的os和sys模块，介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]

蜡笔小新 2024-12-26 22:04:19
cmd
离线环境下的Python及其第三方库安装指南

在项目开发中，有时会遇到电脑只能连接内网或完全无法联网的情况。本文将详细介绍如何在这种环境下安装Python及其所需的第三方库，确保开发工作的顺利进行。 ... [详细]

蜡笔小新 2024-12-26 19:51:48
cmd
Hadoop入门与核心组件详解

本文详细介绍了Hadoop的基础知识及其核心组件，包括HDFS、MapReduce和YARN。通过本文，读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]

蜡笔小新 2024-12-26 13:12:48
php
TechStride 网站

TechStride 成立于2014年初，致力于互联网前沿技术、产品创意及创业内容的聚合、搜索、学习与展示。我们旨在为互联网从业者提供更高效的新技术搜索、学习、分享和产品推广平台。 ... [详细]

蜡笔小新 2024-12-24 20:04:54
php
技术变现之道：从日常工作中挖掘潜力

本文探讨了如何在日常工作中通过优化效率和深入研究核心技术，将技术和知识转化为实际收益。文章结合个人经验，分享了提高工作效率、掌握高价值技能以及选择合适工作环境的方法，帮助读者更好地实现技术变现。 ... [详细]

蜡笔小新 2024-12-24 15:21:23
buffer
HTTP请求与响应机制详解

本文深入探讨了HTTP请求和响应对象的使用，详细介绍了如何通过响应对象向客户端发送数据、处理中文乱码问题以及常见的HTTP状态码。此外，还涵盖了文件下载、请求重定向、请求转发等高级功能。 ... [详细]

蜡笔小新 2024-12-23 20:40:08

美甲控Alily

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章