Scrapy爬虫（1）爬取菜鸟Git教程目录

作者：张淑男尧珊肇玲 | 来源：互联网 | 2023-09-03 15:13

Scrapy作为爬虫利器，是一个很好的Pyhon爬虫框架，现在也已经支持Python3了。具体的安装过程可以参考：http:www.yiibai.comscrapyscrapy_en

　　Scrapy作为爬虫利器，是一个很好的Pyhon爬虫框架，现在也已经支持Python3了。具体的安装过程可以参考：http://www.yiibai.com/scrapy/scrapy_environment.html 。关于srapy的具体介绍，可以参考网址：https://docs.scrapy.org/en/latest/ 。
　　本文将介绍一个极为简单的例子，通过该例子来帮读者快速进入scrapy的世界，并会持续更新，做进一步的深入研究。本文的scrapy版本为1.0.3-1，python版本为2.7.12.
　　我们要爬取的页面为菜鸟教程的Git教程目录，如下图：
这里写图片描述
　　首先我们先在当前目录下新建一个scrapy项目：scrapy_git,在终端输入如下命令：

scrapy startproject scrapy_git

再输入tree scrapy_git查看文件的树状结构：
这里写图片描述
接着切换到spider目录，并新建文件：git_jc.py,代码如下：

import scrapy

class ToScrapeCSSSpider(scrapy.Spider):
    name = "toscrape-css"
    start_urls = ['http://www.runoob.com/git/git-tutorial.html',]

    def parse(self,response):
        with open('/home/vagrant/python.txt', 'w') as f:
            for i in range(1,12):
                text = response.xpath('//*[@id="leftcolumn"]/a[%d]/text()'%i).extract()[0].encode("utf-8").strip('\n').strip('\t')
                f.write(text+'\n')

其中，toscrape-css为爬虫的名字，十分重要。start_urls为爬取的网页网址。定义parse()函数，将爬取到的目录写入/home/vagrant/python.txt中。在本代码中，采用xpath定位网页元素，当然也可以用css定位。
　　用xpath定位网页元素的具体方法是：选中想要的元素，右击，选中检查(N)，在弹出的网页源代码中，右击，选中copy,再选copy XPath,然后粘贴即可。
　　利用scrapy list可以查看可用的爬虫的名称：
这里写图片描述
　　最后，输入以下命令即可运行该爬虫：（先要新建python.txt文件）

scrapy crawl toscrape-css

运行完后，查看python.txt文件，内容如下：
　　
这里写图片描述
Bingo，我们的scrapy爬虫就运行成功啦!
　　在这个爬虫中，我们其它文件都没有动，而仅仅只是新建了一个git_jc.py文件，足可见scrapy的简洁与高效！期待下次分享^_^……

本次分享到此结束，欢迎大家批评与交流~~

推荐阅读

heap
MySQL索引详解与优化

本文深入探讨了MySQL中的索引机制，包括索引的基本概念、优势与劣势、分类及其实现原理，并详细介绍了索引的使用场景和优化技巧。通过具体示例，帮助读者更好地理解和应用索引以提升数据库性能。 ... [详细]

蜡笔小新 2024-12-25 19:52:47
case
扫描线三巨头 hdu1928hdu 1255 hdu 1542 [POJ 1151]

学习链接：http:blog.csdn.netlwt36articledetails48908031学习扫描线主要学习的是一种扫描的思想，后期可以求解很 ... [详细]

蜡笔小新 2024-12-26 20:04:36
case
告别传统文件传输，迎接新一代高效工具Croc

在现代网络环境中，两台计算机之间的文件传输需求日益增长。传统的FTP和SSH方式虽然有效，但其配置复杂、步骤繁琐，难以满足快速且安全的传输需求。本文将介绍一种基于Go语言开发的新一代文件传输工具——Croc，它不仅简化了操作流程，还提供了强大的加密和跨平台支持。 ... [详细]

蜡笔小新 2024-12-26 16:16:06
case
网络链路质量监控：Smokeping部署与配置

本文详细介绍了如何在Linux系统上安装和配置Smokeping，以实现对网络链路质量的实时监控。通过详细的步骤和必要的依赖包安装，确保用户能够顺利完成部署并优化其网络性能监控。 ... [详细]

蜡笔小新 2024-12-27 19:31:05
数组
JQuery基础：省市联动与表单验证

本文介绍了如何使用JQuery实现省市二级联动和表单验证。首先，通过change事件监听用户选择的省份，并动态加载对应的城市列表。其次，详细讲解了使用Validation插件进行表单验证的方法，包括内置规则、自定义规则及实时验证功能。 ... [详细]

蜡笔小新 2024-12-27 17:10:48
case
HTML Attribute Naming Conventions for Fast Components

This document outlines the recommended naming conventions for HTML attributes in Fast Components, focusing on readability and consistency with existing standards. ... [详细]

蜡笔小新 2024-12-26 19:13:45
import
Qt 5.15.2 在银河麒麟龙芯平台打包的实战经验

本文详细记录了在银河麒麟操作系统和龙芯架构上使用 Qt 5.15.2 进行项目打包时遇到的问题及解决方案，特别关注于 linuxdeployqt 工具的应用。 ... [详细]

蜡笔小新 2024-12-26 10:54:04
main
洛谷 P4116 树上操作：颜色变换与路径查询

本题涉及一棵由N个节点组成的树（共有N-1条边），初始时所有节点均为白色。题目要求处理两种操作：一是改变某个节点的颜色（从白变黑或从黑变白）；二是查询从根节点到指定节点路径上的第一个黑色节点，若无则输出-1。 ... [详细]

蜡笔小新 2024-12-26 10:22:20
main
VSCode与Gitee集成：项目提交的高效实践

本文介绍如何利用VSCode内置的Git工具将项目提交到Gitee，简化Git命令的使用，提升代码管理效率。同时分享一些常见的踩坑经验和解决方案。 ... [详细]

蜡笔小新 2024-12-26 10:16:21
node.js
Node.js 本地扩展开发指南

本文详细介绍了如何在 Windows 环境下使用 node-gyp 工具进行 Node.js 本地扩展的编译和配置，涵盖从环境搭建到代码实现的全过程。 ... [详细]

蜡笔小新 2024-12-25 10:35:17
node.js
资源推荐 | TensorFlow官方中文教程助力英语非母语者学习

来源：机器之心。本文详细介绍了TensorFlow官方提供的中文版教程和指南，帮助开发者更好地理解和应用这一强大的开源机器学习平台。 ... [详细]

蜡笔小新 2024-12-28 09:00:51
import
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
join
解决Uploadify在IE浏览器中的兼容性问题

本文详细介绍了如何解决Uploadify插件在Internet Explorer（IE）9和10版本中遇到的点击失效及JQuery运行时错误问题。通过修改相关JavaScript代码，确保上传功能在不同浏览器环境中的一致性和稳定性。 ... [详细]

蜡笔小新 2024-12-27 22:07:40
join
Linux 系统启动故障排除指南：MBR 和 GRUB 问题

本文详细介绍了 Linux 系统启动过程中常见的 MBR 扇区和 GRUB 引导程序故障及其解决方案，涵盖从备份、模拟故障到恢复的具体步骤。 ... [详细]

蜡笔小新 2024-12-27 20:40:29
数组
2023年京东Android面试真题解析与经验分享

本文由一位拥有6年Android开发经验的工程师撰写，详细解析了京东面试中常见的技术问题。涵盖引用传递、Handler机制、ListView优化、多线程控制及ANR处理等核心知识点。 ... [详细]

蜡笔小新 2024-12-26 17:45:48

张淑男尧珊肇玲

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章