首页技术博客 PHP教程数据库技术前端开发 HTML5 Nginx php论坛

新用户注册 | 会员登录

热门标签 | HotTags

当前位置: 开发笔记 > 编程语言 > 正文

介绍一款好用又易学的爬虫工具：webscraper

作者：手机用户2602918323 | 来源：互联网 | 2023-09-07 10:43

[TOC]webscraper简介：WebScraper分为chrome插件和云服务两种，云服务是收费的，chrome插件是免费的，这里说的就是chrome插件这种。

[TOC]

web scraper

简介：

Web Scraper分为chrome插件和云服务两种，云服务是收费的，chrome插件是免费的，这里说的就是chrome插件这种。 Web Scraper插件，可以让你以“所见即所得”的方式挑选要提取的网页数据，形成模版，以后可以随时执行该模版，并且执行结果可以导出成Csv格式。 web scraper 比较类似selenium和火车头浏览器，不过web scraper功能要少的多，不过更加小巧，学习成本更低

优点

抓取需要登录的数据较方便，因为这个插件是运行在浏览器上的。
只要抓取频率慢一点，被网站屏蔽的概率较小，也因为是浏览器的原因，这就像是真实的用户访问一样。
学习成本低

缺点

好像并不能做验证码识别
抓取效率较低，相对于爬虫程序来说，Web scraper没法大并发，快速切换IP等，所以大量级的数据抓取用Web Scrpaer不适合，慢慢抓大几千网页还是可以。
插件本身是不支持配置定时任务的，云服务提供了这种功能，不过是收费的，到是可以尝试使用Python驱动谷歌来进而来操作web scraper的定时

下载地址：

https://www.webscraper.io/

crx文件：jnhgnonknehpejjnehehllkliplmbmhn_0_2_0_18.crx

操作

安装

谷歌浏览器

打开google浏览器，进入应用

点击网上应用商店

输入框搜索web scraper，点击添加到chrome

安装完成

火狐浏览器

点击右上角的菜单按钮，然后点击进入web开发者

点击获取更多工具

在搜索框里输入web scraper进行搜索

点击添加到 Firefox

使用说明

进入谷歌浏览器，按F12进入开发者模式
安装好web scraper插件之后呢，会在最后出现web scraper标示

点击进入web scraper

首先，我们点击create new sitemaps -->create sitemaps，来创建一个爬虫项目
输入爬虫名称和需要采集的url，点击创建项目

点击Add new selector创建一个选择器

配置相关参数

运行爬虫，查看数据

推荐阅读

require
Node.js 配置文件管理方法详解与最佳实践

本文详细介绍了 Node.js 中配置文件管理的方法与最佳实践，涵盖常见的配置文件格式及其优缺点，并提供了多种实用技巧和示例代码，帮助开发者高效地管理和维护项目配置，具有较高的参考价值。 ... [详细]

蜡笔小新 2024-11-05 06:40:19
python
Python错误重试让多少开发者头疼？高效解决方案出炉

### 优化后的摘要在处理 Python 开发中的错误重试问题时，许多开发者常常感到困扰。为了应对这一挑战，`tenacity` 库提供了一种高效的解决方案。首先，通过 `pip install tenacity` 安装该库。使用时，可以通过简单的规则配置重试策略。例如，可以设置多个重试条件，使用 `|`（或）和 `&`（与）操作符组合不同的参数，从而实现灵活的错误重试机制。此外，`tenacity` 还支持自定义等待时间、重试次数和异常处理，为开发者提供了强大的工具来提高代码的健壮性和可靠性。 ... [详细]

蜡笔小新 2024-11-11 10:33:20
ip
Web开发框架概览：Java与JavaScript技术及框架综述

Web开发涉及服务器端和客户端的协同工作。在服务器端，Java是一种优秀的编程语言，适用于构建各种功能模块，如通过Servlet实现特定服务。客户端则主要依赖HTML进行内容展示，同时借助JavaScript增强交互性和动态效果。此外，现代Web开发还广泛使用各种框架和库，如Spring Boot、React和Vue.js，以提高开发效率和应用性能。 ... [详细]

蜡笔小新 2024-11-09 11:59:38
format
Cocos2d-x学习笔记：基础概念解析与内存管理机制深入探讨

在《Cocos2d-x学习笔记：基础概念解析与内存管理机制深入探讨》中，详细介绍了Cocos2d-x的基础概念，并深入分析了其内存管理机制。特别是针对Boost库引入的智能指针管理方法进行了详细的讲解，例如在处理鱼的运动过程中，可以通过编写自定义函数来动态计算角度变化，利用CallFunc回调机制实现高效的游戏逻辑控制。此外，文章还探讨了如何通过智能指针优化资源管理和避免内存泄漏，为开发者提供了实用的编程技巧和最佳实践。 ... [详细]

蜡笔小新 2024-11-11 14:49:31
ip
DVWA学习笔记系列：深入理解CSRF攻击机制

DVWA学习笔记系列：深入理解CSRF攻击机制 ... [详细]

蜡笔小新 2024-11-11 13:19:51
const
深入解析Struts、Spring与Hibernate三大框架的面试要点与技巧

深入解析Struts、Spring与Hibernate三大框架的面试要点与技巧 ... [详细]

蜡笔小新 2024-11-11 13:09:30
sum
基于Net Core 3.0与Web API的前后端分离开发：Vue.js在前端的应用

本文介绍了如何使用Net Core 3.0和Web API进行前后端分离开发，并重点探讨了Vue.js在前端的应用。后端采用MySQL数据库和EF Core框架进行数据操作，开发环境为Windows 10和Visual Studio 2019，MySQL服务器版本为8.0.16。文章详细描述了API项目的创建过程、启动步骤以及必要的插件安装，为开发者提供了一套完整的开发指南。 ... [详细]

蜡笔小新 2024-11-11 10:58:21
ip
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
ip
全面解析JavaScript代码注释技巧与标准规范

在Web前端开发中，JavaScript代码的可读性和维护性至关重要。本文将详细介绍如何有效地使用注释来提高代码的可读性，并探讨JavaScript代码注释的最佳实践和标准规范。通过合理的注释，开发者可以更好地理解和维护复杂的代码逻辑，提升团队协作效率。 ... [详细]

蜡笔小新 2024-11-10 15:16:18
const
如何撰写适应变化的高效代码：策略与实践

编写高质量且适应变化的代码是每位程序员的追求。优质代码的关键在于其可维护性和可扩展性。本文将从面向对象编程的角度出发，探讨实现这一目标的具体策略与实践方法，帮助开发者提升代码效率和灵活性。 ... [详细]

蜡笔小新 2024-11-09 10:20:32
ip
第六章：枚举类型与switch结构的应用分析

第六章深入探讨了枚举类型与 `switch` 结构在编程中的应用。枚举类型（`enum`）是一种将一组相关常量组织在一起的数据类型，广泛存在于多种编程语言中。例如，在 Cocoa 框架中，处理文本对齐时常用 `NSTextAlignment` 枚举来表示不同的对齐方式。通过结合 `switch` 结构，可以更清晰、高效地实现基于枚举值的逻辑分支，提高代码的可读性和维护性。 ... [详细]

蜡笔小新 2024-11-07 14:36:27
testing
如何更有效地提升对支持部门的协助与支撑？ - Enhancing Support for the Support Department: Strategies and Best Practices

尽管我们尽最大努力，任何软件开发过程中都难免会出现缺陷。为了更有效地提升对支持部门的协助与支撑，本文探讨了多种策略和最佳实践，旨在通过改进沟通、增强培训和支持流程来减少这些缺陷的影响，并提高整体服务质量和客户满意度。 ... [详细]

蜡笔小新 2024-11-07 06:55:33
testing
CSS雪碧技术：优化网页加载速度的专业方法

CSS雪碧技术是一种用于优化网页加载速度的有效方法，通过将多个小图像合并成一张大图像，减少HTTP请求次数。这种方法在前端开发中广泛应用，能够显著提升页面性能。本文将详细介绍该技术的实现原理，并提供一个具体的示例演示。 ... [详细]

蜡笔小新 2024-11-06 13:51:58
ip
深入对话上海视九叶文鑫：HTML5技术引领智能电视新趋势

深入对话上海视九叶文鑫：HTML5技术引领智能电视新趋势 ... [详细]

蜡笔小新 2024-11-06 12:29:12
ip
Google 实验框架优化：实现更高效、更精准、更快速的测试

为了评估精心优化的模型与策略在实际环境中的表现，Google对其实验框架进行了全面升级，旨在实现更高效、更精准和更快速的在线测试。新的框架支持更多的实验场景，提供更好的数据洞察，并显著缩短了实验周期，从而加速产品迭代和优化过程。 ... [详细]

蜡笔小新 2024-11-04 21:02:34

手机用户2602918323

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章

PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved |

京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区版权所有