热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

html批量采集,批量采集网页数据八爪鱼采集器

有时候,我们有大量同类网页,希望八爪鱼能自动采集每个网页中的数据。通过设置【URL循环】,可实现此需求。什么是同类网页?结构

有时候,我们有大量同类网页,希望八爪鱼能自动采集每个网页中的数据。通过设置【URL循环】,可实现此需求。

什么是同类网页?结构相同、字段差不多的网页。例:

京东商品详情页:

豆瓣电影详情页:

https://movie.douban.com/subject/26387939/

https://movie.douban.com/subject/6311303/

https://movie.douban.com/subject/1578714/

一、【URL循环】操作演示

示例网址:

https://movie.douban.com/subject/26387939/

https://movie.douban.com/subject/6311303/

https://movie.douban.com/subject/1578714/

https://movie.douban.com/subject/26718838/

https://movie.douban.com/subject/25937854/

https://movie.douban.com/subject/26743573/

https://movie.douban.com/subject/20451290/

https://movie.douban.com/subject/26816383/

采集需求:

采集每个豆瓣电影详情页的电影

Step1. 打开网页

在首页左上角点击【新建】—【自定义任务】。网址输入界面默认的是【手动输入】。将复制好的一批同类网址,粘贴进网址输入框中,并点击【保存网址】。八爪鱼中内置的浏览器会自动打开网页。同时,可以看到,流程中已自动创建【循环-打开网页】步骤。

3b89a55794d966464d8567f19be60f71.gif

鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图

下文其他图片同理

特别说明:

a. 手动输入的url数量不得大于1万个,如有超过1万url,请选择【从文件导入】,具体请查看教程 网址输入升级

b.  Url还可以选择【从任务导入】和【批量生成】,具体请查看教程 网址输入升级

Step2.按照需求配置所需的字段。

057e64a6361c422dab9ad2581e8923e3.gif

Step3. 配置完成后启动采集。

5d11d7980ec39ad835f70c0833e2e226.png

采集到的数据示例如下图所示:

84783e3fcb8e7332af6b32717486d6a4.png

二、Url循环的使用场景

1、【URL循环】的任务,在进行【云采集】时,可有效进行任务拆分,分配到每个云节点上并发采集,极大提高采集速度。

点击  云采集原理以及规则加速设置 查看url循环类规则进行云采集拆分加速的详细过程。

2、有的网页在采集时,点击跳转至详情页后,无法返回列表页。可以先在列表页采集详情页URL,然后通过【URL循环】,批量打采集每个详情页内的数据。

作者:西瓜

编辑:Aisling



推荐阅读
  • 深入剖析JVM垃圾回收机制
    本文详细探讨了Java虚拟机(JVM)中的垃圾回收机制,包括其意义、对象判定方法、引用类型、常见垃圾收集算法以及各种垃圾收集器的特点和工作原理。通过理解这些内容,开发人员可以更好地优化内存管理和程序性能。 ... [详细]
  • Spring Boot 中静态资源映射详解
    本文深入探讨了 Spring Boot 如何简化 Web 应用中的静态资源管理,包括默认的静态资源映射规则、WebJars 的使用以及静态首页的处理方法。通过本文,您将了解如何高效地管理和引用静态资源。 ... [详细]
  • 本文介绍了一个基于 Java SpringMVC 和 SSM 框架的综合系统,涵盖了操作日志记录、文件管理、头像编辑、权限控制、以及多种技术集成如 Shiro、Redis 等,旨在提供一个高效且功能丰富的开发平台。 ... [详细]
  • 推荐几款高效测量图片像素的工具
    本文介绍了几款适用于Web前端开发的工具,这些工具可以帮助用户在图片上绘制线条并精确测量其像素长度。对于需要进行图像处理或设计工作的开发者来说非常实用。 ... [详细]
  • 配置PHPStudy环境并使用DVWA进行Web安全测试
    本文详细介绍了如何在PHPStudy环境下配置DVWA( Damn Vulnerable Web Application ),并利用该平台进行SQL注入和XSS攻击的练习。通过此过程,读者可以熟悉常见的Web漏洞及其利用方法。 ... [详细]
  • 搭建Jenkins、Ant与TestNG集成环境
    本文详细介绍了如何在Ubuntu 16.04系统上配置Jenkins、Ant和TestNG的集成开发环境,涵盖从安装到配置的具体步骤,并提供了创建Windows Slave节点及项目构建的指南。 ... [详细]
  • 软件工程课堂测试2
    要做一个简单的保存网页界面,首先用jsp写出保存界面,本次界面比较简单,首先是三个提示语,后面是三个输入框,然 ... [详细]
  • 深入理解 JMeter 定时器
    本文详细介绍了JMeter中定时器的功能和使用方法,探讨了其在性能测试中的重要性,并结合实际案例解释了如何合理配置定时器以模拟真实的用户行为。文章还涵盖了定时器的执行顺序及其与其他元件的相互作用。 ... [详细]
  • 本文详细介绍了Linux系统中的进程管理函数,涵盖了获取进程ID、用户ID、创建子进程、信号处理等关键操作。通过这些函数,开发者可以更好地控制和管理进程行为。 ... [详细]
  • Python3 中使用 lxml 模块解析 XPath 数据详解
    XPath 是一种用于在 XML 文档中查找信息的路径语言,同样适用于 HTML 文件的搜索。本文将详细介绍如何利用 Python 的 lxml 模块通过 XPath 技术高效地解析和抓取网页数据。 ... [详细]
  • 当unique验证运到图片上传时
    2019独角兽企业重金招聘Python工程师标准model:public$imageFile;publicfunctionrules(){return[[[na ... [详细]
  • docker镜像重启_docker怎么启动镜像dock ... [详细]
  • 优化Jenkins首次启动速度
    本文详细描述了在启动Jenkins后遇到的长时间加载问题,并提供了一种通过修改更新中心配置文件来显著提升启动速度的有效解决方案。 ... [详细]
  • GoCV入门指南:配置与基础应用
    本文详细介绍了GoCV的安装配置及基本使用方法,包括如何打开摄像头、图片和视频文件。适合Golang开发者快速上手。 ... [详细]
  • 本文详细介绍了如何使用带有 [Flags] 属性的枚举类型。通过将枚举值设置为2的幂次方,可以确保每个枚举项在二进制表示中只有一个位为1,从而避免冲突,并实现高效的位运算操作。 ... [详细]
author-avatar
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有