当前位置: 开发笔记 > 编程语言 > 正文

golangcolly爬取第一ppt完整源码和程序（已编译好放在github)

作者：找唐娃娃_622 | 来源：互联网 | 2023-10-12 17:57

仅供参考和学习，请适度轻爬爬取第一PPT导航栏中的除了后三个的所有ppt并分类文件夹保存如下图windows64二进制程序mac二进制程序如想自己尝试(步骤如下支持

仅供参考和学习&＃xff0c;请适度轻爬

在这里插入图片描述

爬取第一PPT导航栏中的除了后三个的所有ppt并分类文件夹保存如下图

在这里插入图片描述
windows64二进制程序
mac二进制程序

如想自己尝试(步骤如下支持go1.13及其以及上)

git clone https://github.com/xhaoxiong/fetch_ppt
go build
./FetchPPT FetchPPT.exe

/*** &＃64;Author xiaoxiao* &＃64;Description CREATE FILE collector* &＃64;Date 2020/10/10 10:29 上午**/ package collectorimport ("FetchPPT/util""bytes""fmt""github.com/gocolly/colly/v2""io""log""os""path""strconv""strings""sync" )const (originUrl &＃61; "http://www.di1ppt.com"downloadOriginUrl &＃61; "http://www.di1ppt.com/e/DownSys" )type SeedConfig struct {DownloadFile DownloadFileGetNavCollector func(file DownloadFile) }type DownloadFile struct {Filename stringUrl stringDirectory stringOriginDirectory string }type CrawCollector struct {DownloadFile DownloadFileWg *sync.WaitGroup }var filterMap &＃61; map[string]bool{"/office/": true,"/ziti/": true,"http://www.10103.com": true, }var page_list &＃61; make(map[string]bool)func Run() {SeedConfig :&＃61; SeedConfig{DownloadFile: DownloadFile{Filename: "",Url: "",Directory: "",},GetNavCollector: GetNavCollector,}SeedConfig.Run() }func (s *SeedConfig) Run() {s.GetNavCollector(s.DownloadFile) }var Wg &＃61; &sync.WaitGroup{}//获取导航页面 func GetNavCollector(downloadFile DownloadFile) {c :&＃61; colly.NewCollector()c.OnHTML("#navMenu li", func(element *colly.HTMLElement) {cc :&＃61; &CrawCollector{DownloadFile: downloadFile,}seedUrl :&＃61; element.ChildAttr("a", "href")if !filterMap[seedUrl] {directory :&＃61; element.ChildText("a>span")dir :&＃61; path.Join(downloadFile.OriginDirectory, directory)if !util.Exists(dir) {os.MkdirAll(dir, 0777)}cc.DownloadFile.Directory &＃61; dirWg.Add(1)cc.GetDetailCollector(seedUrl)}})c.OnScraped(func(response *colly.Response) {fmt.Println("完成全部抓取")})c.Visit(originUrl)Wg.Wait() }//获取导航对应首页N页列表 func (cc *CrawCollector) GetDetailCollector(seedUrl string) {c :&＃61; colly.NewCollector()c.OnHTML(".dlbox .clearfix .pages", func(element *colly.HTMLElement) {lis :&＃61; element.DOM.Find("li")pageUrl, _ :&＃61; lis.Last().Find("a").Attr("href")split :&＃61; strings.Split(pageUrl, "_")ii, _ :&＃61; strconv.Atoi(strings.Split(split[1], ".")[0])for i :&＃61; 1; i }//获取每页对应的详情页 func (cc *CrawCollector) GetPageDetailCollector(seedUrl2 string) {c :&＃61; colly.NewCollector()c.OnHTML(".dlbox .tplist li>a", func(element *colly.HTMLElement) {detailUrl :&＃61; element.Attr("href")Wg.Add(1)go cc.GetDownloadUrlCollector(detailUrl)})c.Visit(originUrl &＃43; seedUrl2) }//获取下载页面 func (cc *CrawCollector) GetDownloadUrlCollector(detailUrl string) {c :&＃61; colly.NewCollector()c.OnHTML(".downurllist li>a", func(element *colly.HTMLElement) {if element.Index &＃61;&＃61; 0 {downloadlUrl :&＃61; element.Attr("href")cc.GetDownloadUrlDetailCollector(downloadlUrl)}})c.Visit(originUrl &＃43; detailUrl) }//获取验证码下载页面 func (cc *CrawCollector) GetDownloadUrlDetailCollector(downLoadDetailUrl string) {c :&＃61; colly.NewCollector()c.OnHTML("tbody td>a", func(element *colly.HTMLElement) {downloadUrl :&＃61; element.Attr("href")downloadUrl &＃61; strings.Replace(downloadUrl, "..", "", -1)cc.DownloadFile.Url &＃61; downloadOriginUrl &＃43; downloadUrlWg.Add(1)go cc.FetchPPT(downloadOriginUrl &＃43; downloadUrl)})c.Visit(originUrl &＃43; downLoadDetailUrl) }//获取ppt详情下载页面 func (cc *CrawCollector) FetchPPT(dowloadUrl string) {c :&＃61; colly.NewCollector()defer Wg.Done()c.OnResponse(func(response *colly.Response) {filename :&＃61; response.FileName()filepath :&＃61; path.Join(cc.DownloadFile.Directory, filename)if _, err :&＃61; os.Stat(filepath); err &＃61;&＃61; nil {log.Println("文件已存在:", filename)return}output, err :&＃61; os.Create(filepath)defer output.Close()if err !&＃61; nil {log.Println("创建失败: ", err)}_, err &＃61; io.Copy(output, bytes.NewReader(response.Body))if err !&＃61; nil {log.Println("写入失败 ", err)}log.Printf("下载文件 %s/%s", cc.DownloadFile.Directory, filename)})c.Visit(dowloadUrl) }

推荐阅读

byte
基于KVM的SRIOV直通配置及性能测试

SRIOV介绍、VF直通配置，以及包转发率性能测试小慢哥的原创文章，欢迎转载目录?1.SRIOV介绍?2.环境说明?3.开启SRIOV?4.生成VF?5.VF ... [详细]

蜡笔小新 2024-12-25 19:26:39
byte
深入解析Java枚举及其高级特性

本文详细介绍了Java枚举的概念、语法、使用规则和应用场景，并探讨了其在实际编程中的高级应用。所有相关内容已收录于GitHub仓库[JavaLearningmanual](https://github.com/Ziphtracks/JavaLearningmanual)，欢迎Star并持续关注。 ... [详细]

蜡笔小新 2024-12-22 14:46:52
byte
深入解析Java虚拟机（JVM）架构与原理

本文旨在为读者提供对Java虚拟机（JVM）的全面理解，涵盖其主要组成部分、工作原理及其在不同平台上的实现。通过详细探讨JVM的结构和内部机制，帮助开发者更好地掌握Java编程的核心技术。 ... [详细]

蜡笔小新 2024-12-21 23:50:40
version
Java 架构：深入理解 JDK 动态代理机制

代理模式是 Java 中常用的设计模式之一，其核心在于代理类与委托类共享相同的接口。代理类主要用于为委托类提供预处理、过滤、转发及后处理等功能，以增强或改变原有功能的行为。 ... [详细]

蜡笔小新 2024-12-17 18:09:39
version
任务栈？返回栈？启动模式？

任务,栈, ... [详细]

蜡笔小新 2024-12-16 16:58:56
version
在Win10上利用VS2015构建Caffe2环境

本文详细介绍如何在Windows 10操作系统上通过Visual Studio 2015编译Caffe2深度学习框架的过程。包括必要的软件安装、环境配置以及常见问题的解决方法。 ... [详细]

蜡笔小新 2024-12-15 18:03:52
merge
Java面试题解析

本文详细介绍了Java编程语言中的核心概念和常见面试问题，包括集合类、数据结构、线程处理、Java虚拟机（JVM）、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题，帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]

蜡笔小新 2024-12-27 13:55:14
merge
Spring Boot 中使用 @PropertySource 读取自定义配置文件的最佳实践

本文详细介绍了如何在 Spring Boot 应用中通过 @PropertySource 注解读取非默认配置文件，包括配置文件的创建、映射类的设计以及确保 Spring 容器能够正确加载这些配置的方法。 ... [详细]

蜡笔小新 2024-12-26 19:35:47
foreach
Apache Jena 中 Txn.executeWrite 方法详解与代码示例

本文详细介绍了 Apache Jena 库中的 Txn.executeWrite 方法，通过多个实际代码示例展示了其在不同场景下的应用，帮助开发者更好地理解和使用该方法。 ... [详细]

蜡笔小新 2024-12-26 17:55:52
foreach
解决微信电脑版无法刷朋友圈问题：使用安卓远程投屏方案

在工作期间想要浏览微信和朋友圈却不太方便？虽然微信电脑版目前不支持直接刷朋友圈，但通过远程投屏技术，可以轻松实现在电脑上操作安卓设备的功能。 ... [详细]

蜡笔小新 2024-12-26 15:23:19
foreach
Qt 5.15.2 在银河麒麟龙芯平台打包的实战经验

本文详细记录了在银河麒麟操作系统和龙芯架构上使用 Qt 5.15.2 进行项目打包时遇到的问题及解决方案，特别关注于 linuxdeployqt 工具的应用。 ... [详细]

蜡笔小新 2024-12-26 10:54:04
version
Git管理工具SourceTree安装与使用指南

本文详细介绍了Git管理工具SourceTree的安装、配置及团队协作方案，旨在帮助开发者更高效地进行版本控制和项目管理。 ... [详细]

蜡笔小新 2024-12-23 18:58:52
version
深入解析：OpenShift Origin环境下的Kubernetes Spark Operator

本文探讨了如何在OpenShift Origin平台上利用Kubernetes Spark Operator来管理和部署Apache Spark集群与应用。作为Radanalytics.io项目的一部分，这一开源工具为大数据处理提供了强大的支持。 ... [详细]

蜡笔小新 2024-12-19 14:07:35
version
Git本地仓库与远程仓库的连接及同步操作指南

本文详细介绍了如何通过Git Bash在本地仓库与远程仓库之间建立连接并进行同步操作，包括克隆仓库、提交更改和推送更新等步骤。 ... [详细]

蜡笔小新 2024-12-17 17:41:27
email
Linux环境下Git安装及常见问题解析

本文详细介绍了在Ubuntu系统中安装Git的过程，包括环境检查、软件安装、用户配置以及SSH密钥生成等步骤，并针对安装过程中可能出现的问题提供了有效的解决方案。 ... [详细]

蜡笔小新 2024-12-16 16:50:38

找唐娃娃_622

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章