热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

golangcolly爬取第一ppt完整源码和程序(已编译好放在github)

仅供参考和学习,请适度轻爬爬取第一PPT导航栏中的除了后三个的所有ppt并分类文件夹保存如下图windows64二进制程序mac二进制程序如想自己尝试(步骤如下支持

仅供参考和学习,请适度轻爬

在这里插入图片描述


爬取第一PPT导航栏中的除了后三个的所有ppt并分类文件夹保存如下图

在这里插入图片描述
windows64二进制程序
mac二进制程序


如想自己尝试(步骤如下支持go1.13及其以及上)

git clone https://github.com/xhaoxiong/fetch_ppt
go build
./FetchPPT FetchPPT.exe


/*** @Author xiaoxiao* @Description CREATE FILE collector* @Date 2020/10/10 10:29 上午**/
package collectorimport ("FetchPPT/util""bytes""fmt""github.com/gocolly/colly/v2""io""log""os""path""strconv""strings""sync"
)const (originUrl = "http://www.di1ppt.com"downloadOriginUrl = "http://www.di1ppt.com/e/DownSys"
)type SeedConfig struct {DownloadFile DownloadFileGetNavCollector func(file DownloadFile)
}type DownloadFile struct {Filename stringUrl stringDirectory stringOriginDirectory string
}type CrawCollector struct {DownloadFile DownloadFileWg *sync.WaitGroup
}var filterMap = map[string]bool{"/office/": true,"/ziti/": true,"http://www.10103.com": true,
}var page_list = make(map[string]bool)func Run() {SeedConfig := SeedConfig{DownloadFile: DownloadFile{Filename: "",Url: "",Directory: "",},GetNavCollector: GetNavCollector,}SeedConfig.Run()
}func (s *SeedConfig) Run() {s.GetNavCollector(s.DownloadFile)
}var Wg = &sync.WaitGroup{}//获取导航页面
func GetNavCollector(downloadFile DownloadFile) {c := colly.NewCollector()c.OnHTML("#navMenu li", func(element *colly.HTMLElement) {cc := &CrawCollector{DownloadFile: downloadFile,}seedUrl := element.ChildAttr("a", "href")if !filterMap[seedUrl] {directory := element.ChildText("a>span")dir := path.Join(downloadFile.OriginDirectory, directory)if !util.Exists(dir) {os.MkdirAll(dir, 0777)}cc.DownloadFile.Directory = dirWg.Add(1)cc.GetDetailCollector(seedUrl)}})c.OnScraped(func(response *colly.Response) {fmt.Println("完成全部抓取")})c.Visit(originUrl)Wg.Wait()
}//获取导航对应首页N页列表
func (cc *CrawCollector) GetDetailCollector(seedUrl string) {c := colly.NewCollector()c.OnHTML(".dlbox .clearfix .pages", func(element *colly.HTMLElement) {lis := element.DOM.Find("li")pageUrl, _ := lis.Last().Find("a").Attr("href")split := strings.Split(pageUrl, "_")ii, _ := strconv.Atoi(strings.Split(split[1], ".")[0])for i := 1; i }//获取每页对应的详情页
func (cc *CrawCollector) GetPageDetailCollector(seedUrl2 string) {c := colly.NewCollector()c.OnHTML(".dlbox .tplist li>a", func(element *colly.HTMLElement) {detailUrl := element.Attr("href")Wg.Add(1)go cc.GetDownloadUrlCollector(detailUrl)})c.Visit(originUrl + seedUrl2)
}//获取下载页面
func (cc *CrawCollector) GetDownloadUrlCollector(detailUrl string) {c := colly.NewCollector()c.OnHTML(".downurllist li>a", func(element *colly.HTMLElement) {if element.Index == 0 {downloadlUrl := element.Attr("href")cc.GetDownloadUrlDetailCollector(downloadlUrl)}})c.Visit(originUrl + detailUrl)
}//获取验证码下载页面
func (cc *CrawCollector) GetDownloadUrlDetailCollector(downLoadDetailUrl string) {c := colly.NewCollector()c.OnHTML("tbody td>a", func(element *colly.HTMLElement) {downloadUrl := element.Attr("href")downloadUrl = strings.Replace(downloadUrl, "..", "", -1)cc.DownloadFile.Url = downloadOriginUrl + downloadUrlWg.Add(1)go cc.FetchPPT(downloadOriginUrl + downloadUrl)})c.Visit(originUrl + downLoadDetailUrl)
}//获取ppt详情下载页面
func (cc *CrawCollector) FetchPPT(dowloadUrl string) {c := colly.NewCollector()defer Wg.Done()c.OnResponse(func(response *colly.Response) {filename := response.FileName()filepath := path.Join(cc.DownloadFile.Directory, filename)if _, err := os.Stat(filepath); err == nil {log.Println("文件已存在:", filename)return}output, err := os.Create(filepath)defer output.Close()if err != nil {log.Println("创建失败: ", err)}_, err = io.Copy(output, bytes.NewReader(response.Body))if err != nil {log.Println("写入失败 ", err)}log.Printf("下载文件 %s/%s", cc.DownloadFile.Directory, filename)})c.Visit(dowloadUrl)
}

推荐阅读
  • 本文将介绍如何编写一些有趣的VBScript脚本,这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例,帮助您了解VBScript的基本语法和功能。 ... [详细]
  • 优化ListView性能
    本文深入探讨了如何通过多种技术手段优化ListView的性能,包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]
  • 本文详细介绍如何使用Python进行配置文件的读写操作,涵盖常见的配置文件格式(如INI、JSON、TOML和YAML),并提供具体的代码示例。 ... [详细]
  • This guide provides a comprehensive step-by-step approach to successfully installing the MongoDB PHP driver on XAMPP for macOS, ensuring a smooth and efficient setup process. ... [详细]
  • 本文详细介绍了如何在Linux系统上安装和配置Smokeping,以实现对网络链路质量的实时监控。通过详细的步骤和必要的依赖包安装,确保用户能够顺利完成部署并优化其网络性能监控。 ... [详细]
  • 1.如何在运行状态查看源代码?查看函数的源代码,我们通常会使用IDE来完成。比如在PyCharm中,你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢?当我们想使用一个函 ... [详细]
  • 数据管理权威指南:《DAMA-DMBOK2 数据管理知识体系》
    本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释,构建了数据管理的总体框架,为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]
  • 本文详细介绍了 Dockerfile 的编写方法及其在网络配置中的应用,涵盖基础指令、镜像构建与发布流程,并深入探讨了 Docker 的默认网络、容器互联及自定义网络的实现。 ... [详细]
  • 本文介绍了一款用于自动化部署 Linux 服务的 Bash 脚本。该脚本不仅涵盖了基本的文件复制和目录创建,还处理了系统服务的配置和启动,确保在多种 Linux 发行版上都能顺利运行。 ... [详细]
  • DNN Community 和 Professional 版本的主要差异
    本文详细解析了 DotNetNuke (DNN) 的两种主要版本:Community 和 Professional。通过对比两者的功能和附加组件,帮助用户选择最适合其需求的版本。 ... [详细]
  • 深入解析Java枚举及其高级特性
    本文详细介绍了Java枚举的概念、语法、使用规则和应用场景,并探讨了其在实际编程中的高级应用。所有相关内容已收录于GitHub仓库[JavaLearningmanual](https://github.com/Ziphtracks/JavaLearningmanual),欢迎Star并持续关注。 ... [详细]
  • Linux环境下Git安装及常见问题解析
    本文详细介绍了在Ubuntu系统中安装Git的过程,包括环境检查、软件安装、用户配置以及SSH密钥生成等步骤,并针对安装过程中可能出现的问题提供了有效的解决方案。 ... [详细]
  • 本文详细介绍了如何使用Spring Boot进行高效开发,涵盖了配置、实例化容器以及核心注解的使用方法。 ... [详细]
  • 如何配置Unturned服务器及其消息设置
    本文详细介绍了Unturned服务器的配置方法和消息设置技巧,帮助用户了解并优化服务器管理。同时,提供了关于云服务资源操作记录、远程登录设置以及文件传输的相关补充信息。 ... [详细]
  • 如何在窗口右下角添加调整大小的手柄
    本文探讨了如何在传统MFC/Win32 API编程中实现类似C# WinForms中的SizeGrip功能,即在窗口的右下角显示一个用于调整窗口大小的手柄。我们将介绍具体的实现方法和相关API。 ... [详细]
author-avatar
找唐娃娃_622
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有