作者:whdibk30 | 来源:互联网 | 2024-12-24 16:29
本文介绍了对之前开发的Tumblr爬虫脚本进行升级,整合了两个脚本的功能,实现了自动分页爬取博客内容,并支持配置文件以下载多个博客的不同格式文件。此外,还优化了图片下载逻辑。
在之前的博文中提到的Tumblr爬虫脚本基础上进行了全面升级。通过整合两个脚本,我们实现了一次性爬取整个博客的内容,并且当检测到文件已存在时会自动停止,以便可以将其设置为每日定时任务。
此外,新增了配置文件的支持,用户可以一次性下载多个博客的内容,并指定所需文件的格式。经过测试,该脚本已经在nondenete和eeekou这两个博客上成功运行。
关于具体的实现过程:
1. 通过分析源码,发现每个博客的博文目录中都有一个隐藏的“查看大图”按钮。尽管页面上不可见,但可以通过查找包含“Zoom”或类似词汇的链接来定位大图。
2. 使用正则表达式'(http.*\.(%s)).*Zoom'匹配最接近“Zoom”的图片链接。
3. 尽管配置项提供了灵活性,目前主要还是用于下载图片。
未来将根据实际使用情况进行进一步改进,包括优化代码结构和日志记录方式。当前版本的Python代码和日志记录还有待提高,但这并不影响其基本功能的实现。
参考链接:[原博客](https://www.cnblogs.com/chihane/p/4214186.html)