python爬虫豆瓣图片（三）

作者：求学者 | 来源：互联网 | 2023-09-24 13:39

通过这几天对python入门的接触，以及以前对php、java、c、R的认识，无论这些语言怎么学习，到了一定的深度后，都要一

通过这几天对python入门的接触&＃xff0c;以及以前对php、java、c、R的认识&＃xff0c;无论这些语言怎么学习&＃xff0c;到了一定的深度后&＃xff0c;都要一定的缜密、沉稳极强的逻辑创造思维&＃xff0c;而目前的学习专业课也好&＃xff0c;刷oj题也好&＃xff0c;做自己喜欢的事也好&＃xff0c;这都可以锻练一个人的解决问题的能力。对一个方向的知识进行超强的把握是有非常有必要的。接下来就开始专攻数学有关的数据分析了,做到能够单独打一场比赛&＃xff0c;毕竟……….多谢&＃xff01;

在前两章已经完成了简单的网页的爬取以及为浏览器的学习&＃xff0c;最后&＃xff0c;我们把豆瓣的首页的图片进行爬取&＃xff01;

最终的效果如下&＃xff1a;

代码&＃xff1a;

#导入所需的库import urllib.request,socket,re,sys,os#定义文件路径targetPath&＃61;"E:\\python\\test2"def saveFile(path):#检测当前路径是否有效if not os.path.isdir(targetPath):os.mkdir(targetPath)#设置每个图片的路径pos&＃61;path.rindex(&＃39;/&＃39;)t&＃61;os.path.join(targetPath,path[pos&＃43;1:])return t#网址url&＃61;"https://www.douban.com/"headers&＃61;{&＃39;User-Agent&＃39;: &＃39;Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)&＃39; }req&＃61;urllib.request.Request(url&＃61;url,headers&＃61;headers)res&＃61;urllib.request.urlopen(req)data&＃61;res.read()for link,t in set(re.findall(r&＃39;(https:[^s]*?(jpg|png|gif))&＃39;,str(data))):print(link)try: urllib.request.urlretrieve(link,saveFile(link))except:print(&＃39;失败&＃39;)

运行后依次打印图片的地址&＃xff0c;如图所示&＃xff1a;

再见&＃xff01;

推荐阅读

web
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
install
解决 Ubuntu 下 Samba 重新安装时配置文件未重新生成的问题

在 Ubuntu 中遇到 Samba 服务器故障时，尝试卸载并重新安装 Samba 发现配置文件未重新生成。本文介绍了解决该问题的方法。 ... [详细]

蜡笔小新 2024-11-12 13:02:23
install
大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式

大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式 ... [详细]

蜡笔小新 2024-11-11 19:05:59
function
在PHP中如何正确调用JavaScript变量及定义PHP变量的方法详解

在PHP中如何正确调用JavaScript变量及定义PHP变量的方法详解 ... [详细]

蜡笔小新 2024-11-11 17:28:29
hash
SoundPool

如果应用程序经常播放密集、急促而又短暂的音效（如游戏音效）那么使用MediaPlayer显得有些不太适合了。因为MediaPlayer存在如下缺点：1)延时时间较长，且资源占用率高 ... [详细]

蜡笔小新 2024-11-13 16:47:19
hash
Pythonmysql数据库

importpymysql#一、直接连接mysql数据库'''coonpymysql.connect(host'192.168.*.*',u ... [详细]

蜡笔小新 2024-11-12 16:51:59
chat
使用Python和smtplib实现邮件发送功能

本文详细介绍了如何使用Python中的smtplib库来发送带有附件的邮件，并提供了完整的代码示例。作者：多测师_王sir，时间：2020年5月20日 17:24，微信：15367499889，公司：上海多测师信息有限公司。 ... [详细]

蜡笔小新 2024-11-12 12:21:27
include
XAMPP 遇到 404 错误：无法找到请求的对象

在使用 XAMPP 时遇到 404 错误，表示请求的对象未找到。通过详细分析发现，该问题可能由以下原因引起：1. `httpd-vhosts.conf` 文件中的配置路径错误；2. `public` 目录下缺少 `.htaccess` 文件。建议检查并修正这些配置，以确保服务器能够正确识别和访问所需的文件路径。 ... [详细]

蜡笔小新 2024-11-11 18:20:00
function
技术分享：使用 Flask、AngularJS 和 Jinja2 构建高效前后端交互系统

技术分享：使用 Flask、AngularJS 和 Jinja2 构建高效前后端交互系统 ... [详细]

蜡笔小新 2024-11-11 15:24:24
bash
LDAP服务器配置与管理

本文介绍如何通过安装和配置SSSD服务来统一管理用户账户信息，并实现其他系统的登录调用。通过图形化交互界面配置LDAP服务器，确保用户账户信息的集中管理和安全访问。 ... [详细]

蜡笔小新 2024-11-13 18:19:52
bash
网络爬虫的规范与限制

本文探讨了网络爬虫引发的问题及其解决方案，重点介绍了Robots协议的作用和使用方法，旨在为网络爬虫的合理使用提供指导。 ... [详细]

蜡笔小新 2024-11-13 15:45:41
bash
自动验证时页面显示问题的解决方法

在使用自动验证功能时，页面未能正确显示错误信息。通过使用 `dump($info->getError())` 可以帮助诊断和解决问题。 ... [详细]

蜡笔小新 2024-11-13 12:30:21
utf-8
（7）Python爬虫——爬取豆瓣电影Top250

利用python爬取豆瓣电影Top250的相关信息，包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容，然后将爬取的信息写入Exce ... [详细]

蜡笔小新 2024-11-13 11:35:24
include
c/c++常用代码doc,ppt,xls文件格式转PDF格式[转]

[转]doc,ppt,xls文件格式转PDF格式http:blog.csdn.netlee353086articledetails7920355确实好用。需要注意的是#import ... [详细]

蜡笔小新 2024-11-12 16:19:40
include
MySQL 数据迁移时 .frm 文件报错问题

本文讨论了在进行 MySQL 数据迁移过程中遇到的所有 .frm 文件报错的问题，并提供了详细的解决方案和建议。 ... [详细]

蜡笔小新 2024-11-12 10:47:49

求学者

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章