热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

python爬虫豆瓣图片(三)

通过这几天对python入门的接触,以及以前对php、java、c、R的认识,无论这些语言怎么学习,到了一定的深度后,都要一

通过这几天对python入门的接触,以及以前对php、java、c、R的认识,无论这些语言怎么学习,到了一定的深度后,都要一定的缜密、沉稳极强的逻辑创造思维,而目前的学习专业课也好,刷oj题也好,做自己喜欢的事也好,这都可以锻练一个人的解决问题的能力。对一个方向的知识进行超强的把握是有非常有必要的。接下来就开始专攻数学有关的数据分析了,做到能够单独打一场比赛,毕竟……….多谢!


在前两章已经完成了简单的网页的爬取以及为浏览器的学习,最后,我们把豆瓣的首页的图片进行爬取!


最终的效果如下:

代码:

#导入所需的库import urllib.request,socket,re,sys,os#定义文件路径targetPath="E:\\python\\test2"def saveFile(path):#检测当前路径是否有效if not os.path.isdir(targetPath):os.mkdir(targetPath)#设置每个图片的路径pos=path.rindex('/')t=os.path.join(targetPath,path[pos+1:])return t#网址url="https://www.douban.com/"headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)' }req=urllib.request.Request(url=url,headers=headers)res=urllib.request.urlopen(req)data=res.read()for link,t in set(re.findall(r'(https:[^s]*?(jpg|png|gif))',str(data))):print(link)try: urllib.request.urlretrieve(link,saveFile(link))except:print('失败')

运行后依次打印图片的地址,如图所示:

再见!


推荐阅读
author-avatar
求学者
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有