通过这几天对python入门的接触,以及以前对php、java、c、R的认识,无论这些语言怎么学习,到了一定的深度后,都要一定的缜密、沉稳极强的逻辑创造思维,而目前的学习专业课也好,刷oj题也好,做自己喜欢的事也好,这都可以锻练一个人的解决问题的能力。对一个方向的知识进行超强的把握是有非常有必要的。接下来就开始专攻数学有关的数据分析了,做到能够单独打一场比赛,毕竟……….多谢!
在前两章已经完成了简单的网页的爬取以及为浏览器的学习,最后,我们把豆瓣的首页的图片进行爬取!
最终的效果如下:
代码:
#导入所需的库import urllib.request,socket,re,sys,os#定义文件路径targetPath="E:\\python\\test2"def saveFile(path):#检测当前路径是否有效if not os.path.isdir(targetPath):os.mkdir(targetPath)#设置每个图片的路径pos=path.rindex('/')t=os.path.join(targetPath,path[pos+1:])return t#网址url="https://www.douban.com/"headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)' }req=urllib.request.Request(url=url,headers=headers)res=urllib.request.urlopen(req)data=res.read()for link,t in set(re.findall(r'(https:[^s]*?(jpg|png|gif))',str(data))):print(link)try: urllib.request.urlretrieve(link,saveFile(link))except:print('失败')
运行后依次打印图片的地址,如图所示:
再见!