热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

网页图像抓取技术学习心得:从零开始掌握爬虫技巧

在今天的实践中,我深入学习了网页图像抓取技术,通过编写爬虫程序批量获取网站上的图片资源。具体来说,我选择了一个包含大量高质量图片的网站作为练习对象,并成功实现了将这些图片批量下载到本地存储。这一过程不仅提升了我对爬虫技术的理解,还增强了我的编程能力。

今天练习了用爬虫批量爬取网站文件。练习对象是一个妹子图片网站,网址在代码里有哈哈哈,最后实现了将妹子的大图批量下载到电脑里,好爽嘿嘿嘿。收获如下:

将远程文件下载到本地用的是urlretrieve方法,他主要有两个参数:文件的网址和要存储的文件名。其中第二个参数要特别注意:要到文件名才行,不能只是路径。而文件名的构造采用了如下的代码,暂时还不太懂,但是先学会再说:

x =0
for item in imgurl:urlretrieve(item,'/Users/zengyichao/Desktop/工作零碎文件/2.21/test4/'+'%s.jpg'%x)x+=1

import requests
from bs4 import BeautifulSoup
import time
from urllib.request import urlretrieve
headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'
}imgurl = []def get_img(url):res = requests.get(url, headers = headers)res.encoding = 'utf-8'soup = BeautifulSoup(res.text,'html.parser')imgs = soup.select('#big-pic > p > a > img')for img in imgs:href = img.get('src')imgurl.append(href)#
# url = 'http://www.mmonly.cc/mmtp/xgmn/198663.html'
# get_img(url)urls = ['http://www.mmonly.cc/mmtp/xgmn/100306_{}.html'.format(str(i)) for i in range(2,31)]
for url in urls:get_img(url)x =0
for item in imgurl:urlretrieve(item,'/Users/zengyichao/Desktop/工作零碎文件/2.21/test4/'+'%s.jpg'%x)x+=1print(imgurl)



推荐阅读
author-avatar
不是一点都不很帅_973
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有