一个简单的python3爬虫

作者：envmm_884_836 | 来源：互联网 | 2023-01-06 15:06

本文通过借助beautifulsoup库实现了一个简单的用于爬网站图片的python爬虫，代码如下：fromurllibimportrequest#导出request

本文通过借助 beautifulsoup 库实现了一个简单的用于爬网站图片的 python 爬虫，代码如下：

from urllib import request       # 导出 request 库
from bs4 import BeautifulSoup    # 导出 beautifulsoup 库
import re, os                    # 搜索用到了正则表达式， os 模块用于创建本地文件夹

以下实现了两个函数，一个函数用于获取网页的地址列表，另一个函数用于从一个网页地址中抓取图片：

def getHtml(reqa):               # 获取网页中的地址列表
    with request.urlopen(reqa) as f:
        soup = BeautifulSoup(f.read())
        address_list = soup.find_all(href=re.compile(r'^/.*.html$'))   # 获取网页地址列表
        return address_list

def getImage(addr_list_image):
    dir_num = 1                  # 用于创建本地文件夹编号
    for addr in addr_list_image:
        image_num = 1            # 用于给图片编号
        path = "C:/Users/Administrator/Desktop/image/%s"%dir_num
        os.mkdir(path)           # 创建本地文件夹
        req_image = request.Request('http://www.meizitu.com%s'%addr['href'])
        with request.urlopen(req_image) as f:
             soup = BeautifulSoup(f.read())
             image_list = soup.find_all(src=re.compile(r'^http:.*.jpg$'))
             for image in image_list:
                 print(image['src']+'\n')
                 try:            # 写了个 try...except... 错误处理语句，防止下载出现错误
                     request.urlretrieve(image['src'], path+'/%s.jpg'%image_num)    #通过 request.urlretrieve 函数下载图片
                 except Exception:
                     pass
                 image_num += 1
             f.close()
        dir_num += 1

if __name__=="__main__":         # 主函数
    req = request.Request('http://www.meizitu.com/')
    addr_list = getHtml(req)
    getImage(addr_list)

以上就是这个简单爬虫的完整实现了，如有不妥之处，欢迎指正。

推荐阅读

io
浅谈Python3中打开文件的方式(With open)

浅谈Python3中打开文件的方式(With open)-目录0.背景知识1.常规方式：读取文件-----open()2.推荐方式：读取文件-----WithOpen1).读取方式 ... [详细]

蜡笔小新 2023-09-23 12:43:45
io
如何实现织梦DedeCms全站伪静态

本文介绍了如何通过修改织梦DedeCms源代码来实现全站伪静态，以提高管理和SEO效果。全站伪静态可以避免重复URL的问题，同时通过使用mod_rewrite伪静态模块和.htaccess正则表达式，可以更好地适应搜索引擎的需求。文章还提到了一些相关的技术和工具，如Ubuntu、qt编程、tomcat端口、爬虫、php request根目录等。 ... [详细]

蜡笔小新 2023-12-14 19:45:47
import
Python3中选择文件对话框的格式打开和保存图片

本文介绍了在Python3中如何使用选择文件对话框的格式打开和保存图片的方法。通过使用tkinter库中的filedialog模块的asksaveasfilename和askopenfilename函数，可以方便地选择要打开或保存的图片文件，并进行相关操作。具体的代码示例和操作步骤也被提供。 ... [详细]

蜡笔小新 2023-12-14 17:46:55
object
kotlin动画实现上下移动、放大缩小、旋转功能

本文介绍了使用kotlin实现动画效果的方法，包括上下移动、放大缩小、旋转等功能。通过代码示例演示了如何使用ObjectAnimator和AnimatorSet来实现动画效果，并提供了实现抖动效果的代码。同时还介绍了如何使用translationY和translationX来实现上下和左右移动的效果。最后还提供了一个anim_small.xml文件的代码示例，可以用来实现放大缩小的效果。 ... [详细]

蜡笔小新 2023-12-14 17:29:08
object
Python如何调用类里面的方法

本文介绍了在Python中调用同一个类中的方法需要加上self参数，并且规范写法要求每个函数的第一个参数都为self。同时还介绍了如何调用另一个类中的方法。详细内容请阅读剩余部分。 ... [详细]

蜡笔小新 2023-12-14 12:52:55
io
C++省略号类型和参数个数不确定函数参数范例

本文介绍了C++中省略号类型和参数个数不确定函数参数的使用方法，并提供了一个范例。通过宏定义的方式，可以方便地处理不定参数的情况。文章中给出了具体的代码实现，并对代码进行了解释和说明。这对于需要处理不定参数的情况的程序员来说，是一个很有用的参考资料。 ... [详细]

蜡笔小新 2023-12-14 12:36:28
io
Python瓦片图下载、合并、绘图、标记的代码示例

本文提供了Python瓦片图下载、合并、绘图、标记的代码示例，包括下载代码、多线程下载、图像处理等功能。通过参考geoserver，使用PIL、cv2、numpy、gdal、osr等库实现了瓦片图的下载、合并、绘图和标记功能。代码示例详细介绍了各个功能的实现方法，供读者参考使用。 ... [详细]

蜡笔小新 2023-12-13 12:14:55
config
通过Go SDK（Amazon S3）从Bucket生成Torrent - Generate Torrent from Bucket via Go SDK (Amazon S3)

Imtryingtofigureoutawaytogeneratetorrentfilesfromabucket,usingtheAWSSDKforGo.我正 ... [详细]

蜡笔小新 2023-12-12 14:13:01
java
SpringMVC接收请求参数的方式总结

本文总结了在SpringMVC开发中处理控制器参数的各种方式，包括处理使用@RequestParam注解的参数、MultipartFile类型参数和Simple类型参数的RequestParamMethodArgumentResolver，处理@RequestBody注解的参数的RequestResponseBodyMethodProcessor，以及PathVariableMapMethodArgumentResol等子类。 ... [详细]

蜡笔小新 2023-12-11 19:55:40
install
Python3 Scrapy 安装方法（一脸辛酸泪）

写在前面最近在学习爬虫，在熟悉了Python语言和BeautifulSoup4后打算下个爬虫框架试试。没想到啊，这坑太深了。。。看了看相关介绍后选择了Scrapy框架，然后兴高采烈的 ... [详细]

蜡笔小新 2023-09-24 14:44:19
post
window+anaconda3+python3.5下xgboost安装

准备gitanaconda3Step1:下载安装git这里是windows下git安装：需要注意的是在这里不选择第一个，要选择第二个，在windows下也可以。然后跟着默认选择就可 ... [详细]

蜡笔小新 2023-09-24 08:16:01
io
Python3怎么获取文件属性

这篇文章给大家分享的是有关Python3怎么获取文件属性的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。os.stat(path ... [详细]

蜡笔小新 2023-09-23 12:27:42
install
Python Flask学习之安装SQL,python3,Pycharm（网上下载安装即可）

1，下载时更改pypi源。可以额外安装虚拟化环境：pipinstall-ihttp:pypi.douban.comsimple--trusted-hos ... [详细]

蜡笔小新 2023-09-18 12:10:16
java
Nginx使用（server参数配置）

本文介绍了Nginx的使用，重点讲解了server参数配置，包括端口号、主机名、根目录等内容。同时，还介绍了Nginx的反向代理功能。 ... [详细]

蜡笔小新 2023-12-14 17:08:34
io
t-io 2.0.0发布-法网天眼第一版的回顾和更新说明

本文回顾了t-io 1.x版本的工程结构和性能数据，并介绍了t-io在码云上的成绩和用户反馈。同时，还提到了@openSeLi同学发布的t-io 30W长连接并发压力测试报告。最后，详细介绍了t-io 2.0.0版本的更新内容，包括更简洁的使用方式和内置的httpsession功能。 ... [详细]

蜡笔小新 2023-12-14 10:17:48

envmm_884_836

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章