爬取妹子图【Python学习】

作者：有志者来袭 | 来源：互联网 | 2023-09-24 07:19

爬取妹子图【Python学习】,Go语言社区,Golang程序员人脉社

——>>python小白一枚，仅限于了解基础语法，经过多天的学习，结果令人欣慰，可以正确的输出"Hello world！！"。

使用爬虫爬取网络图片，只需要知道图片的地址，以百度随意一张为例，https://timgsa.baidu.com/timg?image&quality=80&size=b9999_10000&sec=1562045484890&di=942bc24341f9fe3e9c63d158a0b65543&imgtype=0&src=http%3A%2F%2Fwww.chinapoesy.com%2FUploadFiles%2FPoesy%2F20141015_92b4978b-973a-472c-b4e8-33d89e01853f.jpg

想要保存图片，只需要分析出图片的src。一个简单的例子，爬取一张妹子图片。

代码示例

发送网络请求----->获取响应---->分析img标签的位置----->获取图片的地址---->保存---->打完收工

rs = requests.get("http://www.mmonly.cc/mmtp/swmn/289848_2.html")
soup = BeautifulSoup(rs.text, 'lxml')
ele = soup.find("div", class_="big-pic")
img = ele.find('img')
src1 = img.get('src')
print(src1)
rs1 = requests.get(src1)
with open('2.jpg', 'wb') as f:
    f.write(rs1.content)

老司机快上车，http://www.mzitu.com/all

该网站是典型的反扒，直接访问是没有问题的，但是当你复制地址，在新的对话框内打开时，会出现403，解决策略，通过目录页间接进入。学习于一言不合就开车的张诚的博客python入门系列课程。

获取目录后，诸葛进行访问，获取每个界面的最大值，遍历保存即可。

（滑稽）要是只想保存比较色青的图片，可以使用阿里云的图片智能鉴黄api。

import requests
from bs4 import BeautifulSoup
import os

class mzi_Spider():

    def __init__(self):
        self.all_url = "http://www.mzitu.com/all"
        self.headers = {
            "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36",
            "referer": "https://www.mzitu.com/tag/youhuo/",
            }
        # 存储路径
        self.path = ''

    def get_link_list(self):
        # 发送请求
        start_html = requests.get(self.all_url, headers=self.headers)
        # print(start_html.text)

        soup = BeautifulSoup(start_html.text, "html.parser")
        peles = soup.find_all("p", class_="url")
        return peles

    def read_link(self, peles):
        for n in peles:
            # 读取每一个p分组内的a标签
            aeles = n.find_all("a")
        return aeles

    def get_max_size(self, a):
        # 进行请求  获得最大页面
        html = requests.get(a["href"], headers=self.headers)
        mess = BeautifulSoup(html.text, "html.parser")
        pic_max = mess.find("div", class_="pagenavi").find_all('span')[-2]
        pic_max = pic_max.text
        return pic_max

    def spider_f(self, aeles):
        for a in aeles:
            title = a.get_text()
            if title != "":
                print("ready:" + title)

            if os.path.exists(self.path + title.strip().replace('?', '')):
                print("directory already exists")
                flag = 1
            else:
                # 创建目录
                os.makedirs(self.path + title.strip().replace('?', ''))
                flag = 0
            try:
                pic_max = self.get_max_size(a)
            except:
                continue
            if flag == 1 and len(os.listdir(self.path + title.strip().replace('?', ''))) >= int(pic_max):
                print("已经保存完毕,跳过")
                continue
            else:
                self.Save(a, pic_max, title)

    def Save(self, a, pic_max, title):
        for num in range(1, int(pic_max) + 1):
            pic = a["href"] + "/" + str(num)
            html = requests.get(pic, headers=self.headers)
            mess = BeautifulSoup(html.text, "html.parser")
            pic_url = mess.find('img', alt=title)
            if pic_url == None:
                continue
            print(pic_url['src'])
            html = requests.get(pic_url['src'], headers=self.headers)

            filename = pic_url['src'].split('/')[-1]
            f = open(title + "/" + filename, "wb")
            f.write(html.content)
            f.close()

    def MainLoop(self):
        #主要逻辑
        #网站的目录列表获取
        peles = self.get_link_list()
        #读取获取到的连接
        aeles = self.read_link(peles)
        #开始爬取
        self.spider_f(aeles)


if __name__ == '__main__':
    spiderman = mzi_Spider()
    spiderman.MainLoop()
    print("success")

推荐阅读

php
GetWindowLong函数

今天在看一个代码里头写了GetWindowLong(hwnd,0)，我当时就有点费解，靠，上网搜索函数原型说明，死活找不到第 ... [详细]

蜡笔小新 2023-12-14 17:58:15
python
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
python
获取当前模块所在路径的GetModuleFileName函数用法详解

本文详细介绍了GetModuleFileName函数的用法，该函数可以用于获取当前模块所在的路径，方便进行文件操作和读取配置信息。文章通过示例代码和详细的解释，帮助读者理解和使用该函数。同时，还提供了相关的API函数声明和说明。 ... [详细]

蜡笔小新 2023-12-14 19:29:57
select
数据库的存储结构及其重要性

本文介绍了数据库的存储结构及其重要性，强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离，可以实现对物理存储的重新组织和数据库的迁移，而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构，并介绍了表空间的概念和作用。 ... [详细]

蜡笔小新 2023-12-14 16:00:02
python
90后程序员的职业发展之路：从年薪3w到30w的经验分享

本文是一位90后程序员分享的职业发展经验，从年薪3w到30w的薪资增长过程。文章回顾了自己的青春时光，包括与朋友一起玩DOTA的回忆，并附上了一段纪念DOTA青春的视频链接。作者还提到了一些与程序员相关的名词和团队，如Pis、蛛丝马迹、B神、LGD、EHOME等。通过分享自己的经验，作者希望能够给其他程序员提供一些职业发展的思路和启示。 ... [详细]

蜡笔小新 2023-12-14 15:22:09
php
OC学习笔记之@property和@synthesize

本文介绍了OC学习笔记中的@property和@synthesize，包括属性的定义和合成的使用方法。通过示例代码详细讲解了@property和@synthesize的作用和用法。 ... [详细]

蜡笔小新 2023-12-14 12:05:06
php
知识图谱——机器大脑中的知识库

本文介绍了知识图谱在机器大脑中的应用，以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例，说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案，如搜索关键词"Marie Curie"，会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革，不仅美国的微软必应，中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]

蜡笔小新 2023-12-14 10:06:19
io
云原生边缘计算之KubeEdge简介及功能特点

本文介绍了云原生边缘计算中的KubeEdge系统，该系统是一个开源系统，用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建，并为网络应用程序提供基础架构支持。同时，KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外，KubeEdge还支持跨平台工作，在私有、公共和混合云中都可以运行。同时，KubeEdge还提供数据管理和数据分析管道引擎的支持。最后，本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]

蜡笔小新 2023-12-14 16:49:01
io
在Windows 8上安装gvim中的插件的错误加载问题

本文讨论了在Windows 8上安装gvim中插件时出现的错误加载问题。作者将EasyMotion插件放在了正确的位置，但加载时却出现了错误。作者提供了下载链接和之前放置插件的位置，并列出了出现的错误信息。 ... [详细]

蜡笔小新 2023-12-14 14:44:00
select
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
io
android listview OnItemClickListener失效原因

最近在做listview时发现OnItemClickListener失效的问题，经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效，还会导致单击后listview每个item的背景改变，使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况，并提供了解决方法。 ... [详细]

蜡笔小新 2023-12-14 14:25:50
php
Windows下配置PHP5.6的方法及注意事项

本文介绍了在Windows系统下配置PHP5.6的步骤及注意事项，包括下载PHP5.6、解压并配置IIS、添加模块映射、测试等。同时提供了一些常见问题的解决方法，如下载缺失的msvcr110.dll文件等。通过本文的指导，读者可以轻松地在Windows系统下配置PHP5.6，并解决一些常见的配置问题。 ... [详细]

蜡笔小新 2023-12-14 12:37:25
input
Open judge C16H: Magical Balls 快速幂+逆元问题解析

本文主要解析了Open judge C16H问题中涉及到的Magical Balls的快速幂和逆元算法，并给出了问题的解析和解决方法。详细介绍了问题的背景和规则，并给出了相应的算法解析和实现步骤。通过本文的解析，读者可以更好地理解和解决Open judge C16H问题中的Magical Balls部分。 ... [详细]

蜡笔小新 2023-12-14 12:03:27
php
Voicewo在线语音识别转换jQuery插件的特点和示例

本文介绍了一款名为Voicewo的在线语音识别转换jQuery插件，该插件具有快速、架构、风格、扩展和兼容等特点，适合在互联网应用中使用。同时还提供了一个快速示例供开发人员参考。 ... [详细]

蜡笔小新 2023-12-13 20:01:16
io
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15

有志者来袭

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章