热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

爬取妹子图【Python学习】

爬取妹子图【Python学习】,Go语言社区,Golang程序员人脉社

——>>python小白一枚,仅限于了解基础语法,经过多天的学习,结果令人欣慰,可以正确的输出"Hello world!!"。

使用爬虫爬取网络图片,只需要知道图片的地址,以百度随意一张为例,https://timgsa.baidu.com/timg?image&quality=80&size=b9999_10000&sec=1562045484890&di=942bc24341f9fe3e9c63d158a0b65543&imgtype=0&src=http%3A%2F%2Fwww.chinapoesy.com%2FUploadFiles%2FPoesy%2F20141015_92b4978b-973a-472c-b4e8-33d89e01853f.jpg

想要保存图片,只需要分析出图片的src。一个简单的例子,爬取一张妹子图片。

代码示例    

发送网络请求----->获取响应---->分析img标签的位置----->获取图片的地址---->保存---->打完收工

rs = requests.get("http://www.mmonly.cc/mmtp/swmn/289848_2.html")
soup = BeautifulSoup(rs.text, 'lxml')
ele = soup.find("div", class_="big-pic")
img = ele.find('img')
src1 = img.get('src')
print(src1)
rs1 = requests.get(src1)
with open('2.jpg', 'wb') as f:
    f.write(rs1.content)

 

老司机快上车,http://www.mzitu.com/all

该网站是典型的反扒,直接访问是没有问题的,但是当你复制地址,在新的对话框内打开时,会出现403,解决策略,通过目录页间接进入。学习于一言不合就开车的张诚的博客python入门系列课程。

获取目录后,诸葛进行访问,获取每个界面的最大值,遍历保存即可。

(滑稽)要是只想保存比较色青的图片,可以使用阿里云的图片智能鉴黄api。

import requests
from bs4 import BeautifulSoup
import os

class mzi_Spider():

    def __init__(self):
        self.all_url = "http://www.mzitu.com/all"
        self.headers = {
            "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36",
            "referer": "https://www.mzitu.com/tag/youhuo/",
            }
        # 存储路径
        self.path = ''

    def get_link_list(self):
        # 发送请求
        start_html = requests.get(self.all_url, headers=self.headers)
        # print(start_html.text)

        soup = BeautifulSoup(start_html.text, "html.parser")
        peles = soup.find_all("p", class_="url")
        return peles

    def read_link(self, peles):
        for n in peles:
            # 读取每一个p分组内的a标签
            aeles = n.find_all("a")
        return aeles

    def get_max_size(self, a):
        # 进行请求  获得最大页面
        html = requests.get(a["href"], headers=self.headers)
        mess = BeautifulSoup(html.text, "html.parser")
        pic_max = mess.find("div", class_="pagenavi").find_all('span')[-2]
        pic_max = pic_max.text
        return pic_max

    def spider_f(self, aeles):
        for a in aeles:
            title = a.get_text()
            if title != "":
                print("ready:" + title)

            if os.path.exists(self.path + title.strip().replace('?', '')):
                print("directory already exists")
                flag = 1
            else:
                # 创建目录
                os.makedirs(self.path + title.strip().replace('?', ''))
                flag = 0
            try:
                pic_max = self.get_max_size(a)
            except:
                continue
            if flag == 1 and len(os.listdir(self.path + title.strip().replace('?', ''))) >= int(pic_max):
                print("已经保存完毕,跳过")
                continue
            else:
                self.Save(a, pic_max, title)

    def Save(self, a, pic_max, title):
        for num in range(1, int(pic_max) + 1):
            pic = a["href"] + "/" + str(num)
            html = requests.get(pic, headers=self.headers)
            mess = BeautifulSoup(html.text, "html.parser")
            pic_url = mess.find('img', alt=title)
            if pic_url == None:
                continue
            print(pic_url['src'])
            html = requests.get(pic_url['src'], headers=self.headers)

            filename = pic_url['src'].split('/')[-1]
            f = open(title + "/" + filename, "wb")
            f.write(html.content)
            f.close()

    def MainLoop(self):
        #主要逻辑
        #网站的目录列表获取
        peles = self.get_link_list()
        #读取获取到的连接
        aeles = self.read_link(peles)
        #开始爬取
        self.spider_f(aeles)


if __name__ == '__main__':
    spiderman = mzi_Spider()
    spiderman.MainLoop()
    print("success")

推荐阅读
  • GetWindowLong函数
    今天在看一个代码里头写了GetWindowLong(hwnd,0),我当时就有点费解,靠,上网搜索函数原型说明,死活找不到第 ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • 本文详细介绍了GetModuleFileName函数的用法,该函数可以用于获取当前模块所在的路径,方便进行文件操作和读取配置信息。文章通过示例代码和详细的解释,帮助读者理解和使用该函数。同时,还提供了相关的API函数声明和说明。 ... [详细]
  • 本文介绍了数据库的存储结构及其重要性,强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离,可以实现对物理存储的重新组织和数据库的迁移,而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构,并介绍了表空间的概念和作用。 ... [详细]
  • 本文是一位90后程序员分享的职业发展经验,从年薪3w到30w的薪资增长过程。文章回顾了自己的青春时光,包括与朋友一起玩DOTA的回忆,并附上了一段纪念DOTA青春的视频链接。作者还提到了一些与程序员相关的名词和团队,如Pis、蛛丝马迹、B神、LGD、EHOME等。通过分享自己的经验,作者希望能够给其他程序员提供一些职业发展的思路和启示。 ... [详细]
  • 本文介绍了OC学习笔记中的@property和@synthesize,包括属性的定义和合成的使用方法。通过示例代码详细讲解了@property和@synthesize的作用和用法。 ... [详细]
  • 知识图谱——机器大脑中的知识库
    本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • 本文讨论了在Windows 8上安装gvim中插件时出现的错误加载问题。作者将EasyMotion插件放在了正确的位置,但加载时却出现了错误。作者提供了下载链接和之前放置插件的位置,并列出了出现的错误信息。 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • android listview OnItemClickListener失效原因
    最近在做listview时发现OnItemClickListener失效的问题,经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效,还会导致单击后listview每个item的背景改变,使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况,并提供了解决方法。 ... [详细]
  • Windows下配置PHP5.6的方法及注意事项
    本文介绍了在Windows系统下配置PHP5.6的步骤及注意事项,包括下载PHP5.6、解压并配置IIS、添加模块映射、测试等。同时提供了一些常见问题的解决方法,如下载缺失的msvcr110.dll文件等。通过本文的指导,读者可以轻松地在Windows系统下配置PHP5.6,并解决一些常见的配置问题。 ... [详细]
  • 本文主要解析了Open judge C16H问题中涉及到的Magical Balls的快速幂和逆元算法,并给出了问题的解析和解决方法。详细介绍了问题的背景和规则,并给出了相应的算法解析和实现步骤。通过本文的解析,读者可以更好地理解和解决Open judge C16H问题中的Magical Balls部分。 ... [详细]
  • Voicewo在线语音识别转换jQuery插件的特点和示例
    本文介绍了一款名为Voicewo的在线语音识别转换jQuery插件,该插件具有快速、架构、风格、扩展和兼容等特点,适合在互联网应用中使用。同时还提供了一个快速示例供开发人员参考。 ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
author-avatar
有志者来袭
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有