热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

半次元热门图片,各种好看的cosplay小姐姐,统统爬取收藏

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。以下文章来源于云+社区,作者py3study转载地址前言边学习

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

以下文章来源于云+社区,作者 py3study

转载地址

https://www.gaodaima.com/fei347795790?t=1

www#gaodaima.com来源gao($daima.com搞@代@#码网

前言

边学习,边创造是一件开心的事情,因为你会清楚的认识到自己的状态,以及那充满内心的成就感,因此从写爬虫开始学习python是一个简单粗暴的提升路线,不知不觉了解很多东西

这里以半次元为例对爬虫整体流程以及部分细节进行简单汇总,如果有不正确的地方还请大家指出

 

话不多说,我们打开待爬的页面

 

会发现这个页面运用了ajax技术,只有向下滑动才会触发请求,如果我们按照现在页面地址爬取,也只能是得到部分相册,既然是ajax,这里我们打开F12 网络工具 刷新页面

 

滑动到底部,会发现又多了四条GET请求,查看请求的url ,会发现这些url之间不同的只有 p 的值 p=1, p=2, p=3, p=4,p=5

 

知道了这些,就可以开始编写python文件,请求页面内容了

1、创建一个AlbumUrl类 , 开始获取页面所有相册的url

import requests
from bs4 import BeautifulSoup


album_urls = []  #相册url列表

headers = {
        "Host": "bcy.net",
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:63.0) Gecko/20100101 Firefox/63.0"
    }


#获取相册url
class AlbumUrl():

    def __init__(self, url, url2):
        self.url = url
        self.url2 = url2
    def page(self, start, end):

        for i in range(start, end):

            url = self.url % i
            response = requests.get(url, headers=headers)

            response.encoding = "utf-8"
            after_bs = BeautifulSoup(response.text, "lxml")

            li_s = after_bs.find_all("li", class_="js-smallCards _box")   #提取li标签内容

            for li in li_s:
                list_a = li.find_all("a", class_="db posr ovf")    #提取a标签内容
                for a in list_a:
                    a_href = a.get("href")   #取出部分url 进行拼接
                    album_urls.append(self.url2 + a_href)



if __name__ == "__main__":
    url = "https://bcy.net/coser/index/ajaxloadtoppost?p=%s"
    url2 = "https://bcy.net"
    spider = AlbumUrl(url, url2)
    spider.page(1, 6)       #分析出来的页数

 

编写完毕,运行一下, 无误,把这些相册url保存到列表,等待逐个分析里面的图片内容

 

2、新建一个ImgUrl类 继承threading.Thread类 因为这里我打算用多线程, 导入相应的模块

import requests
from bs4 import BeautifulSoup
import threading
import re
import time


album_urls = []  #相册url列表
all_img_urls = []       #所有图片

lock = threading.Lock()  #互斥锁

headers = {
        "Host": "bcy.net",
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:63.0) Gecko/20100101 Firefox/63.0"
    }

#抓取每个相册里面图片url
class ImgUrl(threading.Thread):

    def run(self):

        while len(album_urls) > 0: #只要不为空 就一直抓取
            lock.acquire()  #上锁
            album_url = album_urls.pop()
            lock.release()  # 解锁

            try:
                response = requests.get(album_url, headers=headers, timeout=3)
                response.encoding = "utf-8"
                re_obj = re.compile(""path(.*?)w650", re.S)
                r = (re_obj.findall(response.text))
                print("正在分析" + album_url)
                after_bs = BeautifulSoup(response.text, "lxml")

                lock.acquire()  # 上锁
                for title in after_bs.find_all("title"):
                    global album_title
                    album_title = (str(title.get_text())).split("-")[0]

                for i in range(len(r)):
                    img_url = r[i].replace(r"u002F", "/")[5:] + "w650.jpg" #拼接字符串,完成每张图片url

                    img_dict = {album_title: img_url}   #相册名和图片url存入字典
                    all_img_urls.append(img_dict)
                print(album_title + "获取成功")

                lock.release()  # 解锁
                time.sleep(0.5)
            except:
                pass



#获取相册url
class AlbumUrl():

    def __init__(self, url, url2):
        self.url = url
        self.url2 = url2
    def page(self, start, end):

        for i in range(start, end):

            url = self.url % i
            response = requests.get(url, headers=headers)

            response.encoding = "utf-8"
            after_bs = BeautifulSoup(response.text, "lxml")

            li_s = after_bs.find_all("li", class_="js-smallCards _box")   #提取li标签内容

            for li in li_s:
                list_a = li.find_all("a", class_="db posr ovf")    #提取a标签内容
                for a in list_a:
                    a_href = a.get("href")   #取出部分url 进行拼接
                    album_urls.append(self.url2 + a_href)



if __name__ == "__main__":
    url = "https://bcy.net/coser/index/ajaxloadtoppost?p=%s"
    url2 = "https://bcy.net"
    spider = AlbumUrl(url, url2)
    spider.page(1, 5)       #分析出来的页数
    for x in range(5):
        t = ImgUrl()
        t.start()
 

# 这里需要注意的是,图片的url并不是直接暴露的,里面掺杂了一些字符串,这里我们运用正则来进行筛选,然后用replace进行相应字符串的替换

开五个线程运行一下, 无误,可以准备写入文件了

 

3、新建一个Download类 同样继承threading.Thread类 ,用于下载图片到本地

import os

import requests
from bs4 import BeautifulSoup
import threading
import re
import time


album_urls = []  #相册url列表
all_img_urls = []       #所有图片

lock = threading.Lock()  #互斥锁

headers = {
        "Host": "bcy.net",
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:63.0) Gecko/20100101 Firefox/63.0"
    }




#抓取每个相册里面图片url
class ImgUrl(threading.Thread):

    def run(self):

        while len(album_urls) > 0: #只要不为空 就一直抓取
            lock.acquire()  #上锁
            album_url = album_urls.pop()
            lock.release()  # 解锁

            try:
                response = requests.get(album_url, headers=headers, timeout=3)
                response.encoding = "utf-8"
                re_obj = re.compile(""path(.*?)w650", re.S)
                r = (re_obj.findall(response.text))
                print("正在分析" + album_url)
                after_bs = BeautifulSoup(response.text, "lxml")

                lock.acquire()  # 上锁
                for title in after_bs.find_all("title"):
                    global album_title
                    album_title = (str(title.get_text())).split("-")[0]

                for i in range(len(r)):
                    img_url = r[i].replace(r"u002F", "/")[5:] + "w650.jpg" #拼接字符串,完成每张图片url

                    img_dict = {album_title: img_url}
                    all_img_urls.append(img_dict)
                print(album_title + "获取成功")

                lock.release()  # 解锁
                time.sleep(0.5)
            except:
                pass

num = 0
#下载图片
class Download(threading.Thread):

    def run(self):

        while True:

            lock.acquire()   #上锁
            if len(all_img_urls) == 0:
                lock.release() #解锁
                continue
            else:
                img_dict = all_img_urls.pop()
                lock.release() #解锁

                for key, values in img_dict.items():   #把键值取出

                    try:
                        os.mkdir(key)
                        print(key + "创建成功")
                    except:
                        pass
                    global num
                    num += 1
                    filename = str(num) + "." + str(values).split(".")[-1]  #给每张图片重新命名
                    filepath = os.path.join(key, filename)
                    session = requests.Session()     #这里使用会话请求
                    http_obj = requests.adapters.HTTPAdapter(max_retries=20)  #每次连接的最大失败重试次数
                    session.mount("https://", http_obj)  #增加请求类型
                    session.mount("http://", http_obj)
                    try:
                        response = session.get(values)   #读取会话

                        with open(filepath, "wb", buffering=4*1024) as image:
                            image.write(response.content)
                            image.close()

                            print(filepath + "下载完毕")
                    except:
                        pass

                time.sleep(0.1)


#获取相册url
class AlbumUrl():

    def __init__(self, url, url2):
        self.url = url
        self.url2 = url2
    def page(self, start, end):

        for i in range(start, end):

            url = self.url % i
            response = requests.get(url, headers=headers)

            response.encoding = "utf-8"
            after_bs = BeautifulSoup(response.text, "lxml")

            li_s = after_bs.find_all("li", class_="js-smallCards _box")   #提取li标签内容

            for li in li_s:
                list_a = li.find_all("a", class_="db posr ovf")    #提取a标签内容
                for a in list_a:
                    a_href = a.get("href")   #取出部分url 进行拼接
                    album_urls.append(self.url2 + a_href)



if __name__ == "__main__":
    url = "https://bcy.net/coser/index/ajaxloadtoppost?p=%s"
    url2 = "https://bcy.net"
    spider = AlbumUrl(url, url2)
    spider.page(1, 5)       #分析出来的页数
    threads = []
    for x in range(5):
        t = ImgUrl()
        t.start()
        threads.append(t)

    for tt in threads:  #设置堵塞,避免线程抢先
        tt.join()

    for x in range(5):
        down = Download()
        down.start()

好,开五个线程运行一下,看结果如何

 

 

到此为止,三步爬取半次元热门图片,演示完毕,其实不光是热门,我们也可以换成别的链接进行分析爬取,包括全站,整体原理都是类似的,一些请求细节需要理解



推荐阅读
  • 利用爬虫技术抓取数据,结合Fiddler与Postman在Chrome中的应用优化提交流程
    本文探讨了如何利用爬虫技术抓取目标网站的数据,并结合Fiddler和Postman工具在Chrome浏览器中的应用,优化数据提交流程。通过详细的抓包分析和模拟提交,有效提升了数据抓取的效率和准确性。此外,文章还介绍了如何使用这些工具进行调试和优化,为开发者提供了实用的操作指南。 ... [详细]
  • 本文介绍了如何使用Python爬取妙笔阁小说网仙侠系列中所有小说的信息,并将其保存为TXT和CSV格式。主要内容包括如何构造请求头以避免被网站封禁,以及如何利用XPath解析HTML并提取所需信息。 ... [详细]
  • packagecom.panchan.tsmese.utils;importjava.lang.reflect.ParameterizedType;importjava.lang. ... [详细]
  • 本文介绍了 Go 语言中的高性能、可扩展、轻量级 Web 框架 Echo。Echo 框架简单易用,仅需几行代码即可启动一个高性能 HTTP 服务。 ... [详细]
  • PHP 5.5.31 和 PHP 5.6.17 安全更新发布
    PHP 5.5.31 和 PHP 5.6.17 已正式发布,主要包含多个安全修复。强烈建议所有用户尽快升级至最新版本以确保系统安全。 ... [详细]
  • Python多线程详解与示例
    本文介绍了Python中的多线程编程,包括僵尸进程和孤儿进程的概念,并提供了具体的代码示例。同时,详细解释了0号进程和1号进程在系统中的作用。 ... [详细]
  • 网络爬虫的规范与限制
    本文探讨了网络爬虫引发的问题及其解决方案,重点介绍了Robots协议的作用和使用方法,旨在为网络爬虫的合理使用提供指导。 ... [详细]
  • 利用python爬取豆瓣电影Top250的相关信息,包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容,然后将爬取的信息写入Exce ... [详细]
  • 深入解析HTML5字符集属性:charset与defaultCharset
    本文将详细介绍HTML5中新增的字符集属性charset和defaultCharset,帮助开发者更好地理解和应用这些属性,以确保网页在不同环境下的正确显示。 ... [详细]
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • 网站访问全流程解析
    本文详细介绍了从用户在浏览器中输入一个域名(如www.yy.com)到页面完全展示的整个过程,包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]
  • 系统转换的三种方法及其具体应用分析
    系统转换是信息技术领域中常见的任务,本文详细探讨了三种主要的系统转换方法及其具体应用场景。这些方法包括:代码迁移、数据迁移和平台迁移。文章通过实例分析了每种方法的优势和局限性,并提供了实际操作中的注意事项和技术要点。例如,代码迁移适用于从VB6获取网页源码,数据迁移在Ubuntu中用于隐藏侧边栏,而平台迁移则涉及Tomcat 6.0的使用和谷歌爬虫的测试。此外,文章还讨论了蓝翰互动PHP面试和5118 SEO工具在系统转换中的应用,为读者提供了全面的技术参考。 ... [详细]
  • 在 CentOS 7 系统中安装 Scrapy 时遇到了一些挑战。尽管 Scrapy 在 Ubuntu 上安装简便,但在 CentOS 7 上需要额外的配置和步骤。本文总结了常见问题及其解决方案,帮助用户顺利安装并使用 Scrapy 进行网络爬虫开发。 ... [详细]
  • Python爬虫数据导出至CSV及图片存储技术详解
    Python爬虫数据导出至CSV及图片存储技术详解 ... [详细]
  • Web开发框架概览:Java与JavaScript技术及框架综述
    Web开发涉及服务器端和客户端的协同工作。在服务器端,Java是一种优秀的编程语言,适用于构建各种功能模块,如通过Servlet实现特定服务。客户端则主要依赖HTML进行内容展示,同时借助JavaScript增强交互性和动态效果。此外,现代Web开发还广泛使用各种框架和库,如Spring Boot、React和Vue.js,以提高开发效率和应用性能。 ... [详细]
author-avatar
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有