热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Python网络爬虫(爬取嗅事百科的热图)

爬取糗事百科的热图设计要求(1)从糗事百科https:www.qiushibaike.comimgrank抓取所有的图片信息。(2)获取前四页所有的图片信息,并用

爬取糗事百科的热图


设计要求

(1) 从糗事百科 https://www.qiushibaike.com/imgrank/ 抓取所有的图片信息。
(2) 获取前四页所有的图片信息,并用相应的名称命名该图片。
(3) 将图片存储至文件中。

分析

因为打开网站查看内容,网站里面是这样的
在这里插入图片描述
我们先向服务器发送一个请求,返回所有的相关资源(这里的new_url=https://www.qiushibaike.com/imgrank/)

page_text=requests.get(url=new_url,headers=headers).text

在返回的资源中找到图片相应的位置,编写正则表达式(目的:在大量的资源中匹配图片的信息,以便我们筛选出来):

ex='

.*?'

选择所有符合正则表达式的图片,用img_src_list来保存

img_src_list=re.findall(ex,page_text,re.S)

img_src_list里面保存的是图片的下载地址,遍历img_src_list,下载图片并保存到相应的位置

for src in img_src_list:src='https:'+srcimg_data=requests.get(url=src,headers=headers).contentimg_name=src.split('/')[-1]imgpath='./img/'+img_namewith open(imgpath,'wb') as fp:fp.write(img_data)

完整的代码如下(还实现翻页的功能):

import requests
import re
import os
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
}
if not os.path.exists('./img'):os.mkdir('./img')
url='https://www.qiushibaike.com/imgrank/page/%d/'
for pageNum in range(1,5):print('第{}页开始下载'.format(pageNum))new_url=format(url%pageNum)page_text=requests.get(url=new_url,headers=headers).textex='

.*?'img_src_list=re.findall(ex,page_text,re.S)for src in img_src_list:src='https:'+srcimg_data=requests.get(url=src,headers=headers).contentimg_name=src.split('/')[-1]imgpath='./img/'+img_namewith open(imgpath,'wb') as fp:fp.write(img_data)print(img_name,'下载成功!!!')
print('内容全部下载完成!!!')

PS:正则表达式是比较重要的,有兴趣的同学可以点击去学习一下正则表达式
本代码只能用于学习


推荐阅读
  • 本文介绍了使用 Python 编程语言高效抓取微博文本和动态网页图像数据的方法。通过详细的示例代码,展示了如何利用爬虫技术获取微博内容和动态图片,为数据采集和分析提供了实用的技术支持。对于对网络数据抓取感兴趣的读者,本文具有较高的参考价值。 ... [详细]
  • 网站访问全流程解析
    本文详细介绍了从用户在浏览器中输入一个域名(如www.yy.com)到页面完全展示的整个过程,包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]
  • 本文详细介绍了如何使用Python中的smtplib库来发送带有附件的邮件,并提供了完整的代码示例。作者:多测师_王sir,时间:2020年5月20日 17:24,微信:15367499889,公司:上海多测师信息有限公司。 ... [详细]
  • 利用python爬取豆瓣电影Top250的相关信息,包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容,然后将爬取的信息写入Exce ... [详细]
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • window下的python安装插件,Go语言社区,Golang程序员人脉社 ... [详细]
  • DVWA学习笔记系列:深入理解CSRF攻击机制
    DVWA学习笔记系列:深入理解CSRF攻击机制 ... [详细]
  • 该大学网站采用PHP和MySQL技术,在校内可免费访问某些外部收费资料数据库。为了方便学生校外访问,建议通过学校账号登录实现免费访问。具体方案可包括利用学校服务器作为代理,结合身份验证机制,确保合法用户在校外也能享受免费资源。 ... [详细]
  • Python 伦理黑客技术:深入探讨后门攻击(第三部分)
    在《Python 伦理黑客技术:深入探讨后门攻击(第三部分)》中,作者详细分析了后门攻击中的Socket问题。由于TCP协议基于流,难以确定消息批次的结束点,这给后门攻击的实现带来了挑战。为了解决这一问题,文章提出了一系列有效的技术方案,包括使用特定的分隔符和长度前缀,以确保数据包的准确传输和解析。这些方法不仅提高了攻击的隐蔽性和可靠性,还为安全研究人员提供了宝贵的参考。 ... [详细]
  • 在PHP中实现腾讯云接口签名,以完成人脸核身功能的对接与签名配置时,需要注意将文档中的POST请求改为GET请求。具体步骤包括:使用你的`secretKey`生成签名字符串`$srcStr`,格式为`GET faceid.tencentcloudapi.com?`,确保参数正确拼接,避免因请求方法错误导致的签名问题。此外,还需关注API的其他参数要求,确保请求的完整性和安全性。 ... [详细]
  • 在Android 4.4系统中,通过使用 `Intent` 对象并设置动作 `ACTION_GET_CONTENT` 或 `ACTION_OPEN_DOCUMENT`,可以从相册中选择图片并获取其路径。具体实现时,需要为 `Intent` 添加相应的类别,并处理返回的 Uri 以提取图片的文件路径。此方法适用于需要从用户相册中选择图片的应用场景,能够确保兼容性和用户体验。 ... [详细]
  • FastDFS Nginx 扩展模块的源代码解析与技术剖析
    FastDFS Nginx 扩展模块的源代码解析与技术剖析 ... [详细]
  • 在今天的实践中,我深入学习了网页图像抓取技术,通过编写爬虫程序批量获取网站上的图片资源。具体来说,我选择了一个包含大量高质量图片的网站作为练习对象,并成功实现了将这些图片批量下载到本地存储。这一过程不仅提升了我对爬虫技术的理解,还增强了我的编程能力。 ... [详细]
  • ZooKeeper 入门指南
    本文将详细介绍ZooKeeper的工作机制、特点、数据结构以及常见的应用场景,包括统一命名服务、统一配置管理、统一集群管理、服务器动态上下线和软负载均衡。 ... [详细]
  • 服务器部署中的安全策略实践与优化
    服务器部署中的安全策略实践与优化 ... [详细]
author-avatar
血流的风霜_565
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有