首页技术博客 PHP教程数据库技术前端开发 HTML5 Nginx php论坛

新用户注册 | 会员登录

热门标签 | HotTags

当前位置: 开发笔记 > 编程语言 > 正文

开发笔记:朋友很喜欢打篮球，我用Python爬取了1000张他喜欢的NBA球星图片

作者：JoanNewLife | 来源：互联网 | 2023-09-14 10:49

篇首语：本文由编程笔记#小编为大家整理，主要介绍了朋友很喜欢打篮球，我用Python爬取了1000张他喜欢的NBA球星图片相关的知识，希望对你有一定的参考价值。

篇首语：本文由编程笔记#小编为大家整理，主要介绍了朋友很喜欢打篮球，我用Python爬取了1000张他喜欢的NBA球星图片相关的知识，希望对你有一定的参考价值。

前言
朋友快过生日了，不知道送啥礼物【绝对不是因为我抠】，想着他非常喜欢打篮球，篮球他很多个了，应该也不会缺【不会是因为篮球贵】，那我就用技术白嫖点东西送给他吧，爬虫首当其冲呀，必须安排一波，于是我的灵感来了，爬取一波他喜欢的NBA球星图片送给他，再整点活合作一张大图，那效果不就出来了，这波真不错【辣条送礼物提示：送好朋友或者男女朋友礼物，不要只看价格，要看对方需要什么想要什么，礼轻情意重，主要是省钱…】

爬取目标
网址：百度一下

很多人学习蟒蛇，不知道从何学起。
很多人学习python，掌握了基本语法之后，不知道在哪里寻找案例上手。
很多已经做了案例的人，却不知道如何去学习更多高深的知识。
那么针对这三类人，我给大家提供一个好的学习平台，免费获取视频教程，电子书，以及课程的源代码！
QQ群：101677771
欢迎加入，一起讨论一起学习！

效果展示

工具准备
开发工具：Visual Studio Code
开发环境：python3.7， Windows10
使用工具包：requests
项目解析思路
获取当当前网页的跳转地址，当前页面为主页面数据，我们需要的数据别有一番天地，获取到网页信息提取出所有的跳转地址，获取到源码里的a标签就行当前网页的加载方式为静态数据，直接请求网页地址；

url = \'https://image.baidu.com/search/acjson?

从源代码里提取到所以的跳转地址

【这是个很简单的代码，不做详细思路解析了，平台对爬虫的文章的审核比以前严格很多了，代码我留着，有啥不懂的评论提出，或者私信我，我看到了都会解答】

简易源码分享
import requests
import json
import time
import os
def crawl(page):
if not os.path.exists(\'D://111\'):
os.mkdir(\'D://111\')
url = \'https://image.baidu.com/search/acjson?\'
header =
# \'Referer\': \'https://image.baidu.com/search/index?ct=201326592&cl=2&st=-1&lm=-1&nc=1&ie=utf-8&tn=baiduimage&ipn=r&rps=1&pv=&fm=rs4&word\',
\'User-Agent\': \'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36\'

param =
"tn": "resultjson_com",
"logid": "11007362803069082764",
"ipn": "rj",
"ct": "201326592",
"is": "",
"fp": "result",
"queryWord": "NBA",
"cl": "2",
"lm": "-1",
"ie": "utf-8",
"oe": "utf-8",
"adpicid": "",
"st": "-1",
"z": "",
"ic": "",
"hd": "",
"latest": "",
"copyright": "",
"word": "NBA",
"s": "",
"se": "",
"tab": "",
"width": "",
"height": "",
"face": "0",
"istype": "2",
"qc": "",
"nc": "1",
"fr": "",
"expermode": "",
"force": "",
"pn": page,
"rn": "30",
"gsm": "1e",
"1615565977798": "",

response = requests.get(url, headers=header, params=param)
img = response.text
j = json.loads(img)
# print(j)
img_list = []
for i in j[\'data\']: #获得j字典数据里面的data所对应的值值是一个列表通过for循环拿去列表里的每一个元素
if \'thumbURL\' in i:
# print(i[\'thumbURL\'])
img_list.append(i[\'thumbURL\']) #追加到列表中
print(len(img_list)) #打印URL的数量
for count,n in enumerate(img_list):
r = requests.get(n, headers=header)
with open(f\'D://111/count+1.jpg\', \'wb\') as f:
f.write(r.content)
# count += 1
# if name == \'main\':
for i in range(30, 61, 10): #起始值终点值步长
t1 = time.time()
crawl(i)
t2 = time.time()
t = t2 - t1
print(f\'page i//30 is over!!! 耗时t:.2f秒！\') #.2f两位小数

推荐阅读

search
Python 爬虫基础教程及代码实例

根据最新发布的《互联网人才趋势报告》，尽管大量IT从业者已转向Python开发，但随着人工智能和大数据领域的迅猛发展，仍存在巨大的人才缺口。本文将详细介绍如何使用Python编写一个简单的爬虫程序，并提供完整的代码示例。 ... [详细]

蜡笔小新 2024-12-26 10:42:40
ip
自己用过的一些比较有用的css3新属性【HTML】

web前端|html教程自己用过的一些比较用的css3新属性web前端-html教程css3刚推出不久，虽然大多数的css3属性在很多流行的浏览器中不支持，但我个人觉得还是要尽量开 ... [详细]

蜡笔小新 2024-12-24 19:26:54
int
Python 异步编程：深入理解 asyncio 库（上）

本文介绍了 Python 3.4 版本引入的标准库 asyncio，该库为异步 IO 提供了强大的支持。我们将探讨为什么需要 asyncio，以及它如何简化并发编程的复杂性，并详细介绍其核心概念和使用方法。 ... [详细]

蜡笔小新 2024-12-28 11:52:00
select
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
int
python的交互模式怎么输出名文汉字[python常见问题]

在命令行模式下敲命令python，就看到类似如下的一堆文本输出，然后就进入到Python交互模式，它的提示符是>>>，此时我们可以使用print() ... [详细]

蜡笔小新 2024-12-27 21:32:05
int
精选Python视频教程：来自国际顶尖讲师的全面指南（附中文字幕）

本文将介绍由密歇根大学Charles Severance教授主讲的顶级Python入门系列课程，该课程广受好评，被誉为Python学习的最佳选择。通过生动有趣的教学方式，帮助初学者轻松掌握编程基础。 ... [详细]

蜡笔小新 2024-12-27 15:14:33
shell
掌握远程执行Linux脚本和命令的技巧

本文将详细介绍如何利用Python的Paramiko库实现远程执行Linux脚本和命令，帮助读者快速掌握这一实用技能。通过具体的示例和详尽的解释，让初学者也能轻松上手。 ... [详细]

蜡笔小新 2024-12-26 19:47:05
ip
Python入门指南：从零开始的全面学习路线

本文详细介绍了Python编程语言的学习路径，涵盖基础语法、常用组件、开发工具、数据库管理、Web服务开发、大数据分析、人工智能、爬虫开发及办公自动化等多个方向。通过系统化的学习计划，帮助初学者快速掌握Python的核心技能。 ... [详细]

蜡笔小新 2024-12-25 12:54:33
stream
使用Nginx反向代理实现多域名端口映射

本文介绍如何通过配置本地hosts文件和Nginx反向代理，实现多个虚拟域名的端口映射，使用户可以通过标准HTTP端口80访问不同后端服务。 ... [详细]

蜡笔小新 2024-12-22 10:01:08
stream
Windows 7 环境下配置 Nginx 1.10.3 和 PHP 7.1.1 NTS (Win32 VC14 x64)

本文详细介绍了在 Windows 7 系统中配置 Nginx 1.10.3 和 PHP 7.1.1 NTS 的步骤，包括修改 PHP 配置文件、处理依赖项以及创建批处理脚本启动和停止服务。重点解释了如何解决常见的运行时错误。 ... [详细]

蜡笔小新 2024-12-21 18:54:45
int
JSON 解析失败问题排查

在PHP后端开发中遇到一个难题：通过第三方类文件发送短信功能返回的JSON字符串无法解析。本文将探讨可能的原因并提供解决方案。 ... [详细]

蜡笔小新 2024-12-21 18:39:23
ip
并发编程 12—— 任务取消与关闭之 shutdownNow 的局限性

Java并发编程实践目录并发编程01——ThreadLocal并发编程02——ConcurrentHashMap并发编程03——阻塞队列和生产者-消费者模式并发编程04——闭锁Co ... [详细]

蜡笔小新 2024-12-21 12:39:07
ip
优化Flask应用的并发处理：解决Mysql连接过多问题

本文探讨了在Flask应用中通过优化后端架构来应对高并发请求，特别是针对Mysql 'too many connections' 错误的解决方案。我们将介绍如何利用Redis缓存、Gunicorn多进程和Celery异步任务队列来提升系统的性能和稳定性。 ... [详细]

蜡笔小新 2024-12-21 09:21:49
ip
使用JS、HTML5和C3创建自定义弹出窗口

本文介绍如何结合JavaScript、HTML5和C3.js来实现一个功能丰富的自定义弹出窗口。通过具体的代码示例，详细讲解了实现过程中的关键步骤和技术要点。 ... [详细]

蜡笔小新 2024-12-20 21:22:27
ip
推荐几款高效测量图片像素的工具

本文介绍了几款适用于Web前端开发的工具，这些工具可以帮助用户在图片上绘制线条并精确测量其像素长度。对于需要进行图像处理或设计工作的开发者来说非常实用。 ... [详细]

蜡笔小新 2024-12-20 19:17:07

JoanNewLife

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章

PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved |

京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区版权所有