当前位置: 开发笔记 > 编程语言 > 正文

python爬虫爬取今日头条_python爬虫抓取今日头条街拍图片

作者：营帐水狂_836 | 来源：互联网 | 2023-10-12 17:47

1.打开google浏览器，输入www.toutiao.com,搜索街拍。2.打开开发者选项，network监看加载的xhr,数据是ajax异步加载的

1. 打开google浏览器&＃xff0c;输入www.toutiao.com, 搜索街拍。

2.打开开发者选项&＃xff0c;network监看加载的xhr, 数据是ajax异步加载的&＃xff0c;可以看到preview里面的data数据

3.下拉刷新查看加载的offset&＃xff0c;每次加载20条数据&＃xff0c;data是json数据&＃xff0c;里面的article_url,是图集详情页的url。

4.首先抓取索引页的内容

data数据来自于索引页的请求都里面的query str

5. 接下来是解析索引页的数据&＃xff0c;提取出所需要的详情页的url&＃xff0c;索引页的data是json数据&＃xff0c;里面的article_url,是图集详情页的url。

6. 有了详情页的url&＃xff0c;接下来就是获取详情页的数据和代码了

7. 接着就是解析详情页面&＃xff0c;并提取title, 和图片url, 详情页代码数据在Doc中查看, 注意提取的是组图&＃xff0c;非组图被过滤了.url_list 是指三个地址都是图片的地址&＃xff0c;我们只要有一个原始的url就可以了。

8. 把解析提取的数据存储到mongodb中&＃xff0c;以字典的方式.

先写个mongo的配置文件config.pyMONGO_URL &＃61; &＃39;localhost&＃39;

MONGO_DB &＃61; &＃39;toutiao&＃39;

MONGO_TABLE &＃61; &＃39;toutiao&＃39;

GROUP_START &＃61; 0

GROUP_END &＃61; 20

KEYWORD &＃61; &＃39;街拍&＃39;

然后连接本地mongo&＃xff0c;存储数据

9. 下载图片

10. 爬虫主函数

11. 开启多进程

12. 需要的库函数

推荐阅读

list
当unique验证运到图片上传时

2019独角兽企业重金招聘Python工程师标准model：public$imageFile;publicfunctionrules(){return[[[na ... [详细]

蜡笔小新 2024-12-20 10:19:12
list
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
web
2019年前端技术趋势及职业发展路径

本文探讨了2019年前端技术的发展趋势，包括工具化、配置化和泛前端化等方面，并提供了详细的学习路线和职业规划建议。 ... [详细]

蜡笔小新 2024-12-19 10:19:35
list
深入解析Android自定义View面试题

本文探讨了Android Launcher开发中自定义View的重要性，并通过一道经典的面试题，帮助开发者更好地理解自定义View的实现细节。文章不仅涵盖了基础知识，还提供了实际操作建议。 ... [详细]

蜡笔小新 2024-12-28 11:15:04
list
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
list
Yii2 GridView 实现列表页数据直接编辑的完整指南

本文详细介绍了如何使用 Yii2 的 GridView 组件在列表页面实现数据的直接编辑功能。通过具体的代码示例和步骤，帮助开发者快速掌握这一实用技巧。 ... [详细]

蜡笔小新 2024-12-27 16:27:52
utf-8
2023年京东Android面试真题解析与经验分享

本文由一位拥有6年Android开发经验的工程师撰写，详细解析了京东面试中常见的技术问题。涵盖引用传递、Handler机制、ListView优化、多线程控制及ANR处理等核心知识点。 ... [详细]

蜡笔小新 2024-12-26 17:45:48
utf-8
从 .NET 转 Java 的自学之路：IO 流基础篇

本文详细介绍了 Java 中的 IO 流，包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据，并结合编码机制确保字符数据的正确读写。同时，文中还涵盖了装饰设计模式的应用，以及多种常见的 IO 操作实例。 ... [详细]

蜡笔小新 2024-12-26 17:37:25
web
ASP.NET MVC中Area机制的实现与优化

本文探讨了在ASP.NET MVC框架中，如何通过Area机制有效地组织和管理大规模应用程序的不同功能模块。通过合理的文件夹结构和命名规则，开发人员可以更高效地管理和扩展项目。 ... [详细]

蜡笔小新 2024-12-25 22:53:48
utf-8
导航栏样式练习：项目实例解析

本文详细介绍了如何创建一个具有动态效果的导航栏，包括HTML、CSS和JavaScript代码的实现，并附有详细的说明和效果图。 ... [详细]

蜡笔小新 2024-12-27 19:42:28
web
使用 GitHub、JSDelivr、PicGo 和 Typora 构建高效的图床解决方案

本文详细介绍了如何利用 GitHub 仓库、JSDelivr CDN、PicGo 图床工具和 Typora 编辑器，搭建一个高效且免费的图床系统。通过此方案，用户可以轻松管理和上传图片，并在 Markdown 文档中快速插入高质量的图片链接。 ... [详细]

蜡笔小新 2024-12-24 12:54:21
heap
FinOps 与 Serverless 的结合：破解云成本难题

本文探讨了如何通过 FinOps 实践优化 Serverless 应用的成本管理，提出了首个 Serverless 函数总成本估计模型，并分享了多种有效的成本优化策略。 ... [详细]

蜡笔小新 2024-12-24 12:44:26
heap
Git管理工具SourceTree安装与使用指南

本文详细介绍了Git管理工具SourceTree的安装、配置及团队协作方案，旨在帮助开发者更高效地进行版本控制和项目管理。 ... [详细]

蜡笔小新 2024-12-23 18:58:52
heap
如何延长手机电池续航？这些设置助你两天一充

智能手机的快速耗电问题困扰着许多人。通过一些简单的设置和调整，你可以显著提升手机的电池续航能力，甚至实现两天一充的目标。 ... [详细]

蜡笔小新 2024-12-22 10:40:58
input
JavaScript前端开发中常用的四种继承方法详解

本文深入探讨了JavaScript中实现继承的四种常见方法，包括原型链继承、构造函数继承、组合继承和寄生组合继承。对于正在学习或从事Web前端开发的技术人员来说，理解这些继承模式对于提高代码质量和维护性至关重要。 ... [详细]

蜡笔小新 2024-12-18 11:08:28

营帐水狂_836

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章