Python_爬虫总结

作者：f永远喜爱捉迷藏 | 来源：互联网 | 2023-07-08 16:44

学习爬虫和写爬虫文章2017年3月我想锻炼数据分析相关技能，但是好像没有什么鲜活的数据，所以开始学习Python爬虫。那时候还在学校里，忙着毕业论文的事情，断断续续地学了起来。百度

学习爬虫和写爬虫文章

2017年3月我想锻炼数据分析相关技能，但是好像没有什么鲜活的数据，所以开始学习Python爬虫。

那时候还在学校里，忙着毕业论文的事情，断断续续地学了起来。百度贴吧是我实战的主要战场，从小贴吧（几千条数据）到大贴吧（200万条数据），从requests，beautifulsoup，re 到进程池，代理池，selenium，手机抓包。不知不觉中，自己对爬虫有了些心得。

2017年4月1日开始写爬虫文章，起初是在简书上写，我的文章越写越长，越来越觉得简书对长文章支持不好，所以用github和coding的pages功能，做了一个自己的网站，也就是现在这个，把长文章都迁移到了这里。

4月1号，简单网站爬虫的所有技能
4月2号，爬虫中的正则表达式（持续更新）
…..

Python就只用来做爬虫？

有时候网上会评论，写Python文章的十有八九是做爬虫的，哑然失笑。我学习Python，还真不是为了做爬虫，最先学习的三个库是numpy、matplotlib和pandas

话说回来，做爬虫怎么了？

《Python_爬虫总结》

博客爬虫文章

梳理一下爬虫文章的思路和总结一下文章的优缺点

Python_数据存储

介绍csv，pymongo，pymysql的简单使用场景
如果是大量数据的话，从以后数据分析的角度，建议使用关系型数据库

简单网站爬虫的所有技能

requests
beautifulsoup

爬虫中的正则表达式（持续更新）

Python_爬虫_代理池

介绍一种简单的构建思路

Python_爬虫_多进程

fork和pool的简单使用
讲好多进程需要较好的编程基础，我还没有，:)

selenium简单使用，beautifulsoup始终beautiful

介绍selenium简单使用
driver.page_source让爬虫人虎躯一震，去你的js

Python_爬虫_手机抓包

fiddler
模拟器
其余爬取思路几乎一样

Python_json_eval_yaml

当python自带的json库不好用的时候，试试yaml和eval吧

可视化文章

有一群人在玩数据

数据可视化团队，EasyCharts
女性数据分析团队，DataGirls

高考吧分析
关于爱情—某豆瓣小组

下一步计划

重点放在数据分析上，爬虫文章不会新增了，只为维护更新，十分欢迎其他朋友的投稿

推荐阅读

pymongo
Python 开发环境最佳实践：Anaconda + Jupyter Notebook 快速上手指南

对于初学者而言，搭建一个高效稳定的 Python 开发环境是入门的关键一步。本文将详细介绍如何利用 Anaconda 和 Jupyter Notebook 来构建一个既易于管理又功能强大的开发环境。 ... [详细]

蜡笔小新 2024-11-21 18:30:23
shell
软件测试行业深度解析：迈向高薪的必经之路

本文深入探讨了软件测试行业的发展现状及未来趋势，旨在帮助有志于在该领域取得高薪的技术人员明确职业方向和发展路径。 ... [详细]

蜡笔小新 2024-11-21 17:32:44
php
Web动态服务器Python基本实现

Web动态服务器Python基本实现 ... [详细]

蜡笔小新 2024-11-21 08:01:30
php
Python 快速排序算法详解及应用

本文详细介绍了 Python 中的快速排序算法，包括其原理、实现方法以及应用场景。同时，还探讨了其他常见排序算法及其特点。 ... [详细]

蜡笔小新 2024-11-17 12:43:03
php
H5技术实现经典游戏《贪吃蛇》

本文将分享一个使用HTML5技术实现的经典小游戏——《贪吃蛇》。通过H5技术，我们将探讨如何构建这款游戏的两种主要玩法：积分闯关和无尽模式。 ... [详细]

蜡笔小新 2024-11-21 20:16:59
php
Python算法实践：多维缩放技术的应用

本文介绍了多维缩放（MDS）技术，这是一种将高维数据映射到低维空间的方法，通过保持原始数据间的关系，以便于可视化和分析。文章详细描述了MDS的原理和实现过程，并提供了Python代码示例。 ... [详细]

蜡笔小新 2024-11-21 20:04:27
version
Maven + Spring + MyBatis + MySQL 环境搭建与实例解析

本文详细介绍如何使用MySQL数据库进行环境搭建，包括创建数据库表并插入示例数据。随后，逐步指导如何配置Maven项目，整合Spring框架与MyBatis，实现高效的数据访问。 ... [详细]

蜡笔小新 2024-11-21 18:39:23
php
HTML前端开发：UINavigationController与页面间数据传递详解

本文详细介绍了如何在HTML前端开发中利用UINavigationController进行页面管理和数据传递，适合初学者和有一定基础的开发者学习。 ... [详细]

蜡笔小新 2024-11-20 09:46:39
php
SEM推广与广告投放的数据分析与可视化

在网络时代，企业的推广和产品的宣传至关重要。随着互联网的普及，用户获取信息的方式日益多样化，其中搜索引擎成为主要的信息来源之一。许多企业已经认识到这一点，并开始在搜索引擎营销（SEM）上投入大量资源。 ... [详细]

蜡笔小新 2024-11-18 12:02:08
php
对象存储与块存储、文件存储等对比

看到一篇文档，讲对象存储，好奇，搜索文章，摘抄,学习记录！背景：传统存储在面对海量非结构化数据时，在存储、分享与容灾上面临很大的挑战，主要表现在以下几个方面：传统存储并非为非结 ... [详细]

蜡笔小新 2024-11-17 18:21:23
php
大幅调整TDK后的应对策略

最近偶然读到zac关于‘频繁修改页面标题会导致降权吗？’的文章，引发了广泛讨论。本人多次修改标题，每月修改两次以上已成常态。虽然有时文章收录会略有下降，但总体影响不大。 ... [详细]

蜡笔小新 2024-11-17 18:08:28
php
从财务转型为数据分析师的两年历程

本文作者小尧，曾在税务师事务所工作，后成功转型为数据分析师。本文分享了他如何确定职业方向、积累行业知识，并最终实现转型的经验。 ... [详细]

蜡笔小新 2024-11-17 12:19:41
char
web页面报表js下载,web报表软件

web页面报表js下载,web报表软件 ... [详细]

蜡笔小新 2024-11-16 18:37:21
config
使用 Jupyter Notebook 实现 Markdown 编写与代码运行

Jupyter Notebook 是一个开源的基于网页的应用程序，允许用户在同一文档中编写 Markdown 文本和运行多种编程语言的代码，并实时查看运行结果。 ... [详细]

蜡笔小新 2024-11-15 14:50:50
config
AI人工智能学习之回归分析详解

回归分析是一种统计学方法，用于确定变量之间的定量关系。本文将详细介绍回归分析的基本概念、分类、应用及具体操作步骤。 ... [详细]

蜡笔小新 2024-11-15 11:03:56

f永远喜爱捉迷藏

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章