作者:f永远喜爱捉迷藏 | 来源:互联网 | 2023-07-08 16:44
学习爬虫和写爬虫文章2017年3月我想锻炼数据分析相关技能,但是好像没有什么鲜活的数据,所以开始学习Python爬虫。那时候还在学校里,忙着毕业论文的事情,断断续续地学了起来。百度
学习爬虫和写爬虫文章
2017年3月我想锻炼数据分析相关技能,但是好像没有什么鲜活的数据,所以开始学习Python爬虫。
那时候还在学校里,忙着毕业论文的事情,断断续续地学了起来。百度贴吧是我实战的主要战场,从小贴吧(几千条数据)到大贴吧(200万条数据),从requests,beautifulsoup,re 到 进程池,代理池,selenium,手机抓包。不知不觉中,自己对爬虫有了些心得。
2017年4月1日开始写爬虫文章,起初是在简书上写,我的文章越写越长,越来越觉得简书对长文章支持不好,所以用github和coding的pages功能,做了一个自己的网站,也就是现在这个,把长文章都迁移到了这里。
- 4月1号,简单网站爬虫的所有技能
- 4月2号,爬虫中的正则表达式(持续更新)
- …..
Python就只用来做爬虫?
有时候网上会评论,写Python文章的十有八九是做爬虫的,哑然失笑。我学习Python,还真不是为了做爬虫,最先学习的三个库是numpy、matplotlib和pandas
话说回来,做爬虫怎么了?
博客爬虫文章
梳理一下爬虫文章的思路和总结一下文章的优缺点
- Python_数据存储
- 介绍csv,pymongo,pymysql的简单使用场景
- 如果是大量数据的话,从以后数据分析的角度,建议使用关系型数据库
- 简单网站爬虫的所有技能
- 爬虫中的正则表达式(持续更新)
- Python_爬虫_代理池
- Python_爬虫_多进程
- fork和pool的简单使用
- 讲好多进程需要较好的编程基础,我还没有,:)
- selenium简单使用,beautifulsoup始终beautiful
- 介绍selenium简单使用
- driver.page_source让爬虫人虎躯一震,去你的js
- Python_爬虫_手机抓包
- Python_json_eval_yaml
- 当python自带的json库不好用的时候,试试yaml和eval吧
可视化文章
- 有一群人在玩数据
- 数据可视化团队,EasyCharts
- 女性数据分析团队,DataGirls
- 高考吧分析
- 关于爱情—某豆瓣小组
下一步计划
重点放在数据分析上,爬虫文章不会新增了,只为维护更新,十分欢迎其他朋友的投稿