热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Python_爬虫总结

学习爬虫和写爬虫文章2017年3月我想锻炼数据分析相关技能,但是好像没有什么鲜活的数据,所以开始学习Python爬虫。那时候还在学校里,忙着毕业论文的事情,断断续续地学了起来。百度

学习爬虫和写爬虫文章

2017年3月我想锻炼数据分析相关技能,但是好像没有什么鲜活的数据,所以开始学习Python爬虫。

那时候还在学校里,忙着毕业论文的事情,断断续续地学了起来。百度贴吧是我实战的主要战场,从小贴吧(几千条数据)到大贴吧(200万条数据),从requests,beautifulsoup,re 到 进程池,代理池,selenium,手机抓包。不知不觉中,自己对爬虫有了些心得。

2017年4月1日开始写爬虫文章,起初是在简书上写,我的文章越写越长,越来越觉得简书对长文章支持不好,所以用github和coding的pages功能,做了一个自己的网站,也就是现在这个,把长文章都迁移到了这里。

  • 4月1号,简单网站爬虫的所有技能
  • 4月2号,爬虫中的正则表达式(持续更新)
  • …..

Python就只用来做爬虫?

有时候网上会评论,写Python文章的十有八九是做爬虫的,哑然失笑。我学习Python,还真不是为了做爬虫,最先学习的三个库是numpy、matplotlib和pandas

话说回来,做爬虫怎么了?

《Python_爬虫总结》
《Python_爬虫总结》

博客爬虫文章

梳理一下爬虫文章的思路和总结一下文章的优缺点

  • Python_数据存储
    • 介绍csv,pymongo,pymysql的简单使用场景
    • 如果是大量数据的话,从以后数据分析的角度,建议使用关系型数据库
  • 简单网站爬虫的所有技能
    • requests
    • beautifulsoup
  • 爬虫中的正则表达式(持续更新)
    • re
  • Python_爬虫_代理池
    • 介绍一种简单的构建思路
  • Python_爬虫_多进程
    • fork和pool的简单使用
    • 讲好多进程需要较好的编程基础,我还没有,:)
  • selenium简单使用,beautifulsoup始终beautiful
    • 介绍selenium简单使用
    • driver.page_source让爬虫人虎躯一震,去你的js
  • Python_爬虫_手机抓包
    • fiddler
    • 模拟器
    • 其余爬取思路几乎一样
  • Python_json_eval_yaml
    • 当python自带的json库不好用的时候,试试yaml和eval吧

可视化文章

  • 有一群人在玩数据
    • 数据可视化团队,EasyCharts
    • 女性数据分析团队,DataGirls
  • 高考吧分析
  • 关于爱情—某豆瓣小组

下一步计划

重点放在数据分析上,爬虫文章不会新增了,只为维护更新,十分欢迎其他朋友的投稿


推荐阅读
author-avatar
f永远喜爱捉迷藏
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有