Python:推荐爬虫框架

 jkjkjd_105 发布于 2022-11-05 13:42

想使用python爬虫框架开发个爬虫,但目前了解有限,希望大家帮忙推荐几个,谢谢啦~
另外,大家平常工作中都使用python干些什么事情呢?网站开发?爬虫?还是运维?

6 个回答
  • 自己写框架,
    无外乎请求/渲染,解析,存储,队列任务,WebUI之类,
    本人的框架可以干翻携程

    2022-11-12 01:45 回答
  • 神箭手云爬虫

    2022-11-12 01:45 回答
  • http://www.oschina.net/p/scrapy

    scrapy 爬虫框架。纯python实现

    2022-11-12 01:45 回答
    • Mechanize
    • Twill
    • BeautifulSoup + urllib2
    • Scrapy
    • Ruya
    • PycURL

    via : stackoverflow

    2022-11-12 01:45 回答
  • scrapy略重型了,如果自己写的话,可以用自带的urllib2,也可以用requests,解析可以使用lxml,BeautifulSoup,实现动态解析,还有splinter等框架,还可以用threading模块实现多线程,或者使用协程框架gevent。

    2022-11-12 01:45 回答
  • scrapy是python里面比较好的爬虫框架。支持自定义Item,pipeline数据管道。在spider中可以指定domain,以及相应的Rule规则,支持xpath对DOM的解析等内容
    而且scrapy还有自己的shell,可以在上面方便调试和查看结果。总之内容很多,功能很强大...

    基本上scrapy做的已经非常完善了。不过不支持动态载入js解析js中的ajax请求。scrapyjs在此基础之上实现了模拟浏览器动态行为。

    我写的这个配置文档
    包括了Windows和CentOS 6.4下面的配置过程。可以作为一个参考。(不过有些库是我自己用到的,不一定需要安装..比如upyun...progressbar神马的)

    2022-11-12 01:45 回答
撰写答案
今天,你开发时遇到什么问题呢?
立即提问
热门标签
PHP1.CN | 中国最专业的PHP中文社区 | PNG素材下载 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有