热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

python爬虫_python爬虫的常见方式

篇首语:本文由编程笔记#小编为大家整理,主要介绍了python爬虫的常见方式相关的知识,希望对你有一定的参考价值。requests+bs4+lxm

篇首语:本文由编程笔记#小编为大家整理,主要介绍了python爬虫的常见方式相关的知识,希望对你有一定的参考价值。



  1. requests+bs4+lxml直接获取并解析html数据

  2. 抓包ajax请求,使用requests获取并解析json数据

  3. 反爬严重的网站,使用selenium爬取

  4. 设置代理

  5.     a.urllib/requests/selenium+chrome/selenium+phantomjs设置代理

        b.爬取免费代理网站中的免费代理IP存入redis做代理池,并定期提取检测(访问目标网站),使用flask搭建网站,从redis返回随机代理IP(不适合商用)

        c.多台ADSL拨号主机安装tinyproxy做代理,定时拨号获取自己的IP存入远程redis做代理池,使用flask搭建网站,从redis返回随机代理IP(爬取天眼查/IT桔子/搜狗微信)

        d.收费代理IP(爬取天眼查/IT桔子/搜狗微信)

  6. COOKIE池

  7. 爬取APP:

        a.charles/fiddler/wireshark/mitmproxy/anyproxy抓包,appium自动化爬取APP

        b.mitmdump对接python脚本直接处理,appium自动化爬取APP

  8. pyspider框架爬取

  9. scrapy/scrapy-redis/scrapyd框架分布式爬取

  10. 验证码:

        a.极验验证:selenium呼出验证码图案、截图,PIL对比色差、算出位置,selenium匀加速+匀减速模拟人类拖动并验证

        b.微博手机版:selenium呼出验证码图案、截图,制作图像模板,selenium呼出验证码图案、截图,使用PIL将截图与图像模板对比色差,匹配成功后按照模板名字中的数字顺序使用selenium进行拖动并验证

        c.接入打码平台,selenium呼出验证码图案、截图,发送到打码平台,平台返回坐标,selenium移动到坐标并点击并验证



推荐阅读
  • 深入解析Spring Cloud Ribbon负载均衡机制
    本文详细介绍了Spring Cloud中的Ribbon组件如何实现服务调用的负载均衡。通过分析其工作原理、源码结构及配置方式,帮助读者理解Ribbon在分布式系统中的重要作用。 ... [详细]
  • 根据最新发布的《互联网人才趋势报告》,尽管大量IT从业者已转向Python开发,但随着人工智能和大数据领域的迅猛发展,仍存在巨大的人才缺口。本文将详细介绍如何使用Python编写一个简单的爬虫程序,并提供完整的代码示例。 ... [详细]
  • 本文探讨了领域驱动设计(DDD)的核心概念、应用场景及其实现方式,详细介绍了其在企业级软件开发中的优势和挑战。通过对比事务脚本与领域模型,展示了DDD如何提升系统的可维护性和扩展性。 ... [详细]
  • 本文详细解析了如何使用Python的urllib模块发起POST请求,并通过实例展示如何爬取百度翻译的翻译结果。 ... [详细]
  • PHP 过滤器详解
    本文深入探讨了 PHP 中的过滤器机制,包括常见的 $_SERVER 变量、filter_has_var() 函数、filter_id() 函数、filter_input() 函数及其数组形式、filter_list() 函数以及 filter_var() 和其数组形式。同时,详细介绍了各种过滤器的用途和用法。 ... [详细]
  • 本文作者分享了在阿里巴巴获得实习offer的经历,包括五轮面试的详细内容和经验总结。其中四轮为技术面试,一轮为HR面试,涵盖了大量的Java技术和项目实践经验。 ... [详细]
  • 深入解析Java枚举及其高级特性
    本文详细介绍了Java枚举的概念、语法、使用规则和应用场景,并探讨了其在实际编程中的高级应用。所有相关内容已收录于GitHub仓库[JavaLearningmanual](https://github.com/Ziphtracks/JavaLearningmanual),欢迎Star并持续关注。 ... [详细]
  • 本文介绍了如何使用PHP代码实现微信平台的媒体素材上传功能,详细解释了API接口的使用方法和注意事项,确保文件路径正确以避免常见的错误。 ... [详细]
  • 本文探讨了如何在 PHP 的 Eloquent ORM 中实现数据表之间的关联查询,并通过具体示例详细解释了如何将关联数据嵌入到查询结果中。这不仅提高了数据查询的效率,还简化了代码逻辑。 ... [详细]
  • 深入解析 Spring Security 用户认证机制
    本文将详细介绍 Spring Security 中用户登录认证的核心流程,重点分析 AbstractAuthenticationProcessingFilter 和 AuthenticationManager 的工作原理。通过理解这些组件的实现,读者可以更好地掌握 Spring Security 的认证机制。 ... [详细]
  • 本文详细介绍了Java Web应用程序中的过滤器(Filter)功能,包括其作用、实现方式及配置方法。过滤器可以在请求到达目标资源之前对其进行预处理,并在响应返回给客户端之前进行后处理。 ... [详细]
  • FinOps 与 Serverless 的结合:破解云成本难题
    本文探讨了如何通过 FinOps 实践优化 Serverless 应用的成本管理,提出了首个 Serverless 函数总成本估计模型,并分享了多种有效的成本优化策略。 ... [详细]
  • 本文深入探讨了HTTP请求和响应对象的使用,详细介绍了如何通过响应对象向客户端发送数据、处理中文乱码问题以及常见的HTTP状态码。此外,还涵盖了文件下载、请求重定向、请求转发等高级功能。 ... [详细]
  • 本文将详细探讨Linux pinctrl子系统的各个关键数据结构,帮助读者深入了解其内部机制。通过分析这些数据结构及其相互关系,我们将进一步理解pinctrl子系统的工作原理和设计思路。 ... [详细]
  • Java项目分层架构设计与实践
    本文探讨了Java项目中应用分层的最佳实践,不仅介绍了常见的三层架构(Controller、Service、DAO),还深入分析了各层的职责划分及优化建议。通过合理的分层设计,可以提高代码的可维护性、扩展性和团队协作效率。 ... [详细]
author-avatar
外星人源码商城
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有