热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

python爬虫涉及的相关库有哪些

这篇文章主要介绍了python爬虫涉及的相关库有哪些,具有一定借鉴价值,需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获。下面让小编带

这篇文章主要介绍了python爬虫涉及的相关库有哪些,具有一定借鉴价值,需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获。下面让小编带着大家一起了解一下。

以下是Python爬虫涉及的相关库

请求库,解析库,存储库,工具库

1、请求库:urllib/re/requests

(1) urllib/re是python默认自带的库,可以通过以下命令进行验证:

python爬虫涉及的相关库有哪些

没有报错信息输出,说明环境正常

(2) requests安装

2.1 打开CMD,输入 pip3 install requests

2.2 等待安装后,验证

python爬虫涉及的相关库有哪些

(3) selenium安装(驱动浏览器进行网站访问行为)

3.1 打开CMD,输入 pip3 install selenium

3.2 安装chromedriver

网址:https://npm.taobao.org/

把下载完成后的压缩包解压,把exe放到D:\Python3.6.0\Scripts\

这个路径只要在PATH变量中就可以

3.3 等待安装完成后,验证

python爬虫涉及的相关库有哪些

回车后弹出chrome浏览器界面

3.4 安装其他浏览器

无界面浏览器phantomjs

下载网址:http://phantomjs.org/

下载完成后解压,把整个目录放到D:\Python3.6.0\Scripts\,把bin目录的路径添加到PATH变量

验证:

打开CMD

python爬虫涉及的相关库有哪些

2. 解析库:

2.1 lxml (XPATH)

打开CMD输入pip3 install lxml或者从https://pypi.python.org下载,例如,lxml-4.1.1-cp36-cp36m-win_amd64.whl (md5) ,先下载whl文件,命令行执行pip3 install 文件名.whl

2.2 beautifulsoup

打开CMD,需要先安装好lxml

pip3 install beautifulsoup4

python爬虫涉及的相关库有哪些

2.3 pyquery(类似jquery语法)

打开CMD,pip3 install pyquery

验证安装结果

python爬虫涉及的相关库有哪些

3. 存储库

3.1 pymysql(操作MySQL,关系型数据库)

安装:pip3 install pymysql,安装后测试:

python爬虫涉及的相关库有哪些

3.2 pymongo(操作MongoDB,key-value)

安装 pip3 install pymongo

验证

python爬虫涉及的相关库有哪些

3.3 redis(分布式爬虫,维护爬取队列) 安装:pip3 install redis

验证:

python爬虫涉及的相关库有哪些

4.1Django(分布式爬虫维护系统)pip3 install django

4.2jupyter(运行在网页端的记事本,支持markdown,可以在网页上运行代码)安装 pip3 install jupyter

验证:打开CMD,jupyter notebook

之后就可以在网页直接创建记事本,代码块和Markdown块,支持打印

感谢你能够认真阅读完这篇文章,希望小编分享python爬虫涉及的相关库有哪些内容对大家有帮助,同时也希望大家多多支持编程笔记,关注编程笔记行业资讯频道,遇到问题就找编程笔记,详细的解决方法等着你来学习!


推荐阅读
  • MySQL性能优化与调参指南【数据库管理】
    本文详细探讨了MySQL数据库的性能优化与参数调整技巧,旨在帮助数据库管理员和开发人员提升系统的运行效率。内容涵盖索引优化、查询优化、配置参数调整等方面,结合实际案例进行深入分析,提供实用的操作建议。此外,还介绍了常见的性能监控工具和方法,助力读者全面掌握MySQL性能优化的核心技能。 ... [详细]
  • Django框架下的对象关系映射(ORM)详解
    在Django框架中,对象关系映射(ORM)技术是解决面向对象编程与关系型数据库之间不兼容问题的关键工具。通过将数据库表结构映射到Python类,ORM使得开发者能够以面向对象的方式操作数据库,从而简化了数据访问和管理的复杂性。这种技术不仅提高了代码的可读性和可维护性,还增强了应用程序的灵活性和扩展性。 ... [详细]
  • Django框架进阶教程:掌握Ajax请求的基础知识与应用技巧
    本教程深入探讨了Django框架中Ajax请求的核心概念与实用技巧,帮助开发者掌握异步数据交互的方法,提升Web应用的响应速度和用户体验。通过实例解析,详细介绍了如何在Django项目中高效实现Ajax请求,涵盖从基础配置到复杂场景的应用。 ... [详细]
  • 利用Node.js开发的成都58同城高效租房信息抓取工具
    基于Node.js开发的成都58同城高效租房信息抓取工具,旨在为用户提供便捷、高效的房源搜索体验。该工具能够快速抓取并筛选出性价比高的租房信息,帮助用户在海量信息中迅速找到满意的房源。通过优化数据处理流程和提升抓取效率,该工具显著提升了租房信息的获取速度和准确性,为租房者节省了大量时间和精力。 ... [详细]
  • 作为140字符的开创者,Twitter看似简单却异常复杂。其简洁之处在于仅用140个字符就能实现信息的高效传播,甚至在多次全球性事件中超越传统媒体的速度。然而,为了支持2亿用户的高效使用,其背后的技术架构和系统设计则极为复杂,涉及高并发处理、数据存储和实时传输等多个技术挑战。 ... [详细]
  • 如何将PHP文件上传至服务器及正确配置服务器地址 ... [详细]
  • Python网络爬虫入门:利用urllib库进行数据抓取
    Python网络爬虫入门:利用urllib库进行数据抓取在数据科学和Web开发领域,Python凭借其简洁高效的特性成为首选语言。本文主要介绍了如何在Windows环境下使用Python的urllib库进行基本的网络数据抓取。考虑到命令行操作的不便,作者选择了Jupyter Notebook作为开发环境,不仅简化了配置过程,还提供了直观的数据处理和可视化功能。通过实例演示,读者可以轻松掌握urllib的基本用法,为深入学习网络爬虫技术打下坚实基础。 ... [详细]
  • 2019年后蚂蚁集团与拼多多面试经验详述与深度剖析
    2019年后蚂蚁集团与拼多多面试经验详述与深度剖析 ... [详细]
  • 如何利用Apache与Nginx高效实现动静态内容分离
    如何利用Apache与Nginx高效实现动静态内容分离 ... [详细]
  • 优化后的标题:利用YUM高效安装与管理MySQL数据库环境 ... [详细]
  • 开发心得:利用 Redis 构建分布式系统的轻量级协调机制
    开发心得:利用 Redis 构建分布式系统的轻量级协调机制 ... [详细]
  • 在进行前端JavaScript国际化(i18n)的过程中,为了从cookie中获取语言信息并动态加载相应资源,我决定将语言检测逻辑和i18n初始化代码直接嵌入到index页面中,使用了Velocity模板引擎的语法。这种方法不仅简化了代码结构,还提高了语言切换的灵活性和响应速度。 ... [详细]
  • 在前一篇文章中,我们介绍了如何使用Requests库发送GET请求。本文将深入探讨如何通过Requests库发送POST请求,包括参数格式、请求封装等关键技巧,并通过“历史上的今天”API实例进行详细说明。 ... [详细]
  • 在现代Web开发中,Ajax技术扮演着至关重要的角色。当我们使用传统的请求库(如requests)抓取网页时,有时会发现返回的数据与浏览器中显示的内容存在差异。这是因为许多动态内容是通过Ajax异步加载的,而requests等工具无法模拟这种异步行为。了解Ajax的工作原理及其在Web开发中的应用,可以帮助开发者更有效地抓取和处理动态生成的数据。 ... [详细]
  • EasyUI作为一种高效的前端框架,显著简化了JavaScript代码的编写,提升了开发效率。在构建窗口应用程序时,首先需要引入EasyUI所需的JS文件和CSS样式表。由于EasyUI依赖于jQuery,因此还需确保正确加载jQuery库。通过这种方式,开发者能够快速实现界面组件的动态交互与美观布局,为用户提供更加流畅的使用体验。 ... [详细]
author-avatar
my76572
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有