热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Python网络爬虫摘文爬虫开发基础1·1HTTP与HTTPS

HTTP(HyperTextTransferProtocol,超文本传输协议)是一个客户端和服务器请求和应答的标准(TCP&

HTTP(Hyper Text Transfer Protocol,超文本传输协议)是一个客户端服务器请求和应答的标准(TCP)。客户端是终端用户,服务器是网站。通过使用Web浏览器、网络爬虫或者其他工具,客户端发起一个到服务器上指定端口(默认端口为80)的HTTP请求,这个客户端加用户代理(User Agent)。响应的服务器存储着资源,比如HTTP文件和图像,这个服务器为源服务器(Origin Sever),在用户代理和服务器中间可能存在多个中间层,比如代理、网关或者隧道(Tunnels)。

通常由HTTP客户端发起一个请求,建立一个到服务器指定端口(默认是80端口)的TCP连接,HTTP服务器则在那个端口监听客户端发来的请求,一旦受到请求,服务器(向客户端)发回一个状态行(比如“HHTP/1.1 200 OK”)和(响应的)消息,消息体可能是请求的文件、错误消息或者其他一些消息。

在浏览器的地址栏输入的网站地址叫做(URL)。在浏览器的地址框中输入一个URL或单机一个超级URL时,URL就确定了要浏览的地址,向服务器发送一次请求,浏览器通过HTTP(超文本传输协议)传送到服务器,服务器根据请求头做出相应的响应,将响应数据返回到客户端,客户端收到响应内容后,通过浏览器翻译成网页。

HTTP协议传输的数据都是未加密的,也就是明文的数据,因此使用HTTP协议传输隐私信息非常不安全。为了保证这些隐私数据能够加密传输,于是网景公司设计了SSL(Secure Sockets Layer)协议用于对HTTP协议传输的数据进行加密,从而诞生了HTTPS

HTTPS(Hyper Text Transfer Protocol Secure Sockets Layer,,可以理解为HTTP+SSL/TLS)在传输数据之前需要客户端(浏览器)与服务端(网站)之间进行一次握手,在握手过程中将确立双方加密传输数据的密码信息

HTTP与HTTPS的区别:

????

在这里插入图片描述

HTTPS的SSL中使用了非对称加密、对称加密以及HASH算法。握手过程的简单描述如下:

  1. 浏览器将自己支持的一套加密规则发送给网站

  2. 网站从中选出一组加密算法与HASH算法,并将自己的身份信息以证书的形式发回给浏览器。证书里面包含网站地址加密公钥以及证书的颁发机构等信息

  3. 获得网站证书之后浏览器要做一下工作:
    a. 验证证书的合法性(如颁发证书的机构是否合法、证书中包含的网站地址是否与正在访问地址一致等),如果证书受信任,浏览器栏就会显示一个小锁头,否则会给证书不受信任的提示。
    b. 如果证书受信任或者用户接受了不受信任的证书,浏览器就会生成一串随机数的密码,并用证书中提供的公钥加密。
    c. 使用约定好的HASH计算握手消息,并使用生成的随机数对消息进行加密,最后将之前生成的所有信息发送给网站。

  4. 网站接受浏览器发来的数据之后要做一下操作:
    a. 使用自己的私钥将信息解密并取出密码,使用密码解密浏览器发送来的握手信息,并验证HASH是否与浏览器发送来的一致。
    b. 使用密码加密一段握手消息,发送给浏览器。

  5. 如果浏览器解密并计算握手消息的HASH与服务端发送来的HASH一致,此时握手过程结束,之后所有的通信数据将使用之前的浏览器生成的随机密码,并利用对称加密算法进行加密。

·
浏览器与网站互相发送加密的握手消息并验证,目的是保证双方都获得一致的密码,并且可以正常的加密、解密数据,为真正数据的传输做一次测试。另外HTTPS一般使用的加密与HASH算法如下:

  1. 非对称加密算法:RSA、DSA/DSS
  2. 对称加密算法:AES、RC4、3DES
  3. HASH算法:MD5、SHA1、SHA256

其中,非对称加密算法用于在握手过程中加密生成的密码,对称加密算法用于对真正传输的数据进行加密,而HASN算法用于验证数据的完整性

由于浏览器生成的密码是整个数据加密的关键,因此在传输的时候使用非对称加密算法对其加密。非对称加密算法会生成公钥和私钥,公钥只能用于加密数据,可以随意传输、而网站的私钥用于对数据进行解密,所以网站都会非常小心地保管自己的私钥,防止泄露。

SSL握手过程中有任何错误都会使加密连接断开,从而阻止隐私信息的传输,正是由于HTTPS非常安全,攻击者无法从中找到下手的地方,因此更多地采用假证书的手法来欺骗客户端,从而获得明文的信息。
·
·

·
·
·
文章摘选自《实战Python网络爬虫》,仅用于个人学习笔记。


推荐阅读
  • 用阿里云的免费 SSL 证书让网站从 HTTP 换成 HTTPS
    HTTP协议是不加密传输数据的,也就是用户跟你的网站之间传递数据有可能在途中被截获,破解传递的真实内容,所以使用不加密的HTTP的网站是不 ... [详细]
  • 如何在服务器上配置SSL证书
    SSL证书是用于验证互联网上身份的一种数字凭证,通过启用HTTPS协议,确保用户与服务器之间的通信安全。本文将详细介绍如何在API和服务器上配置SSL证书,以提升网站的安全性和可信度。 ... [详细]
  • 在List和Set集合中存储Object类型的数据元素 ... [详细]
  • Keepalived 提供了多种强大且灵活的后端健康检查机制,包括 HTTP_GET、SSL_GET、TCP_CHECK、SMTP_CHECK 和 MISC_CHECK 等多种检测方法。这些健康检查功能确保了高可用性环境中的服务稳定性和可靠性。通过合理配置这些检查方式,可以有效监测后端服务器的状态,及时发现并处理故障,从而提高系统的整体性能和可用性。 ... [详细]
  • 在安装 iOS 开发所需的 CocoaPods 时,用户可能会遇到多种问题。其中一个常见问题是,在执行 `pod setup` 命令后,系统无法连接到 GitHub 以更新 CocoaPods/Specs 仓库。这可能是由于网络连接不稳定、GitHub 服务器暂时不可用或本地配置错误等原因导致。为解决此问题,建议检查网络连接、确保 GitHub API 限制未被触发,并验证本地配置文件是否正确。 ... [详细]
  • Cosmos生态系统为何迅速崛起,波卡作为跨链巨头应如何应对挑战?
    Cosmos生态系统为何迅速崛起,波卡作为跨链巨头应如何应对挑战? ... [详细]
  • 本文详细介绍了如何使用OpenSSL自建CA证书的步骤,包括准备工作、生成CA证书、生成服务器待签证书以及证书签名等过程。 ... [详细]
  • 应用链时代,详解 Avalanche 与 Cosmos 的差异 ... [详细]
  • 如何将TS文件转换为M3U8直播流:HLS与M3U8格式详解
    在视频传输领域,MP4虽然常见,但在直播场景中直接使用MP4格式存在诸多问题。例如,MP4文件的头部信息(如ftyp、moov)较大,导致初始加载时间较长,影响用户体验。相比之下,HLS(HTTP Live Streaming)协议及其M3U8格式更具优势。HLS通过将视频切分成多个小片段,并生成一个M3U8播放列表文件,实现低延迟和高稳定性。本文详细介绍了如何将TS文件转换为M3U8直播流,包括技术原理和具体操作步骤,帮助读者更好地理解和应用这一技术。 ... [详细]
  • 服务器部署中的安全策略实践与优化
    服务器部署中的安全策略实践与优化 ... [详细]
  • Swoole加密机制的安全性分析与破解可能性探讨
    本文深入分析了Swoole框架的加密机制,探讨了其在实际应用中的安全性,并评估了潜在的破解可能性。研究结果表明,尽管Swoole的加密算法在大多数情况下能够提供有效的安全保护,但在特定场景下仍存在被攻击的风险。文章还提出了一些改进措施,以增强系统的整体安全性。 ... [详细]
  • 体积小巧的vsftpd与pureftpd Docker镜像在Unraid系统中的详细配置指南:支持TLS加密及IPv6协议
    本文详细介绍了如何在Unraid系统中配置体积小巧的vsftpd和Pure-FTPd Docker镜像,以支持TLS加密和IPv6协议。通过这些配置,用户可以实现安全、高效的文件传输服务,适用于各种网络环境。配置过程包括镜像的选择、环境变量的设置以及必要的安全措施,确保了系统的稳定性和数据的安全性。 ... [详细]
  • 深入探索HTTP协议的学习与实践
    在初次访问某个网站时,由于本地没有缓存,服务器会返回一个200状态码的响应,并在响应头中设置Etag和Last-Modified等缓存控制字段。这些字段用于后续请求时验证资源是否已更新,从而提高页面加载速度和减少带宽消耗。本文将深入探讨HTTP缓存机制及其在实际应用中的优化策略,帮助读者更好地理解和运用HTTP协议。 ... [详细]
  • 在iOS开发中,基于HTTPS协议的安全网络请求实现至关重要。HTTPS(全称:HyperText Transfer Protocol over Secure Socket Layer)是一种旨在提供安全通信的HTTP扩展,通过SSL/TLS加密技术确保数据传输的安全性和隐私性。本文将详细介绍如何在iOS应用中实现安全的HTTPS网络请求,包括证书验证、SSL握手过程以及常见安全问题的解决方法。 ... [详细]
  • 深入解析 OpenSSL 生成 SM2 证书:非对称加密技术与数字证书、数字签名的关联分析
    本文深入探讨了 OpenSSL 在生成 SM2 证书过程中的技术细节,重点分析了非对称加密技术在数字证书和数字签名中的应用。非对称加密通过使用公钥和私钥对数据进行加解密,确保了信息传输的安全性。公钥可以公开分发,用于加密数据或验证签名,而私钥则需严格保密,用于解密数据或生成签名。文章详细介绍了 OpenSSL 如何利用这些原理生成 SM2 证书,并讨论了其在实际应用中的安全性和有效性。 ... [详细]
author-avatar
大兵_小将
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有