热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

开发笔记:网络爬虫基础之HTTP基本原理(附相关HTTPS知识)

篇首语:本文由编程笔记#小编为大家整理,主要介绍了网络爬虫基础之HTTP基本原理(附相关HTTPS知识)相关的知识,希望对你有一定的参考价值。

篇首语:本文由编程笔记#小编为大家整理,主要介绍了网络爬虫基础之HTTP基本原理(附相关HTTPS知识)相关的知识,希望对你有一定的参考价值。






ins @bbc_travle


前言


本文旨在通过讲解HTTP的原理来为后续的网络爬虫实践打下基础,其中HTTP图文来源于[1]。


随着越来越多的网站向HTTPS发展,了解HTTPS的相关知识也是很有必要的,所以在本文的最后部分补充了相关HTTPS知识。


目录



  • URI 和 URL


  • 超文本


  • HTTP 和 HTTPS


  • HTTP 请求过程


  • 请求



    • 请求方法


    • 请求的网址


    • 请求头


    • 请求体



  • 响应



    • 响应状态码


    • 响应头


    • 响应体



  • HTTPS相关知识



    • 概念转换


    • 数字证书


    • CA


    • CA工作流程


    • SSL协议


    • HTTPS请求流程






HTTP相关知识撞库了,参看文末左下方阅读链接即可。


直接进入到HTTPS知识。


HTTPS相关知识


概念转换


为方便下面相关概念理解,先参考图9。



网络爬虫基础之HTTP基本原理(附相关HTTPS知识)

图9. 概念转换


数字证书


数字证书(digital certificate)是指在互联网通讯中标志通讯各方身份信息的一个数字认证,人们可以在网上用它来识别对方的身份。


数字证书包含拥有者的身份信息,颁发机构的签名,公钥和私钥。身份信息用于证明证书持有者的身份;颁发机构的签名用于保证身份的真实性;公钥和私钥用于通信过程中加解密,从而保证通讯信息的安全性。


CA


CA是 Certificate Authority 的缩写,也叫“证书授权中心”。它是负责管理和签发证书的第三方机构,作用是检查证书持有者身份的合法性,并签发证书,以防证书被伪造或篡改。


所以,CA实际上是一个机构,负责“证件”印制核发。就像负责颁发身份证的公安局、负责发放行驶证、驾驶证的车管所。


CA工作流程


CA是基于非对称加密算法来工作的,Bob会先把自己的 public key(和一些其他信息)交给CA。CA用自己的 private key 加密这些数据,加密完的数据称为Bob的数字证书。


现在Bob要向Alice传递 public key,Bob传递的是CA加密之后的数字证书。Alice收到以后,会通过CA发布的CA证书(包含了CA的public key),来解密Bob的数字证书,从而获得Bob的public key


此外,CA把自己的CA证书集成在了浏览器和操作系统里面。Alice拿到浏览器或者操作系统的时候,已经有了CA证书,没有必要通过网络获取,这有效避免了中间人劫持的问题。




图10. CA工作流程


SSL协议


SSL协议(Secure Sockets Layer 安全套接字协议),位于TCP/IP协议与各种应用层协议之间,为数据通讯提供安全支持。SSL协议可分为两层:


SSL记录协议(SSL Record Protocol):它建立在可靠的传输协议(如TCP)之上,为高层协议提供数据封装、压缩、加密等基本功能的支持。


SSL握手协议(SSL Handshake Protocol):它建立在SSL记录协议之上,用于在实际的数据传输开始前,通讯双方进行身份认证、协商加密算法、交换加密密钥等。




图10. 安全机制


HTTPS请求流程





  • 用户向web服务器发起一个安全连接的请求;



  • 服务器返回经过CA认证的数字证书,证书里面包含了服务器的
    public key



  • 用户拿到数字证书,用自己浏览器内置的CA证书解密得到服务器的
    public key



  • 用户用服务器的
    public key  加密一个用于接下来的对称加密算法的密钥,传给web服务器;



  • 因为只有服务器有
    private key  可以解密,所以不用担心中间人拦截这个加密的密钥;



  • 服务器拿到这个加密的密钥,解密获取密钥,再使用
    对称加密算法,和用户完成接下来的网络通信;


参考资料


[1] Python3网络爬虫开发实战


[2] 浅谈SSL/TLS工作原理


[3] 数字证书、CA、CA证书,傻傻分不清楚?这一篇看懂!




推荐阅读
  • 如何在服务器上配置SSL证书
    SSL证书是用于验证互联网上身份的一种数字凭证,通过启用HTTPS协议,确保用户与服务器之间的通信安全。本文将详细介绍如何在API和服务器上配置SSL证书,以提升网站的安全性和可信度。 ... [详细]
  • 应用链时代,详解 Avalanche 与 Cosmos 的差异 ... [详细]
  • 网站访问全流程解析
    本文详细介绍了从用户在浏览器中输入一个域名(如www.yy.com)到页面完全展示的整个过程,包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]
  • 如何将TS文件转换为M3U8直播流:HLS与M3U8格式详解
    在视频传输领域,MP4虽然常见,但在直播场景中直接使用MP4格式存在诸多问题。例如,MP4文件的头部信息(如ftyp、moov)较大,导致初始加载时间较长,影响用户体验。相比之下,HLS(HTTP Live Streaming)协议及其M3U8格式更具优势。HLS通过将视频切分成多个小片段,并生成一个M3U8播放列表文件,实现低延迟和高稳定性。本文详细介绍了如何将TS文件转换为M3U8直播流,包括技术原理和具体操作步骤,帮助读者更好地理解和应用这一技术。 ... [详细]
  • 本文详细介绍了如何使用OpenSSL自建CA证书的步骤,包括准备工作、生成CA证书、生成服务器待签证书以及证书签名等过程。 ... [详细]
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • 本文介绍了如何利用HTTP隧道技术在受限网络环境中绕过IDS和防火墙等安全设备,实现RDP端口的暴力破解攻击。文章详细描述了部署过程、攻击实施及流量分析,旨在提升网络安全意识。 ... [详细]
  • 秒建一个后台管理系统?用这5个开源免费的Java项目就够了
    秒建一个后台管理系统?用这5个开源免费的Java项目就够了 ... [详细]
  • 本文深入解析了 Kubernetes 控制平面(特别是 API 服务器)与集群节点之间的通信机制,并对其通信路径进行了详细分类。旨在帮助用户更好地理解和定制其安装配置,从而增强网络安全性,确保集群的稳定运行。 ... [详细]
  • 在JavaWeb开发中,文件上传是一个常见的需求。无论是通过表单还是其他方式上传文件,都必须使用POST请求。前端部分通常采用HTML表单来实现文件选择和提交功能。后端则利用Apache Commons FileUpload库来处理上传的文件,该库提供了强大的文件解析和存储能力,能够高效地处理各种文件类型。此外,为了提高系统的安全性和稳定性,还需要对上传文件的大小、格式等进行严格的校验和限制。 ... [详细]
  • 您的数据库配置是否安全?DBSAT工具助您一臂之力!
    本文探讨了Oracle提供的免费工具DBSAT,该工具能够有效协助用户检测和优化数据库配置的安全性。通过全面的分析和报告,DBSAT帮助用户识别潜在的安全漏洞,并提供针对性的改进建议,确保数据库系统的稳定性和安全性。 ... [详细]
  • 基于Net Core 3.0与Web API的前后端分离开发:Vue.js在前端的应用
    本文介绍了如何使用Net Core 3.0和Web API进行前后端分离开发,并重点探讨了Vue.js在前端的应用。后端采用MySQL数据库和EF Core框架进行数据操作,开发环境为Windows 10和Visual Studio 2019,MySQL服务器版本为8.0.16。文章详细描述了API项目的创建过程、启动步骤以及必要的插件安装,为开发者提供了一套完整的开发指南。 ... [详细]
  • 在对WordPress Duplicator插件0.4.4版本的安全评估中,发现其存在跨站脚本(XSS)攻击漏洞。此漏洞可能被利用进行恶意操作,建议用户及时更新至最新版本以确保系统安全。测试方法仅限于安全研究和教学目的,使用时需自行承担风险。漏洞编号:HTB23162。 ... [详细]
  • 在多线程并发环境中,普通变量的操作往往是线程不安全的。本文通过一个简单的例子,展示了如何使用 AtomicInteger 类及其核心的 CAS 无锁算法来保证线程安全。 ... [详细]
  • DVWA学习笔记系列:深入理解CSRF攻击机制
    DVWA学习笔记系列:深入理解CSRF攻击机制 ... [详细]
author-avatar
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有