HTTP(Hyper Text Transfer Protocol,超文本传输协议)是一个客户端和服务器请求和应答的标准(TCP)。客户端是终端用户,服务器是网站。通过使用Web浏览器、网络爬虫或者其他工具,客户端发起一个到服务器上指定端口(默认端口为80)的HTTP请求,这个客户端加用户代理(User Agent)。响应的服务器存储着资源,比如HTTP文件和图像,这个服务器为源服务器(Origin Sever),在用户代理和服务器中间可能存在多个中间层,比如代理、网关或者隧道(Tunnels)。
通常由HTTP客户端发起一个请求,建立一个到服务器指定端口(默认是80端口)的TCP连接,HTTP服务器则在那个端口监听客户端发来的请求,一旦受到请求,服务器(向客户端)发回一个状态行(比如“HHTP/1.1 200 OK”)和(响应的)消息,消息体可能是请求的文件、错误消息或者其他一些消息。
在浏览器的地址栏输入的网站地址叫做(URL)。在浏览器的地址框中输入一个URL或单机一个超级URL时,URL就确定了要浏览的地址,向服务器发送一次请求,浏览器通过HTTP(超文本传输协议)传送到服务器,服务器根据请求头做出相应的响应,将响应数据返回到客户端,客户端收到响应内容后,通过浏览器翻译成网页。
HTTP协议传输的数据都是未加密的,也就是明文的数据,因此使用HTTP协议传输隐私信息非常不安全。为了保证这些隐私数据能够加密传输,于是网景公司设计了SSL(Secure Sockets Layer)协议用于对HTTP协议传输的数据进行加密,从而诞生了HTTPS。
HTTPS(Hyper Text Transfer Protocol Secure Sockets Layer,,可以理解为HTTP+SSL/TLS)在传输数据之前需要客户端(浏览器)与服务端(网站)之间进行一次握手,在握手过程中将确立双方加密传输数据的密码信息。
HTTP与HTTPS的区别:
????
HTTPS的SSL中使用了非对称加密、对称加密以及HASH算法。握手过程的简单描述如下:
-
浏览器将自己支持的一套加密规则发送给网站
-
网站从中选出一组加密算法与HASH算法,并将自己的身份信息以证书的形式发回给浏览器。证书里面包含网站地址、加密公钥以及证书的颁发机构等信息。
-
获得网站证书之后浏览器要做一下工作:
a. 验证证书的合法性(如颁发证书的机构是否合法、证书中包含的网站地址是否与正在访问地址一致等),如果证书受信任,浏览器栏就会显示一个小锁头,否则会给证书不受信任的提示。
b. 如果证书受信任或者用户接受了不受信任的证书,浏览器就会生成一串随机数的密码,并用证书中提供的公钥加密。
c. 使用约定好的HASH计算握手消息,并使用生成的随机数对消息进行加密,最后将之前生成的所有信息发送给网站。
-
网站接受浏览器发来的数据之后要做一下操作:
a. 使用自己的私钥将信息解密并取出密码,使用密码解密浏览器发送来的握手信息,并验证HASH是否与浏览器发送来的一致。
b. 使用密码加密一段握手消息,发送给浏览器。
-
如果浏览器解密并计算握手消息的HASH与服务端发送来的HASH一致,此时握手过程结束,之后所有的通信数据将使用之前的浏览器生成的随机密码,并利用对称加密算法进行加密。
·
浏览器与网站互相发送加密的握手消息并验证,目的是保证双方都获得一致的密码,并且可以正常的加密、解密数据,为真正数据的传输做一次测试。另外HTTPS一般使用的加密与HASH算法如下:
- 非对称加密算法:RSA、DSA/DSS
- 对称加密算法:AES、RC4、3DES
- HASH算法:MD5、SHA1、SHA256
其中,非对称加密算法用于在握手过程中加密生成的密码,对称加密算法用于对真正传输的数据进行加密,而HASN算法用于验证数据的完整性。
由于浏览器生成的密码是整个数据加密的关键,因此在传输的时候使用非对称加密算法对其加密。非对称加密算法会生成公钥和私钥,公钥只能用于加密数据,可以随意传输、而网站的私钥用于对数据进行解密,所以网站都会非常小心地保管自己的私钥,防止泄露。
SSL握手过程中有任何错误都会使加密连接断开,从而阻止隐私信息的传输,正是由于HTTPS非常安全,攻击者无法从中找到下手的地方,因此更多地采用假证书的手法来欺骗客户端,从而获得明文的信息。
·
·
·
·
·
文章摘选自《实战Python网络爬虫》,仅用于个人学习笔记。