关键词总结:TIME_WAIT
代码路径见Github 专栏代码
TIME_WAIT 发生的场景
这要从 TCP 的四次挥手说起
TCP 连接终止时, 主机 1 发送FIN报文到主机2,主机2收到后进入CLOSE_WAIT,并发送一个ACK对主机2FIN报文应答;同时,主机 2 通过 read 调用获得 EOF,并将结果通知应用程序进行主动关闭操作,主机2发送FIN报文到主机1,主机1收到FIN报文后发送ACK对主机1FIN报文应答,此时主机 1 进入 TIME_WAIT 状态。
主机 1 在 TIME_WAIT 停留持续时间是固定的,是最长分节生命期 MSL(maximum segment lifetime)的两倍,一般称之为 2MSL。Linux 系统里有一个硬编码的字段,名称为TCP_TIMEWAIT_LEN,其值为 60 秒。也就是说,Linux 系统停留在 TIME_WAIT 的时间为固定的 60 秒。
这个时间之后,主机 1 就进入 CLOSED 状态。只有发起连接终止的一方会进入 TIME_WAIT 状态。
TIME_WAIT 的作用
1、为了确保最后的 ACK 能让被动关闭方接收(图中主机2),从而帮助其正常关闭。
如果由于某种原因导致主机1的ACK包(对主机2FIN包应答)没有传输成功,那么主机2就会重新发送FIN报文。
如果主机1没有维护 TIME_WAIT 状态,而直接进入 CLOSED 状态,它就失去了当前状态的上下文,接收不到主机2重传的FIN报文,只能回复一个 RST 操作,从而导致被动关闭方出现错误。
现在当主机 1 知道自己处于 TIME_WAIT 的状态,就可以在接收到 FIN 报文(主机2重传)之后,重新发出一个 ACK 报文,使得主机 2 可以进入正常的 CLOSED 状态。
2、让旧链接能够自然消失,避免迷走报文的误操作
在网络中,经常会发生报文经过一段时间才能到达目的地的情况,如果迷走报文到达时,发现 TCP 连接四元组(源 IP,源端口,目的 IP,目的端口)所代表的连接不复存在,那么很简单,这个报文自然丢弃。
但是,如果主机1和主机2断连后又重新创建了连接,这个连接和原先的连接四元组完全相同,如果迷失报文经过一段时间也到达(上个连接的报文),那么这个报文会被误认为是当前连接的,就会对 TCP 通信产生影响。
所以,TCP 就设计出了这么一个机制,经过 2MSL 这个时间,足以让两个方向上的迷走报文都被丢弃。2MSL 的时间是从主机 1 接收到 FIN 后发送 ACK 开始计时的;
TIME_WAIT 的危害
第一是内存资源占用,第二是对端口资源的占用
内存相对来说可以扩展,但是端口资源是有限的,一个 TCP 连接至少消耗一个本地端口。如果 TIME_WAIT 状态过多,会导致无法创建新连接。只有等一段时间之后,处于 TIME_WAIT 的连接被系统回收并关闭后,释放出本地端口才能新建连接。
如何优化 TIME_WAIT?
在高并发的情况下,如果我们想对 TIME_WAIT 做一些优化,该如何办呢?
net.ipv4.tcp_max_tw_buckets
一个暴力的方法是通过 sysctl 命令,将系统值调小。这个值默认为 18000,当系统中处于 TIME_WAIT 的连接一旦超过这个值时,系统就会将所有的 TIME_WAIT 连接状态重置,并且只打印出警告信息。治标不治本,带来的问题远比解决的问题多,不推荐使用。
调低 TCP_TIMEWAIT_LEN,重新编译系统
Linux 系统停留在 TIME_WAIT 的时间为固定的 60 秒。可以调低这个时间但是需要重新编译内核。
SO_LINGER 的设置
“linger”的意思为停留,可以通过设置套接字选项,来设置调用 close 或者 shutdown 关闭连接时的行为。
可以参见 setsockopt :SO_LINGER 选项设置
net.ipv4.tcp_tw_reuse:更安全的设置
Linux 系统对于net.ipv4.tcp_tw_reuse的解释如下:
Allow to reuse TIME-WAIT sockets for new connections when it is safe from protocol viewpoint. Default value is 0.It should not be changed without advice/request of technical experts.
大意是从协议角度理解如果是安全可控的,可以复用处于 TIME_WAIT 的套接字为新的连接所用。
那么什么是协议角度理解的安全可控呢?主要有两点:1、只适用于连接发起方(C/S 模型中的客户端);2、对应的 TIME_WAIT 状态的连接创建时间超过 1 秒才可以被复用。
使用这个选项,还有一个前提,需要打开对 TCP 时间戳的支持,即net.ipv4.tcp_timestamps=1(默认即为 1)。
参见 tcp_tw_reuse、tcp_tw_recycle 使用场景及注意事项
linux TIME_WAIT 相关参数:
net.ipv4.tcp_tw_reuse = 0 表示开启重用。允许将TIME-WAIT sockets重新用于新的TCP连接,默认为0,表示关闭
net.ipv4.tcp_tw_recycle = 0 表示开启TCP连接中TIME-WAIT sockets的快速回收,默认为0,表示关闭
net.ipv4.tcp_fin_timeout = 60 表示如果套接字由本端要求关闭,这个参数决定了它保持在FIN-WAIT-2状态的时间
注意:
-
不像Windows 可以修改注册表修改2MSL 的值,linux 需要修改内核宏定义重新编译,tcp_fin_timeout 不是2MSL 而是Fin-WAIT-2状态超时时间.
-
tcp_tw_reuse 和 SO_REUSEADDR 是两个完全不同的东西
SO_REUSEADDR 允许同时绑定 127.0.0.1 和 0.0.0.0 同一个端口; SO_RESUSEPORT linux 3.7才支持,用于绑定相同ip:port,像nginx 那样 fork方式也能实现
-
tw_reuse,tw_recycle 必须在客户端和服务端 timestamps 开启时才管用(默认打开)
-
tw_reuse 只对客户端起作用,开启后客户端在1s内回收
-
tw_recycle 对客户端和服务器同时起作用,开启后在 3.5*RTO 内回收,RTO 200ms~ 120s 具体时间视网络状况。
参考资料:
网络编程实战(极客时间)链接:
http://gk.link/a/10g9X
GitHub链接:
https://github.com/lichangke
CSDN首页:
https://me.csdn.net/leacock1991
欢迎大家来一起交流学习