服务器频繁出现 TIME_WAIT 状态的 TCP 调优方案

服务器频繁出现 TIME_WAIT 状态的 TCP 调优方案：从实战角度解决连接耗尽问题

上周我们的线上服务突然出现连接数飙升，通过 netstat -an | grep TIME_WAIT | wc -l 发现 TIME_WAIT 连接竟然达到了 3 万多个！作为运维负责人，我立即投入了这场”战斗”。今天就把这次实战经验整理成文，分享给遇到同样问题的朋友们。

理解 TIME_WAIT 的本质

首先我们要明白，TIME_WAIT 不是 bug，而是 TCP 协议的正常状态。当连接主动关闭时，会进入 2MSL（Maximum Segment Lifetime）的等待期，通常是 60 秒。这个机制主要是：

确保最后一个 ACK 能够到达对端
让旧连接的重复数据包在网络中消失
防止新连接收到旧连接的混乱数据

但问题在于，当服务器作为客户端频繁创建短连接时（比如调用第三方 API），TIME_WAIT 连接会快速积累，最终耗尽可用端口。

快速诊断：确认问题范围

在开始调优前，先用这些命令确认问题：

# 查看 TIME_WAIT 连接数量
netstat -an | grep TIME_WAIT | wc -l

# 按端口统计 TIME_WAIT 分布
netstat -an | grep TIME_WAIT | awk '{print $4}' | sort | uniq -c | sort -rn

# 查看系统当前 TIME_WAIT 超时时间
cat /proc/sys/net/ipv4/tcp_fin_timeout

如果 TIME_WAIT 数量持续在 2 万以上，或者接近 net.ipv4.ip_local_port_range 定义的端口范围上限，那就需要立即处理了。

核心调优方案：四步解决法

1. 启用端口复用和快速回收

这是最关键的步骤，能显著减少 TIME_WAIT 堆积：

# 临时生效
echo 1 > /proc/sys/net/ipv4/tcp_tw_reuse
echo 1 > /proc/sys/net/ipv4/tcp_tw_recycle  # 注意：在 NAT 环境下慎用
echo 1 > /proc/sys/net/ipv4/tcp_timestamps

# 永久配置，添加到 /etc/sysctl.conf
echo 'net.ipv4.tcp_tw_reuse = 1' >> /etc/sysctl.conf
echo 'net.ipv4.tcp_tw_recycle = 1' >> /etc/sysctl.conf
echo 'net.ipv4.tcp_timestamps = 1' >> /etc/sysctl.conf

踩坑提示：tcp_tw_recycle 在 NAT 环境下可能导致连接问题，如果客户端通过网关访问，建议只开启 tcp_tw_reuse。

2. 调整连接跟踪参数

优化系统对连接的管理：

# 减少 FIN_WAIT2 状态超时时间
echo 30 > /proc/sys/net/ipv4/tcp_fin_timeout

# 增大可用的本地端口范围
echo 1024 65535 > /proc/sys/net/ipv4/ip_local_port_range

# 增大系统最大文件描述符数
echo 655350 > /proc/sys/fs/file-max

3. 应用层优化：连接池化

系统调优只是治标，应用层优化才是根本。以 Java 应用为例，使用连接池代替频繁创建短连接：

// 使用 Apache HttpClient 连接池示例
PoolingHttpClientConnectionManager connManager = 
    new PoolingHttpClientConnectionManager();
connManager.setMaxTotal(200);
connManager.setDefaultMaxPerRoute(20);

CloseableHttpClient httpClient = HttpClients.custom()
    .setConnectionManager(connManager)
    .build();

在我们的实践中，引入连接池后，TIME_WAIT 连接从 3 万+ 降到了 500 以内！

4. 监控与验证

调优后需要持续监控效果：

# 实时监控脚本
while true; do
    echo -n "TIME_WAIT: "
    netstat -an | grep TIME_WAIT | wc -l
    echo -n "ESTABLISHED: "
    netstat -an | grep ESTABLISHED | wc -l
    sleep 5
done