当前位置: 开发笔记 > 编程语言 > 正文

lvs调整hash表大小

作者： | 来源：互联网 | 2023-06-26 13:33

大流量并发LVS负载编者按：本文对大流量、高负载LVS系统优化提供了参考意见，从IPVS、网卡、TCPIP配置、硬件资源配置等方面进行了阐述。文章重点关注了IPVSconnection

大流量并发LVS负载

编者按：本文对大流量、高负载LVS系统优化提供了参考意见，从IPVS、网卡、TCP/IP配置、硬件资源配置等方面进行了阐述。文章重点关注了IPVS connection hash table的参数计算过程。

Linux环境

CentOS 5.5

名词

LVS : Linux Virtual Server

IPVS : IP Virtual Server，IPVS 是 LVS 实现的关键。

IPVS connection hash table : IPVS连接哈希表，用来“跟踪”进来、出去的网络包（for input and output packets lookups of IPVS)。

ip_vs_conn 结构体：定义在内核档 include/net/ip_vs.h 中。该结构体（对象）是 IPVS 的调度对象。在 32 位系统上 128字节，64位系统上 192 字节。

IPVS connection hash table

内核中的代码：net/netfilter/ipvs/ip_vs_conn.c

int ip_vs_conn_tab_bits;

编译时可以定，Kconfig文件中说明该值的大小应该在 8 到 20 之间。当ip_vs_conn_tab_bits=20 时，哈希表的的大小（条目）为 pow(2,20)，即 1048576，约 104 万，足够用了。

int ip_vs_conn_tab_size;

IPVS哈希连接表的条目数（list_head结构数）。

ip_vs_conn_tab_size = 1 <

哈希表的大小（条目数）是 2 的 ip_vs_conn_tab_bits 次方。

ip_vs_conn_tab = vmalloc(ip_vs_conn_tab_size * sizeof(struct list_head));

其中 IPVS连接哈希表占用的内存大小是 ip_vs_conn_tab_size * sizeof(struct list_head)

内核Kconfig文件中说一个哈希条目点用8个字节，但是实示上，一个条目占用的内存大小是和 list_head 结构体的大小相关，（可能）在32位的内核里是8个字节，64位的内核里是16个字节。当加载ip_vs模块的时候，使用dmesg可以看到具体的信息：

在32位系统上

IPVS: Registered protocols (TCP, UDP, AH, ESP)

IPVS: Connection hash table configured (size=4096, memory=32Kbytes)

IPVS: ipvs loaded.

在64位的系统上：

IPVS: Registered protocols (TCP, UDP, AH, ESP)

IPVS: Connection hash table configured (size=4096, memory=64Kbytes)

IPVS: ipvs loaded.

哈希冲突，是哈希算法的致命伤。“IPVS”使用“链表策略”(chaining scheme) 解决哈希冲突。当有大量的连接时，一个大的 “IPVS连接哈希表”将大大减少冲突。减少了冲突，意为着IPVS定位 ip_vs_conn 对象的速度更快。

下图示意了哈希表（Hash Table）这种数据结构。引用

42af81ca7bcb0a46b8f8e87e6b63f6246a60af7f

如上图所示，首先分配一个指针数组，数组的每个元素是一个链表的头指针，每个链表称为一个槽（Slot）。哪个数据应该放入哪个槽中由哈希函数决定，在这个例子中我们简单地选取哈希函数h(x) = x % 11，这样任意数据x都可以映射成0~10之间的一个数，就是槽的编号，将数据放入某个槽的操作就是链表的插入操作。

如果每个槽里至多只有一个数据，可以想像这种情况下search、insert和delete操作的时间复杂度都是O(1)，但有时会有多个数据被哈希函数映射到同一个槽中，这称为碰撞（Collision），设计一个好的哈希函数可以把数据比较均匀地分布到各个槽中，尽量避免碰撞。如果能把n个数据比较均匀地分布到m个槽中，每个糟里约有n/m个数据，则search、insert和delete和操作的时间复杂度都是O(n/m)，如果n和m的比是常数，则时间复杂度仍然是O(1)。一般来说，要处理的数据越多，构造哈希表时分配的槽也应该越多，所以n和m成正比这个假设是成立的。

关联到IPVS，ip_vs_conn_tab_size 指的就是“槽”的数量。 N 指的应该是所有的调度对象 struct ip_vs_conn 的数量。

确定 ip_vs_conn_tab_bits 的最佳值：

假如你的 LVS 上每秒有 W 个“连接”建立，平均每个“连接”将要保持 S 秒，即每个连接工作 S 秒，最佳 ip_vs_conn_tab_bits 值应该满足 2 的 ip_vs_conn_tab_bits 次方靠近 W*S。最佳的 ip_vs_conn_tab_bits = log(W*S,2).

还有一个容易的方法：

使用 slabtop 观察 ip_vs_conn 结构的数量（OBJS），当然，应该是在系统流量最高的时候取得这个值，对该值求以 2为底的对数，log(OBJS,2)。

获取ip_vs_conn OBJS的值：awk ‘/ip_vs_conn/{print $3}’ /proc/slabinfo

这个最佳值，以我理解，就是上面 “哈希表”结构说明中提到的M值，而 OBJS 就是 N 值，当M接近 N的时候，哈希表的复制度为O(1)，为最佳状态。

使我不解的是，这里为什么不设置的更大一些，仅仅是浪费一些内存而且（一个条目用去8或者16个字节）。即使取最大值 20,在64位内核上，也才只占去16M的内存，在32位的内核上，占去8M内存。

IPVS的默认值是12，32位机用掉 32K，64位机用掉 64K内存。假如不是因为小内存容易使用CPU缓存，那么就一定是为了节省内存，在服务器上，这样的策略，明显落后了。

问题的关键是查明 vmalloc() 函数的作用。

vmalloc() 函数的作用：

申请逻辑地址连续的内存，返回首内存地址。

看来IPVS连接哈希表的大小，与使用的内存（是高速缓存，还是普通内存）并无影响。

调整 ip_vs_conn_tab_bits的方法：

新的IPVS代码，允许调整 ip_vs_conn_bits 的值。而老的IPVS代码则需要通过重新编译来调整。

在发行版里，IPVS通常是以模块的形式编译的。

确认能否调整使用命令 modinfo -p ip_vs（查看 ip_vs 模块的参数），看有没有 conn_tab_bits 参数可用。假如可以用，那么说时可以调整，调整方法是加载时通过设置 conn_tab_bits参数：

在 /etc/modprobe.conf 添加下面一行

options ip_vs conn_tab_bits=20

假如没有 conn_tab_bits 参数可用，则需要重新调整编译选项，重新编译。

很不幸，即使将CentOS内核升级到最新版，也不支持这个参数，只能自定义编译了（没有编译成功，很郁闷）。

另外，假如IPVS支持调整 ip_vs_conn_tab_bits，而又将IPVS集成进了内核，那么只能通过重启，向内核传递参数来调整了。在引导程序的 kernel 相关的配置行上，添加：ip_vs.conn_tab_bits=20 ，然后，重启。

最终建意：

增大哈希表，调到 ip_vs_conn_tab_bits 到 20 。有一种说法是哈希表过大，会影响性能。但是根据我对哈希算法的理解，这种说法没有道理。

另一个有力的证据是，IPVS的作者也是这样配置的。

Network

增加LVS主机的网络吞吐能力，有利于提高LVS的处理速度和能力。

1. 使用更快的网卡，比如使用千兆、万兆的网卡。

2. 可以进一步将两块或多块网卡绑定（多块网卡的绑定有待验证），bonding 时 mode=0 （balance-rr）或者 mode=4（802.3ad，需要交换机支持聚合端口），miimon=80或者 miimon=100（毫秒）。

TCP/IP

/etc/sysctl.conf

net.core.netdev_max_backlog = 60000

Hardware

IPVS的运行，使用的服务器资源主要是 CPU、内存I/O、网络I/O；IPVS完全运行在内存中，并且运行在内核态。

当IPVS的应用在DR模式时，即不耗CPU，也不耗I/O，运行非常快，所以系统负载非常的低，跟据我的经验，一般负载总是0。所以 LVS 应用对服务器的配置要求非常低。以为 LVS 很重要，所以配置一个相当高端的服务器，实在是一种浪费。

其实我们可以做一下计算：

以64位系统为例，一个哈希表条目，16个字节，一个 ip_vs_conn 结构 192字节。以哈希表的冲突尽可能的少为场景（将 ip_vs_conn_tab_bits 设置为最大值 20 ），那么：

pow(2,20)=1048576

pow(2,20)*(16+192)/1024/1024 = 208 M

就是说，当系统当前有100 万连接的时候，才用去内存 208 M，所以 IPVS 的主机，即使是1G的内存，也足以承载负载。

转自：http://hi.baidu.com/imfam520/item/50727b123187750ee65c36a2

推荐阅读

input
面试题总结_2019年全网最热门的123个Java并发面试题总结

面试题总结_2019年全网最热门的123个Java并发面试题总结 ... [详细]

蜡笔小新 2024-11-15 11:58:13
range
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
post
MySQL Decimal 类型的最大值解析及其在数据处理中的应用艺术

在关系型数据库中，表的设计与SQL语句的编写对性能的影响至关重要，甚至可占到90%以上。本文将重点探讨MySQL中Decimal类型的最大值及其在数据处理中的应用技巧，通过实例分析和优化建议，帮助读者深入理解并掌握这一重要知识点。 ... [详细]

蜡笔小新 2024-11-11 19:36:19
case
Java 15 发布，带来多项重要更新！

2020年9月15日，Oracle正式发布了最新的JDK 15版本。本次更新带来了许多新特性，包括隐藏类、EdDSA签名算法、模式匹配、记录类、封闭类和文本块等。 ... [详细]

蜡笔小新 2024-11-14 12:11:09
case
包含phppdoerrorcode的词条

包含phppdoerrorcode的词条 ... [详细]

蜡笔小新 2024-11-14 12:06:14
ascii
MySQL初级篇——字符串、日期时间、流程控制函数的相关应用

文章目录：1.字符串函数2.日期时间函数2.1获取日期时间2.2日期与时间戳的转换2.3获取年月日、时分秒、星期数、天数等函数2.4时间和秒钟的转换2. ... [详细]

蜡笔小新 2024-11-14 10:57:02
case
SoundPool

如果应用程序经常播放密集、急促而又短暂的音效（如游戏音效）那么使用MediaPlayer显得有些不太适合了。因为MediaPlayer存在如下缺点：1)延时时间较长，且资源占用率高 ... [详细]

蜡笔小新 2024-11-13 16:47:19
range
浅析python实现布隆过滤器及Redis中的缓存穿透原理_python

本文带你了解了位图的实现，布隆过滤器的原理及Python中的使用，以及布隆过滤器如何应对Redis中的缓存穿透，相信你对布隆过滤 ... [详细]

蜡笔小新 2024-11-13 16:43:07
import
Java 编程错误：对象无法转换为 long 类型

本文介绍了在 Java 编程中遇到的一个常见错误：对象无法转换为 long 类型，并提供了详细的解决方案。 ... [详细]

蜡笔小新 2024-11-13 10:57:24
input
思科IOS XE与ISE集成实现TACACS认证配置

本文详细介绍了如何在思科IOS XE设备上配置TACACS认证，并通过ISE（Identity Services Engine）进行用户管理和授权。配置包括网络拓扑、设备设置和ISE端的具体步骤。 ... [详细]

蜡笔小新 2024-11-12 13:17:06
input
SQL Server 存储过程开发与优化指南

本文总结了在SQL Server数据库中编写和优化存储过程的经验和技巧，旨在帮助数据库开发人员提升存储过程的性能和可维护性。 ... [详细]

蜡笔小新 2024-11-12 13:13:21
input
Ubuntu 22.04 安装搜狗输入法详细指南及常见问题解决方案

本文将详细介绍如何在 Ubuntu 22.04 上安装搜狗输入法，并提供常见问题的解决方法。包括下载安装包、更新源、安装依赖项等步骤。 ... [详细]

蜡笔小新 2024-11-15 10:11:27
input
Python 数据类型入门指南

本文介绍了 Python 中的基本数据类型，包括不可变数据类型（数字、字符串、元组）和可变数据类型（列表、字典、集合），并详细解释了每种数据类型的使用方法和常见操作。 ... [详细]

蜡笔小新 2024-11-15 09:59:00
range
最详尽的4K技术科普

什么是4K？4K是一个分辨率的范畴，即40962160的像素分辨率，一般用于专业设备居多，目前家庭用的设备，如 ... [详细]

蜡笔小新 2024-11-12 18:25:39
range
Java并发编程指南：深入理解信号量机制

本文是Java并发编程系列的开篇之作，将详细解析Java 1.5及以上版本中提供的并发工具。文章假设读者已经具备同步和易失性关键字的基本知识，重点介绍信号量机制的内部工作原理及其在实际开发中的应用。 ... [详细]

蜡笔小新 2024-11-11 15:49:02

Tags | 热门标签

RankList | 热门文章