热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

lvs调整hash表大小

大流量并发LVS负载编者按:本文对大流量、高负载LVS系统优化提供了参考意见,从IPVS、网卡、TCPIP配置、硬件资源配置等方面进行了阐述。文章重点关注了IPVSconnection

大流量并发LVS负载

编者按:本文对大流量、高负载LVS系统优化提供了参考意见,从IPVS、网卡、TCP/IP配置、硬件资源配置等方面进行了阐述。文章重点关注了IPVS connection hash table的参数计算过程。

Linux环境

CentOS 5.5

名词

LVS   :   Linux Virtual Server

IPVS :   IP Virtual Server,IPVS 是 LVS 实现的关键。

IPVS connection hash table  :  IPVS连接哈希表,用来“跟踪”进来、出去的网络包(for input and output packets lookups of IPVS)。

ip_vs_conn 结构体: 定义在内核档 include/net/ip_vs.h 中。该结构体(对象)是 IPVS 的调度对象。在 32 位系统上 128字节,64位系统上 192 字节。

IPVS connection hash table

内核中的代码:net/netfilter/ipvs/ip_vs_conn.c

int ip_vs_conn_tab_bits;

编译时可以定,Kconfig文件中说明该值的大小应该在 8 到 20 之间。当ip_vs_conn_tab_bits=20 时,哈希表的的大小(条目)为 pow(2,20),即 1048576,约 104 万,足够用了。

int ip_vs_conn_tab_size;

IPVS哈希连接表的条目数(list_head结构数)。

ip_vs_conn_tab_size = 1 <

哈希表的大小(条目数)是 2 的 ip_vs_conn_tab_bits 次方。

ip_vs_conn_tab = vmalloc(ip_vs_conn_tab_size * sizeof(struct list_head));

其中 IPVS连接哈希表占用的内存大小是 ip_vs_conn_tab_size * sizeof(struct list_head)

内核Kconfig文件中说一个哈希条目点用8个字节,但是实示上,一个条目占用的内存大小是和 list_head 结构体的大小相关, (可能)在32位的内核里是8个字节,64位的内核里是16个字节。当加载ip_vs模块的时候,使用dmesg可以看到具体的信息:

在32位系统上

IPVS: Registered protocols (TCP, UDP, AH, ESP)

IPVS: Connection hash table configured (size=4096, memory=32Kbytes)

IPVS: ipvs loaded.

在64位的系统上:

IPVS: Registered protocols (TCP, UDP, AH, ESP)

IPVS: Connection hash table configured (size=4096, memory=64Kbytes)

IPVS: ipvs loaded.

哈希冲突,是哈希算法的致命伤。“IPVS”使用“链表策略”(chaining scheme) 解决哈希冲突。当有大量的连接时,一个大的 “IPVS连接哈希表”将大大减少冲突。减少了冲突,意为着IPVS定位 ip_vs_conn 对象的速度更快。

下图示意了哈希表(Hash Table)这种数据结构。引用

42af81ca7bcb0a46b8f8e87e6b63f6246a60af7f

如上图所示,首先分配一个指针数组,数组的每个元素是一个链表的头指针,每个链表称为一个槽(Slot)。哪个数据应该放入哪个槽中由哈希函数决定,在这个例子中我们简单地选取哈希函数h(x) = x % 11,这样任意数据x都可以映射成0~10之间的一个数,就是槽的编号,将数据放入某个槽的操作就是链表的插入操作。

如果每个槽里至多只有一个数据,可以想像这种情况下search、insert和delete操作的时间复杂度都是O(1),但有时会有多个数据被哈希函数映射到同一个槽中,这称为碰撞(Collision),设计一个好的哈希函数可以把数据比较均匀地分布到各个槽中,尽量避免碰撞。如果能把n个数据比较均匀地分布到m个槽中,每个糟里约有n/m个数据,则search、insert和delete和操作的时间复杂度都是O(n/m),如果n和m的比是常数,则时间复杂度仍然是O(1)。一般来说,要处理的数据越多,构造哈希表时分配的槽也应该越多,所以n和m成正比这个假设是成立的。

关联到IPVS,ip_vs_conn_tab_size 指的就是“槽”的数量。 N 指的应该是所有的调度对象 struct ip_vs_conn 的数量。

确定 ip_vs_conn_tab_bits 的最佳值:

假如你的 LVS 上每秒有 W 个“连接”建立, 平均每个“连接”将要保持 S 秒,即每个连接工作 S 秒,最佳 ip_vs_conn_tab_bits 值应该满足 2 的 ip_vs_conn_tab_bits 次方靠近 W*S。最佳的 ip_vs_conn_tab_bits = log(W*S,2).

还有一个容易的方法:

使用 slabtop 观察 ip_vs_conn 结构的数量(OBJS),当然,应该是在系统流量最高的时候取得这个值,对该值求以 2为底 的对数,log(OBJS,2)。

获取ip_vs_conn OBJS的值:awk ‘/ip_vs_conn/{print $3}’  /proc/slabinfo

这个最佳值,以我理解,就是上面 “哈希表”结构说明中提到的M值,而 OBJS 就是 N 值 ,当M接近 N的时候,哈希表的复制度为O(1),为最佳状态。

使我不解的是,这里为什么不设置的更大一些,仅仅是浪费一些内存而且(一个条目用去8或者16个字节)。即使取最大值 20,在64位内核上,也才只占去16M的内存,在32位的内核上,占去8M内存。

IPVS的默认值是12,32位机用掉 32K,64位机用掉 64K内存。假如不是因为小内存容易使用CPU缓存,那么就一定是为了节省内存,在服务器上,这样的策略,明显落后了。

问题的关键是查明 vmalloc() 函数的作用。

vmalloc() 函数的作用:

申请逻辑地址连续的内存,返回首内存地址。

看来IPVS连接哈希表的大小,与使用的内存(是高速缓存,还是普通内存)并无影响。

调整 ip_vs_conn_tab_bits的方法:

新的IPVS代码,允许调整 ip_vs_conn_bits 的值。而老的IPVS代码则需要通过重新编译来调整。

在发行版里,IPVS通常是以模块的形式编译的。

确认能否调整使用命令 modinfo -p ip_vs(查看 ip_vs 模块的参数),看有没有 conn_tab_bits 参数可用。假如可以用,那么说时可以调整,调整方法是加载时通过设置 conn_tab_bits参数:

在 /etc/modprobe.conf 添加下面一行

options ip_vs conn_tab_bits=20

假如没有 conn_tab_bits 参数可用,则需要重新调整编译选项,重新编译。

很不幸,即使将CentOS内核升级到最新版,也不支持这个参数,只能自定义编译了(没有编译成功,很郁闷)。

另外,假如IPVS支持调整 ip_vs_conn_tab_bits,而又将IPVS集成进了内核,那么只能通过重启,向内核传递参数来调整了。在引导程序的 kernel 相关的配置行上,添加:ip_vs.conn_tab_bits=20 ,然后,重启。

最终建意:

增大哈希表,调到 ip_vs_conn_tab_bits 到 20 。有一种说法是哈希表过大,会影响性能。但是根据我对哈希算法的理解,这种说法没有道理。

另一个有力的证据是,IPVS的作者也是这样配置的。

Network

增加LVS主机的网络吞吐能力,有利于提高LVS的处理速度和能力。

1. 使用更快的网卡,比如使用千兆、万兆的网卡。

2. 可以进一步将两块或多块网卡绑定(多块网卡的绑定有待验证),bonding 时 mode=0 (balance-rr)或者 mode=4(802.3ad,需要交换机支持聚合端口),miimon=80或者 miimon=100(毫秒)。

TCP/IP

/etc/sysctl.conf

net.core.netdev_max_backlog = 60000

Hardware

IPVS的运行,使用的服务器资源主要是 CPU、内存I/O、网络I/O;IPVS完全运行在内存中,并且运行在内核态。

当IPVS的应用在DR模式时,即不耗CPU,也不耗I/O,运行非常快,所以系统负载非常的低,跟据我的经验,一般负载总是0。所以 LVS 应用对服务器的配置要求非常低。以为 LVS 很重要,所以配置一个相当高端的服务器,实在是一种浪费。

其实我们可以做一下计算:

以64位系统为例,一个哈希表条目,16个字节,一个 ip_vs_conn 结构 192字节。以哈希表的冲突尽可能的少为场景(将 ip_vs_conn_tab_bits 设置为最大值 20 ),那么:

pow(2,20)=1048576

pow(2,20)*(16+192)/1024/1024 = 208 M

就是说,当系统当前有100 万连接的时候,才用去内存 208 M,所以  IPVS 的主机,即使是1G的内存,也足以承载负载。

转自:http://hi.baidu.com/imfam520/item/50727b123187750ee65c36a2


推荐阅读
  • Android中高级面试必知必会,积累总结
    本文介绍了Android中高级面试的必知必会内容,并总结了相关经验。文章指出,如今的Android市场对开发人员的要求更高,需要更专业的人才。同时,文章还给出了针对Android岗位的职责和要求,并提供了简历突出的建议。 ... [详细]
  • 本文介绍了Redis的基础数据结构string的应用场景,并以面试的形式进行问答讲解,帮助读者更好地理解和应用Redis。同时,描述了一位面试者的心理状态和面试官的行为。 ... [详细]
  • eclipse学习(第三章:ssh中的Hibernate)——11.Hibernate的缓存(2级缓存,get和load)
    本文介绍了eclipse学习中的第三章内容,主要讲解了ssh中的Hibernate的缓存,包括2级缓存和get方法、load方法的区别。文章还涉及了项目实践和相关知识点的讲解。 ... [详细]
  • 本文介绍了为什么要使用多进程处理TCP服务端,多进程的好处包括可靠性高和处理大量数据时速度快。然而,多进程不能共享进程空间,因此有一些变量不能共享。文章还提供了使用多进程实现TCP服务端的代码,并对代码进行了详细注释。 ... [详细]
  • 本文介绍了计算机网络的定义和通信流程,包括客户端编译文件、二进制转换、三层路由设备等。同时,还介绍了计算机网络中常用的关键词,如MAC地址和IP地址。 ... [详细]
  • 个人学习使用:谨慎参考1Client类importcom.thoughtworks.gauge.Step;importcom.thoughtworks.gauge.T ... [详细]
  • 本文介绍了在mac环境下使用nginx配置nodejs代理服务器的步骤,包括安装nginx、创建目录和文件、配置代理的域名和日志记录等。 ... [详细]
  • 3.223.28周学习总结中的贪心作业收获及困惑
    本文是对3.223.28周学习总结中的贪心作业进行总结,作者在解题过程中参考了他人的代码,但前提是要先理解题目并有解题思路。作者分享了自己在贪心作业中的收获,同时提到了一道让他困惑的题目,即input details部分引发的疑惑。 ... [详细]
  • 本文介绍了Perl的测试框架Test::Base,它是一个数据驱动的测试框架,可以自动进行单元测试,省去手工编写测试程序的麻烦。与Test::More完全兼容,使用方法简单。以plural函数为例,展示了Test::Base的使用方法。 ... [详细]
  • 本文介绍了UVALive6575题目Odd and Even Zeroes的解法,使用了数位dp和找规律的方法。阶乘的定义和性质被介绍,并给出了一些例子。其中,部分阶乘的尾零个数为奇数,部分为偶数。 ... [详细]
  • CF:3D City Model(小思维)问题解析和代码实现
    本文通过解析CF:3D City Model问题,介绍了问题的背景和要求,并给出了相应的代码实现。该问题涉及到在一个矩形的网格上建造城市的情景,每个网格单元可以作为建筑的基础,建筑由多个立方体叠加而成。文章详细讲解了问题的解决思路,并给出了相应的代码实现供读者参考。 ... [详细]
  • 前景:当UI一个查询条件为多项选择,或录入多个条件的时候,比如查询所有名称里面包含以下动态条件,需要模糊查询里面每一项时比如是这样一个数组条件:newstring[]{兴业银行, ... [详细]
  • 本文介绍了一个题目的解法,通过二分答案来解决问题,但困难在于如何进行检查。文章提供了一种逃逸方式,通过移动最慢的宿管来锁门时跑到更居中的位置,从而使所有合格的寝室都居中。文章还提到可以分开判断两边的情况,并使用前缀和的方式来求出在任意时刻能够到达宿管即将锁门的寝室的人数。最后,文章提到可以改成O(n)的直接枚举来解决问题。 ... [详细]
  • 本文介绍了在Linux下安装和配置Kafka的方法,包括安装JDK、下载和解压Kafka、配置Kafka的参数,以及配置Kafka的日志目录、服务器IP和日志存放路径等。同时还提供了单机配置部署的方法和zookeeper地址和端口的配置。通过实操成功的案例,帮助读者快速完成Kafka的安装和配置。 ... [详细]
  • 本文详细介绍了如何使用MySQL来显示SQL语句的执行时间,并通过MySQL Query Profiler获取CPU和内存使用量以及系统锁和表锁的时间。同时介绍了效能分析的三种方法:瓶颈分析、工作负载分析和基于比率的分析。 ... [详细]
author-avatar
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有