当前位置: 开发笔记 > 运维 > 正文

hadoop集群SystemCpu消耗过高问题分析by杂货店店长

作者：书友42218068 | 来源：互联网 | 2018-06-11 04:11

Hadoop集群服务器升级为rhel6内核后，SystemCpu占用非常高，有任务运行的时候经常到50%以上。对其中一台机器一天的运行状态采样的数据：idle:76%??sys:14%?user:9%从采样数据中，可以发现SystemCpu比UserCpu还要高，这在Hadoop集群环境中很不寻常。

Hadoop集群服务器升级为rhel6内核后，System Cpu占用非常高，有任务运行的时候经常到50%以上。对其中一台机器一天的运行状态采样的数据： idle: 76%?? sys:14%? user: 9% 从采样数据中，可以发现System Cpu比User Cpu还要高，这在Hadoop集群环境中很不寻常。

Hadoop集群服务器升级为rhel6内核后，System Cpu占用非常高，有任务运行的时候经常到50%以上。对其中一台机器一天的运行状态采样的数据：

idle: 76%?? sys:14%? user: 9%

从采样数据中，可以发现System Cpu比User Cpu还要高，这在Hadoop集群环境中很不寻常。

先简单地用strace看了一下占用cpu高的java程序经常去调哪些系统调用，发现sched_yield调用频率非常之高，莫非是锁的问题？分析了下内核中的文档和代码，发现CFS调度下sched_yield的行为与以前的O(1)算法略有出入——CFS下sched_yield返回非常快，对于一些借助sched_yield实现锁的应用来说，开销会很大。内核提供了一个proc参数sched_compat_yield，设置该参数为1，就可以解决这个问题。于是设置了该参数，仍然没有效果，分析代码后，竟然发现sched_compat_yield在rhel6内核中并没有实现，只是留下了一个接口兼容而已。于是乎将upstream中的相关部分的代码port到rhel6的内核中，sched_compact_yield终于能干活了，但出乎意料的是，系统态cpu仍然非常高。

没办法了，上个大招：oprofile，结果如下：

samples???????? %???????? ?symbol name

2822865? ?71.2192?? ?compact_zone

160729??? ?4.0551?????? clear_page_c

156913?? ?? 3.9588???? ?compaction_alloc

47691?????? ?1.2032????? ?copy_user_generic_string

一看到结果，一头雾水。compact_zone为何物？为何cpu占用如此之高？不懂了就看代码。

__alloc_pages_slowpath

__alloc_pages_direct_compact

try_to_compact_pages

compact_zone_order

compact_order

有点头绪了，内核要分配一块高阶物理内存，buddy system中又没有满足条件的，似乎内核要在compact_zone中做些什么事，来满足对高阶物理内存的分配。

下一步，快速验证下是不是compact_zone的问题，修改config文件，去掉CONFIG_COMPACTION，重新编译，换内核，竟然真的OK了。那基本断定是compact_zone的问题了，后面就得分析下代码，研究下其中的原理了。

经过几天的艰苦奋战，终于把compaction的基本原理搞明白了。

linux物理内存的管理采用的是经典的伙伴系统，当然也就存在伙伴系统的问题——内存碎片。当然，此处的内存碎片问题并不算大，因为伙伴系统是以页为单位为管理内存的，碎片也是以“页”为单位，4k的物理内存还算不上是“碎片”。对于用户态的程序，几乎不需要超过4k的连续空间。但是对内核来说，碎片永远都不是好东西。某些硬件相关的操作会需要连续的物理内存，如果无法满足，内核就只能panic。

clip_image002

另外，引入compaction的另一个重要因素就是使用THP（Transparent hugepages）。4k的页面大小已经出现了很多年了，就像文件系统上1k-4k的block_size一样，都是适应二十年前硬件的容量与速度而出现的，对于现在的硬件来说它们都显得太小了。使用更大的物理页，可以带来两个好处：TLB缓存命中率的提高和page_fault的次数降低。compaction正是为了支持THP而出现的。

在以前版本的内核中，要获得连续的物理内存只有一个办法：释放掉一部分内存，一般是释放page cache、脏页，或者进行页面swap。

而compaction提出了另外一个思路：重新组织内存。为此，提出了“可移动”页面的概念。在内核中的物理内存，有一部分是“可移动”的，内核使用的反碎片技术的基本原理，就是根据页的“可移动性”将页面分组。

clip_image004

那哪些页面是可以移动的呢？非空闲的物理内存，当然要么是用户态进程在用，要么内核本身在用。对于前者，进程在访问物理内存的时候，实际上要通过页表的映射来访问。页表是一个可以做文章的地方：如果把一个页移动到另一个地方，如果可以同时修改页表，那么对应用程序就不会有影响。而对于内核访问物理内存时，是通过简单的常量偏移来做的。因此内核使用的物理页面无法移动。

定义了“可移动”的页面，具体到某一个页面，内核怎样知道它是否是可移动的？分配内存的函数，kmalloc,alloc_pages等在任何地方都可能被调用。内核又是怎样知道在这些地方分配的页面属于哪种类型呢？看这几个函数的原型

void *kmalloc(size_t size, gfp_t flags)

struct page * alloc_pages(gfp_t gfp_mask, unsigned int order)

内核自然不知道kmalloc分配的内存是作什么用途的，但是kernel 开发者知道，一个页面是否可移动，自然也是开发者们告诉内核的。gft_t中有个标志位：GFP_MOVABLE，开发者需要根据相应的内存是否要移动来设置该位。

了解了如何识别“可移动”页面，下面看看页面移动的流程：

1.???????? 锁定页，以避免在移动页的过程中有进程修改页面。页面记为oldpage

2.???????? 确保“writeback”已经完成

3.???????? 删除当前页面的全部映射，并将指向该页的页表项标记MIGRATION

4.???????? 查找新页，记为newpage

5.???????? 获取radix tree的锁，以阻塞所有试图通过radix tree来访问页面的进程。将radix tree中oldpage的指针指向newpage。释放radix tree的锁。

6.???????? 旧页的内容被拷到新页面中，设置新页面的各项标志

7.???????? 将所有页表项指向新页面

了解了compaction的目标和原理，那么该怎样查看系统中当前的碎片情况呢？/proc/pagetypeinfo文件提供了“可移动”和“不可移动”页面的分布数据，一方面方便开发者调试，另一方面可以让系统管理员了解当前的系统运行状态。

Compaction在hadoop上所带来的性能问题，目前还不知道是在这种特定场景下才出现还是compaction本身就影响了性能。不过现在看来，在其它机器上还没有发现这种情况。

Compaction的目的是减少内存碎片，主要和THP搭配使用，适合需要大量连续内存的应用，比如KVM，能提升TLB效率和减少page fault次数，从而提高应用程序的执行效率。因此，去掉Compaction的支持，会对此类应用的性能所有影响。

参考：http://lwn.net/Articles/359158/你也许会喜欢：

Mem Cgroup目录无法清理问题分析
深入剖析 linux GCC 4.4 的 STL string
利用 Flash 漏洞的木马程序分析报告 by 师兄
一个淘宝客劫持木马的分析
从Dump到POC系列一:Win32k内核提权漏洞分析

原文地址：hadoop集群System Cpu消耗过高问题分析 by 杂货店店长, 感谢原作者分享。

推荐阅读

grep
Linux 网卡绑定的七种工作模式详解

本文深入探讨了Linux系统中网卡绑定（bonding）的七种工作模式。网卡绑定技术通过将多个物理网卡组合成一个逻辑网卡，实现网络冗余、带宽聚合和负载均衡，在生产环境中广泛应用。文章详细介绍了每种模式的特点、适用场景及配置方法。 ... [详细]

蜡笔小新 2024-12-27 10:18:13
服务器
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
unix
解决Hive启动时权限被拒问题

本文详细分析了Hive在启动过程中遇到的权限拒绝错误，并提供了多种解决方案，包括调整文件权限、用户组设置以及环境变量配置等。 ... [详细]

蜡笔小新 2024-12-26 19:14:29
apache
深入解析BookKeeper的设计与应用场景

本文介绍了由Yahoo在2009年开发并于2011年开源的BookKeeper技术。BookKeeper是一种高效且可靠的日志流存储解决方案，广泛应用于需要高性能和强数据持久性的场景。 ... [详细]

蜡笔小新 2024-12-19 11:08:57
服务器
CentOS 7 磁盘与文件系统管理指南

本文详细介绍了磁盘的基本结构、接口类型、分区管理以及文件系统格式化等内容，并提供了实际操作步骤，帮助读者更好地理解和掌握 CentOS 7 中的磁盘与文件系统管理。 ... [详细]

蜡笔小新 2024-12-28 10:58:44
linux
深入解析 HDFS Federation：多命名空间架构详解

HDFS Federation 是一种扩展 HDFS 架构的方式，通过引入多个独立的 NameNode 来解决单点故障和性能瓶颈问题。本文将详细探讨 HDFS Federation 的工作原理、优势以及潜在挑战。 ... [详细]

蜡笔小新 2024-12-28 08:22:22
服务器
信息安全小组第一周工作总结

本周信息安全小组主要进行了CTF竞赛相关技能的学习，包括HTML和CSS的基础知识、逆向工程的初步探索以及整数溢出漏洞的学习。此外，还掌握了Linux命令行操作及互联网工作原理的基本概念。 ... [详细]

蜡笔小新 2024-12-28 05:52:22
apache
HDFS与Hive中的数据存储和管理机制

本文探讨了Hive中内部表和外部表的区别及其在HDFS上的路径映射，详细解释了两者的创建、加载及删除操作，并提供了查看表详细信息的方法。通过对比这两种表类型，帮助读者理解如何更好地管理和保护数据。 ... [详细]

蜡笔小新 2024-12-27 20:21:48
服务器
Java面试题解析

本文详细介绍了Java编程语言中的核心概念和常见面试问题，包括集合类、数据结构、线程处理、Java虚拟机（JVM）、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题，帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]

蜡笔小新 2024-12-27 13:55:14
服务器
如何配置Unturned服务器及其消息设置

本文详细介绍了Unturned服务器的配置方法和消息设置技巧，帮助用户了解并优化服务器管理。同时，提供了关于云服务资源操作记录、远程登录设置以及文件传输的相关补充信息。 ... [详细]

蜡笔小新 2024-12-27 13:47:38
服务器
网络攻防实战：从HTTP到HTTPS的演变

本文通过一系列日记记录了从发现漏洞到逐步加强安全措施的过程，探讨了如何应对网络攻击并最终实现全面的安全防护。 ... [详细]

蜡笔小新 2024-12-27 11:34:50
ssh
掌握远程执行Linux脚本和命令的技巧

本文将详细介绍如何利用Python的Paramiko库实现远程执行Linux脚本和命令，帮助读者快速掌握这一实用技能。通过具体的示例和详尽的解释，让初学者也能轻松上手。 ... [详细]

蜡笔小新 2024-12-26 19:47:05
服务器
使用Vultr云服务器和Namesilo域名搭建个人网站

本文详细介绍了如何通过Vultr云服务器和Namesilo域名搭建一个功能齐全的个人网站，包括购买、配置服务器以及绑定域名的具体步骤。文章还提供了详细的命令行操作指南，帮助读者顺利完成建站过程。 ... [详细]

蜡笔小新 2024-12-26 16:36:34
apache
HBase运维工具全解析

本文深入探讨了HBase常用的运维工具，详细介绍了每种工具的功能、使用场景及操作示例。对于HBase的开发人员和运维工程师来说，这些工具是日常管理和故障排查的重要手段。 ... [详细]

蜡笔小新 2024-12-24 17:00:59
服务器
Java时代的淘宝技术演进

本文探讨了2012年4月期间，淘宝在技术架构上的关键数据和发展历程。涵盖了从早期PHP到Java的转型，以及在分布式计算、存储和网络流量管理方面的创新。 ... [详细]

蜡笔小新 2024-12-24 12:12:13

书友42218068

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章