热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

docker监控的一点想法

目前项目内部署了docker,于是涉及到关于监控的事情,参考一些经典实例以及一些自己的想法,总结一下思路。1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的,同其他

目前项目内部署了docker,于是涉及到关于监控的事情,参考一些经典实例以及一些自己的想法,总结一下思路。

1、关于监控的内容

监控宿主机本身

监控宿主机本身还是比较简单的,同其他服务器监控类似,对cpu、network、io、disk等做通用的检查,这里不再细说。

额外的,因为是docker的宿主机,还应该监控 容器本身的一些指标,如 :

  • 拥有的全部的容器数量;
  • 正在运行的容器的数量;
  • dead容器的数量(如果此数量变化应该报警);
  • docker 本身的信息,如Storage Driver、Data Space Used、Data Space Total、Metadata Space Total、Metadata Space Used、client version、client api version、server version、servier api version 等;

监控容器

docker容器通过namespace做资源隔离,通过cgroup来做资源限制。监控方便,只能通过在宿主机本身查看对应容器的cgroup stats。

具体大项有:

  1. 容器的本身信息,如名称,ip、使用的镜像、启动时间、启动命令等;
  2. 容器的状态,如可先监控两个量值,running or not running (当状态变化时报警);
  3. 容器使用cpu的资源信息;
  4. 容器使用memory的资源信息;
  5. 容器的network io信息;
  6. 容器的disk信息;

2、关于监控项的获取

宿主机本身

宿主机的一般信息获取 见zabbix监控项,不重复。

  1. 拥有的全部容器的数量:

    docker ps -a -q | wc -l 
  2. 正在运行的容器的数量:

    docker ps  -q | wc -l  
  3. 非运行状态的容器的数量:

    docker ps -a  | grep -v \'Up \'  | grep -v \'CONTAINER\' | wc -l 
  4. docker本身信息,可从命令 docker version & docker info中获取

监控容器

1、容器本身信息 & 状态:

从docker inspect 中获取,简单脚本如下:

#!/usr/bin/env python import commands import sys import types import json def get_container_info( container ): msg = commands.getoutput(\'docker inspect \'+container) #return msg data = json.loads( msg ) return data[0] cOntainer= sys.argv[1] msg = get_container_info( container ) cOntainerid= msg["Id"] image = msg[\'Image\'] name = msg[\'Name\'] ip = msg[\'NetworkSettings\'][\'IPAddress\'] status = msg[\'State\'][\'Running\'] startedat = msg[\'State\'][\'StartedAt\'] print containerid, image, name, ip, status, startedat 

2、 容器使用cpu情况:

从cpuacct中获取相应的值,首先要获取一个cpu周期的时间值,getconf CLK_TCK,默认为100,即100Hz,一个周期即为 1/100s = 10ms = 10^7 ns;

可以获取cpuacct.usage、 cpuacct.stat ,但是具体怎么做对比,还得观察。

理论上的计算方法为,在单位时间内,docker 容器对应的cpu使用的变化值 除以 总系统cpu时间的变化值 乘以 100%;其中,docker容器对应的cpu值可以从cgroup.cpuacct中的cpuacct.usage值得到,他的单位是纳秒,10^9个纳秒为1秒;系统的cpu总时间可以从/proc/stat中获取,第一行中。以“cpu ”开头那行,数值累加就是当前系统cpu总时间,需要注意的是,他的数值单位为 “cpu周期”,就是刚才获取到的 1/CLK_TCK ,关于/proc/stat 的说明文档:http://www.linuxhowtos.org/System/procstat.htm

从docker源码中获知,docker的stats计算方法和这个有点出入,它在此计算的基础上,又乘以 cpu核数 得到最终结果,这个让我有点不理解,和官方确认中。。。。。
已经和官方确认,只是双方对“cpu利用率如何定义”的问题,我认为应该是平均利用率,官方认为应该是total cpu 利用率,好吧。。。。。 地址为: #issues 13626
相关源码地址为:https://github.com/docker/docker/blob/0d445685b8d628a938790e50517f3fb9...

以下是用shell完成的模拟docker计算cpu利用率方法的小脚本:

#!/bin/sh ##echo user nice system idle iowait irq softirq CPULOG_1=$(cat /proc/stat | grep \'cpu \' | awk \'{print $2" "$3" "$4" "$5" "$6" "$7" "$8}\') Total_1=$(echo $CPULOG_1 | awk \'{print $1+$2+$3+$4+$5+$6+$7}\') CGROUP_USAGE_1=$(cat /cgroup/cpuacct/docker/55dec85d2e93c487fbeb1e85c9677e64dd1b4bdcc5be0e5f2539e52c87641d4e/cpuacct.usage) sleep 1 CPULOG_2=$(cat /proc/stat | grep \'cpu \' | awk \'{print $2" "$3" "$4" "$5" "$6" "$7" "$8}\') Total_2=$(echo $CPULOG_2 | awk \'{print $1+$2+$3+$4+$5+$6+$7}\') CGROUP_USAGE_2=$(cat /cgroup/cpuacct/docker/55dec85d2e93c487fbeb1e85c9677e64dd1b4bdcc5be0e5f2539e52c87641d4e/cpuacct.usage) CGROUP_USAGE=`expr $CGROUP_USAGE_2 - $CGROUP_USAGE_1` Total=`expr $Total_2 - $Total_1` CGROUP_RATE=`expr $CGROUP_USAGE*24/$Total/10000000*100|bc -l` echo $CGROUP_USAGE_1 , $CGROUP_USAGE_2 , $CGROUP_USAGE , $Total,  $CGROUP_RATE 

3、 容器使用memory情况:

从容器所在cgroup组中查看memory.stats信息,具体值 的信息如下

统计  描述 cache   页缓存,包括 tmpfs(shmem),单位为字节 Rss 匿名和 swap 缓存,不包括 tmpfs(shmem),单位为字节 Mapped_file memory-mapped 映射的文件大小,包括 tmpfs(shmem),单位为字节 pgpgin  存入内存中的页数 pgpgout 从内存中读出的页数 swap    swap 用量,单位为字节 Active_anon 在活跃的最近最少使用(least-recently-used,LRU)列表中的匿名和 swap 缓存,包括 tmpfs(shmem),单位为字节 Inactive_anon   不活跃的 LRU 列表中的匿名和 swap 缓存,包括tmpfs(shmem),单位为字节 Active_file 活跃 LRU 列表中的 file-backed 内存,以字节为单位 Inactive_file   不活跃 LRU 列表中的 file-backed 内存,以字节为单位 unevictable 无法再生的内存,以字节为单位 hierarchical_memory_limit(重点)   包含 memory cgroup 的层级的内存限制,单位为字节 hierarchical_memsw_limit    包含 memory cgroup 的层级的内存加 swap 限制,单位为字节 

4、容器网络io情况: 可以执行命令: docker exec ifconfig eth0 看 Rx和Tx的值。

5、磁盘io情况 从blkio 中获取,相关参考:

  1. blkio.time:统计cgroup对设备的访问时间,按格式device_types:node_numbers milliseconds读取信息即可,以下类似。
  2. blkio.io_serviced:统计cgroup对特定设备的IO操作(包括read、write、sync及async)次数,格式device_types:node_numbers operation number
  3. blkio.sectors:统计cgroup对设备扇区访问次数,格式device_types:node_numbers sector_count
  4. blkio.io_service_bytes:统计cgroup对特定设备IO操作(包括read、write、sync及async)的数据量,格式device_types:node_numbers operation bytes
  5. blkio.io_queued:统计cgroup的队列中对IO操作(包括read、write、sync及async)的请求次数,格式number operation
  6. blkio.io_service_time:统计cgroup对特定设备的IO操作(包括read、write、sync及async)时间(单位为ns),格式device_types:node_numbers operation time
  7. blkio.io_merged:统计cgroup 将 BIOS 请求合并到IO操作(包括read、write、sync及async)请求的次数,格式number operation
  8. blkio.io_wait_time:统计cgroup在各设备中各类型IO操作(包括read、write、sync及async)在队列中的等待时间(单位ns),格式device_types:node_numbers operation time

6、磁盘使用情况,我以为只需要监控docker pool space的状况即可,默认建立100G的空间供docker使用,可通过docker info来查看,一个典型的输出如下:

Containers: 11 Images: 181 Storage Driver: devicemapper Pool Name: docker-8:5-7471107-pool Pool Blocksize: 65.54 kB Backing Filesystem: extfs Data file:  Metadata file:  Data Space Used: 7.846 GB Data Space Total: 107.4 GB Metadata Space Used: 15.92 MB Metadata Space Total: 2.147 GB Udev Sync Supported: true Library Version: 1.02.89-RHEL6 (2014-09-01) Execution Driver: native-0.2 Kernel Version: 2.6.32-431.el6.x86_64 Operating System:  CPUs: 24 Total Memory: 62.87 GiB Name: jx-lj-opweb01.lianjia.com ID: QTML:RSSS:IKAX:FRIP:4YEQ:IXWX:ROMV:APZD:RV4M:ISY2:QW2D:VMXW 

7、在前期可以先重点监控 宿主机情况 & 容器的memory状态,其他状态可记录,监控值可稍后商榷。


推荐阅读
  • handler机制_Handler机制与原理
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了Handler机制与原理相关的知识,希望对你有一定的参考价值。 ... [详细]
  • 以下内容|尾部_quarkus实战之一:准备工作
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了quarkus实战之一:准备工作相关的知识,希望对你有一定的参考价值。欢迎访问我的GitHub ... [详细]
  • 智能家居巨头 Aqara 基于 KubeSphere 打造物联网微服务平台
    智能家居巨头 Aqara 基于 KubeSphere 打造物联网微服务平台 ... [详细]
  • GCD其实已经了解了很久了,在实际工程中也会经常用,但是其实很多实践都是浅尝辄止。最近又在回头看这块儿的内容,有一些知识点, ... [详细]
  • 系统管理部分软件包管理进程管理服务管理磁盘管理系统管理之软件包管理软件包的安装方式yumapt方式rpmdpkg方式编译安装方式二进制安装方式rpm安装方式增删改查安装:-ivh查 ... [详细]
  • 《Java并发编程》自旋锁与互斥锁两者非常类似,只是调度策略的不同。对于独占资源的访问,互斥锁在获得锁之前将一直处于休眠状态,自旋锁则是不 ... [详细]
  • Android性能优化检测App卡顿
    在移动APP性能评测-流畅度评测中,我们介绍了如何准确客观评价APP的流畅度,最终采用SM指标来评价应用的流畅度,在知道如何评价流畅度之后 ... [详细]
  • Spring @Primary和@Qualifier注解原理解析
    这篇文章主要介绍了Spring@Primary和@Qualifier注解原理解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值, ... [详细]
  • DDOSDDOS的中文名叫分布式拒绝服务***,俗称洪水***DDoS***概念DoS的***方式有很多种,最基本的DoS***就是利用合理的服务请求来 ... [详细]
  • MQ的使用
    安装环境:linuxredhatactivemq版本:5.8.01.从http:activemq.apache.orgdownload.html地址下载 ... [详细]
  • 分享_Jenkits搭建芝波分享
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了Jenkits搭建------芝波分享相关的知识,希望对你有一定的参考价值。   ... [详细]
  • Docker从安装到入门到项目部署
    容器化的时代你怎么可 ... [详细]
  • 开发笔记:携程2019校招编程题
    本文由编程笔记#小编为大家整理,主要介绍了携程2019校招编程题相关的知识,希望对你有一定的参考价值。携程今年的机试题为20道选择+3编程由于今天最后提交时第三题 ... [详细]
  • 零入门kubernetes网络实战15>基于golang编程实现给ns网络命名空间添加额外的网卡
    《零入门kubernetes网络实战》视频专栏地址https:www.ixigua.com7193641905282875942本篇文章视频地址(稍后上传)本篇文章主要是想通过g ... [详细]
  • 1、概念共享内存:共享内存是进程间通信中最简单的方式之一。共享内存允许两个或更多进程访问同一块内存,就如同malloc()函数向不同进程返回了指向同一个 ... [详细]
author-avatar
伊甸园的常青藤
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有