k8s全栈监控

作者：我是小储哥 | 来源：互联网 | 2023-09-01 12:30

简介整体概括本文章主要介绍如何全面监控k8s使用metric-server收集数据给k8s集群内使用，如kubectl,hp

简介

整体概括

本文章主要介绍如何全面监控k8s

使用metric-server收集数据给k8s集群内使用，如kubectl,hpa,scheduler等
使用prometheus-operator部署prometheus，存储监控数据
使用kube-state-metrics收集k8s集群内资源对象数据
使用node_exporter收集集群中各节点的数据
使用prometheus收集apiserver，scheduler，controller-manager，kubelet组件数据
使用alertmanager实现监控报警
使用grafana实现数据可视化

prometheus-operator简介

prometheus-operator是一个整合prometheus和operator的项目，prometheus是一个集数据收集存储，数据查询，数据图表显示于一身的开源监控组件。operator是由coreos开源一套在k8s上管理应用的软件，通过operator可以方便的实现部署，扩容，删除应用等功能。

prometheus-operator利用k8s的CustomResourceDefinitions功能实现了只需要像写原生kubectl支持的yaml文件一样，轻松收集应用数据，配置报警规则等，包含如下CRDs ：

Prometheus 用于部署Prometheus 实例
ServiceMonitor 用于配置数据收集，创建之后会根据DNS自动发现并收集数据
PrometheusRule 用于配置Prometheus 规则，处理规整数据和配置报警规则
Alertmanager 用于部署报警实例

安装

环境说明

收集kube-controller-manager，kube-scheduler数据，需要配置组件监听0.0.0.0地址

二进制安装启动时添加如下参数 --address=0.0.0.0

如果使用kubeadm启动的集群，初始化时加入如下参数

controllerManagerExtraArgs: address: 0.0.0.0 schedulerExtraArgs: address: 0.0.0.0

如果是已经启动之后的集群，可以使用如下命令修改

sed -e "s/- --address=127.0.0.1/- --address=0.0.0.0/" -i /etc/kubernetes/manifests/kube-controller-manager.yaml sed -e "s/- --address=127.0.0.1/- --address=0.0.0.0/" -i /etc/kubernetes/manifests/kube-scheduler.yaml

收集kubelet相关数据时需要配置kubelet使用如下认证方式。使用kubeadm默认情况下已经开启

--authentication-token-webhook=true --authorization-mode=Webhook

部署metric-server

# 下载 mkdir k8s-monitor && cd k8s-monitor git clone https://github.com/kubernetes-incubator/metrics-server.git cd metrics-server && git checkout v0.2.1 && cd ../ # 修改配置（当前版本有bug） sed -ri 's@gcr.io/google_containers/metrics-server-amd64:(.*)@mirrorgooglecontainers/metrics-server-amd64:\1@g' metrics-server/deploy/1.8+/metrics-server-deployment.yaml sed -ri 's@--source=kubernetes.summary_api:.*@--source=kubernetes.summary_api:https://kubernetes.default?kubeletHttps=true\&kubeletPort=10250\&insecure=true@' metrics-server/deploy/1.8+/metrics-server-deployment.yaml # 部署 kubectl create -f metrics-server/deploy/1.8+/ # 查看状态 kubectl get pods -n kube-system # 测试获取数据 # 由于采集数据间隔为1分钟 # 等待数分钟后查看数据 NODE=$(kubectl get nodes | grep 'Ready' | head -1 | awk '{print $1}') METRIC_SERVER_POD=$(kubectl get pods -n kube-system | grep 'metrics-server' | awk '{print $1}') kubectl get --raw /apis/metrics.k8s.io/v1beta1/nodes kubectl get --raw /apis/metrics.k8s.io/v1beta1/pods kubectl get --raw /apis/metrics.k8s.io/v1beta1/nodes/$NODE kubectl top node $NODE kubectl top pod $METRIC_SERVER_POD -n kube-system

下载相关部署文件

git clone https://github.com/mgxian/k8s-monitor.git cd k8s-monitor

部署prometheus-operator

# 创建 namespace kubectl apply -f monitoring-namespace.yaml # 部署 kubectl apply -f prometheus-operator.yaml # 查看 kubectl get pods -n monitoring kubectl get svc -n monitoring kubectl get crd

部署k8s组件服务

# 部署 kubectl apply -f kube-k8s-service.yaml # 查看 kubectl get svc -n kube-system

部署node_exporter

# 部署 kubectl apply -f node_exporter.yaml # 查看 kubectl get pods -n monitoring kubectl get svc -n monitoring

部署kube-state-metrics

# 部署 kubectl apply -f kube-state-metrics.yaml # 查看 kubectl get pods -n monitoring kubectl get svc -n monitoring

部署prometheus

# 部署 kubectl apply -f prometheus.yaml # 查看 kubectl get pods -n monitoring kubectl get svc -n monitoring

配置数据收集

# 部署 kubectl apply -f kube-servicemonitor.yaml # 查看 kubectl get servicemonitors -n monitoring

查看prometheus中的数据

# 查看 nodeport kubectl get svc -n monitoring | grep prometheus-k8s # 获取访问链接 # 11.11.11.111 为其中一个node ip NODE_IP='11.11.11.112' PROMETHEUS_NODEPORT=$(kubectl get svc -n monitoring | grep prometheus-k8s | awk '{print $(NF-1)}' | cut -d ':' -f 2 | cut -d '/' -f 1) echo "http://$NODE_IP:$PROMETHEUS_NODEPORT/"

prometheus主页

生成图表 container_network_receive_bytes_total{namespace="monitoring", name=~".prometheus."}

查看收集数据的端点

查看数据收集服务发现

部署grafana

# 部署 kubectl apply -f grafana.yaml # 查看 kubectl get pods -n monitoring kubectl get svc -n monitoring # 查看 nodeport kubectl get svc -n monitoring | grep grafana # 获取访问链接 # 11.11.11.111 为其中一个node ip NODE_IP='11.11.11.112' GRAFANA_NODEPORT=$(kubectl get svc -n monitoring | grep grafana | awk '{print $(NF-1)}' | cut -d ':' -f 2 | cut -d '/' -f 1) echo "http://$NODE_IP:$GRAFANA_NODEPORT/"

部署alertmanager

# 部署 kubectl apply -f alertmanager.yaml # 查看 kubectl get pods -n monitoring kubectl get svc -n monitoring # 查看 nodeport kubectl get svc -n monitoring | grep alertmanager-main # 获取访问链接 # 11.11.11.111 为其中一个node ip NODE_IP='11.11.11.112' ALERTMANAGER_MAIN_NODEPORT=$(kubectl get svc -n monitoring | grep alertmanager-main | awk '{print $(NF-1)}' | cut -d ':' -f 2 | cut -d '/' -f 1) echo "http://$NODE_IP:$ALERTMANAGER_MAIN_NODEPORT/"

查看图表

集群状态

集群状态以命名空间视角

POD状态

参考文档

github.com/coreos/prom…
github.com/coreos/prom…
github.com/coreos/prom…

本文转自掘金- k8s全栈监控

推荐阅读

ip
深入解析 Kubernetes 亲和性调度机制及其优化策略

在 Kubernetes 中，Pod 的调度通常由集群的自动调度策略决定，这些策略主要关注资源充足性和负载均衡。然而，在某些场景下，用户可能需要更精细地控制 Pod 的调度行为，例如将特定的服务（如 GitLab）部署到特定节点上，以提高性能或满足特定需求。本文深入解析了 Kubernetes 的亲和性调度机制，并探讨了多种优化策略，帮助用户实现更高效、更灵活的资源管理。 ... [详细]

蜡笔小新 2024-11-05 17:27:07
shell
Kubernetes 中 kubectl 的核心命令与操作指南

本文详细介绍了 Kubernetes 集群管理工具 kubectl 的基本使用方法，涵盖了一系列常用的命令及其应用场景，旨在帮助初学者快速掌握 kubectl 的基本操作。 ... [详细]

蜡笔小新 2024-12-18 09:41:33
ip
Windows环境下部署Kubernetes Dashboard指南

本指南详细介绍了如何在Windows系统中部署Kubernetes Dashboard，包括下载最新配置文件、修改服务类型以支持NodePort访问、下载所需镜像并启动Dashboard服务等步骤。 ... [详细]

蜡笔小新 2024-12-13 18:18:00
php
Kubernetes 组件时区调整指南

本文详细介绍了如何在Kubernetes集群中调整etcd、apiserver、controller-manager、scheduler等核心组件以及kube-proxy和coredns的时区设置方法。 ... [详细]

蜡笔小新 2024-12-08 12:56:14
php
深入解析 RuntimeClass 及多容器运行时应用

本文旨在探讨RuntimeClass的起源、功能及其在多容器运行时环境中的实际应用。通过详细的案例分析，帮助读者理解如何在Kubernetes集群中高效管理不同类型的容器运行时。 ... [详细]

蜡笔小新 2024-11-25 15:13:46
go
Kubernetes 实践指南：初次体验

本文介绍了如何通过官方提供的简易示例，快速上手 Kubernetes (K8S)，并深入理解其核心概念和操作流程。 ... [详细]

蜡笔小新 2024-11-25 11:09:16
go
Kubernetes Metric Server Pod 运行异常：缺少 IP SANs

检查 Kubernetes 系统命名空间中的 Pod 状态时，发现 Metric Server Pod 虽然处于运行状态，但存在异常：日志显示 'it doesn’t contain any IP SANs'。 ... [详细]

蜡笔小新 2024-11-14 07:58:56
go
在Kubernetes上部署多个Mitmproxy代理服务器以实现高效流量管理

在Kubernetes上部署多个Mitmproxy代理服务器以实现高效流量管理 ... [详细]

蜡笔小新 2024-11-03 14:38:15
go
基于阿里云ECS服务器的k8s集群环境搭建

前言: 网上搭建k8s的文章很多，但很多都无法按其说明在阿里云ecs服务器成功搭建，所以我就花了些时间基于自己成功搭建k8s的步骤写了个操作手册，希望对想搭建k8s环境的盆友有所帮 ... [详细]

蜡笔小新 2024-10-25 13:19:07
tree
Kubernetes 持久化存储与数据卷详解

本文深入探讨 Kubernetes 中持久化存储的使用场景、PV/PVC/StorageClass 的基本操作及其实现原理，旨在帮助读者理解如何高效管理容器化应用的数据持久化需求。 ... [详细]

蜡笔小新 2024-12-23 12:10:22
go
CentOS 7.6环境下Prometheus与Grafana的集成部署指南

本文旨在提供一套详细的步骤，指导读者如何在CentOS 7.6操作系统上成功安装和配置Prometheus 2.17.1及Grafana 6.7.2-1，实现高效的数据监控与可视化。 ... [详细]

蜡笔小新 2024-12-20 10:05:02
spring
深入探讨：从代码到Kubernetes部署的微服务实践——网关篇

本文详细介绍了如何利用go-zero框架从需求分析到最终部署至Kubernetes的全过程，特别聚焦于微服务架构中的网关设计与实现。项目采用了go-zero及其生态组件，涵盖了从API设计到RPC调用，再到生产环境下的监控与维护等多方面内容。 ... [详细]

蜡笔小新 2024-11-28 17:56:12
go
小王详解：内部网络中最易理解的NAT原理剖析，挑战你的认知极限

小王详解：内部网络中最易理解的NAT原理剖析，挑战你的认知极限 ... [详细]

蜡笔小新 2024-11-07 15:11:42
php
.NET Core 2.* 开发者指南：全面学习与实践手册

本书《.NET Core 2.* 开发者指南》是面向开发者的全面学习与实践手册，涵盖了从基础到高级的各个层面。书中详细解析了 .NET Core 的核心概念，包括如何创建 .NET Core 网站，并通过视频教程直观展示操作过程。此外，还深入探讨了 Startup 类的作用、项目目录结构的组织方式以及如何在应用中使用静态文件等内容。对于希望深入了解 .NET Core 架构和开发技巧的开发者来说，本书提供了丰富的实践案例和详尽的技术指导。 ... [详细]

蜡笔小新 2024-10-27 13:05:35
go
Prometheus 2.5 + Grafana 5.3 使用官方模板监控

系统环境：Centos7.2+ Prometheus2.5+Grafana5.3 Grafana安装参考：Grafana安装Prometheus+Grafana 安装参考：Grap ... [详细]

蜡笔小新 2024-10-18 13:01:55

我是小储哥

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章