热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

cilium系列之三:NodeLocalDNSCache在cilium中的实现

kubernetes官网关于nodelocaldns缓存的介绍

kubernetes官网关于nodelocal dns缓存的介绍
引言
NodeLocal DNSCache 通过在集群节点上作为 DaemonSet 运行 dns 缓存代理来提高集群 DNS 性能。 在当今的体系结构中,处于 ClusterFirst DNS 模式的 Pod 可以连接到 kube-dns serviceIP 进行 DNS 查询。 通过 kube-proxy 添加的 iptables 规则将其转换为 kube-dns/CoreDNS 端点。 借助这种新架构,Pods 将可以访问在同一节点上运行的 dns 缓存代理,从而避免了 iptables DNAT 规则和连接跟踪。 本地缓存代理将查询 kube-dns 服务以获取集群主机名的缓存缺失(默认为 cluster.local 后缀)。

动机
使用当前的 DNS 体系结构,如果没有本地 kube-dns/CoreDNS 实例,则具有最高 DNS QPS 的 Pod 可能必须延伸到另一个节点。 在这种脚本下,拥有本地缓存将有助于改善延迟。
跳过 iptables DNAT 和连接跟踪将有助于减少 conntrack 竞争并避免 UDP DNS 条目填满 conntrack 表。
从本地缓存代理到 kube-dns 服务的连接可以升级到 TCP 。 TCP conntrack 条目将在连接关闭时被删除,相反 UDP 条目必须超时(默认 nf_conntrack_udp_timeout 是 30 秒)
将 DNS 查询从 UDP 升级到 TCP 将减少归因于丢弃的 UDP 数据包和 DNS 超时的尾部等待时间,通常长达 30 秒(3 次重试+ 10 秒超时)。
在节点级别对 dns 请求的度量和可见性。
可以重新启用被动缓存,从而减少对 kube-dns 服务的查询数量。

架构图
启用 NodeLocal DNSCache 之后,这是 DNS 查询所遵循的路径:
在这里插入图片描述

以上均摘抄于kubernetes官网对NodeLocal DNSCache的介绍。
NodeLocal DNSCache对于大集群的dns优化还是有显著的变化。有三点比较明显,
1、本地dns缓存减少master端coredns的压力
2、避免了大集群coredns查询或者udp丢包引起的超时时间过长导致conntrack表填满。
3、提升udp请求为tcp请求,缩短超时时间以及提升dns请求稳定性。

网友的优化测试,这个还是ipvs模式下,ebpf的性能应该更高,可点击蓝字进去查看

以下是cilium里面运用nodecachedns

首先创建一个deployment叫node-local-dns,然后创建一个服务kube-dns-upstream,使请求dns服务也允许tcp经过53端口,cluster.local域中命中缓存则保留30分钟还是30秒,没命中则保留5秒,然后发往上游dns服务进行查询

官网地址https://github.com/cilium/cilium/blob/master/examples/kubernetes-local-redirect/node-local-dns.yaml

和kubernetes官方的对比,cilium的改了几个地方,建议用cilium的都用cilium github上面的,因为是要配合cilium的local redirect policy使用,官方的未必适合。

第一个改了的地方是限定cluster.local域
第二个改了的地方是__PILLAR_LOCAL_DNS__改成169.254.20.10
第三个要改的地方是__PILLAR__DNS__SERVER__改成coredns的clusterIP

kubedns=$(kubectl get svc kube-dns -n kube-system -o jsOnpath={.spec.clusterIP}) && sed -i "s/__PILLAR__DNS__SERVER__/$kubedns/g;" node-local-dns.yaml

apiVersion: v1
kind: ServiceAccount
metadata:
name: node-local-dns
namespace: kube-system
labels:
kubernetes.io/cluster-service: "true"
addonmanager.kubernetes.io/mode: Reconcile
---
apiVersion: v1
kind: Service
metadata:
name: kube-dns-upstream
namespace: kube-system
labels:
k8s-app: kube-dns
kubernetes.io/cluster-service: "true"
addonmanager.kubernetes.io/mode: Reconcile
kubernetes.io/name: "KubeDNSUpstream"
spec:
ports:
- name: dns
port: 53
protocol: UDP
targetPort: 53
- name: dns-tcp
port: 53
protocol: TCP
targetPort: 53
selector:
k8s-app: kube-dns
---
apiVersion: v1
kind: ConfigMap
metadata:
name: node-local-dns
namespace: kube-system
labels:
addonmanager.kubernetes.io/mode: Reconcile
data:
Corefile: |
cluster.local:53 {
errors
cache {
success 9984 30
denial 9984 5
}
reload
loop
bind 0.0.0.0
forward . __PILLAR__CLUSTER__DNS__ {
force_tcp
}
prometheus :9253
health
}
in-addr.arpa:53 {
errors
cache 30
reload
loop
bind 0.0.0.0
forward . __PILLAR__CLUSTER__DNS__ {
force_tcp
}
prometheus :9253
}
ip6.arpa:53 {
errors
cache 30
reload
loop
bind 0.0.0.0
forward . __PILLAR__CLUSTER__DNS__ {
force_tcp
}
prometheus :9253
}
.:53 {
errors
cache 30
reload
loop
bind 0.0.0.0
forward . __PILLAR__UPSTREAM__SERVERS__
prometheus :9253
}

---
apiVersion: apps/v1
kind: DaemonSet
metadata:
name: node-local-dns
namespace: kube-system
labels:
k8s-app: node-local-dns
kubernetes.io/cluster-service: "true"
addonmanager.kubernetes.io/mode: Reconcile
spec:
updateStrategy:
rollingUpdate:
maxUnavailable: 10%
selector:
matchLabels:
k8s-app: node-local-dns
template:
metadata:
labels:
k8s-app: node-local-dns
annotations:
io.cilium.no-track-port: "53"
prometheus.io/port: "9253"
prometheus.io/scrape: "true"
spec:
priorityClassName: system-node-critical
serviceAccountName: node-local-dns
dnsPolicy: Default # Don't use cluster DNS.
tolerations:
- key: "CriticalAddonsOnly"
operator: "Exists"
- effect: "NoExecute"
operator: "Exists"
- effect: "NoSchedule"
operator: "Exists"
containers:
- name: node-cache
image: k8s.gcr.io/dns/k8s-dns-node-cache:1.15.16
resources:
requests:
cpu: 25m
memory: 5Mi
args: [ "-localip", "169.254.20.10,__PILLAR__DNS__SERVER__", "-conf", "/etc/Corefile", "-upstreamsvc", "kube-dns-upstream", "-skipteardown=true", "-setupinterface=false", "-setupiptables=false" ]
ports:
- containerPort: 53
name: dns
protocol: UDP
- containerPort: 53
name: dns-tcp
protocol: TCP
- containerPort: 9253
name: metrics
protocol: TCP
livenessProbe:
httpGet:
path: /health
port: 8080
initialDelaySeconds: 60
timeoutSeconds: 5
volumeMounts:
- name: config-volume
mountPath: /etc/coredns
- name: kube-dns-config
mountPath: /etc/kube-dns
volumes:
- name: kube-dns-config
configMap:
name: kube-dns
optional: true
- name: config-volume
configMap:
name: node-local-dns
items:
- key: Corefile
path: Corefile.base

然后就是利用cilium Local Redirect Policy,把对dns服务53端口转发给本地node-local-dns,然后再让它决定是否转发上游dns服务

官方yaml地址https://github.com/cilium/cilium/blob/master/examples/kubernetes-local-redirect/node-local-dns-lrp.yaml

apiVersion: "cilium.io/v2"
kind: CiliumLocalRedirectPolicy
metadata:
name: "nodelocaldns"
namespace: kube-system
spec:
redirectFrontend:
serviceMatcher:
serviceName: kube-dns
namespace: kube-system
redirectBackend:
localEndpointSelector:
matchLabels:
k8s-app: node-local-dns
toPorts:
- port: "53"
name: dns
protocol: UDP
- port: "53"
name: dns-tcp
protocol: TCP

cilium通过local redirect policy实现了nodelocal dns cache,避免了要在业务deployment中修改dnspolicy,极大地推动了nodelocal dns cache在各个环境落地。

唯一比较麻烦的就是镜像要通过一些手段进行拉取k8s.gcr.io/dns/k8s-dns-node-cache:1.15.16。我是通过阿里云的镜像管理中,创建一个github代码源,添加Dockerfile,FROM k8s.gcr.io/dns/k8s-dns-node-cache:1.15.16 ,“通过海外机器构建”,这样构建自己的镜像。

kubernetes宿主机节点特别多的时候,nodelocaldnscache还是非常有用,大量请求压往coredns,很容易导致集群不稳定


推荐阅读
author-avatar
笃笃声_965
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有