2.2Kubernetes网络通讯

作者：徐小丹-_- | 来源：互联网 | 2023-10-12 10:39

k8s的网络模型假定了所有的Pod都在一个可以直接连通的扁平的网络空间中,这在GCE(GoogleComputeEngine)里面是线程的网络模型,Kubernetes假定这个网络

　　k8s的网络模型假定了所有的Pod都在一个可以直接连通的扁平的网络空间中, 这在GCE(Google Compute Engine)里面是线程的网络模型, Kubernetes假定这个网络已经存在. 而在私有云里搭建Kubernetes集群, 就不能假定这个网络已经存在了. 我们需要自己实现这个网络假设, 将不同节点上的Docker容器之间的互相访问先打通, 然后运行Kubernetes.

　　这段话是什么意思呢? 用大白话来翻译一下

　　k8s默认所有pod都在一个扁平化的网络中, 也就是pod之间都是可以通过localhost相互访问的. 比如,我们现在办公都提倡扁平化管理,从工位的体现就是, 领导和员工们都坐在一起, 你也分不出来谁是领导,谁是员工. 相互之间, 随时沟通, 随时交流, 无障碍.

　　而现实网络中, 我们都是用的阿里云, 在阿里云上搭建集群, 集群之间就不是扁平化的. 需要设置实现. 所以, 运行k8s, 第一步, 我们要设置网络之间可以相互连通, "直接到达". 这里的"直接到达"加了双引号, Pod认为我是直接到达的,其实底层, 有一堆转换机制存在, 比如Flannel的转换机制

　如果, 我们想要在自己的集群中构建k8s, 首先要解决扁平化的网络空间, 如果现在没有开原方案的话, 这一点是比较难做到的. 原因是, 我们需要将集群中的每一个Pod容器打通. 好在现在已经有很多公司加入k8s一起研究, 比如后面我们将要学习的Flannel, 他可以帮我们实现扁平的网络空间

二. 通讯类型

2.1. 同一个Pod内的多个容器之间: 通过IO访问

一个Pod里面有很多容器, 容器和容器之间访问, 他们走的是谁呢?

只要是同一个Pod, 他们在容器内共享PAUSE, 因此他们用 PAUSE容器网络栈, 他们之间互相访问, 走的是网络栈的IO, 通过localhost的方式就可以直接访问.

2.2 Kubernetes--网络通讯

2.2. Pod与Service之间的通讯: 各节点的Iptables规则

pod和service之间的通讯, 通过各节点的iptables规则, 进行转化. 在最新版本中, 已经加入了LVS的机制, 为他进行转发,转发效率更高, 上限更高

2.3. 各Pod之间的通讯, 使用的是Overlay Network

Overlay Network是全覆盖网络. 这是我们要重点研究的对象.

Overlay 网络到底是怎样实现的呢? 以及他们之间经历了哪些转换机制? 下面研究

三. 网络解决方案

1. Kubernetes + Flannel

　　google对k8s没有很强的定义, 它允许我们通过CNI的接口去接入我们想要达到的网络方案. 其中Flannel是最常用的, 在k8s里解决网络问题的方案, 符合CNI接口. Flannel到底是什么呢?

　　Flannel是CoreOS团队针对Kubernetes设计的一个网络规划服务, 简单来说, 他的功能是让集群中的不同节点主机创建的Docker容器都具有全局唯一的虚拟机IP地址, 而且他还能在这些IP地址之间建立一个覆盖网络(Overlay Network), 通过这个覆盖网络, 将数据包原封不动的传递到目标容器内.

划重点: 它的作用是---- 让集群中的不同节点主机创建的Docker容器都具有全局唯一的虚拟机IP地址, 而且他还能在这些IP地址之间建立一个覆盖网络(Overlay Network), 通过这个覆盖网络, 将数据包原封不动的传递到目标容器内.

我们现在有三台物理机, 每台物理机上安装docker容器. 这些容器相互之间如何访问呢?

2.2 Kubernetes--网络通讯

首先. 所有容器之间要扁平化管理, 那么他们的ip地址一定不能重复, 一旦重复, 那就冲突了

如何保证ip地址不一样呢?

修改docker启动的配置文件, 把docker0的网桥的分配网段改掉. 只要docker0分配的网段不一样, 那么容器的ip肯定不一样

ip的问题解决了, 那么现在的问题是: 如何使不同机器上的docker, 通过ip能够访问其他机器上的docker容器呢?

下面, 我们看一下Flannel是如何解决的?

2.2 Kubernetes--网络通讯

这里画了两台物理机. 一台的ip是192.168.66.11, 另一台是192.168.66.12

这里运行了四个pod, 分别是: web app2, web app1, web app3, Backend(前端组件), 他们之间的关系如下:

2.2 Kubernetes--网络通讯

Backend是大前端, 流量来了, 都先进入Backend, 然后通过网关分发到web app1, web app2, web app3

那么, 如果Backend想要和Web app2 和Web app1通讯的时候, 就需要跨主机了. 如果和Web app3通讯那就是同主机了.

他们是怎么通讯的呢?

首先. 在真实的服务器上, 我们会安装一个Flanneld的守护进程, 这个进程会监听一个端口. 这个端口就是用来后期转发数据包的服务端口. Flannel进程启动以后, 会开启一个网桥, 叫Flannel0, 这个网桥专门收集Docker0转发出来的数据报文. 可以理解为他是一个钩子函数. 强行获取数据报文. Docker0会分配自己的ip到对应的pod上.

如果是同一个主机上的两个不同的pod相互访问, 他走的是docker0的网桥. 大家是在同一个网桥下的两个子网而已. 所以, 可以走docker0网桥进行转发

2.2 Kubernetes--网络通讯

那么如何跨主机, 还能通过对方的ip到达呢?

假设, 现在web app2 ,想要把数据报发到backend. 他的源ip是10.1.15.2/24, 目标ip要写10.1.20.3/24. 因为自己和目标不是同一个网段, 所以, web app2发到docker0网关, docker0上会有对应的钩子函数, 把数据报抓到Flannel0里, Flannel里面有一堆的路由表记录, 写入到的主机, 判断到底路由到哪台机器. 到了Flannel0以后, Flannel0是Flanneld开启的网桥, 这个数据包会到Flanneld, 然后Flanneld会对数据包进行封装, 怎么封装呢? 看下图:

2.2 Kubernetes--网络通讯

第一次封装: 源是192.168.66.11, 目标是192.168.66.12

第二次封装: 下一层是udp的数据报文, 也就是说flannel使用的是udp的数据报文去转发数据报的, 因为更快, 毕竟在同一个局域网内部.

　　　　　　再下一层, 又封装了新的send信息. 源是:10.1.15.2, 目标是10.1.20.3

封装到这一层以后, 外面封装了一个数据包实体Payload. 然后被转发到192.168.66.12上来, 原因是, 你上面写了目标机器是谁. 并且目标端口, 应该是192.168.66.12中flanneld的端口, 所以这个数据包会被flanneld截获. 截获以后, flannel会进行拆封, 拆封完了一个后, 会转发到flannel0, flannel0会转发到docker0, docker0会找到10.1.20.3这个pod. 并且这是经过二次解封的, 第一层封装的信息, 他是看不见的. 他只能看到第二次封装的信息. 这样他看到了源是10.1.15.2, 目标就是自己10.1.20.3, 这样就实现了跨主机访问的网络.

2.2 Kubernetes--网络通讯

其实这个过程, 资源消耗是比价高的, 因为要进行数据包的封装, 然后还要进行数据包的解封. 这就是flanneld网络的通讯方案.

2. ETCD之Flannel提供说明:

1)存储管理Flannel可分配的IP地质资源端

　　也就意味这, flannel启动以后, 回像ETCD里插入可以被分配的网段. 并且把那个网段分配到哪台机器了,他要记录上. 防止已分配的网段, 再被flannel利用, 分配给其他node节点.

2) 监控ETCD中每个pod的实际地址, 并在内存中建立维护pod节点路由表

　　　　为什么需要维护pod节点路由表? 我们在封装的时候, 最上层, 我们要知道对方主机的信息. 我怎么知道你这个pod网段对应的物理主机是102.168.66.12呢? 就是因为这里维护了etcd中每个pod的实际地址信息.

　　ETCD在k8s集群中的角色是非常非常重要的. 如果要高可用的话, ETCD一定是首先需要高可用的组件. 好在ETCD的官方已经给我们解决好了集群化, 并且非常优秀的集群化.

3. 总结 -- 不同情况下的网络通讯方式

1) 同一个pod内部通讯:

　　同一个pod共享同一个网络命名空间, 共享同一个linux协议栈, 通过localhost就可以访问

2) 不同pod之间通讯

　　a. 在同一台主机上: 有docker0网桥直接转发请求至pod2, 不需要经过flannel

　　b. 不在同一台主机上: pod的地址是与docker0在同一个网段的. 但docker0网段与宿主机网卡是两个完全不同的IP网段, 并且不同node之间的通信只能通过宿主机的物理网卡进行. 将Pod的ip和所在node的ip关联起来, 通过这个关联让pod之间相互访问

　　　　这里说的比较简单, 实际过程如上面, 比这个要复杂的多

3) pod到Service的网络

　　目前, 基于性能考虑, 全部为iptables维护和转发, 这个是比较老的啦, 最新版的, 我们已经改为lvs模式, 也就是通过lvs转发和维护. 这样性能会更高

4) Pod到外网

　　也就是pod想上网怎么办?

　　pod向外网发送请求, 查找路由表, 转发数据包到宿主机网卡, 宿主机网卡完成路由选择后, iptables执行Masquerade, 把源IP更改为宿主网卡的ip,然后向外网服务器发请求.

　　也就是说, pod容器想上网, 直接通过我们的SNat转换, 动态转换去完成上网行为

5) 外网访问pod

　　外网访问pod, 就需要借助到Service了

四. 组件通讯示意图

2.2 Kubernetes--网络通讯

　　在k8s里有三层网络.

　　1. 节点网络

　　2. pod网络

　　3. service网络

　　需要注意的是: 真实的物理的网络只有1个, 就是节点网络. 也就是构建服务器的时候1张网卡就可以实现.

　　pod网络是一个虚拟网络, service网络也是虚拟网络. 我们可以把他们理解为一个内部网络

　　如果想要访问service, 要在Service网络中去访问, Service在通过后端的iptables或lvs转换去和pod通讯

推荐阅读

random
H5技术实现经典游戏《贪吃蛇》

本文将分享一个使用HTML5技术实现的经典小游戏——《贪吃蛇》。通过H5技术，我们将探讨如何构建这款游戏的两种主要玩法：积分闯关和无尽模式。 ... [详细]

蜡笔小新 2024-11-21 20:16:59
client
Docker安全策略与管理

本文探讨了Docker的安全挑战、核心安全特性及其管理策略，旨在帮助读者深入理解Docker安全机制，并提供实用的安全管理建议。 ... [详细]

蜡笔小新 2024-11-21 20:03:03
php
CRZ.im：一款极简的网址缩短服务及其安装指南

本文介绍了一款名为CRZ.im的极简网址缩短服务，该服务采用PHP和SQLite开发，体积小巧，约10KB。本文还提供了详细的安装步骤，包括环境配置、域名解析及Nginx伪静态设置。 ... [详细]

蜡笔小新 2024-11-21 13:50:47
shell
设置Shadowsocks公共代理的关键步骤

本文详细介绍了如何正确设置Shadowsocks公共代理，包括调整超时设置、检查系统限制、防止滥用及遵守DMCA法规等关键步骤。 ... [详细]

蜡笔小新 2024-11-20 20:41:33
php
微服务优雅上下线的最佳实践

本文介绍了微服务上下线的正确姿势，避免使用 kill -9 等粗暴手段，确保服务的稳定性和可靠性。 ... [详细]

蜡笔小新 2024-11-14 16:22:57
get
优化 DOM 以提升 JavaScript 性能

本文探讨了如何通过优化 DOM 操作来提升 JavaScript 的性能，包括使用 `createElement` 函数、动画元素、理解重绘事件及处理鼠标滚动事件等关键主题。 ... [详细]

蜡笔小新 2024-11-21 18:16:19
php
Oracle VM VirtualBox 使用指南：创建静态网页及高级功能

本文详细介绍了如何在Oracle VM VirtualBox中实现主机与虚拟机之间的数据交换，包括安装Guest Additions增强功能，以及如何利用这些功能进行文件传输、屏幕调整等操作。 ... [详细]

蜡笔小新 2024-11-21 18:13:22
php
2023年，Android开发前景如何？25岁还能转行吗？

近期，关于Android开发行业的讨论在多个平台上热度不减，许多人担忧其未来发展。本文将探讨当前Android开发市场的现状、薪资水平及职业选择建议。 ... [详细]

蜡笔小新 2024-11-21 18:08:07
main
二维码的实现与应用

本文介绍了二维码的基本概念、分类及其优缺点，并详细描述了如何使用Java编程语言结合第三方库（如ZXing和qrcode.jar）来实现二维码的生成与解析。 ... [详细]

蜡笔小新 2024-11-21 17:10:15
get
Singleton单例模式和DoubleChecked Locking双重检查锁定模式

问题描述现在，不管开发一个多大的系统（至少我现在的部门是这样的），都会带一个日志功能；在实际开发过程中 ... [详细]

蜡笔小新 2024-11-21 15:14:45
stream
探索阿里巴巴的开源世界

从理想主义者的内心深处萌发的技术信仰，推动了云原生技术在全球范围内的快速发展。本文将带你深入了解阿里巴巴在开源领域的贡献与成就。 ... [详细]

蜡笔小新 2024-11-21 09:06:54
php
从CodeIgniter中提取图像处理组件

本指南旨在帮助开发者在未使用CodeIgniter框架的情况下，如何独立使用其强大的图像处理功能，包括图像尺寸调整、创建缩略图、裁剪、旋转及添加水印等。 ... [详细]

蜡笔小新 2024-11-20 19:57:35
stream
秒建一个后台管理系统？用这5个开源免费的Java项目就够了

秒建一个后台管理系统？用这5个开源免费的Java项目就够了 ... [详细]

蜡笔小新 2024-11-12 03:21:33
php
PHP 各版本对比：标准版与最新顶级版的详细分析

PHP 各版本对比：标准版与最新顶级版的详细分析 ... [详细]

蜡笔小新 2024-11-11 13:23:25
php
如何在Docker环境中高效利用数据库？ | Baeldung

在本文中，我们将探讨如何在Docker环境中高效地管理和利用数据库。首先，需要安装Docker Desktop以确保本地环境准备就绪。接下来，可以从Docker Hub中选择合适的数据库镜像，并通过简单的命令将其拉取到本地。此外，我们还将介绍如何配置和优化这些数据库容器，以实现最佳性能和安全性。 ... [详细]

蜡笔小新 2024-11-09 19:34:33

徐小丹-_-

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章