当前位置: 开发笔记 > 后端 > 正文

数据中心网络持续进阶，超融合以太技术正当其时

作者：HuPangpang_ | 来源：互联网 | 2023-07-05 11:27

随着数字经济进入“算力时代”，在算力蓬勃发展的同时，打造一张与时俱进的高水平数据中心网络显得尤为重要盒式交换机。近日，华为联合中国信息通信研究院共同发布的数据中

随着数字经济进入“算力时代”，在算力蓬勃发展的同时，打造一张与时俱进的高水平数据中心网络显得尤为重要盒式交换机。近日，华为联合中国信息通信研究院共同发布的数据中心超融合以太技术白皮书，就为我们擘画了一张高水平数据中心网络的新蓝图。

决定一个木桶能装多少水的往往是最短的那块木板盒式交换机，那么，算力时代的数据中心最短的那块木板是什么呢？

数据中心网络持续进阶，超融合以太技术正当其时

数据中心网络是实现数据传输的重要通道，也是推动数据中心算力服务能力升级，实现算力充分释放的关键盒式交换机。数据中心网络主要负责连接用户终端以及数据中心内部的计算、存储等设备，保障数据通信网络链路上高效、安全的传输。

《中国综合算力指数（2022年）》报告中明确指出计算、存储和网络是算力最重要的组成部分，在数字经济发展新时期，要更加关注构建集算力、存力和运力于一体的数据中心盒式交换机。由于网络设备算力水平无法满足要求而引发的“木桶效应”，可能会拉低整个数据中心的实际算力水平。因此，要提升数据中心算力服务能力，就需要进一步提升数据中心网络性能。

IDC分析报告显示，以太网是当前以及未来数据中心的主要技术，当前数据中心以太网占比已经接近95%盒式交换机。众所周知，标准以太网络采用尽力而为的工作机制，天然有丢包的特性对存储的性能稳定性带来了极大的影响。算力时代，0.1%的丢包会导致50%的算力损失。因此传统以太网已经不适应现在算力时代数据中心的要求。推动以太网进化从而搭建先进网络架构的时代已然来临，以太网正在从“尽力而为”型向“性能敏感”型网络演进。

展开全文

从网络架构、带宽、时延、可靠性、应用加速、网络技术演进六个方面来看，数据中心网络正在从传统以太、无损以太向超融合以太升级盒式交换机。

数据中心网络持续进阶，超融合以太技术正当其时

具体来看，超融合以太技术具备五大优势盒式交换机。

网络级负载均衡算法盒式交换机，释放AI算力

AI集群训练过程中，参数通过高速互联网络在不同的服务器间进行同步交互，这些通信流量具有共同的特征：流量成周期性、流数量少、流量长连接、并行任务间有强实时同步性要求，通信效率取决于最慢的节点，并且AI集群训练场景下，传输的数据量较大盒式交换机。上述的流量特征导致网络较易出现负载分担不均、整网吞吐下降的问题，从而影响AI集群训练的性能。

现有创新的网络均衡技术NSLB是面向AI训练场景量身打造的，根据该场景下的流量特征，将搜集到的整网信息作为创新算路算法的输入，从而得到最优的流量转发路径，实现AI训练场景下整网流量100%的均衡度和AI训练性能的提升盒式交换机。

端网协同拥塞控制实现存储算力优化

高性能计算、AI模型训练等应用场景，以及数据中心网络/云网络在架构上的发展（资源池化），均要求网络传输排队时延和吞吐上的进一步性能提升盒式交换机。

端网协同拥塞控制技术采用“端（智能网卡）网（交换机）”配合的方式达到交换机上的近似“零排队”时延，使得端到端传输时延接近静态时延盒式交换机。

端网协同主要根据网络可用带宽，调整端侧发送速率，这种源端与交换机之间的密切配合使网络中的队列近乎为空，同时能保持接近100%的利用率盒式交换机。和当前业界主流的协同算法相比，端网协同算法C-AQM能够把排队时延控制得极低，接近于0，同时瓶颈链路达到接近100%利用率。

数据面快速收敛盒式交换机，提供分布式数据库高可靠算力

随着业务发放速度的不断加快，以及引入了VM、容器等虚拟化技术，网络流量的不确定性增加盒式交换机。而当前运维手段有限，仍然依靠传统网管和命令行方式进行查看、监控，分钟级的网络监控已经无法满足业务秒级体验保障的要求，往往被动感知故障。故障发生后，定位仍主要依赖专家经验，利用多种辅助工具，逐段定界、逐流分析、抓包定位，效率十分低下。

网络故障收敛慢对业务稳定性产生的负面影响，尤其会造成高性能数据库类业务性能的严重下降盒式交换机。为了解决上述故障收敛慢的问题，华为提出了一种基于网络设备数据面的链路故障快速自愈技术，称为DPFF（Data Plane Fast Failover）。该技术基于转发芯片的硬件可编程能力构建。DPFF从传统的基于控制面软件协议的收敛方式演进到基于数据面硬件极速感知故障和快速换路的收敛方式，并且基于数据面硬件实现远程通告和快速换路，可达到亚毫秒级（<1ms）的收敛速度，将对业务性能的影响降至最低。该技术为高性能数据库、存储以及超算等关键应用提供了极致的高可靠性保证和稳定性体验。

测试结果表明，DPFF收敛方案比传统的OSPF收敛方案在链路故障下，每100ms周期内完成交易事务数量下降减少60%~80%盒式交换机。

网络架构创新盒式交换机，构建E/10E级超大规模算力集群

5G、万物互联智能时代产生海量数据，智能训练大模型部署，国家新一代超级计算中心的规划建设……爆炸式增长的算力需求与实际算力增长速度之间存在巨大鸿沟盒式交换机。在后摩尔时代，通过构建大规模并行计算集群满足不断增长的算力需求，如10E级计算集群其计算服务器规模达到20万以上。

计算集群网络传统采用CLOS架构，以业界常见的64口盒式交换机为例，3级CLOS架构，最大可支持6.5万服务器接口，不满足10E级计算集群规模诉求盒式交换机。如果增加网络层数则会带来网络跳数增加，通信时延不满足业务需求。

业界针对该问题开展了多样的架构研究和新拓扑的设计盒式交换机。直连拓扑在超大规模组网场景下，因为网络直径短，具备低成本、端到端通信跳数少的特点。以64口盒式交换机构建10万个节点超大规模集群为例，传统的CLOS架构需要部署4层组网，端到端通信最大需要跨7跳交换机。使用无阻塞直连拓扑组网，端到端交换机转发跳数最少只3跳，交换机台数(整体投资)下降40%。

业务级SLA保障盒式交换机，实现数据中心一张网

为了解决这个难题，华为提出超融合智能无损网络方案，将业务级SLA智能保障技术引入到交换机中，用iLossless智能无损算法代替专家经验，对网络流量的变化进行基于队列级捕获和预测，实现细粒度动态差异化优化盒式交换机。结合不同业务的流量变化情况以及业务特征，实现不同业务流量差异化动态优化保障。

根据实验室测试，采用3台华为交换机组成2级Spine-Leaf组网，每台接入层交换机下挂16台100GE服务器，Spine与每个Leaf之间采用4个400G互联(1:1收敛)盒式交换机。在计算和存储benchmark流量混跑的测试环境下，智能无损算法相比于传统算法配置，在保持存储持平前提下，能够有效降低计算任务的总体完成时间，在测试场景中实现最高20%以上的计算时延降低。

随着数字产业智能化向智能世界发展，未来数据中心将朝着多云异构算力演进，要构建强大的算力，需要各类资源高度协同，深度融合盒式交换机。新算力，对网络提出了新的诉求，下一代数据中心需要超融合以太技术给新算力进行新的赋能，以应对新的挑战。作为数据中心动脉血管新的路标，一张开放、自主的超融合以太网络将多维度与各类算力资源协同，全面提升网络性能，通过网络全栈技术的持续创新，为新算力赋能，释放更高算力，从而助力“高算力、高安全、高效能、高可靠”的新型算力中心建设。

推荐阅读

容器
Redis 架构解析：单节点、主从复制、哨兵模式与集群部署

在项目中使用 Redis 时，了解其不同架构模式（如单节点、主从复制、哨兵模式和集群）对于确保系统的高可用性和扩展性至关重要。本文将详细探讨这些模式的特点和应用场景。 ... [详细]

蜡笔小新 2024-12-20 13:34:22
api
深入解析Spring Cloud微服务架构与分布式系统实战

本文详细介绍了Spring Cloud在微服务架构和分布式系统中的应用，结合实际案例和最新技术，帮助读者全面掌握微服务的实现与优化。 ... [详细]

蜡笔小新 2024-12-19 16:02:50
php
精通Spring Cloud：从入门到实践的全面指南

Spring Cloud因其强大的功能和灵活性，被誉为开发分布式系统的‘一站式’解决方案。它不仅简化了分布式系统中的常见模式实现，还被广泛应用于企业级生产环境中。本书内容详实，覆盖了从微服务基础到Spring Cloud的高级应用，适合各层次的开发者。 ... [详细]

蜡笔小新 2024-12-16 16:21:23
timeout
Java日常开发的12个坑，你踩过几个？值得一读！

一面问题：MySQLRedisKafka线程算法mysql知道哪些存储引擎，它们的区别mysql索引在什么情况下会失效mysql在项目中的优化场景&# ... [详细]

蜡笔小新 2024-12-12 09:34:47
php
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
php
网络攻防实战：从HTTP到HTTPS的演变

本文通过一系列日记记录了从发现漏洞到逐步加强安全措施的过程，探讨了如何应对网络攻击并最终实现全面的安全防护。 ... [详细]

蜡笔小新 2024-12-27 11:34:50
h2
Linux 网卡绑定的七种工作模式详解

本文深入探讨了Linux系统中网卡绑定（bonding）的七种工作模式。网卡绑定技术通过将多个物理网卡组合成一个逻辑网卡，实现网络冗余、带宽聚合和负载均衡，在生产环境中广泛应用。文章详细介绍了每种模式的特点、适用场景及配置方法。 ... [详细]

蜡笔小新 2024-12-27 10:18:13
service
2023年京东Android面试真题解析与经验分享

本文由一位拥有6年Android开发经验的工程师撰写，详细解析了京东面试中常见的技术问题。涵盖引用传递、Handler机制、ListView优化、多线程控制及ANR处理等核心知识点。 ... [详细]

蜡笔小新 2024-12-26 17:45:48
pdo
ThinkPHP6多数据库部署指南

本文将详细介绍如何在ThinkPHP6框架中实现多数据库的部署，包括读写分离的策略，以及如何通过负载均衡和MySQL同步技术优化数据库性能。 ... [详细]

蜡笔小新 2024-12-17 18:59:28
pdo
深入理解Docker网络管理

本文介绍了Docker网络管理的基本概念，包括为什么需要Docker网络管理以及Docker提供的多种网络驱动模式。同时，文章还详细解释了Docker网络相关的命令操作，帮助读者更好地理解和使用Docker网络功能。 ... [详细]

蜡笔小新 2024-12-16 17:42:02
php
探讨GET与POST请求数据传输的最大容量

在Web开发领域，GET和POST是最常见的两种数据传输方法。本文将深入探讨这两种请求方式在不同环境下的数据传输能力及其限制。 ... [详细]

蜡笔小新 2024-12-15 12:05:33
php
免费获取：全面更新的Linux集群视频教程及配套资源

本资源包含最新的Linux集群视频教程、详细的教学资料、实用的学习课件、完整的源代码及多种软件开发工具。百度网盘链接：https://pan.baidu.com/s/1roYoSM0jHqa3PrCfaaaqUQ，提取码：41py。关注我们的公众号，获取更多更新的技术教程。 ... [详细]

蜡笔小新 2024-12-14 11:51:16
api
构建可扩展Web服务的实用指南

本文提供了一套实用的方法论，旨在帮助开发者构建能够应对高并发请求且易于扩展的Web服务。内容涵盖了服务器架构、数据库管理、缓存策略以及异步处理等多个方面。 ... [详细]

蜡笔小新 2024-12-12 10:13:02
api
深入理解网络虚拟化与网络功能虚拟化

本文详细探讨了虚拟化的基本概念，包括服务器虚拟化、网络虚拟化及其在云计算环境中的应用。特别强调了SDN技术在网络虚拟化和云计算中的关键作用，以及网络虚拟化技术如何提升资源利用效率和管理灵活性。 ... [详细]

蜡笔小新 2024-12-09 20:01:17
nodejs
腾讯视频 Node.js 服务国庆阅兵直播高并发实战

本文分享了腾讯视频团队在国庆阅兵直播项目中，如何利用Node.js服务成功应对2.38亿次观看的高并发挑战。文章将从服务架构、可用性保障、缓存策略、日志与告警等方面详细解析。 ... [详细]

蜡笔小新 2024-12-07 12:26:53

HuPangpang_

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章