热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

数据中心网络持续进阶,超融合以太技术正当其时

随着数字经济进入“算力时代”,在算力蓬勃发展的同时,打造一张与时俱进的高水平数据中心网络显得尤为重要盒式交换机。近日,华为联合中国信息通信研究院共同发布的数据中

随着数字经济进入“算力时代”,在算力蓬勃发展的同时,打造一张与时俱进的高水平数据中心网络显得尤为重要盒式交换机。近日,华为联合中国信息通信研究院共同发布的数据中心超融合以太技术白皮书,就为我们擘画了一张高水平数据中心网络的新蓝图。

数据中心网络持续进阶,超融合以太技术正当其时

决定一个木桶能装多少水的往往是最短的那块木板盒式交换机,那么,算力时代的数据中心最短的那块木板是什么呢?

数据中心网络持续进阶,超融合以太技术正当其时

数据中心网络是实现数据传输的重要通道,也是推动数据中心算力服务能力升级,实现算力充分释放的关键盒式交换机。数据中心网络主要负责连接用户终端以及数据中心内部的计算、存储等设备,保障数据通信网络链路上高效、安全的传输。

《中国综合算力指数(2022年)》报告中明确指出计算、存储和网络是算力最重要的组成部分,在数字经济发展新时期,要更加关注构建集算力、存力和运力于一体的数据中心盒式交换机。由于网络设备算力水平无法满足要求而引发的“木桶效应”,可能会拉低整个数据中心的实际算力水平。因此,要提升数据中心算力服务能力,就需要进一步提升数据中心网络性能。

IDC分析报告显示,以太网是当前以及未来数据中心的主要技术,当前数据中心以太网占比已经接近95%盒式交换机。众所周知,标准以太网络采用尽力而为的工作机制,天然有丢包的特性对存储的性能稳定性带来了极大的影响。算力时代,0.1%的丢包会导致50%的算力损失。因此传统以太网已经不适应现在算力时代数据中心的要求。推动以太网进化从而搭建先进网络架构的时代已然来临,以太网正在从“尽力而为”型向“性能敏感”型网络演进。

展开全文

从网络架构、带宽、时延、可靠性、应用加速、网络技术演进六个方面来看,数据中心网络正在从传统以太、无损以太向超融合以太升级盒式交换机

数据中心网络持续进阶,超融合以太技术正当其时

具体来看,超融合以太技术具备五大优势盒式交换机

01

网络级负载均衡算法盒式交换机,释放AI算力

AI集群训练过程中,参数通过高速互联网络在不同的服务器间进行同步交互,这些通信流量具有共同的特征:流量成周期性、流数量少、流量长连接、并行任务间有强实时同步性要求,通信效率取决于最慢的节点,并且AI集群训练场景下,传输的数据量较大盒式交换机。上述的流量特征导致网络较易出现负载分担不均、整网吞吐下降的问题,从而影响AI集群训练的性能。

现有创新的网络均衡技术NSLB是面向AI训练场景量身打造的,根据该场景下的流量特征,将搜集到的整网信息作为创新算路算法的输入,从而得到最优的流量转发路径,实现AI训练场景下整网流量100%的均衡度和AI训练性能的提升盒式交换机

02

端网协同拥塞控制实现存储算力优化

高性能计算、AI模型训练等应用场景,以及数据中心网络/云网络在架构上的发展(资源池化),均要求网络传输排队时延和吞吐上的进一步性能提升盒式交换机

端网协同拥塞控制技术采用“端(智能网卡)网(交换机)”配合的方式达到交换机上的近似“零排队”时延,使得端到端传输时延接近静态时延盒式交换机

端网协同主要根据网络可用带宽,调整端侧发送速率,这种源端与交换机之间的密切配合使网络中的队列近乎为空,同时能保持接近100%的利用率盒式交换机。和当前业界主流的协同算法相比,端网协同算法C-AQM能够把排队时延控制得极低,接近于0,同时瓶颈链路达到接近100%利用率。

03

数据面快速收敛盒式交换机,提供分布式数据库高可靠算力

随着业务发放速度的不断加快,以及引入了VM、容器等虚拟化技术,网络流量的不确定性增加盒式交换机。而当前运维手段有限,仍然依靠传统网管和命令行方式进行查看、监控,分钟级的网络监控已经无法满足业务秒级体验保障的要求,往往被动感知故障。故障发生后,定位仍主要依赖专家经验,利用多种辅助工具,逐段定界、逐流分析、抓包定位,效率十分低下。

网络故障收敛慢对业务稳定性产生的负面影响,尤其会造成高性能数据库类业务性能的严重下降盒式交换机。为了解决上述故障收敛慢的问题,华为提出了一种基于网络设备数据面的链路故障快速自愈技术,称为DPFF(Data Plane Fast Failover)。该技术基于转发芯片的硬件可编程能力构建。DPFF从传统的基于控制面软件协议的收敛方式演进到基于数据面硬件极速感知故障和快速换路的收敛方式,并且基于数据面硬件实现远程通告和快速换路,可达到亚毫秒级(<1ms)的收敛速度,将对业务性能的影响降至最低。该技术为高性能数据库、存储以及超算等关键应用提供了极致的高可靠性保证和稳定性体验。

测试结果表明,DPFF收敛方案比传统的OSPF收敛方案在链路故障下,每100ms周期内完成交易事务数量下降减少60%~80%盒式交换机

04

网络架构创新盒式交换机,构建E/10E级超大规模算力集群

5G、万物互联智能时代产生海量数据,智能训练大模型部署,国家新一代超级计算中心的规划建设……爆炸式增长的算力需求与实际算力增长速度之间存在巨大鸿沟盒式交换机。在后摩尔时代,通过构建大规模并行计算集群满足不断增长的算力需求,如10E级计算集群其计算服务器规模达到20万以上。

计算集群网络传统采用CLOS架构,以业界常见的64口盒式交换机为例,3级CLOS架构,最大可支持6.5万服务器接口,不满足10E级计算集群规模诉求盒式交换机。如果增加网络层数则会带来网络跳数增加,通信时延不满足业务需求。

业界针对该问题开展了多样的架构研究和新拓扑的设计盒式交换机。直连拓扑在超大规模组网场景下,因为网络直径短,具备低成本、端到端通信跳数少的特点。以64口盒式交换机构建10万个节点超大规模集群为例,传统的CLOS架构需要部署4层组网,端到端通信最大需要跨7跳交换机。使用无阻塞直连拓扑组网,端到端交换机转发跳数最少只3跳,交换机台数(整体投资)下降40%。

05

业务级SLA保障盒式交换机,实现数据中心一张网

为了解决这个难题,华为提出超融合智能无损网络方案,将业务级SLA智能保障技术引入到交换机中,用iLossless智能无损算法代替专家经验,对网络流量的变化进行基于队列级捕获和预测,实现细粒度动态差异化优化盒式交换机。结合不同业务的流量变化情况以及业务特征,实现不同业务流量差异化动态优化保障。

根据实验室测试,采用3台华为交换机组成2级Spine-Leaf组网,每台接入层交换机下挂16台100GE服务器,Spine与每个Leaf之间采用4个400G互联(1:1收敛)盒式交换机。在计算和存储benchmark流量混跑的测试环境下,智能无损算法相比于传统算法配置,在保持存储持平前提下,能够有效降低计算任务的总体完成时间,在测试场景中实现最高20%以上的计算时延降低。

随着数字产业智能化向智能世界发展,未来数据中心将朝着多云异构算力演进,要构建强大的算力,需要各类资源高度协同,深度融合盒式交换机。新算力,对网络提出了新的诉求,下一代数据中心需要超融合以太技术给新算力进行新的赋能,以应对新的挑战。作为数据中心动脉血管新的路标,一张开放、自主的超融合以太网络将多维度与各类算力资源协同,全面提升网络性能,通过网络全栈技术的持续创新,为新算力赋能,释放更高算力,从而助力“高算力、高安全、高效能、高可靠”的新型算力中心建设。


推荐阅读
  • 本文探讨了如何在日常工作中通过优化效率和深入研究核心技术,将技术和知识转化为实际收益。文章结合个人经验,分享了提高工作效率、掌握高价值技能以及选择合适工作环境的方法,帮助读者更好地实现技术变现。 ... [详细]
  • 深入解析Serverless架构模式
    本文将详细介绍Serverless架构模式的核心概念、工作原理及其优势。通过对比传统架构,探讨Serverless如何简化应用开发与运维流程,并介绍当前主流的Serverless平台。 ... [详细]
  • PostgreSQL 最新动态 —— 2022年4月6日
    了解 PostgreSQL 社区的最新进展和技术分享 ... [详细]
  • 深入解析 Apache Shiro 安全框架架构
    本文详细介绍了 Apache Shiro,一个强大且灵活的开源安全框架。Shiro 专注于简化身份验证、授权、会话管理和加密等复杂的安全操作,使开发者能够更轻松地保护应用程序。其核心目标是提供易于使用和理解的API,同时确保高度的安全性和灵活性。 ... [详细]
  • 探索电路与系统的起源与发展
    本文回顾了电路与系统的发展历程,从电的早期发现到现代电子器件的应用。文章不仅涵盖了基础理论和关键发明,还探讨了这一学科对计算机、人工智能及物联网等领域的深远影响。 ... [详细]
  • 科研单位信息系统中的DevOps实践与优化
    本文探讨了某科研单位通过引入云原生平台实现DevOps开发和运维一体化,显著提升了项目交付效率和产品质量。详细介绍了如何在实际项目中应用DevOps理念,解决了传统开发模式下的诸多痛点。 ... [详细]
  • 2018年3月31日,CSDN、火星财经联合中关村区块链产业联盟等机构举办的2018区块链技术及应用峰会(BTA)核心分会场圆满举行。多位业内顶尖专家深入探讨了区块链的核心技术原理及其在实际业务中的应用。 ... [详细]
  • 尽管深度学习带来了广泛的应用前景,其训练通常需要强大的计算资源。然而,并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下(如ARM CPU)高效运行深度神经网络,特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]
  • 本文作者分享了在阿里巴巴获得实习offer的经历,包括五轮面试的详细内容和经验总结。其中四轮为技术面试,一轮为HR面试,涵盖了大量的Java技术和项目实践经验。 ... [详细]
  • 探讨如何真正掌握Java EE,包括所需技能、工具和实践经验。资深软件教学总监李刚分享了对毕业生简历中常见问题的看法,并提供了详尽的标准。 ... [详细]
  • 优化局域网SSH连接延迟问题的解决方案
    本文介绍了解决局域网内SSH连接到服务器时出现长时间等待问题的方法。通过调整配置和优化网络设置,可以显著缩短SSH连接的时间。 ... [详细]
  • 通过Web界面管理Linux日志的解决方案
    本指南介绍了一种利用rsyslog、MariaDB和LogAnalyzer搭建集中式日志管理平台的方法,使用户可以通过Web界面查看和分析Linux系统的日志记录。此方案不仅适用于服务器环境,还提供了详细的步骤来确保系统的稳定性和安全性。 ... [详细]
  • FinOps 与 Serverless 的结合:破解云成本难题
    本文探讨了如何通过 FinOps 实践优化 Serverless 应用的成本管理,提出了首个 Serverless 函数总成本估计模型,并分享了多种有效的成本优化策略。 ... [详细]
  • 本文介绍了如何利用 Spring Boot 和 Groovy 构建一个灵活且可扩展的动态计算引擎,以满足钱包应用中类似余额宝功能的推广需求。我们将探讨不同的设计方案,并最终选择最适合的技术栈来实现这一目标。 ... [详细]
  • 福克斯新闻数据库配置失误导致1300万条敏感记录泄露
    由于数据库配置错误,福克斯新闻暴露了一个58GB的未受保护数据库,其中包含约1300万条网络内容管理记录。任何互联网用户都可以访问这些数据,引发了严重的安全风险。 ... [详细]
author-avatar
HuPangpang_
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有