今天,我们正在进入大数据的新时代。在刚刚结束的2019数博会上,专家指出人类正式进入了数据时代,数字经济成为当今时代发展最快创新最活跃,辐射最广泛的经济活动,正在深刻的改变着人类的生产和生活方式。2018年我国数字经济规模达到了31.3万亿元,占GDP比重达34.8%。更进一步,5G、人工智能、大数据、移动互联网、物联网和云计算等新技术正协同融合点燃新时代引擎,为推动数字经济提供新动能。
作为数字经济的“燃料”,大数据中有大智慧,这是自2015年首届数博会就已经在全社会形成了广泛的共识。然而,从大数据中挖掘大智慧却并不容易。以人工智能为代表的分布式计算,被视为大智慧的普惠型挖掘方式。近年来,中国人工智能产业的发展迅速高于全球平均水平,但用好人工智能、真正发挥人工智能的商业价值却难。其中一个重要的原因,是承载人工智能计算的传统数据中心网络,正在遭遇AI算法的重大挑战。
今年华为发布了业界首款面向AI时代的数据中心交换机CloudEngine 16800,推动了数据中心的网络数据流量交换从云时代向AI时代的演进。基于CloudEngine系列交换机内嵌高性能AI芯片和独创的iLossless智能无损交换算法,华为推出AI Fabric智能无损数据中心网络解决方案,实现了零丢包、低时延和高吞吐的极致网络性能,100%发挥AI算力,全面解决AI算法带来的数据网络交换挑战。2019年4月,华为CloudEngine交换机荣获Gartner Peer Insights平台数据中心网络“客户之选”称号。这是Gartner在分析了来自拥有购买、实施和运营相关解决方案的客户的评论后得出的结论。
AI“挖掘机”的挑战
(华为数据中心交换机CloudEngine 16800系列)
通过AI人工智能挖掘海量数据的智慧,这是AI时代的最重要主题。人工智能和机器学习,从2016年AlphaGo的全球热潮,到各大技术厂商和云服务商推出各种AI算法、计算服务、软硬件设备和开源框架,已经在2019年形成了一个完整的商业化体系。华为GIV预测,到2025年,企业对AI的采用率将达到86%。越来越多的企业将AI视为新商业智慧的来源,利用AI协助决策、重建客户体验、重塑商业模式和生态系统,推动数字化转型。
AI要发挥和创造真正的商业价值,数据、算法和算力是三大关键挑战,而企业的数据中心则是大智慧的“挖掘机”和“智能+”引擎。传统企业数据中心,主要是处理事务型计算,特别是以ERP、CRM、数据仓库等为代表的企业级应用。而随着AI计算大量进入到企业的数据中心,数据中心正从快速业务处理型向高效数据处理型转型。而计算、存储与网络,这传统数据中心“三大件”,就面临重大的转型挑战,其中的网络是最难也是最关键的挑战。
实际上,随着传统数据中心的云化,即分布式架构化,为了满足人工智能分布式海量计算的需求,除了新型服务器和存储技术外,还需要满足海量计算的分布式信息交互需求,对通信量和通信性能的需求变得非常苛刻。Facebook曾对分布式机器学习平台Caffe2进行过测试,采用最新的多GPU服务器加速,8台服务器的计算任务就导致100Gbps Infiniband网络出现了资源不足而难以实现多节点的线性计算加速效果,网络性能正在严重制约人工智能算法发挥效用,更不用说实时人工智能计算了。
当前,随着数据中心工作负载的显著变化,数据中心的网络已经进行了很多技术变革,包括:低时延、高带宽的25GbE、40 GbE和100 GbE交换机以及更高速率的400 GbE交换机;升级到更高呑吐量的服务器网卡;InfiniBand、以太网、RDMA等各种网络通信协议,混合适应不同工作负载要求;显式拥塞通知(ECN)、流量控制(PFC)、以太网数据中心桥接(DCB)扩展等算法以改进交换机的缓冲资源管理,以及RoCE协议等支持零丢包消息传递等;此外还有虚拟化、SDN软件定义网络、基于AI/ML优化的自动化等。
总体来说,数据中心作为AI“挖掘机”,其网络技术生态已经陆续发生了变革,随着云计算以及AI/ML等新算法及应用的兴起,需要整体的网络技术生态管理,才能最大发挥AI算法,让AI创造真正的商业价值。
华为挖掘AI大智慧
(深圳机场)
为了满足AI时代的数据高效处理需求,应用分布式架构挑战,下一代数据中心网络具有三大核心诉求:零丢包、低时延、高呑吐。基于CloudEngine系列交换机,华为开发了面向人工智能时代数据中心的AI Fabric智能无损数据中心网络解决方案,以满足AI对于数据中心网络通信的变革要求。AI Fabric依靠AI智能芯片以及独特的iLossless智能无损交换算法,实现了零丢包、高呑吐和超低时延,为AI构建了一个统一融合的高效数据中心网络。
CloudEngine系列是华为公司面向下一代数据中心推出的“云和AI”级高性能交换机,包括业界首款面向AI时代的数据中心交换机CloudEngine 16800系列、高配置的旗舰级核心交换机CloudEngine 12800系列,高性能的汇聚/接入交换机CloudEngine 8800/7800/6800/5800系列,以及虚拟交换机CloudEngine 1800V。CloudEngine系列软件平台基于华为新一代的VRP8操作系统,支持丰富的数据中心和园区业务特性。
CloudEngine 16800全面升级了硬件交换平台,突破超高速信号传输、超强散热、高效供电等多项技术难题,单槽位可提供业界最高密度48端口400GE线卡,单机提供业界最大的768端口400GE交换容量,交换能力高达业界平均的5倍,满足AI时代流量倍增需求,同时单比特功耗下降50%、更绿色节能。而基于内置的AI芯片,CloudEngine 16800可大幅度提升设备级的智能化水平,让交换机具备本地推理和实时快速决策的能力,可构建分布式AI运维架构,实现秒级故障识别和分钟级故障自动定位,加速自动驾驶网络的到来。
基于CloudEngine系列特别是CloudEngine 16800,华为AI Fabric独创的算法,在保证零丢包的基础上,可实现最高吞吐和最低时延。业界通用的无损网络技术,难以同时满足零丢包、低时延和高吞吐这三个要求,因为这三个指标相互影响,存在着“跷跷板”效应。而在零丢包、低时延和高吞吐这三个指标背后,核心技术就是拥塞控制算法。华为独创的iLossless智能无损算法,通过动态ECN拥塞水线、Fast CNP快速拥塞反馈、VIQ虚拟输入队列等,最大程度满足了三个核心要求。
面对动态流量和海量参数的挑战,华为一方面投入研究团队分析各种应用,提炼出流量模型特征,另一方面通过交换机集成AI芯片实时采集流量特征和网络状态,基于AI算法、本地实时决策以及动态调整网络参数配置,合理高效利用交换机缓存、实现零丢包。加上智能分析平台FabricInsight,基于全局采集到的流量特征和网络状态数据,结合AI算法,对未来流量模型进行预测,从全局角度实时校正网卡和网络的参数配置。
根据第三方权威测试机构EANTC(欧洲高级网络测试中心,被公认为全球领先的电信独立测试中心之一)在2018年6月的测试,AI Fabric可以在HPC高性能计算场景下,最高降低44.3%的计算时延,在分布式存储场景下提升25%的IOPS能力,在所有场景保证网络零丢包。华为AI Fabric通过了EANTC的高性能数据中心基准测试,支持无丢包的消息传递和文件存储用例,高效地处理时延敏感的应用程序。在HPC和DFS基准测试中,华为AI Fabric在启用动态ECN时成功处理了数据中心混合流量,此外该解决方案对网络链路故障具有良好的弹性恢复能力。
另一家国际权威评测机构AvidThink在2019年出具的一份研究报告,指出华为AI Fabric是一种为数据中心以太网架构增值的创新方案,通过利用交换机内现有的资源,以及智能和自适应的管理技术来提升性能,包括利用AI来提供快速的故障解决,也受将到许多数据中心运营商的欢迎。AvidThink认为,如今的数据中心设备存在着很多的参数调优,人们很难找到正确的设置以优化数据中心负载。而随着负载的演变,人们更加不可能跟踪这些演变并不断优化Fabric设置。华为CloudEngine 16800核心交换机,通过嵌入式AI芯片和机器学习,在整个Spine-leaf(“脊-叶”)数据中心网络中自动调整端到端的性能,使用测试收集的数据构建初始模型,并根据客户的负载情况进行调整,最终提供最佳的端到端的无损性能。
2019年2月,华为委托国际权威测试机构Tolly,在三大应用场景(HPC高性能计算、分布式AI训练以及分布式存储)中,对华为AI Fabric解决方案进行了性能评估,并与思科Nexus交换机组网的性能进行了对比。华为和思科的方案均基于RDMA over Converged Ethernet(RoCEv2),在所有三大场景中,华为AI Fabric解决方案的性能均优于思科。
进入2019年,人工智能应用和数字经济建设面临着提质增速见实效的换档升级阶段。随着全社会积聚了越来越多的大数据,如何高效用好大数据和人工智能,为数字经济和数字化转型创造真正的价值,这就需要新的AI高速路。而华为新一代的CloudEngine网络交换设备以及AI Fabric解决方案,为AI时代创造速度新高度,帮助企业从大数据中真正挖掘大智慧。(文/宁川)