热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

浪潮AI服务器NF5488A5在MLPerf基准测试中刷新多项纪录

近日,国际权威AI基准测试平台MLPerf发布了最新的推理测试结果,浪潮AI服务器NF5488A5在此次测试中创造了18项性能纪录,显著提升了数据中心AI推理性能。

国际权威AI基准测试平台MLPerf近日公布了最新一轮的推理测试结果,浪潮AI服务器NF5488A5在此次测试中表现出色,共创造了18项性能纪录,在数据中心AI推理性能方面领先于其他品牌的产品。

MLPerf是全球公认的AI计算基准评测组织,由图灵奖得主大卫·帕特森(David Patterson)联合谷歌、斯坦福、哈佛大学等机构共同创立,每年组织全球范围内的AI训练和推理性能测试并发布排行榜。此次MLPerf的AI推理基准测试吸引了来自全球的23家企业和研究机构参与,涵盖了数据中心和边缘计算等多个应用场景。此前,MLPerf已于7月发布了今年的训练性能榜单。

浪潮NF5488A5在数据中心AI性能测试中表现卓越

在此次测试中,浪潮NF5488A5不仅创造了18项MLPerf推理性能纪录,成为此次测试中创纪录最多的AI服务器,还在数据中心AI性能测试中取得了显著的成绩。在22个数据中心测试项目中,NF5488A5赢得了13项性能纪录,展现出强大的竞争力。相比之下,NVIDIA DGX仅获得了5项数据中心性能纪录。值得注意的是,在之前的MLPerf训练性能测试中,NF5488A5也在关键的ResNet50训练任务中创造了性能纪录,其单机性能位居榜首。

性能提升显著,全栈AI能力突出

在此次基准测试中,浪潮AI服务器NF5488A5在开放优化(Open)和固定任务(Closed)的ResNet50基准性能测试中均表现出色,相比2019年的最佳性能提升了近3倍。NF5488A5是浪潮自主研发的新一代AI服务器,能够在4U的空间内支持8块基于安培架构的A100芯片,并通过NVLink技术实现高速互联。该服务器采用了超低延迟设计,支持PCIe 4.0全链路优化,以及高频通信单元的一级拓扑最近连接,最大限度地提高了处理器与AI芯片之间的通信性能。

此外,NF5488A5还通过配置NUMA节点,确保每颗处理器与其直连的GPU之间的通信性能达到最优,从而最大限度地降低了通信延迟。系统结构的深度优化也保证了设备在高温环境下的稳定运行。在软硬件协同优化方面,浪潮通过精细校准和全面优化CPU、GPU硬件性能,使这些组件在AI推理过程中处于最佳状态。在软件层面,浪潮优化了多GPU的轮询调度,实现了从单卡到多卡的近似线性性能扩展;在深度学习算法层面,通过自研的通道压缩算法,成功实现了模型的极致性能优化,使得在不损失精度的情况下性能提升接近两倍。

这些技术进步不仅展示了浪潮在AI计算领域的深厚积累,也为未来AI技术的发展提供了新的动力。


推荐阅读
  • 一面问题:MySQLRedisKafka线程算法mysql知道哪些存储引擎,它们的区别mysql索引在什么情况下会失效mysql在项目中的优化场景&# ... [详细]
  • 深入理解Kafka架构
    本文将详细介绍Kafka的内部工作机制,包括其工作流程、文件存储机制、生产者与消费者的具体实现,以及如何通过高效读写技术和Zookeeper支持来确保系统的高性能和稳定性。 ... [详细]
  • 深入解析:主流开源分布式文件系统综述
    本文详细探讨了几款主流的开源分布式文件系统,包括HDFS、MooseFS、Lustre、GlusterFS和CephFS,重点分析了它们的元数据管理和数据一致性机制,旨在为读者提供深入的技术见解。 ... [详细]
  • 本文提供了一套实用的方法论,旨在帮助开发者构建能够应对高并发请求且易于扩展的Web服务。内容涵盖了服务器架构、数据库管理、缓存策略以及异步处理等多个方面。 ... [详细]
  • 58同城的Elasticsearch应用与平台构建实践
    本文由58同城高级架构师于伯伟分享,由陈树昌编辑整理,内容源自DataFunTalk。文章探讨了Elasticsearch作为分布式搜索和分析引擎的应用,特别是在58同城的实施案例,包括集群优化、典型应用实例及自动化平台建设等方面。 ... [详细]
  • Java性能优化指南 | 制定有效的性能优化策略
    探讨Java应用性能优化的方法与策略,包括性能测试技巧、常见问题及解决方案,旨在帮助开发者提升系统性能。 ... [详细]
  • 智能全栈云风暴:AI引领的企业转型之路
    当提及AI,人们脑海中常浮现的是天才少年独自编写算法,瞬间点亮机器人的双眼。然而,真正的AI革命正由大型企业和机构推动,它们利用全栈全场景AI技术,实现数字化与智能化的深度转型。 ... [详细]
  • 车载T-BOX智能网联终端的设计与实现
    本文介绍了一款基于瑞萨RH850微控制器、TICC2640R2F蓝牙微控制器和高通MDM9628处理器的T-BOX车载终端的设计。该终端通过集成CAN总线、GPS定位、数据加密、蓝牙通信和LTE无线数据传输技术,实现了车辆信息的高效采集与云端通信,支持远程车辆控制和诊断等功能。 ... [详细]
  • 近期尝试重构 GDI 并自定义图像处理函数时,发现自定义函数的图像复制性能显著低于 Windows 原生 GDI 函数。通过研究了解到,系统可能利用了 GPU 加速来提升这些函数的效率。 ... [详细]
  • 本文介绍了数字音视频编解码技术标准,特别是中国自主研发的AVS标准,及其在短视频软件开发中的应用。文章探讨了AVS标准的发展历程、技术特点以及与国际标准的对比。 ... [详细]
  • socket函数SOCKET()我们使用系统调用socket()来获得文件描述符:#include#includei ... [详细]
  • 构建Snowflake中的近实时数据摄取管道
    探索如何在Snowflake中构建高效的近实时数据摄取管道,利用其内外表特性及Snowpipe服务,实现数据的快速、稳定加载。 ... [详细]
  • Qwik:一款创新的JavaScript框架,致力于提升网页应用的速度与响应性
    Qwik是一款新的JavaScript框架,旨在通过其独特的可恢复性机制,显著提高网页应用的加载速度和用户体验。 ... [详细]
  • 图像分类算法的优化策略与实践
    本文探讨了《Bag of Tricks for Image Classification with Convolutional Neural Networks》论文中的多项技术,旨在通过具体实例和实验验证,提高卷积神经网络在图像分类任务中的性能。文章详细介绍了从模型训练加速、网络结构调整到训练参数优化等多个方面的改进方法。 ... [详细]
  • 利用GitHub热门资源,成功斩获阿里、京东、腾讯三巨头Offer
    Spring框架作为Java生态系统中的重要组成部分,因其强大的功能和灵活的扩展性,被广泛应用于各种规模的企业级应用开发中。本文将通过一份在GitHub上获得极高评价的Spring全家桶文档,探讨如何掌握Spring框架及其相关技术,助力职业发展。 ... [详细]
author-avatar
tryccl
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有