叫板英特尔，英伟达发布首个CPU，集齐“三芯”！

作者：坐看末日之景L_170 | 来源：互联网 | 2023-08-12 21:54

作者|马超出品|CSDN（ID：CSDNnews）昨日，在英伟达的新品发布会大会上，英伟达CEO黄仁勋如期拿出

作者 | 马超

出品 | CSDN&＃xff08;ID&＃xff1a;CSDNnews&＃xff09;

昨日&＃xff0c;在英伟达的新品发布会大会上&＃xff0c;英伟达 CEO 黄仁勋如期拿出了首款 CPU 芯片 Grace&＃xff0c;剑指 AI 云计算&＃xff0c;其实笔者在之前的文章就曾指出&＃xff0c;英伟达收购 ARM 预示着 N 厂必然进军 CPU 领域&＃xff0c;在云计算市场有所作为。而本次发布会上除了 Grace 之外&＃xff0c;英伟达还发布了 Transformers 框架——NVIDIA Megatron&＃xff1b;药物研发加速库 Clara Discovery 模型等产品&＃xff0c;也侧面印证了笔者的观点&＃xff0c;英伟达正在软硬齐发为进军云数据中心领域铺平道路。

英伟达 CEO 黄仁勋&＃xff0c;来源&＃xff1a;NVIDIA GTC

无独有偶&＃xff0c;上周英特尔也发布了 10nm 的至强三代处理器&＃xff0c;在新任 CEO 帕特.基辛格的带领下&＃xff0c;英特尔也要加强自身在云计算领域的优势&＃xff0c;不过在这场英特尔对阵英伟达的“双英”大战中&＃xff0c;双方的策略明显不同&＃xff0c;英特尔注重于全面&＃xff0c;除了 AI 以外还在安全、虚拟化及调度能力以及存储性能等等方面全线开花&＃xff1b;但是英伟达则在专注于 AI 云及低功耗超级计算机几个重要领域进行定点突破。

虽然目前还无法预测“双英”大战的结局&＃xff0c;不过 AI 云计算的发展空间还是有目共睹的&＃xff0c;从最新的 AI 发展趋势来看&＃xff0c;最新的人工智能模型对于算力的要求往往都是非常高&＃xff0c;比如可以自动写代码的 GPT-3 其参数规模突破了 1000 亿&＃xff0c;而 GPT-3 的变种&＃xff0c;可以将文字描述转化为图像的跨模态生成模型 DALL.E&＃xff0c;其模型参数数量更是达到了惊人的 1500 亿&＃xff0c;不少 AI 方面的科学家指出&＃xff0c;越大的模型往往表现更好&＃xff0c;扩大规模可能仍然是实现更好性能的方式。用黄仁勋在发布会上的话来说“三年间大规模预训练模型的参数量增加了 3000 倍。我们估计在 2023 年会出现 100 万亿参数的模型。”目前资金实力一般的创业公司将越来越难以通过自身的算力去训练最新、最好的 AI 模型。

从另一个角度讲&＃xff0c;AI 模型越来越大的趋势也推进了 AI 与云的结合&＃xff0c;只有充分发挥云计算降本增效的特性&＃xff0c;才能降低门槛&＃xff0c;促进 AI 行业创新性发展。也只有做好 AI 云&＃xff0c;才能让 AI 充分发挥威力&＃xff0c;体现价值。我们看到本次英伟达围绕着 AI 云计算&＃xff0c;在 CPU、智能驾驶及配套软件方面同都有不少的进展&＃xff0c;接下来&＃xff0c;本文将为大家逐一进行解读。

Grace 打破内存与显存之间的墙

由于 ARM 使用 RISC 风格的精简指令集&＃xff0c; ARM 核心在指令预测等方面同天然比 X86 更有优势&＃xff0c;能耗也比 X86 更低。当然这些都是 ARM 相对于 X86 的传统优势&＃xff0c;本次 Grace 最大的创新点在于把 CPU 与 GPU 之间的通信速度提升了近 10 倍。根据黄仁勋的说法&＃xff0c;“这是一万名工程人员历经几年的研发成果&＃xff0c;旨在满足当前世界最先进应用程序的计算需求&＃xff0c;其具备的计算性能和吞吐速率是以往任何架构所无法比拟的。”

CPU 和 GPU 的通信速度的重要性&＃xff0c;可以用苹果 M1 的例子来加以说明&＃xff0c;我们知道苹果 M1 显卡与内存加在一起只有 16 个 G&＃xff0c;对比上一代 Mac PRO 内存128G&＃xff0c;光是显存都有 16G&＃xff0c;不过搭载 M1 的入门版 Mac 在进行图像处理等需要 CPU 与 GPU 进行协同的运算任务时&＃xff0c;至少比上一代顶配的 Mac 性能高出近一倍。其中的秘决就是将内存与显卡进行统一管理&＃xff0c;从而大大提高了 CPU 与 GPU 的通信效率。

当然苹果将内存与显存混用的做法&＃xff0c;在云计算这种多租户共存的场景下并不太适用&＃xff0c;但是现有 GPU 与 CPU 共享内存的做法效率确实不佳&＃xff0c;在共享内存的方案下&＃xff0c;CPU 和 GPU 必须轮流访问内存&＃xff0c;这就意味着他们要争夺数据总线的使用权。因此 GPU 和 CPU 不得不轮流使用一个狭窄的通信管道来做数据交换。而英伟达的 Grace 在这方面做出了突破性的进展。

类似于 DMA 控制器在磁盘与内存之间搭建了一条快速通道一样&＃xff0c;Grace 体系中 GPU 核心与 CPU 核心之间的通信不需要 CPU 的调度&＃xff0c;也不需要占用数据总线的带宽&＃xff0c;之前 CPU 必须将数据从其内存的区域复制到 GPU 使用的区域&＃xff0c;而在 Grace 的加持下&＃xff0c;CPU 只需要告诉GPU在内存的某位置有 30MB 的向量数据&＃xff0c;然后就可以去做其它事了&＃xff0c;GPU 则可以通过 Grace 复制通道迅速开始计算任务。

可以说 Grace 的快速能道基本还在笔者的射程范围之内&＃xff0c;而英伟达马上要推出的 L5 级别自动驾驶芯片&＃xff0c;就只能令人仰望了。

英伟达自动驾驶Orin-剑指L5的雄伟蓝图

钢铁侠马斯克上周刚刚宣布特斯拉全新的自动驾驶系统 FSD Beta9.0 已经接近完成&＃xff0c;有消息称 FSD 的自动驾驶能力要达到 L5 级&＃xff0c;这真是一个震惊世界的消息&＃xff0c;因为目前特斯拉的 AutoPilot 还没有达到 L3 的程度。

在业界公认的自动驾驶 L 级分类标准中&＃xff0c;依据驾驶任务中 AI 与人类的角色分配以及有无设计运行条件限制等因素&＃xff0c;将驾驶自动化分成 0 至 5 级。其中0级为应急辅助级在应急情况下帮助驾驶员进行辅助操作&＃xff0c;在 0 级至 2 级自动驾驶中&＃xff0c;监测路况并做出反应的任务都由驾驶员和系统共同完成&＃xff0c;并需要驾驶员接管动态驾驶任务&＃xff1b;3 级为有条件自动驾驶&＃xff0c;4 级高度自动驾驶仅在特定条件下需要驾驶员参与&＃xff1b;5 级完全自动驾驶的驾驶自动化系统在其设计运行条件内&＃xff0c;能够持续地执行全部动态驾驶任务和执行动态驾驶任务接管&＃xff0c;驾驶员可以完全退化为乘客的角色。

L5 级别的自动驾驶看似不是从0到1的开创性工作&＃xff0c;但从实践上看&＃xff0c;想真正实现全天候的自动驾驶难度极大&＃xff0c;从谷歌的公开资料中我们可以知道一台自动驾驶测试车辆每天至少会产生10T的数据量&＃xff0c;平均每分钟都要处理几百M的数据&＃xff0c;而且自动驾驶的决策延时必须要控制得极低&＃xff0c;汽车以80公里/小时的速度运行时其机械制动距离就接近30米&＃xff0c;想保证安全留给自动驾驶的反应时间通常只有0.1秒&＃xff0c;而且作何一点决策上的失误都可能造成极其严重的后果。

简单说 L5 级别的自动驾驶是一个每秒数据处理能力 1 个 G&＃xff0c;数据处理延时不能超过0.1s&＃xff0c;而且可靠性还不能低于 99.999999% 的极精密系统&＃xff0c;再考虑其 AI 模型的上百亿个参数&＃xff0c;这个系统对于算力的要求是十分惊人的&＃xff0c;不过更惊人的是黄仁勋表示英伟达就是要干这个。

根据计划&＃xff0c;英伟达将于 2022 年投产支持 L5 自动驾驶的汽车计算系统级芯片NVIDIA DRIVE Orin&＃xff0c;与此同时英伟达还在发布会上展示了搭载 3 个 Orin 核心的 Hyperion 8 自动驾驶汽车平台&＃xff0c;据称 Hyperion 8 是业内算力最强的自动驾驶汽车模板&＃xff0c;当然这款芯片目前还没有量产&＃xff0c;也没有具体细节的发布&＃xff0c;因此笔者这里只能先对英伟达表示 Respect。

AI 软件的背后&＃xff1a;感知智能向认知智能的演进

从实现快速计算、记忆与存储的“计算智能”&＃xff0c;到识别处理语音、图像、视频的“感知智能”&＃xff0c;再到实现思考、理解、推理和解释的“认知智能”&＃xff0c;人工智能发展的终极目标是赋予机器人类的智慧。近年来&＃xff0c;语音识别、人脸识别等“感知智能”技术已相对成熟&＃xff0c;甚至在许多领域已经达到或超出了人类的水平。但这些技术仅在工具、模型层面实现了突破&＃xff0c;对诸如需要专家知识、逻辑推理或者领域迁移等需要去思考、规划、联想、创作的复杂任务时&＃xff0c;表现不佳。不过随着大数据、云计算、深度学习等技术的蓬勃发展&＃xff0c;探索在如何保持大数据智能优势的同时&＃xff0c;赋予机器常识和因果逻辑推理能力&＃xff0c;实现“认知智能”&＃xff0c;成为当下人工智能研究的核心。

从人机协作的角度上看&＃xff0c;人类在处理抽象化、情绪化、非逻辑性的问题上有着不可逾越的优势&＃xff0c;而大量重复、海量计算和海量记忆则是人工智能的强项。而AI目前一个重要的发展方向就是让人机两者的强项联合&＃xff0c;取长补短&＃xff0c;比如金融行业的呼叫中心需要分析客户的语气&＃xff0c;在必要时引入人工服务&＃xff1b;出行类 APP 遇到客户说出某些关键词时,则需要立刻与 110 人工报警台联动报警。这样的大趋势下也就更需要 AI 由单纯的感知世界向认知世界去进行升级。我们看到阿里、腾讯的论文&＃xff0c;近年来在 KDD 及 CVPR 这样的 AI 顶会上获得不俗的成绩&＃xff0c;多半也是源于对于认知智能的突破性贡献&＃xff0c;而英伟达本次推出的与 AI 系统对应的配套软件中也顺应了这一潮流。

本次发布的 Transformers 训练框架 NVIDIA Megatron、Morpheus 数据中心安全平台、新一代人工智能对话机器人 NVIDIA Jarvis、推荐系统是 NVIDIA Merlin、隐私保护加强的 AI 辅助套件 NVIDIA TAO&＃xff0c;从本质上讲都是认知智能的一种体现。

纵观整场发布会&＃xff0c;英伟达真可谓是 AI 与智能驾驶齐飞&＃xff0c;CPU 与 GPU 跨界。新时代的计算机需要新的芯片、新的系统架构、新的网络、新的软件和工具。英伟达全新的数据中心路线图已包括 CPU、GPU 和 DPU 三类芯片&＃xff0c;将英伟达也将被重新定义为三芯片公司。

2020-2021中国开发者调查报告重磅来袭&＃xff0c;直接扫码或微信搜索「CSDN」公众号&＃xff0c;后台回复关键词「开发者」&＃xff0c;快速获取完整的报告内容&＃xff01;

在这里插入图片描述

推荐阅读

ip
兆芯X86 CPU架构的演进与现状（国产CPU系列）

本文详细介绍了兆芯X86 CPU架构的发展历程，从公司成立背景到关键技术授权，再到具体芯片架构的演进，全面解析了兆芯在国产CPU领域的贡献与挑战。 ... [详细]

蜡笔小新 2024-11-14 15:04:34
ip
华为捐赠欧拉操作系统，承诺不推商用版

华为近日宣布将欧拉开源操作系统捐赠给开放原子开源基金会，并承诺不会推出欧拉的商用发行版。此举旨在推动欧拉和鸿蒙操作系统的全场景融合与生态发展。 ... [详细]

蜡笔小新 2024-11-14 13:19:40
io
在Windows系统中安装TensorFlow GPU版的详细指南与常见问题解决

在Windows系统中安装TensorFlow GPU版是许多深度学习初学者面临的挑战。本文详细介绍了安装过程中的每一个步骤，并针对常见的问题提供了有效的解决方案。通过本文的指导，读者可以顺利地完成安装并避免常见的陷阱。 ... [详细]

蜡笔小新 2024-11-11 19:02:49
io
线程能否先以安全方式获取对象，再进行非安全发布？

线程能否先以安全方式获取对象，再进行非安全发布？ ... [详细]

蜡笔小新 2024-11-09 09:21:53
go
利用GPS获取坐标并分析其在Google地图上的偏差

通过手机获取的GPS坐标在手机地图上存在约100-200米的偏差，但在Google Maps中搜索同一坐标时，定位非常精确。这种偏差可能出于安全或隐私考虑而被有意引入。此外，不同设备和环境下的GPS信号强度和精度也会影响最终的定位结果。 ... [详细]

蜡笔小新 2024-11-08 18:23:26
go
如何在低配置电脑上下载并运行《绝地求生》游戏？

如何在低配置电脑上下载并运行《绝地求生》游戏？ ... [详细]

蜡笔小新 2024-11-07 18:44:42
io
Android中将独立SO库封装进JAR包并实现SO库的加载与调用

在Android开发中，将独立的SO库封装进JAR包并实现其加载与调用是一个常见的需求。本文详细介绍了如何将SO库嵌入到JAR包中，并确保在外部应用调用该JAR包时能够正确加载和使用这些SO库。通过这种方式，开发者可以更方便地管理和分发包含原生代码的库文件，提高开发效率和代码复用性。文章还探讨了常见的问题及其解决方案，帮助开发者避免在实际应用中遇到的坑。 ... [详细]

蜡笔小新 2024-11-07 14:28:55
io
【图像分类实战】利用DenseNet在PyTorch中实现秃头识别

本文详细介绍了如何使用DenseNet模型在PyTorch框架下实现秃头识别。首先，文章概述了项目所需的库和全局参数设置。接着，对图像进行预处理并读取数据集。随后，构建并配置DenseNet模型，设置训练和验证流程。最后，通过测试阶段验证模型性能，并提供了完整的代码实现。本文不仅涵盖了技术细节，还提供了实用的操作指南，适合初学者和有经验的研究人员参考。 ... [详细]

蜡笔小新 2024-11-06 15:21:35
io
摩尔线程新款国产显卡曝光：8GB显存，性能超越GTX 660，售价预计超千元

摩尔线程新款国产显卡曝光：8GB显存，性能超越GTX 660，售价预计超千元 ... [详细]

蜡笔小新 2024-11-06 13:43:43
io
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
ip
EST：西湖大学鞠峰组污水厂病原菌与土著反硝化细菌是多重抗生素耐药基因的活跃表达者...

点击蓝字关注我们编译：祝新宇校稿：鞠峰、袁凌论文ID原名：PathogenicandIndigenousDenitrifyingBacte ... [详细]

蜡笔小新 2024-11-13 21:09:41
ip
CentOS 6.7系统维护：查看补丁及常用巡检命令汇总

在 CentOS 6.7 系统维护中，常用的巡检命令包括：`uname -a` 用于查看内核、操作系统和 CPU 信息；`head -n 1 /etc/issue` 用于查看操作系统的版本；`cat /proc/cpuinfo` 用于获取详细的 CPU 信息；`hostname` 用于显示当前主机名；`ls` 命令则用于列出目录内容。这些命令可以帮助系统管理员快速了解系统的运行状态和配置信息，确保系统的稳定性和安全性。 ... [详细]

蜡笔小新 2024-11-10 11:31:40
io
Hibernate（第四部分）：深入探讨缓存机制与懒加载策略

在探讨Hibernate框架的高级特性时，缓存机制和懒加载策略是提升数据操作效率的关键要素。缓存策略能够显著减少数据库访问次数，从而提高应用性能，特别是在处理频繁访问的数据时。Hibernate提供了多层次的缓存支持，包括一级缓存和二级缓存，以满足不同场景下的需求。懒加载策略则通过按需加载关联对象，进一步优化了资源利用和响应时间。本文将深入分析这些机制的实现原理及其最佳实践。 ... [详细]

蜡笔小新 2024-11-07 16:19:28
io
SpringBoot 教程系列（56）：配置SSL证书实现HTTPS安全访问

在日常的项目开发中，测试环境和生产环境通常采用HTTP协议访问服务。然而，从浏览器的角度来看，这种访问方式会被标记为不安全。为了提升安全性，当前大多数生产环境已经转向了HTTPS协议。本文将详细介绍如何在Spring Boot应用中配置SSL证书，以实现HTTPS安全访问。通过这一过程，不仅可以增强数据传输的安全性，还能提高用户对系统的信任度。 ... [详细]

蜡笔小新 2024-11-07 08:56:04
ip
音视频服务Java Web服务器部署详解与验证流程

本文详细介绍了如何在Java Web服务器上部署音视频服务，并提供了完整的验证流程。以AnyChat为例，这是一款跨平台的音视频解决方案，广泛应用于需要实时音视频交互的项目中。通过具体的部署步骤和测试方法，确保了音视频服务的稳定性和可靠性。 ... [详细]

蜡笔小新 2024-11-06 14:45:13

坐看末日之景L_170

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章