热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

寒武纪:等待下一个爆发期

前几日,寒武纪在官网宣布推出第三代云端AI芯片思元370及搭载该芯片的MLU370-S4、MLU370-X4加速卡和全新升级的CambriconNeuware软件栈等新品。没有华丽

前几日,寒武纪在官网宣布推出第三代云端AI芯片思元 370 及搭载该芯片的MLU370-S4、MLU370-X4 加速卡和全新升级的Cambricon Neuware软件栈等新品。没有华丽的发布会,没有炫彩的PPT,寒武纪发布新品的风格,依然是典型的朴素“理工男”特点。

在这个愈发重视AI芯片自主架构、能拥有“杀手级”应用场景、能实现算力突破与能耗双控的时代,思元 370 其实具有多项领先优势:

在架构上,思元 370 属于寒武纪第四代自研智能芯片架构,第一代架构MLUarch00 主打智能加速IP核,第二代MLUarch01 主打多核架构,第三代MLUarch02 主打多核共享片内存储,第四代MLUarch03 更是寒武纪首款采用 chiplet(芯粒)技术的AI芯片,在国内应该也属于行业首颗chiplet AI芯片。

在应用场景灵活性上,由于思元 370 在一颗芯片中封装 2 颗AI计算芯粒(MLU-Die),每一个MLU-Die都具备独立的AI计算单元、内存、IO以及MLU-Fabric控制和接口,不同MLU-Die可以组合规格多样化的产品,为用户提供适用不同场景的高性价比AI芯片。

在算力上基于台积电7nm 制程工艺、整体集成 390 亿个晶体管的思元 370 最大算力达到256TOPS(INT8),相比上一代思元 270 算力直接翻倍。

不到 18 个月就实现了算力翻倍,在通用处理器领域已经失效的摩尔定律,在AI芯片领域还在延续。

造芯片,技术和市场各有多重要

算力翻倍究竟有多重要?

现实世界对于算力的需求远没有到达顶峰。以英伟达为例,自 2017 年底英伟达发布Tesla V100 之后,训练最大模型的算力需求增长了 3000 倍。

举例来说,仅是分析 3000 万路视频,以常见的英伟达Tesla P4 显卡为例约需 100 万块,总硬件成本 200 亿元以上,一块显卡按照 75 瓦起步功耗计算总功耗也高达7. 5 万千瓦。

通过如思元 370 这样更具效率的AI芯片在云端场景替代传统GPU,就能够大幅降低前期基础设施建设成本,减少后期运行能耗。

可以说,思元 370 成功推出的背后,不仅是寒武纪研发人员的日夜努力,也是社会各行各业对更高效率AI芯片的迫切需求。正如恩格斯所说,社会一旦有技术上的需要,则这种需要就会比十所大学更能把科学推向前进

随着新一轮产业竞争与供应链争夺正在展开,对人工智能、数字化技术的需求只增不减。而各行各业更是向科创类产业企业界提出了前所未有的技术需求,在这种需求刺激下,AI创业企业的研发成果获得落地应用的机会更多,市场也更大。

乘风起势,市场的需求让AI芯片赛道涌入更多入局者,推动新技术的不断迭代,也让行业格局逐渐发生变动。

目前,英伟达在AI芯片领域仍具有最大的影响力。在全球云端训练芯片市场,英伟达基本是一家独大,其GPU+CUDA计算平台是应用最多的AI训练方案。在推理芯片领域,则呈现出百家争鸣的竞争生态,因为推理芯片更注重功耗、时延、成本等因素,且相比于训练芯片需求量更高,使用场景更广泛。

英伟达之外,英特尔、谷歌、IBM、AMD等巨头以及寒武纪等初创企业,都在AI芯片领域耕耘多年,并一步一步进行纵深研发。

市场只会留给有准备的人。寒武纪作为初创企业,对客户需求的把握也精细到全流程跟进。比如思元370,不仅可以作为推理芯片,也可以作为训练芯片使用。这样做的好处不仅是寒武纪自己的产品能够兼顾训练与推理,也方便客户全流程的模型部署、业务落地。

实际上,今年 1 月寒武纪发布的首颗训练芯片思元290,在训练为主的同时也可以进行推理。借助Cambricon Neuware软件栈提供的软件及应用生态,就可以在思元 290 芯片上实现图形图像、语音、NLP、搜索推荐等多种应用的训练和推理。

此次思元 370 发布,Cambricon Neuware进一步整合了训练和推理的全部底层软件栈,包括底层驱动、运行时库、算子库以及工具链等,将MagicMind和深度学习框架Tensorflow、Pytorch深度融合,实现训推一体。依托于训推一体,在寒武纪全系列计算平台上,从云端到边缘端,用户均可以无缝地完成从模型训练到推理部署的全部流程,进行灵活的训练推理业务混布和潮汐式的业务切换,加快了用户端到端业务落地的速度,减少模型训练研发到模型部署之间的繁琐流程,可快速响应业务变化,提升算力利用率,降低运营成本。

寒武纪:等待下一个爆发期

推理加速引擎MagicMind是寒武纪软件栈Cambricon Neuware全新升级的重要组成部分

图源:企业官网

在巨大的市场需求推动下,技术进步也愈加快速,硬件上翻倍甚至更多倍的增长比比皆是。比如今年 1 月发布的思元290,相比思元 270 就实现峰值算力提升 4 倍、内存带宽提高 12 倍、芯片间通信带宽提高 19 倍。

硬件强只是起步,AI芯片企业更需要软件强。比如英伟达在AI芯片领域的强大,除了硬件性能之外,也因为其CUDA生态已经成为众多人工智能开发者主流选择,从而为自己造就了一条护城河。初创企业,同样需要建立自己的生态护城河。

云、边、端、车四位一体布局中的寒武纪优势

AI芯片龙头的优势,毋庸讳言。而寒武纪在最新的布局中,也显现出一家创业企业的独特优势。

在今年 7 月举办的 2021 世界人工智能大会上,寒武纪首次披露了控股子公司行歌科技的进展,并披露研发中的车载智能芯片关键数据——基于 7 纳米制程的车规级芯片,算力大于200TOPS,具备独立安全岛及成熟软件工具链。

据中国汽车工业协会数据, 2020 年中国汽车销量为2531. 1 万辆。假如未来 10 年汽车销量的规模继续维持在 2500 万辆左右,智能汽车渗透率能够达到50%,车载智能芯片单车价值达到 5000 元,那就是高达 625 亿元的市场规模。只是现在这一市场可能还不够大,但未来整个智能驾驶系统的市场规模一定会堪比手机SOC、云端AI芯片。

一方面,智能驾驶不仅是车载智能芯片的事情,未来的智能驾驶一定会涉及车路协同,通过路测的边缘端智能芯片实现实时收集、低延时传输道路与车辆、车辆之间的交互信息,将汽车本身获取不到的盲区、路侧、他车、超远距离、全路网实时信息告知汽车端,帮助单个汽车或者智能车队规划路线;边缘端传感器采集的许多数据还会回传至云端,利用云端智能芯片处理边缘端芯片难以处理的复杂训练、推理任务。

IDC半导体研究总监Michael J. Palma曾说:“在边缘系统中,神经网络做出的即时决策可以创造独特的价值,不受延迟和连接问题的约束——而这些问题对云解决方案来说是个挑战。”未来遍布路网的边缘端智能芯片,将成为智能驾驶完整系统不可或缺的组成部分。整个智能驾驶的实现,更需要云边端车四位一体的深度联动。

另一方面,寒武纪本身在云边端的AI处理器上已经有着有代表性的量产产品。 2016 年成立初期就以IP授权的形式打入高端智能手机终端市场,在终端智能处理器IP授权业务上一战成名之后,又迅速拓展云端业务,通过新业务提高了公司的核心竞争力和抗风险能力,成功规避了单一客户带来的波动影响。 2019 年底,寒武纪又发布了边缘AI系列芯片及加速卡产品,通过统一的软件开发平台,实现云边端无缝协同。

云边端一体化走向云边端车四位一体,对智能驾驶行业来说是一种未来的必然趋势,对寒武纪自身来说则是一个自然的发展过程。

寒武纪的“云边端车”处理器都是用统一的处理器架构和基础软件平台,这意味着开发者只要在某一端应用寒武纪的产品,其他端很容易就能实现互相兼容,大大减少不同平台的开发和应用迁移成本。

寒武纪“云边端车”的协同优势,在目前国内车载智能芯片厂家中是较为独特的。

首先就是设计经验直接复用。国内智能驾驶芯片企业一般采用 12 纳米、 14 纳米、 16 纳米制程居多,行歌科技却起步就要做 7 纳米制程、200 TOPS以上算力。这种大算力、先进制程芯片,没有过 7 纳米制程经验的AI芯片企业是很难操作的,行歌科技的优势就在于可以直接复用母公司寒武纪的 7 纳米芯片设计经验。

其次,寒武纪的云端AI芯片属于通用型AI芯片(非通用处理器),具有通用的AI软件栈,客户可以根据需要方便移植或开发自己的算法。从云端芯片到车载芯片,芯片上要移植新的智能驾驶算法,这种通用型就能够避免行歌科技重新花大量的时间和精力去做适配工作。

第三,在车载AI芯片的车规级要求上,虽然寒武纪此前没有做过车规级产品,但从工业级到车规级,更多区别在于车规级的温度、振动、侵蚀、电磁兼容、可靠性、一致性、产品生命周期等要求更严格,对芯片设计本身而言结构变化并不大,拓展车载芯片的难度并不会高于此前从终端拓展到云端、边缘端。

一家企业能够不断拓展新的领域,且新领域具有足够的市场空间,值得新入局者来此施展手脚,那么市场格局的新变化就颇值得关注。

据了解,市面上具有“云边端车”生态协同优势的玩家,其实只有两三家,寒武纪正是其中之一。芯片领域一位投资人认为,车载智能芯片这一赛道在巨头之外还是容得下五六家初创芯片公司,最终可能会有三家初创公司胜出,寒武纪或许也会是其中之一。

等待下一个必然中的爆发期

从 2016 年成立至今,寒武纪智能芯片的架构已经更迭了四代。

比如最新的第四代智能处理器架构MLUarch03,拥有新一代张量运算单元,内置Supercharger模块大幅提升各类卷积效率;采用全新的多算子硬件融合技术,在软件融合的基础上大幅减少算子执行时间;片上通讯带宽是上一代MLUarch02 的 2 倍、片上共享缓存容量最高是MLUarch02 的2. 75 倍。配合最新架构,寒武纪还推出全新MLUv03 指令集,更完备,更高效且向前兼容。

寒武纪:等待下一个爆发期

寒武纪智能芯片架构演进

图源:企业官网

以每一代的架构为基础,都可以开发出适合不同端的IP、芯片矩阵。而每一款芯片,又都会分成不同组件,比如按照十几个组件设立十几个研发小组,每个小组来做一个组件,最后把组件拼起来形成智能芯片。不同的小组可以根据项目需求,对组件进行多种组合、拼接,并实现不同芯片功能组件上重叠部分的高效复用。

一方面,这就使得云、边、端、车不同芯片拥有很多可以复用的组件与设计,让“云边端车”协同优势成为可能;另一方面,这也使得过去的积累不会因为业务线变化而浪费,哪怕是现在总营收占比已经很小的IP授权业务,对于其他覆盖面更多的业务线,仍然有着生态拓展、技术复用的价值,比如在边缘侧智能芯片设计上复用。

作为国内AI芯片领域的先发者,先发者总要先去踩坑,但走过的每一步,都算数。

寒武纪展示给外界的架构更迭,一代又一代,是清晰而确定的。但每一代架构更迭的背后,并不是一个重复造不同轮子的过程。

从思元 100 到思元 270 再到新品思元 370 的技术跃迁和时间线来看,芯片架构设计师刚完成这一代就要着手下一代,永远是滚动推进的过程。寒武纪芯片架构设计师需要一直关注国际最前沿的芯片设计、算法,让寒武纪的智能芯片能够高效适配未来可能的流行算法,但这也不意味着前一代架构就要立即被取代。事实上,这也是国际顶尖芯片企业所采用的研发策略。

在外界看来,一代接着一代是分段的。但对于寒武纪来说,每一代架构之间都是互相勾连、镶嵌、攒接的,虽然每更新一代处理能力提升、效率优化都很大,但代际之间并非替代关系,而是适配不同的市场,从而实现资源的最大化利用。比如思元 370 和思元 290 之间就不是替代的关系,因为前者主要是推理芯片,后者主要是训练芯片,两者是互补的关系。

AI芯片的构建很像搭积木,很多企业会使用ARM的内核,这相当于用乐高的积木搭建模型,巨头生产好了积木,企业只需要搭模型就好。但寒武纪用的是自内核架构、自指令集,相当于自己不仅要搭建模型还要生产积木,虽然拥有更高的自主性,但也增加了研发的成本。

最新公布的寒武纪三季报显示,前三季度公司主营收入2. 22 亿元,同比上升41.19%;归母净利润-62945. 85 万元,同比下降103.37%;前三季度研发费用4. 33 亿元,同比增长32.78%;销售毛利率为50.75%,属于芯片类企业正常水准。

研发费用上,尽管已经超过了营收,但在巨头同样投入很多研发的情况下,为了维持技术和产品的领先,寒武纪的研发仍然难以压缩。

如何看待寒武纪未来发展,其实和巨头能否通吃一切一样,是同一个问题的两个面。

如果未来巨头通吃一切,那创业企业自然都要消亡。而只要巨头无法通吃一切,AI芯片的市场份额中必然就会有头部创业企业的一份。

实际上,创业企业依然在不断涌入AI赛道、AI芯片赛道。

今年 3 月,全球电子技术知名媒体集团Aspencore发布的“中国IC设计 100 家排行榜”中,寒武纪入选AI芯片公司Top10。在美国著名半导体杂志《EETimes》发布的 2021 年“Silicon100”电子和半导体创业公司榜单,新上榜了 9 家中国企业。CB Insights最新的AI in Numbers报告也显示,今年第二季度AI初创公司获得的投资总量超过 200 亿美元,创历史新高。

在很多国内行业观察者看来AI芯片企业已经处于低谷之时,全球范围内对AI企业的看好与投资其实依然处于高峰期。初创AI芯片企业SambaNova6 月获得6. 76 亿美元投资,Graphcore、Groq、Scale AI等也都是AI芯片领域的热门企业。

尽管初创企业都会面对巨头英伟达的阴影,但目前市值已经突破 7000 亿美元的英伟达,在短短 5 年前其实还只是一家不到 500 亿美元市值的不被看好的衰落企业。哪怕英伟达这样的巨头,发展史也是波动起伏的历史,在熬死和打败其他的巨头和初创企业之后,等到了AI计算的大爆发,最终成为了一个目前任何人都无法绕过的巨头。

相比于巨头,寒武纪目前依然是一家低调的初创企业。思元 370 很早就开始设计, 2020 年三季度完成流片,今年二季度完成封装、测试,部分客户已完成测试、导入,据悉在语音、视觉等场景的性能表现超出客户预期,浪潮、阿里云、百度、招商银行等客户均给出了积极评价,但这些信息直到发布才告诉外界。

专业分工是成熟产业链的特征,只要寒武纪能够保持“理工男”的朴素作风,持续在架构保持前瞻性,市场就不缺机会。

巨头不可能吃掉所有市场,巨头不可能所有场景都自,巨头也不会购买竞对巨头的芯片产品。那么多初创企业进入AI芯片赛道,正是看中了巨头与巨头之间庞大的市场空间。

在AI芯片保持技术先进性的寒武纪,也会像等待到AI计算大爆炸的英伟达一样,遇到自己的爆发期。

正如寒武纪创始人陈天石所说:作为一家中立的芯片公司,我们走最正统的芯片设计公司的路径,把应用场景留给人工智能行业的客户,而我们自己做大家的垫脚石。


推荐阅读
  • 干货 | 携程AI推理性能的自动化优化实践
    作者简介携程度假AI研发团队致力于为携程旅游事业部提供丰富的AI技术产品,其中性能优化组为AI模型提供全方位的优化方案,提升推理性能降低成本࿰ ... [详细]
  • 本文介绍了腾讯最近开源的BERT推理模型TurboTransformers,该模型在推理速度上比PyTorch快1~4倍。TurboTransformers采用了分层设计的思想,通过简化问题和加速开发,实现了快速推理能力。同时,文章还探讨了PyTorch在中间层延迟和深度神经网络中存在的问题,并提出了合并计算的解决方案。 ... [详细]
  • 微信回应「10 元就能在朋友圈改定位」;谷歌官方首次提及 Android 11;Node 8.16.2 发布 | 极客头条...
    微信回应「10元就能在朋友圈改定位」;谷歌官方首次提及Android11;Node8.16.2发布|极客头条,Go语言社区,Golang程序员人脉社 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • GPT-3发布,动动手指就能自动生成代码的神器来了!
    近日,OpenAI发布了最新的NLP模型GPT-3,该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB,参数个数高达1750亿,训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站,用户只需用英语描述需求,前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年,OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型,在限定条件下以2:0完胜人类冠军。 ... [详细]
  • Learning to Paint with Model-based Deep Reinforcement Learning
    本文介绍了一种基于模型的深度强化学习方法,通过结合神经渲染器,教机器像人类画家一样进行绘画。该方法能够生成笔画的坐标点、半径、透明度、颜色值等,以生成类似于给定目标图像的绘画。文章还讨论了该方法面临的挑战,包括绘制纹理丰富的图像等。通过对比实验的结果,作者证明了基于模型的深度强化学习方法相对于基于模型的DDPG和模型无关的DDPG方法的优势。该研究对于深度强化学习在绘画领域的应用具有重要意义。 ... [详细]
  • macOS Big Sur全新设计大版本更新,10+个值得关注的新功能
    本文介绍了Apple发布的新一代操作系统macOS Big Sur,该系统采用全新的界面设计,包括图标、应用界面、程序坞和菜单栏等方面的变化。新系统还增加了通知中心、桌面小组件、强化的Safari浏览器以及隐私保护等多项功能。文章指出,macOS Big Sur的设计与iPadOS越来越接近,结合了去年iPadOS对鼠标的完善等功能。 ... [详细]
  • 本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]
  • 安装Tensorflow-GPU文档第一步:通过Anaconda安装python从这个链接https:www.anaconda.comdownload#window ... [详细]
  • 2017亚马逊人工智能奖公布:他们的AI有什么不同?
    事实上,在我们周围,“人工智能”让一切都变得更“智能”极具讽刺意味。随着人类与机器智能之间的界限变得模糊,我们的世界正在变成一个机器 ... [详细]
  • 程度|也就是_论文精读:Neural Architecture Search without Training
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了论文精读:NeuralArchitectureSearchwithoutTraining相关的知识,希望对你有一定的参考价值。 ... [详细]
  • 「爆干7天7夜」入门AI人工智能学习路线一条龙,真的不能再透彻了
    前言应广大粉丝要求,今天迪迦来和大家讲解一下如何去入门人工智能,也算是迪迦对自己学习人工智能这么多年的一个总结吧,本条学习路线并不会那么 ... [详细]
  • 基于神经网络的智能对话系统(二)——机器学习背景知识
    2.机器学习背景知识本章简要回顾了深度学习和强化学习,这些学习与后续章节中的会话AI最相关。2.1机器学习基础Mitchell(1997)将机器学习广义地定义为包括任何计算机程序, ... [详细]
  • 跨批次记忆在度量学习DML中的应用
    度量学习DML之ContrastiveLoss及其变种_程大海的博客-CSDN博客度量学习DML之TripletLoss_程大海的博客-CSDN博客度量学习DML之Lifted ... [详细]
author-avatar
君哥哥
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有