本文授权转载自电子发烧友网,作者黄晶晶
目前比较主流的AI深度学习框架主要由国际巨头领衔,比如谷歌的TensorFlow和Facebook的PyTorch等。2017年中国的一家初创团队悄悄成立,他们做的是对标这些主流框架的技术开发。
今年初,这家公司声名鹊起,并获得了由高瓴创投领投的5000万元A轮融资。这家公司叫一流科技,他们的深度学习框架叫做OneFlow,今年7月31日,OneFlow即将迎来自己的开源一周年纪念日。
对框架的超前定位,有力支撑了深度学习领域的创业
一流科技创始人袁进辉在创办公司之前,在微软研究院工作多年,主要从事机器学习、分布式系统的研发。“当时我们认为随着AI数据和算力需求的不断增加,现有的深度学习框架在未来会遇到瓶颈,几年前我多次在公开演讲中提到过这个观点,但当时业界不以为然。”袁进辉说道。
袁进辉分析,从机器视觉到人机对话,再到认知智能,AI不断突破能力边界,同时伴随着模型参数的指数级提升,AI模型加速膨胀导致训练成本攀升,预计2025年最先进的AI训练模型成本将达到1亿美元。
而单芯片存在算力天花板,单芯片在物理层面存在性能极限,先进制程发展已难以维持摩尔定律;分布式硬件难以高效协同运转,分布式方案芯片间传输带宽低于片上带宽,多芯片集群难以像“超级芯片”一样高效工作。
针对内存墙、用户接口不友好和定制化成本高等AI分布式训练痛点,OneFlow从底层机制提出Actor机制、一致性视角和自动并行技术加以解决。
袁进辉表示,随着大规模参数模型爆发,OneFlow需求匹配程度愈发提高,将超过TensorFlow和PyTorch逐渐占据更多的市场空间。
近两年,一些国内科技巨头也纷纷推出深度学习框架,例如百度飞桨PaddlePaddle、华为的MindSpore等。他们大多拥有自己的生态圈,能够将硬件和软件搭配使用。相比之下,一流科技的OneFlow属于独立的第三方框架,更具有中立性,可以广泛地与芯片厂商进行适配。
“GPU芯片巨头英伟达在美国的软件栈团队对我们的深度学习框架表示了密切关注,每两个星期我们会就框架优化与合作问题进行探讨。”袁进辉透露。
虽然TensorFlow和PyTorch等深度学习框架为也英伟达的芯片所适配,不过显然,英伟达注意到OneFlow这个由独立的软件公司研发的框架的好处和价值。
开源与良好的商业模式并不冲突
去年OneFlow框架开源之后获得了非常高的关注。OneFlow的开源代码发布到了Github,开源让全球开发者能够直观接触、下载、使用OneFlow。开源十个月Star数量超过2500,超过华为Mindspore。
袁进辉直言,“在开源社区里面,有很多基础软件,胜出的不是大公司,而是初创团队,比如主导Spark的Databricks等。一些互联网大公司都在用的软件,刚开始都是小团队做的。只要技术上过硬,就有机会。”显然,一流科技有这个技术实力,在其框架开源之后,获得了谷歌、Facebook、华为、百度等同行的关注,也受到了资本的青睐。
但是,一个问题是,开源与公司的商业模式是否冲突呢?公司又如何建立自己的商业价值?
袁进辉分析,开源的商业模式主要有两种,一种是虽然一些有技术能力的互联网公司或开发者自行下载开源软件,进行项目开发,但是对于没有开发能力的用户,他们需要付费购买开源软件的商业版来使用。
另一种是云上托管。如今很多企业将数据计算在云上进行,在用某个软件处理大数据、AI计算的任务时他可以把开源工具下载下来在云上部署,这种方式下公司必须自己雇用工程师对这一流程进行调优,需要承担较高的人力成本。但也可以直接从云上使用开源公司部署的软件,这种做法用户需要承担的成本较低,也更方便省事。
目前开源云托管是最好的商业模式,在美国已经运用相对成熟。相信在中国也将有越来越多的用户接受这一模式。
OneFlow用起来不仅是快,下一步打通易用性
OneFlow选择自上向下占领市场,占据技术制高点,从高效性向易用性和完备性延伸。以高效性作为突破口,切入市场打破竞争格局。
目前,用OneFlow训练比其他框架快的口碑已经在业内传开。一个数据是,OneFlow v0.2.0实现了多达17个性能优化,使得CNN和BERT的自动混合精度(AMP)训练速度大幅提升,不仅远超其他各个主要框架的官方实现,同时也超过了NVIDIA深度优化过的版本,成为在主流旗舰显卡(V100 16G)上训练ResNet50-v1.5和BERT-base模型最快的框架。OneFlow ResNet50-v1.5 AMP单卡比NVIDIA深度优化过的PyTorch快80%,比TensorFlow2.3快35%。
袁进辉表示,我们即将发布新的版本,将重点提升软件的易用性体验,首先在单卡代码上保证和PyTorch的体验一致,而同时在多卡场景下推出了全新的接口设计,将给用户带来革命性的开发体验。相信这个版本的发布将极大地带动开发者群体,扩大OneFlow的使用数量和应用范围。
在铺设高效性和易用性之后,OneFlow还将打造完备性,从而形成自上而下、三位一体的布局。袁进辉有信心,在不久的将来和TensorFlow、PyTorch是三分天下的市场格局。
AI软件生态,OneFlow需当此重任
在移动端,开源的安卓系统形成强大的生态而成功。深度学习框架就像AI的操作系统一样,它是模型算法和硬件资源之间的接口,是AI系统资源的管理者,实现对底层硬件资源的调度,让开发者无需关心实现细节。
袁进辉认为,生态建设就是0和1的问题,OneFlow必然建设强大的生态才能实现更多的可能,取得最终的成功。
目前,OneFlow的硬核创新在核心AI开发圈树立了口碑,得到全球框架专家的高度认可,国内外深度学习框架产品已在积极跟进OneFlow所开创的设计理念。一流科技已与北京智源人工智能研究院、粤港澳大湾区数字经济研究院、之江实验室、中关村智用人工智能研究院等顶尖AI科研院所开展深度合作。同时,联合芯片、云厂商等上下游企业加强配合,已与寒武纪、燧原科技等推进超大模型训练方案。下一步将推动与更多芯片厂商和广大开发者的合作,打造AI平台的繁荣生态。
开源生态已经得到国家层面的重视,“开源”写进了今年的十四五规划,而开源将是中国占领科技高地的机会。例如硬件方面现在大力发展的RISC-V开源指令集架构,软件方面OneFlow做为中国的深度学习框架,也将借助开源的力量进一步壮大其AI生态。
基于深度学习的软件2.0时代将打开30万亿美元的市场,袁进辉表示,中国拥有大量的基础软件人才,积累了丰富的AI应用场景,OneFlow有机会在这个AI时代乘风而行。
其他人都在看
浅谈GPU虚拟化和分布式深度学习框架的异同
OneFlow v0.4.0 正式发布
动态调度的“诅咒”③
数据搬运的“诅咒”②
资源依赖的“诅咒”①
点击“阅读原文”,欢迎下载体验OneFlow新一代开源深度学习框架