热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

【观察】智算中心操作系统落地,浪潮云海的远见与实践

申耀的科技观察读懂科技,赢取未来!今天,从中央到地方、从政企到民间,“新基建”和数字经济被擢升到前所未有的战略高度。其中&#

申耀的科技观察

读懂科技,赢取未来!

今天,从中央到地方、从政企到民间,“新基建”和数字经济被擢升到前所未有的战略高度。其中,以5G、工业互联网、大数据中心等创新技术引领的“新基建”,更是重中之重。

2020年,浪潮前瞻性地提出“智算中心”概念。所谓“智算中心”指的是智能时代面向社会全域多主体的新型公共基础设施,它集算力生产供应、数据开放共享,智慧生态建设和创业创新聚集四大功能于一体,能够为海量数据存储、处理、分析及应用需求的各种场景提供支撑的载体和平台。

在此过程中,智算中心的建设也需要一个优质的操作系统来作为中间的“桥梁”,这就是由浪潮云海OS升级和进化而来,并在日前进行全球首发的智算中心操作系统。不仅如此,浪潮云海OS还完成了全球最大规模OpenStack单一集群1000节点的“云数智”的融合实践,可以说全面体现了浪潮云海OS作为智算中心操作系统的极致能力。

正如浪潮信息副总裁张东所说:“如果说硬件是基础,那么软件就是灵魂,作为整个智算中心中最重要的中枢神经系统,智算中心操作系统未来将向下负责将物理设备真实算力转化为资源服务,通过强大的管理和调度能力,向上对接各类基于数据智能的应用需求,最终实现以云数智高度融合为代表的智慧计算服务。”

毫无疑问,浪潮云海OS向智算中心操作系统的“演进”,正是浪潮云海过去多年来“富有远见,勤于实践”的真实印证,而这种前瞻力、创新力以及行动力,不仅会为智算中心的全面落地打牢基础,也会进一步提速未来行业“云数智”融合的建设步伐,其价值和作用重大而深远。

浪潮云海进化与迭代

张东认为,数据中心从最初的超算中心,到云数据中心,再演进到今天的智算中心,操作系统的存在不仅仅是资源的汇集与调度,更多是通过“上云、用数、赋智”来驱动数据以及计算能力产生更多智慧化应用。同样,智算中心与过去的云计算中心相比,其负责的资源复杂度与规模将会产生很大变化,对操作系统的需求必然也会更多、挑战更大。

浪潮信息副总裁张东

回头来看,浪潮云海OS也经历了同样的演变历程,最初云海OS主要是以虚拟化集群管理、初级的多租户运营运维为主;2015年开始,围绕着开放、融合、敏捷,开始以OpenStack为核心构建数据中心操作系统,实现了虚拟、裸机、容器的统一管理及增强;从2019年开始,在云海OS5.8版本中,浪潮进一步融入AIOps、AI服务,以OpenStack、K8s等开放基础设施为“底座”,构建出了云数智一体化平台并提供智能化服务,逐步演化和升级到了今天的智算中心操作系统。

那么,作为全新的智算中心操作系统,浪潮云海OS究竟有哪些与众不同的特点呢?我们可以从四个维度来做观察:

一是,极致开放,浪潮云海OS以“OpenStack”和“Kubernetes”双核驱动,通过对开源开放技术的攻坚,突破了开源版本在性能、大规模管理能力等方面的瓶颈。在此基础上,浪潮云海OS也在积极利用自身开源优势构建生态,通过对接各种各样、更复杂的管理平台,融合更多服务器、存储、网络以及安全的功能来形成云海OS的生态繁荣。

二是,极致融合,浪潮云海OS具备强大的融合能力,支持虚拟机、裸机、容器统一调度及混合编排的资源融合、跨域互联互通互操作的多云融合、一体化云数智融合。同时,通过融合实现对企业内部IT资源统一管理,为全场景业务提供统一支撑,提升资源使用效率,降低运维管理复杂度等。

三是,极致敏捷,浪潮云海OS在安装部署、扩容改配、业务运营方面体现极致的敏捷性。例如,基础设施方面实现10分钟全局参数优化调整、1小时单POD扩容,5分钟组件升级等;而在业务运营方面,实现了应用秒级上线、应用配置变更实时生效等,所见即所得,应用全生命周期极致高效。

四是,极致智能,浪潮云海OS可以将各种智能加速设备充分利用起来,并且将数智结合去调度、释放算力,还可以通过浪潮AIStation智能管理平台提供智能服务,将AI技术提升平台本身的运维与管理智能化程度,由此增强运维和管理的能力。

“智算中心在智慧化时代,已经成为必不可少的一个基础设施,而作为智算中心的灵魂,浪潮云海OS也将继续秉持开放、融合、敏捷和智能的理念,不断地去把智算中心中的更多新技术用好,管好,发挥好,与广大的客户以及合作伙伴携手进入一个崭新的智慧化时代。”张东说。

由此可见,通过不断的进化与迭代,浪潮云海OS从云数据中心一跃成为智算中心的操作系统,这背后正是浪潮云海一直坚持的探索与创新精神的重要体现。从某种程度也可以说,在数据中心基础设施操作系统的演进之路上,浪潮云海OS既是早期的探索者,也是落地的实践者,更是未来的推动者。

从500到1000的质变

事实上,这种探索与创新的精神,不仅体现在云海OS进化与迭代的演进之路上,也体现在浪潮一直致力于将云海OS“普惠”到企业核心生产应用和云平台搭建的落地实践上。

此前,浪潮在多年的云平台建设中就发现,大型用户的云平台实践普遍面临大规模的挑战。随着内外部用户数量的增长,单一应用和服务的规模变得愈发庞大,需要同时部署数百甚至数千台虚拟机。如果使用多个小规模集群构建云平台,应用和服务的跨集群部署、管理、升级会变得异常困难甚至无法实现,因此对单一集群的规模产生了强烈的需求。

基于这样的考量,2019年,浪潮云海完成了单一集群达500节点的大规模测试,是当时基于OpenStack Rocky版本的全球最大规模单一集群实践,而在2020年11月25日,浪潮云海又一次成功完成全球最大规模单一集群达1000节点的云数智融合实践,实现了规模、场景、性能的整体突破,体现了量变到质变的全面升华。

首先,是规模更大。1000节点大规模实践相比500节点,在控制节点不变的情况下,集群规模扩大了一倍,存储扩大3倍达到240节点,计算节点增加1.8倍达到720节点,安装、部署、扩容、装配全生命周期时间不变。

其次,是场景更全。从OpenStack测试升级为云数智全栈融合测试,并在云平台软环境部署交付效率上也有优异表现。3天完成了1000台服务器从环境改造、上架和云操作系统安装部署,融合运行海量大数据处理业务及大规模云原生业务,全面支撑传统业务、云原生业务、大数据业务、人工智能应用等场景化需求。

最后,是性能更高。1000节点大规模测试刷新了SPEC Cloud权威基准测试世界纪录,OpenStack实现3000个虚拟机高并发创建,密度可达5万,30分钟内完成百节点裸机发放;容器实现1000节点管理,3万POD并发创建,20万POD管理,10万应用管理;存储实现240节点管理,10万卷分布式存储,单节点1万IOPS,单集群240万IOPS;SDN实现2到7层网络10万台虚拟机统一管理配置,流量灵活调度,全面展示了云海OS的极致性能。

浪潮云计算与大数据产品线首席架构师亓开元

在浪潮云计算与大数据产品线首席架构师亓开元看来,从500节点到1000节点大规模测试的升级,其价值主要体现在两个方面:

一方面是为了“实兵演练”, 测试的是数据中心从集群的安装部署到资源的编排、下放,上线运行到扩容升级,全局的改配以及故障定位的全过程,这样可以检验整个平台的装配能力、扩展能力和运维能力;另一方面是为了给业界建立参考的设计规范,这次大规模的测试也再一次扩大了浪潮云海OS在大规模集群管理方面的领先优势,同时通过“云数智”的融合极大丰富了大规模集群的应用场景,进一步完善了行业建设大规模云集群参考设计规范,为今后企业数智化转型提供更加重要的支撑。

更为关键的是,这种大规模的测试还丰富了智算中心操作系统的内涵和外延,通过高度抽象化的应用以及各种应用场景的检验,不仅验证了浪潮云海OS作为智算中心操作系统的极致的扩展性、可用性和稳定性,同时也创建了未来大规模云平台落地的新范式。

加速云数智全面融合

客观的说,今天“云数智”正在加速融合,很多企业也正在从云化、数字化正在走向智能化,因此这个过程不应仅仅体现数据汇集过程,而是必须通过云边端一体的打通,从海量的数据中筛选有价值的部分,同时让AI的算法、算力以及各种能力在整个产业链路上进行灵活调用,才能够真正的实现企业的智能化变革,而这些应用无疑对云基础设施底层架构乃至操作系统的规模化、集中化、智能化都有着非常严苛的要求。

对此,张东认为:“未来的数据中心一定是融合架构。通常来说计算、存储、网络以及安全都可以通过软件完成定义,后续凭借硬件重构+软件定义来支撑多个应用场景,当然其中可能涉及传统计算场景也有当下比较流行的云原生场景,也包括在智算中心中大数据应用场景以及人工智能应用场景等等。”

以AI算力的高效运用为例,目前的各种AI服务器,无论是通用加速器还是FPGA加速服务器,抑或是AI芯片都是比较昂贵的,如果单一的AI服务器只给一个人使用的话,势必造成资源的严重浪费;另外由于AI推理端使用的资源非常复杂,这就导致有的模型适合在处理器上运行,有的模型则适合使用GPU这样的处理器,还有一些模型适合FPGA和AI加速器组合使用效果更佳,如何调度好这些算力资源,也是智算中心操作系统未来要去解决的问题。

因此,浪潮云海面向未来也会通过开源开放、持续创新以及普惠赋能,让智算中心可以更快的得以落地,从而加速推动整个企业和社会的“云数智”融合,具体来看:

第一,浪潮云海会坚定的走“开源开放”之路,同时通过自己的实践来回馈开源社区。目前,在OpenStack第21个版本Ussuri中,浪潮在代码提交数、完成蓝图数、起草蓝图数、补丁修复数和参与人天数均达到全球前列、中国第一。

除此之外,刚发布的第22个版本Victoria,浪潮在社区中的贡献还体现在Nova(计算)、Cinder(块存储)、Cyborg(加速)、Vitrage(根因分析)、Manila(文件存储)等核心模块上,并主导完成Nova通过Cyborg管理加速设备的特性、贡献Inspur GPU、FPGA、NVMe SSD等硬件设备驱动。值得一提的是,近期浪潮云海还在OpenStack中贡献的一个新项目,名为“VENUS”,它可以通过对OpenStack各个模块日志可视化的分析,找出系统可能存在的问题,直观展现给用户,并及时通知用户处理的合理方法,像“啄木鸟找虫子”那样实现日志的分析和监控。

第二,浪潮云海还将进一步强化自身的核心竞争力,通过不断丰富产品的特性,满足更多用户的应用场景需求。比如,在云原生领域,浪潮就发布了云海容器云平台InCloud K8S,并在今年9月发布了V2.2版本,该版本新增了微服务治理功能,并在应用管理、应用部署、应用中心等方面全面升级,实现针对容器化业务场景的全面覆盖。

与此同时,面对行业客户数据存储及管理难、价值挖掘效率低下、资源利用不均等痛点,最新升级的企业级大数据平台软件浪潮云海Insight V6,能够帮助用户快速构建智能、高效、敏捷、安全的大数据处理平台,为企业数字化、智能化转型提供领先的大数据基础设施。

第三,浪潮云海未来也希望通过“普惠化”的赋能,全方位帮助企业实现“云数智”的融合与创新。张东表示,很多传统企业的应用改造之路依然比较漫长,从集中式架构走向分布式架构,会遇到很多的挑战,而浪潮所提出的智算中心理念,从硬件到软件架构都是在互联网应用的实践中沉淀而来的,同时作为智算中心操作系统的浪潮云海OS,也通过开源开放、大规模的实践验证以及广泛联合生态合作伙伴,让新的计算架构和体系架构,能够为更多的企业用户提供更好、更大的支撑。

阿尔文·托夫勒(Alvin Toffler)在80年代风靡全球的《第三次浪潮》中曾写道:“唯一可以确定的是,明天会使我们所有人大吃一惊。”而在四十年之后,当初他提出的信息化和数字化,已经再造了全球经济的新格局。

从这个角度来看,浪潮云海OS从云数据中心跃迁为智算中心操作系统,背后不仅是浪潮持续坚持创新和探索的印证,也是对未来智慧化时代的一种提前预见和实践,更标志着浪潮云海成为了一个可以自我升级演进的智算中心操作系统平台,这让它能够站在全新的起点之上,加快推进智算中心的落地,并更好的使能全行业的创新。


申耀的科技观察,由科技与汽车跨界自媒体人申斯基创办,18年企业级媒体工作经验,专注产业互联网、企业数字化、渠道生态以及汽车科技内容的观察和思考。


推荐阅读
  • 云原生应用最佳开发实践之十二原则(12factor)
    目录简介一、基准代码二、依赖三、配置四、后端配置五、构建、发布、运行六、进程七、端口绑定八、并发九、易处理十、开发与线上环境等价十一、日志十二、进程管理当 ... [详细]
  • 提供:ZStack云计算原创2016-12-26张鑫讲师介绍张鑫ZStack总架构师、联合创始人《系统虚拟化》主要作者,曾任职Intel开源软件技术中心 ... [详细]
  • 本文介绍了OpenStack的逻辑概念以及其构成简介,包括了软件开源项目、基础设施资源管理平台、三大核心组件等内容。同时还介绍了Horizon(UI模块)等相关信息。 ... [详细]
  • Oracle优化新常态的五大禁止及其性能隐患
    本文介绍了Oracle优化新常态中的五大禁止措施,包括禁止外键、禁止视图、禁止触发器、禁止存储过程和禁止JOB,并分析了这些禁止措施可能带来的性能隐患。文章还讨论了这些禁止措施在C/S架构和B/S架构中的不同应用情况,并提出了解决方案。 ... [详细]
  • SpringBoot整合SpringSecurity+JWT实现单点登录
    SpringBoot整合SpringSecurity+JWT实现单点登录,Go语言社区,Golang程序员人脉社 ... [详细]
  • Sleuth+zipkin链路追踪SpringCloud微服务的解决方案
    在庞大的微服务群中,随着业务扩展,微服务个数增多,系统调用链路复杂化。Sleuth+zipkin是解决SpringCloud微服务定位和追踪的方案。通过TraceId将不同服务调用的日志串联起来,实现请求链路跟踪。通过Feign调用和Request传递TraceId,将整个调用链路的服务日志归组合并,提供定位和追踪的功能。 ... [详细]
  • 程度|也就是_论文精读:Neural Architecture Search without Training
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了论文精读:NeuralArchitectureSearchwithoutTraining相关的知识,希望对你有一定的参考价值。 ... [详细]
  • 2018年人工智能大数据的爆发,学Java还是Python?
    本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代,Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言,容易上手。其特色之一是强制使用空白符作为语句缩进,使得新手可以快速上手。目前,Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣,欢迎加入qq群458345782。 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 知识图谱——机器大脑中的知识库
    本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
  • 深度学习中的Vision Transformer (ViT)详解
    本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理,包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明,对于CV任务,直接应用纯Transformer架构于图像块序列是可行的,无需依赖于卷积网络。 ... [详细]
  • 一句话解决高并发的核心原则
    本文介绍了解决高并发的核心原则,即将用户访问请求尽量往前推,避免访问CDN、静态服务器、动态服务器、数据库和存储,从而实现高性能、高并发、高可扩展的网站架构。同时提到了Google的成功案例,以及适用于千万级别PV站和亿级PV网站的架构层次。 ... [详细]
  • 技嘉秀高端B450主板:不再支持第七代APU,性价比高且兼容锐龙一代和二代
    在台北电脑展上,技嘉展示了一款高端的B450主板,型号为“b450 aorus pro wi-fi”。该主板具有10+1相供电、散热片覆盖的供电区域和芯片组,以及两个m.2插槽和背部IO挡板。虽然不支持第七代APU bristol ridge,但它兼容锐龙一代和二代,且具有较高的性价比。该主板还配备了音频声卡、Wi-Fi无线网卡等功能,是一款性能出色且设计精良的主板。 ... [详细]
  • 计算机网络软考基础知识,软考基础知识专题5:计算机网络知识
    全国计算机资格与水平考试软件设计师复习资料专题五:计算机网络知识1、计算机网络知识1.1计算机网络知识概述:计算机网络的发展:计算机网络就 ... [详细]
  • 这家安全厂商避谈“软件定义”,我却要为它的“反骨”点赞
    点击上方“中国云报”可直接关注!已经成立了9年的迪普科技,今年第一次举办大规模的合作伙伴大会。4月20日,以“创享未来,诚献 ... [详细]
author-avatar
久居我心入我怀
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有