热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

qGPU容器产品全量上线,重磅发布GPU在离线混部功能

作者徐蓓,腾讯云容器技术专家,腾讯云异构计算容器负责人,多年云计算一线架构设计与研发经验,长期深耕Kubernetes、在

作者

徐蓓,腾讯云容器技术专家,腾讯云异构计算容器负责人,多年云计算一线架构设计与研发经验,长期深耕 Kubernetes、在离线混部与 GPU 容器化领域,Kubernetes KEP Memory QoS 作者,Kubernetes 积极贡献者。


摘要

qGPU 是腾讯云推出的 GPU 共享技术,支持在多个容器间共享 GPU 卡资源,提供百分比算力与 MB 级显存细粒度分配和强隔离能力,并且搭配业界独有的 GPU 在离线混部技术,在充分保证业务安全、稳定的前提下,将 GPU 利用率提升到了极致。

qGPU 已服务内外部大量客户,帮助众多 AI 企业节省大量 GPU 成本。qGPU 容器虚拟化产品现已在腾讯云 TKE 全量上线。

腾讯云在业界(除 NVIDIA 原厂外)首次实现了对细粒度算力强隔离的支持。qGPU 算力可以实现 1% 的细粒度限制,并且保证严格按照配比分配和限制算力资源,即使在 GPU 资源非常紧张时,各业务所分配算力资源依然保证不受影响。依赖这种能力,企业用户可以尽量多的增加业务部署密度,充分利用 GPU 资源,而不用担心会对业务带来负面影响。

qGPU 依赖 TKE 自研调度器和设备管理器,在 TKE Kubernetes 集群上支持 GPU 卡级别的百分比算力和 MB 级显存分配和调度,在保证集群最优资源分配和负载的前提下,让企业 AI 任务可以使用更小粒度的 GPU 资源。

qGPU 在 GPU 硬件级(而非 CUDA API 级的拦截和控制)实现了 QoS 能力,通过 MB 级控制 GPU 显存资源分配及细粒度的强算力隔离,最大程度避免了因共享 GPU 带来的业务性能损失。通过这种创新技术,qGPU 解决了 故障、显存 和 算力 全维度的隔离问题。

除此之外,腾讯云 qGPU 创新性的将在离线混合部署技术与 GPU 相结合,在业界首次提出了 GPU 在离线混部的概念,将 GPU 容器共享技术推进到了下一个纪元。

在线业务通常指推理业务,离线业务可能是推理、也可能是训练,于是在离线混部主要形式有 推理 + 推理、推理 + 训练。如果缺乏有效技术手段,为了保证在线业务的 QoS,需要使之独占一张 GPU 卡,这会导致利用率很低。在具备 qGPU 在离线混部能力之后,用户可以安全地将在线业务与其他业务部署在同一张 GPU 卡,在共享复用资源的同时,可以完全保障在线业务健康、稳定运行。

可以说,腾讯云 qGPU 在离线混部是提升 GPU 利用率的创新性的突破技术。利用领先的细粒度算力隔离技术和独创的算力高低优调度技术,在保证在线任务算力 QoS 的前提下,可以有效将 GPU 利用率提升至 100%,极大程度减少算力浪费,将 GPU 资源压榨到极致。


总结

算力异构化已经是今天的业界共识。其中 GPU 以其强大的算力和完善的生态,在 AI 异构计算中占据了统治地位。面对昂贵的 AI 算力资源,企业迫切的希望有技术手段可以帮助降低成本,增加效率。

腾讯云 qGPU 立足 AI 领域,依托 GPU 资源细粒度调度、GPU 资源强隔离、GPU 在离线混部 等技术产品,通过为企业提升 GPU 使用效率,释放 AI 算力生产力,最终帮助企业带来持续和不断的巨大商业价值。

qGPU 容器虚拟化:https://cloud.tencent.com/document/product/560/66232


关于我们

更多关于云原生的案例和知识,可关注同名【腾讯云原生】公众号~


福利:

①公众号后台回复【手册】,可获得《腾讯云原生路线图手册》&《腾讯云原生最佳实践》~

②公众号后台回复【系列】,可获得《15个系列100+篇超实用云原生原创干货合集》,包含Kubernetes 降本增效、K8s 性能优化实践、最佳实践等系列。

③公众号后台回复【白皮书】,可获得《腾讯云容器安全白皮书》&《降本之源-云原生成本管理白皮书v1.0》

④公众号后台回复【光速入门】,可获得腾讯云专家5万字精华教程,光速入门Prometheus和Grafana。

⑤公众号后台回复【精选集】,可获得腾讯24位腾讯云专家精彩演讲——4万字《腾讯云技术实践精选集 2021》。


【腾讯云原生】云说新品、云研新术、云游新活、云赏资讯,扫码关注同名公众号,及时获取更多干货!!



推荐阅读
  • 深入解析 Apache Shiro 安全框架架构
    本文详细介绍了 Apache Shiro,一个强大且灵活的开源安全框架。Shiro 专注于简化身份验证、授权、会话管理和加密等复杂的安全操作,使开发者能够更轻松地保护应用程序。其核心目标是提供易于使用和理解的API,同时确保高度的安全性和灵活性。 ... [详细]
  • Startup 类配置服务和应用的请求管道。Startup类ASP.NETCore应用使用 Startup 类,按照约定命名为 Startup。 Startup 类:可选择性地包括 ... [详细]
  • 2018年3月31日,CSDN、火星财经联合中关村区块链产业联盟等机构举办的2018区块链技术及应用峰会(BTA)核心分会场圆满举行。多位业内顶尖专家深入探讨了区块链的核心技术原理及其在实际业务中的应用。 ... [详细]
  • 本文作者分享了在阿里巴巴获得实习offer的经历,包括五轮面试的详细内容和经验总结。其中四轮为技术面试,一轮为HR面试,涵盖了大量的Java技术和项目实践经验。 ... [详细]
  • 本文详细介绍了如何在 Android 中使用值动画(ValueAnimator)来动态调整 ImageView 的高度,并探讨了相关的关键属性和方法,包括图片填充后的高度、原始图片高度、动画变化因子以及布局重置等。 ... [详细]
  • 迎接云数据库新时代:程序员如何应对变革?
    在数据无处不在的时代,数据库成为了管理和处理数据的核心工具。从早期的信息记录方式到现代的云数据库,数据库技术经历了巨大的变革。本文将探讨云数据库的特点及其对程序员的影响。 ... [详细]
  • 2017年人工智能领域的十大里程碑事件回顾
    随着2018年的临近,我们一同回顾过去一年中人工智能领域的重要进展。这一年,无论是政策层面的支持,还是技术上的突破,都显示了人工智能发展的迅猛势头。以下是精选的2017年人工智能领域最具影响力的事件。 ... [详细]
  • Spring Cloud因其强大的功能和灵活性,被誉为开发分布式系统的‘一站式’解决方案。它不仅简化了分布式系统中的常见模式实现,还被广泛应用于企业级生产环境中。本书内容详实,覆盖了从微服务基础到Spring Cloud的高级应用,适合各层次的开发者。 ... [详细]
  • 收割机|篇幅_国内最牛逼的笔记,不接受反驳!!
    收割机|篇幅_国内最牛逼的笔记,不接受反驳!! ... [详细]
  • 在现代网络环境中,两台计算机之间的文件传输需求日益增长。传统的FTP和SSH方式虽然有效,但其配置复杂、步骤繁琐,难以满足快速且安全的传输需求。本文将介绍一种基于Go语言开发的新一代文件传输工具——Croc,它不仅简化了操作流程,还提供了强大的加密和跨平台支持。 ... [详细]
  • 探讨如何真正掌握Java EE,包括所需技能、工具和实践经验。资深软件教学总监李刚分享了对毕业生简历中常见问题的看法,并提供了详尽的标准。 ... [详细]
  • 网易严选Java开发面试:MySQL索引深度解析
    本文详细记录了网易严选Java开发岗位的面试经验,特别针对MySQL索引相关的技术问题进行了深入探讨。通过本文,读者可以了解面试官常问的索引问题及其背后的原理。 ... [详细]
  • 本文将深入探讨如何在不依赖第三方库的情况下,使用 React 处理表单输入和验证。我们将介绍一种高效且灵活的方法,涵盖表单提交、输入验证及错误处理等关键功能。 ... [详细]
  • 本文探讨了如何在日常工作中通过优化效率和深入研究核心技术,将技术和知识转化为实际收益。文章结合个人经验,分享了提高工作效率、掌握高价值技能以及选择合适工作环境的方法,帮助读者更好地实现技术变现。 ... [详细]
  • 本文详细介绍了 Flink 和 YARN 的交互机制。YARN 是 Hadoop 生态系统中的资源管理组件,类似于 Spark on YARN 的配置方式。我们将基于官方文档,深入探讨如何在 YARN 上部署和运行 Flink 任务。 ... [详细]
author-avatar
贝乐小凸
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有