热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

qGPU容器产品全量上线,重磅发布GPU在离线混部功能

作者徐蓓,腾讯云容器技术专家,腾讯云异构计算容器负责人,多年云计算一线架构设计与研发经验,长期深耕Kubernetes、在

作者

徐蓓,腾讯云容器技术专家,腾讯云异构计算容器负责人,多年云计算一线架构设计与研发经验,长期深耕 Kubernetes、在离线混部与 GPU 容器化领域,Kubernetes KEP Memory QoS 作者,Kubernetes 积极贡献者。


摘要

qGPU 是腾讯云推出的 GPU 共享技术,支持在多个容器间共享 GPU 卡资源,提供百分比算力与 MB 级显存细粒度分配和强隔离能力,并且搭配业界独有的 GPU 在离线混部技术,在充分保证业务安全、稳定的前提下,将 GPU 利用率提升到了极致。

qGPU 已服务内外部大量客户,帮助众多 AI 企业节省大量 GPU 成本。qGPU 容器虚拟化产品现已在腾讯云 TKE 全量上线。

腾讯云在业界(除 NVIDIA 原厂外)首次实现了对细粒度算力强隔离的支持。qGPU 算力可以实现 1% 的细粒度限制,并且保证严格按照配比分配和限制算力资源,即使在 GPU 资源非常紧张时,各业务所分配算力资源依然保证不受影响。依赖这种能力,企业用户可以尽量多的增加业务部署密度,充分利用 GPU 资源,而不用担心会对业务带来负面影响。

qGPU 依赖 TKE 自研调度器和设备管理器,在 TKE Kubernetes 集群上支持 GPU 卡级别的百分比算力和 MB 级显存分配和调度,在保证集群最优资源分配和负载的前提下,让企业 AI 任务可以使用更小粒度的 GPU 资源。

qGPU 在 GPU 硬件级(而非 CUDA API 级的拦截和控制)实现了 QoS 能力,通过 MB 级控制 GPU 显存资源分配及细粒度的强算力隔离,最大程度避免了因共享 GPU 带来的业务性能损失。通过这种创新技术,qGPU 解决了 故障、显存 和 算力 全维度的隔离问题。

除此之外,腾讯云 qGPU 创新性的将在离线混合部署技术与 GPU 相结合,在业界首次提出了 GPU 在离线混部的概念,将 GPU 容器共享技术推进到了下一个纪元。

在线业务通常指推理业务,离线业务可能是推理、也可能是训练,于是在离线混部主要形式有 推理 + 推理、推理 + 训练。如果缺乏有效技术手段,为了保证在线业务的 QoS,需要使之独占一张 GPU 卡,这会导致利用率很低。在具备 qGPU 在离线混部能力之后,用户可以安全地将在线业务与其他业务部署在同一张 GPU 卡,在共享复用资源的同时,可以完全保障在线业务健康、稳定运行。

可以说,腾讯云 qGPU 在离线混部是提升 GPU 利用率的创新性的突破技术。利用领先的细粒度算力隔离技术和独创的算力高低优调度技术,在保证在线任务算力 QoS 的前提下,可以有效将 GPU 利用率提升至 100%,极大程度减少算力浪费,将 GPU 资源压榨到极致。


总结

算力异构化已经是今天的业界共识。其中 GPU 以其强大的算力和完善的生态,在 AI 异构计算中占据了统治地位。面对昂贵的 AI 算力资源,企业迫切的希望有技术手段可以帮助降低成本,增加效率。

腾讯云 qGPU 立足 AI 领域,依托 GPU 资源细粒度调度、GPU 资源强隔离、GPU 在离线混部 等技术产品,通过为企业提升 GPU 使用效率,释放 AI 算力生产力,最终帮助企业带来持续和不断的巨大商业价值。

qGPU 容器虚拟化:https://cloud.tencent.com/document/product/560/66232


关于我们

更多关于云原生的案例和知识,可关注同名【腾讯云原生】公众号~


福利:

①公众号后台回复【手册】,可获得《腾讯云原生路线图手册》&《腾讯云原生最佳实践》~

②公众号后台回复【系列】,可获得《15个系列100+篇超实用云原生原创干货合集》,包含Kubernetes 降本增效、K8s 性能优化实践、最佳实践等系列。

③公众号后台回复【白皮书】,可获得《腾讯云容器安全白皮书》&《降本之源-云原生成本管理白皮书v1.0》

④公众号后台回复【光速入门】,可获得腾讯云专家5万字精华教程,光速入门Prometheus和Grafana。

⑤公众号后台回复【精选集】,可获得腾讯24位腾讯云专家精彩演讲——4万字《腾讯云技术实践精选集 2021》。


【腾讯云原生】云说新品、云研新术、云游新活、云赏资讯,扫码关注同名公众号,及时获取更多干货!!



推荐阅读
  • 从理想主义者的内心深处萌发的技术信仰,推动了云原生技术在全球范围内的快速发展。本文将带你深入了解阿里巴巴在开源领域的贡献与成就。 ... [详细]
  • Docker安全策略与管理
    本文探讨了Docker的安全挑战、核心安全特性及其管理策略,旨在帮助读者深入理解Docker安全机制,并提供实用的安全管理建议。 ... [详细]
  • 本文总结了一次针对大厂Java研发岗位的面试经历,探讨了面试中常见的问题及其背后的原因,并分享了一些实用的面试准备资料。 ... [详细]
  • ABP框架是ASP.NET Boilerplate的简称,它不仅是一个开源且文档丰富的应用程序框架,还提供了一套基于领域驱动设计(DDD)的最佳实践架构模型。本文将详细介绍ABP框架的特点、项目结构及其在Web API优先架构中的应用。 ... [详细]
  • 为何Compose与Swarm之后仍有Kubernetes的诞生?
    探讨在已有Compose和Swarm的情况下,Kubernetes是如何以其独特的设计理念和技术优势脱颖而出,成为容器编排领域的领航者。 ... [详细]
  • 理解浏览器历史记录(2)hashchange、pushState
    阅读目录1.hashchange2.pushState本文也是一篇基础文章。继上文之后,本打算去研究pushState,偶然在一些信息中发现了锚点变 ... [详细]
  • 本文探讨了在一个物理隔离的环境中构建数据交换平台所面临的挑战,包括但不限于数据加密、传输监控及确保文件交换的安全性和可靠性。同时,作者结合自身项目经验,分享了项目规划、实施过程中的关键决策及其背后的思考。 ... [详细]
  • Flutter 核心技术与混合开发模式深入解析
    本文深入探讨了 Flutter 的核心技术,特别是其混合开发模式,包括统一管理模式和三端分离模式,以及混合栈原理。通过对比不同模式的优缺点,帮助开发者选择最适合项目的混合开发策略。 ... [详细]
  • 本文将探讨如何在 Struts2 中使用 ActionContext 和 ServletActionContext 来获取请求参数和会话信息,同时解释它们的内部机制和最佳实践。 ... [详细]
  • RTThread线程间通信
    线程中通信在裸机编程中,经常会使用全局变量进行功能间的通信,如某些功能可能由于一些操作而改变全局变量的值,另一个功能对此全局变量进行读取& ... [详细]
  • 对象存储与块存储、文件存储等对比
    看到一篇文档,讲对象存储,好奇,搜索文章,摘抄,学习记录!背景:传统存储在面对海量非结构化数据时,在存储、分享与容灾上面临很大的挑战,主要表现在以下几个方面:传统存储并非为非结 ... [详细]
  • 深入理解Java多线程与并发机制
    本文探讨了Java多线程和并发机制的核心概念,包括多线程类的分类、执行器框架、并发容器及控制工具。通过详细解析这些组件,帮助开发者更好地理解和应用多线程技术。 ... [详细]
  • Java EE 平台集成了多种服务、API 和协议,旨在支持基于 Web 的多层应用程序开发。本文将详细介绍 Java EE 中的 13 种关键技术规范,帮助开发者更好地理解和应用这些技术。 ... [详细]
  • 面试题总结_2019年全网最热门的123个Java并发面试题总结
    面试题总结_2019年全网最热门的123个Java并发面试题总结 ... [详细]
  • 使用Tkinter构建51Ape无损音乐爬虫UI
    本文介绍了如何使用Python的内置模块Tkinter来构建一个简单的用户界面,用于爬取51Ape网站上的无损音乐百度云链接。虽然Tkinter入门相对简单,但在实际开发过程中由于文档不足可能会带来一些不便。 ... [详细]
author-avatar
贝乐小凸
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有