作者:贝乐小凸 | 来源:互联网 | 2023-07-12 19:09
作者
徐蓓,腾讯云容器技术专家,腾讯云异构计算容器负责人,多年云计算一线架构设计与研发经验,长期深耕 Kubernetes、在离线混部与 GPU 容器化领域,Kubernetes KEP Memory QoS 作者,Kubernetes 积极贡献者。
摘要
qGPU 是腾讯云推出的 GPU 共享技术,支持在多个容器间共享 GPU 卡资源,提供百分比算力与 MB 级显存细粒度分配和强隔离能力,并且搭配业界独有的 GPU 在离线混部技术,在充分保证业务安全、稳定的前提下,将 GPU 利用率提升到了极致。
qGPU 已服务内外部大量客户,帮助众多 AI 企业节省大量 GPU 成本。qGPU 容器虚拟化产品现已在腾讯云 TKE 全量上线。
腾讯云在业界(除 NVIDIA 原厂外)首次实现了对细粒度算力强隔离的支持。qGPU 算力可以实现 1% 的细粒度限制,并且保证严格按照配比分配和限制算力资源,即使在 GPU 资源非常紧张时,各业务所分配算力资源依然保证不受影响。依赖这种能力,企业用户可以尽量多的增加业务部署密度,充分利用 GPU 资源,而不用担心会对业务带来负面影响。
qGPU 依赖 TKE 自研调度器和设备管理器,在 TKE Kubernetes 集群上支持 GPU 卡级别的百分比算力和 MB 级显存分配和调度,在保证集群最优资源分配和负载的前提下,让企业 AI 任务可以使用更小粒度的 GPU 资源。
qGPU 在 GPU 硬件级(而非 CUDA API 级的拦截和控制)实现了 QoS 能力,通过 MB 级控制 GPU 显存资源分配及细粒度的强算力隔离,最大程度避免了因共享 GPU 带来的业务性能损失。通过这种创新技术,qGPU 解决了 故障、显存 和 算力 全维度的隔离问题。
除此之外,腾讯云 qGPU 创新性的将在离线混合部署技术与 GPU 相结合,在业界首次提出了 GPU 在离线混部的概念,将 GPU 容器共享技术推进到了下一个纪元。
在线业务通常指推理业务,离线业务可能是推理、也可能是训练,于是在离线混部主要形式有 推理 + 推理、推理 + 训练。如果缺乏有效技术手段,为了保证在线业务的 QoS,需要使之独占一张 GPU 卡,这会导致利用率很低。在具备 qGPU 在离线混部能力之后,用户可以安全地将在线业务与其他业务部署在同一张 GPU 卡,在共享复用资源的同时,可以完全保障在线业务健康、稳定运行。
可以说,腾讯云 qGPU 在离线混部是提升 GPU 利用率的创新性的突破技术。利用领先的细粒度算力隔离技术和独创的算力高低优调度技术,在保证在线任务算力 QoS 的前提下,可以有效将 GPU 利用率提升至 100%,极大程度减少算力浪费,将 GPU 资源压榨到极致。
总结
算力异构化已经是今天的业界共识。其中 GPU 以其强大的算力和完善的生态,在 AI 异构计算中占据了统治地位。面对昂贵的 AI 算力资源,企业迫切的希望有技术手段可以帮助降低成本,增加效率。
腾讯云 qGPU 立足 AI 领域,依托 GPU 资源细粒度调度、GPU 资源强隔离、GPU 在离线混部 等技术产品,通过为企业提升 GPU 使用效率,释放 AI 算力生产力,最终帮助企业带来持续和不断的巨大商业价值。
qGPU 容器虚拟化:https://cloud.tencent.com/document/product/560/66232
关于我们
更多关于云原生的案例和知识,可关注同名【腾讯云原生】公众号~
福利:
①公众号后台回复【手册】,可获得《腾讯云原生路线图手册》&《腾讯云原生最佳实践》~
②公众号后台回复【系列】,可获得《15个系列100+篇超实用云原生原创干货合集》,包含Kubernetes 降本增效、K8s 性能优化实践、最佳实践等系列。
③公众号后台回复【白皮书】,可获得《腾讯云容器安全白皮书》&《降本之源-云原生成本管理白皮书v1.0》
④公众号后台回复【光速入门】,可获得腾讯云专家5万字精华教程,光速入门Prometheus和Grafana。
⑤公众号后台回复【精选集】,可获得腾讯24位腾讯云专家精彩演讲——4万字《腾讯云技术实践精选集 2021》。
【腾讯云原生】云说新品、云研新术、云游新活、云赏资讯,扫码关注同名公众号,及时获取更多干货!!