1. [主页  
](/)

Grove

# NVIDIA Grove

NVIDIA Grove 是一款开源的 Kubernetes API，用于定义单节点和多节点 AI 推理工作负载（例如使用 [NVIDIA Dynamo](https://developer.nvidia.cn/dynamo) 部署的工作负载）的结构与生命周期，同时让这些工作负载能够在基于 Kubernetes 的环境中高效扩展。  
  
Grove 专为在 GPU 集群中编排具有复杂需求的大规模 AI 工作负载而打造，开发者可以在单个自定义资源中描述多组件工作负载，包括各组件的角色、依赖关系、多级扩缩容规则以及启动顺序。Grove 是 NVIDIA Dynamo 的一个模块化组件，但也可以作为独立方案部署，或集成到其他高性能推理框架中使用。

[开始使用](https://github.com/ai-dynamo/grove &quot;Get Started&quot;)[文档](https://github.com/ai-dynamo/grove/blob/main/docs/installation.md &quot;Documentation&quot;)

* * *

## NVIDIA Grove 的工作原理

高性能推理框架通过 Grove 的分级 API 来表达不同角色的业务逻辑和多级扩缩容策略，从而在各类集群环境中实现一致且优化的部署体验。Grove 通过其工作负载 API 中的 **三个分级自定义资源** 来编排多组件 AI 工作负载，从而完成这一目标。

![NVIDIA Rivermax provides real-time streaming for the Las Vegas Sphere, world’s largest LED display](https://developer.download.nvidia.com/images/runai-grove-podclique-diagram.svg)

- 

**PodCliques ** 表示具有特定角色的 Kubernetes Pod 组，例如预填充 worker、解码 leader 或前端服务，每个都有独立的配置和扩展逻辑。

- 

**PodCliqueScalingGroups ** 会将那些必须一起扩缩容的、紧密耦合的 PodClique 进行打包，例如需要协同缩放行为的预填充主节点和预填充工作节点。

- 

**PodCliqueSets ** 定义整个多组件工作负载，指定启动顺序、扩展策略和帮组调度约束，以确保所有组件一起启动或一起失败。在扩展以获得额外容量时，Grove 会创建整个 PodGangSet 的完整副本，并定义在集群中分发这些副本以实现高可用性的散布约束，同时保持每个副本的组件网络打包以实现最佳性能。

![NVIDIA Rivermax provides real-time streaming for the Las Vegas Sphere, world’s largest LED display](https://developer.download.nvidia.com/images/Runai-Diagram-Grove-Process.svg)

启用 Grove 的 Kubernetes 集群需要部署 Grove operator，以及一个能够识别 PodGang 资源的调度器，例如 [KAI scheduler](https://github.com/NVIDIA/KAI-Scheduler)。  
  
创建 PodCliqueSet 资源时，Grove 的 Operator 会验证规范并自动生成必要的 Kubernetes 资源，包括组成 PodCliques、PodCliqueScalingGroups 以及相关服务、密钥和自动扩展策略。然后，Grove 运算符创建 ** PodGang**  将工作负载需求转化为调度程序调度约束的资源。每个 PodGang 都包含  **Pod 组** 具有最小副本保证、网络拓扑封装性能要求和可用性分布限制，从而在整个集群中实现拓扑感知布局和高效资源利用。  
  
调度程序会监视这些 PodGang 资源并应用分组调度逻辑，确保所有必需组件一起调度或完全不调度，同时根据 GPU 集群拓扑优化布局。此过程可实现多组件 AI 堆栈的协调部署，其中预填充服务、解码工作程序和路由组件以正确的顺序开始，并具有最佳的网络布局，从而防止资源死锁和部分部署浪费集群中的资源。

### 快速入门指南

使用 PodGangSets、PodCliques 和 ScalingGroups 部署您的首个 AI 推理工作负载，只需几分钟即可在 Kubernetes 上完成从安装到运行分解推理的整个过程。

[开始使用](https://github.com/ai-dynamo/grove/blob/main/docs/quickstart.md)

### 为何选择 Grove：编排和扩展问题

了解 Grove 如何利用内置智能将复杂的 AI 推理工作负载从数十个 YAML 文件和手动协调转换为单一的声明性自定义资源定义 (CRD) 。

[阅读博客](https://developer.nvidia.cn/blog/streamline-complex-ai-inference-on-kubernetes-with-nvidia-grove/)

### 详细了解 Grove

阅读完整的 API 参考、高级配置选项以及在生产环境中部署 Grove 的详细指南。

[阅读文档](https://github.com/ai-dynamo/grove/blob/main/docs/api-reference/operator-api.md)

* * *

## 开始使用 NVIDIA Grove

在 Kubernetes 上安装 Grove 并运行首个多组件 AI 工作负载。

 ![Get NVIDIA Grove running on your cluster](https://developer.download.nvidia.com/icons/m48-multi-gpus.svg)
### 在集群上运行 Grove

Grove 安装可部署 Grove Operator，为 PodCliqueSets、PodCliques 和 PodCliqueScalingGroups 创建必要的 CRD，以及用于管理工作负载和生成调度约束的控制器。

[通过 Helm Chart 安装](https://github.com/NVIDIA/grove/blob/main/docs/installation.md#deploying-grove)

[使用 Make Target 进行安装](https://github.com/NVIDIA/grove/blob/main/docs/installation.md#developing-grove)

 ![NVIDIA Grove Deep Dive](https://developer.download.nvidia.com/icons/m48-demo-topics.svg)
### 深入了解 NVIDIA Grove

了解 Grove 解决的问题、其关键功能，以及它如何通过易于使用的高级 API 实现声明性工作负载定义，从而实现调度器级优化。

[观看视频](https://www.youtube.com/watch?v=AXASqOBWlKQ)

* * *

## NVIDIA Grove 入门套件

### 解耦式服务

分解式推理可根据不同需求将模型服务分成专门的组件 (预填充、解码、路由) 。此套件探讨了分离服务的架构模式和编排挑战。

- 

[LLM 推理基础知识](https://developer.nvidia.cn/blog/mastering-llm-techniques-inference-optimization/)(技术博客)

- 

[解服务和 NVIDIA Dynamo 简介](https://developer.nvidia.cn/blog/introducing-nvidia-dynamo-a-low-latency-distributed-inference-framework-for-scaling-reasoning-ai-models/)(技术博客)

- 

[在 NVIDIA GB200 上优化 MoE 模型的性能](https://developer.nvidia.cn/blog/how-nvidia-gb200-nvl72-and-nvidia-dynamo-boost-inference-performance-for-moe-models/)(技术博客)

### 调度 AI 工作负载

从初始模型训练到推理，调度工作负载在整个 AI 生命周期中发挥着关键作用。此套件涵盖对 KAI 调度程序环境中的高性能 AI 工作负载至关重要的高级调度概念。

- 

[KAI 调度程序和调度概念简介](https://developer.nvidia.cn/blog/nvidia-open-sources-runai-scheduler-to-foster-community-collaboration/)(技术博客)

- 

[调度为何对解服务很重要](https://developer.nvidia.cn/blog/smart-multi-node-scheduling-for-fast-and-efficient-llm-inference-with-nvidia-runai-and-nvidia-dynamo/)(技术博客)

- 

[分组调度和工作负载优先级](https://developer.nvidia.com/blog/enable-gang-scheduling-and-workload-prioritization-in-ray-with-nvidia-kai-scheduler/)(技术博客)

### 推理优化

更大限度地提高 AI 推理性能需要理解并在软硬件中应用先进的优化技术。此套件涵盖在生产环境中实现最佳吞吐量和延迟的不同方法。

- 

[预测解码以提高吞吐量](https://developer.nvidia.cn/blog/tensorrt-llm-speculative-decoding-boosts-inference-throughput-by-up-to-3-6x/)(技术博客)

- 

[在工作流和张量并行之间进行选择](https://developer.nvidia.com/blog/boosting-llama-3-1-405b-throughput-by-another-1-5x-on-nvidia-h200-tensor-core-gpus-and-nvlink-switch/)(技术博客)

- 

[MultiShot 通信协议](https://developer.nvidia.cn/blog/3x-faster-allreduce-with-nvswitch-and-tensorrt-llm-multishot/)(技术博客)

* * *

## NVIDIA Grove 学习资源库

Tech Blog 

### 借助 KAI Scheduler 实现大规模高级 AI 工作负载调度

**NVIDIA KAI 调度程序**  
  
从技术角度概述 KAI 调度程序、其对机器学习团队的价值以及调度周期和操作。

Video 

### NVIDIA Dynamo 简介

**NVIDIA Dynamo**  
  
了解 NVIDIA Dynamo 的关键组件和架构，以及它们如何在分布式环境中实现无缝扩展和优化推理。

Documentation 

### 使用 Grove 跨多个节点部署 Dynamo 工作负载

**NVIDIA Dynamo**  
  
了解如何使用 Grove 的 API 部署多节点 NVIDIA Dynamo 工作负载，实现大规模拓扑优化推理。

Tech Blog 

### 在实践中理解轮式调度

**NVIDIA KAI 调度程序**  
  
通过光线工作负载了解核心轮组调度概念，包括队列创建、作业提交和基于优先级的抢占。

Video 

### 采用 NVIDIA Dynamo 的 KV 缓存感知型智能路由器

**NVIDIA Dynamo**  
  
探索 NVIDIA Dynamo 如何通过 (键值) KV 缓存感知型智能路由来缩短首次 token 和请求延迟的时间。

* * *

## 更多资源

 ![Decorative image representing Community](https://developer.download.nvidia.com/icons/m48-people-group.svg)
### 加入 Discord 社区

 ![Decorative image representing Training and Certification](https://developer.download.nvidia.com/icons/m48-certification-ribbon-2.svg)
### 获取培训和认证

 ![Decorative image representing Developer Community](https://developer.download.nvidia.com/icons/m48-developer-1.svg)
### 加入 NVIDIA 开发者计划

* * *

## 符合伦理的 AI

NVIDIA 认为可信 AI 是一项共同责任，我们已制定相关政策和实践，以支持开发各种 AI 应用。根据我们的服务条款下载或使用时，开发者应与其支持的模型团队合作，确保此模型满足相关行业和用例的要求，并解决不可预见的产品滥用问题。  
  
有关此模型道德因素的更多详细信息，请参阅模型卡 可解释性、偏差、安全性和隐私子卡。请[单击此处](https://www.nvidia.com/en-us/support/submit-security-vulnerability/)报告安全漏洞或 NVIDIA AI 问题。

立即开始使用 NVIDIA Grove。

[开始使用](https://github.com/ai-dynamo/grove)