[lora][moe] Decoupled LoRA MoE backend with Marlin support (#21858)

klshuster · web-flow · commit 8da1cfb30d12 · 2026-04-11T14:59:27.000-07:00
diff --git a/python/sglang/srt/layers/moe/moe_runner/base.py b/python/sglang/srt/layers/moe/moe_runner/base.py
@@ -2,7 +2,7 @@
 
 from abc import ABC, abstractmethod
 from dataclasses import dataclass
-from typing import TYPE_CHECKING, Callable, Optional, Tuple, TypeGuard
+from typing import TYPE_CHECKING, Any, Callable, Optional, Tuple, TypeGuard
 
 import torch
 
@@ -82,7 +82,11 @@ def __init__(self, config: MoeRunnerConfig):
 
     @abstractmethod
     def run(
-        self, runner_input: RunnerInput, quant_info: MoeQuantInfo, running_state: dict
+        self,
+        runner_input: RunnerInput,
+        quant_info: MoeQuantInfo,
+        running_state: dict,
+        hooks: Optional[Any] = None,
     ) -> RunnerOutput:
         pass
 
diff --git a/python/sglang/srt/layers/moe/moe_runner/deep_gemm.py b/python/sglang/srt/layers/moe/moe_runner/deep_gemm.py
@@ -1,7 +1,7 @@
 from __future__ import annotations
 
 from dataclasses import dataclass
-from typing import TYPE_CHECKING, List, Optional
+from typing import TYPE_CHECKING, Any, List, Optional
 
 import torch
 
@@ -120,6 +120,7 @@ def run(
         runner_input: DeepGemmRunnerInput,
         quant_info: DeepGemmMoeQuantInfo,
         running_state: dict,
+        hooks: Optional[Any] = None,
     ) -> DeepGemmRunnerOutput:
         if not runner_input.use_masked_gemm:
             hidden_states = self._run_contiguous_gemm(
diff --git a/python/sglang/srt/layers/moe/moe_runner/runner.py b/python/sglang/srt/layers/moe/moe_runner/runner.py
@@ -2,7 +2,7 @@
 
 import logging
 import os
-from typing import TYPE_CHECKING, Optional
+from typing import TYPE_CHECKING, Any, Optional
 
 from sglang.srt.layers.moe.moe_runner.base import (
     FusedOpPool,
@@ -19,6 +19,8 @@
     from sglang.srt.layers.moe.moe_runner.base import MoeQuantInfo
     from sglang.srt.layers.moe.token_dispatcher.base import CombineInput, DispatchOutput
     from sglang.srt.layers.moe.utils import MoeRunnerBackend
+    from sglang.srt.lora.lora_moe_runners import LoRAHooks
+
 
 logger = logging.getLogger(__name__)
 
@@ -37,18 +39,18 @@ def __init__(
         self.fused_func = None
 
         if runner_backend.is_triton():
-            if lora_enabled:
-                from sglang.srt.lora.lora_moe_runners import TritonRunnerCoreWithLoRA
-
-                self.runner_core = TritonRunnerCoreWithLoRA(config)
-            else:
-                self.runner_core = TritonRunnerCore(config)
+            self.runner_core = TritonRunnerCore(config)
         elif runner_backend.is_triton_kernels():
             self.runner_core = TritonKernelsRunnerCore(config)
         elif runner_backend.is_deep_gemm():
             self.runner_core = DeepGemmRunnerCore(config)
         elif runner_backend.is_marlin():
-            self.runner_core = None  # Marlin only supports fused path
+            if lora_enabled:
+                from sglang.srt.lora.lora_moe_runner_marlin import MarlinLoraRunnerCore
+
+                self.runner_core = MarlinLoraRunnerCore(config)
+            else:
+                self.runner_core = None  # Marlin only supports fused path
         elif (
             runner_backend.is_flashinfer_trtllm()
             or runner_backend.is_flashinfer_trtllm_routed()
@@ -94,6 +96,41 @@ def run(
             return self.fused_func(dispatch_output, quant_info, self.config)
 
         assert self.runner_core is not None
+
+        def _maybe_build_lora_hooks(_runner_input: Any) -> LoRAHooks:
+            if not self.lora_enabled or lora_info is None:
+                return None
+
+            from sglang.srt.layers.moe.token_dispatcher.base import DispatchOutput
+            from sglang.srt.lora.lora_moe_runners import build_lora_hooks
+
+            if isinstance(_runner_input, DispatchOutput):
+                hidden_states, topk_ids = (
+                    _runner_input.hidden_states,
+                    _runner_input.topk_output.topk_ids,
+                )
+            elif hasattr(_runner_input, "topk_ids"):
+                hidden_states, topk_ids = (
+                    _runner_input.hidden_states,
+                    _runner_input.topk_ids,
+                )
+            else:
+                return None
+
+            return build_lora_hooks(
+                hidden_states,
+                lora_info,
+                topk_ids,
+            )
+
+        # Runners that handle dispatch_output directly (e.g., MarlinRunnerCore)
+        # bypass the pre-permute step and do their own alignment internally.
+        if hasattr(self.runner_core, "run_from_dispatch"):
+            hooks = _maybe_build_lora_hooks(dispatch_output)
+            return self.runner_core.run_from_dispatch(
+                dispatch_output, quant_info, self.config, hooks=hooks
+            )
+
         dispatch_format = dispatch_output.format.value
         runner_format = self.runner_core.runner_backend.value
         self.pre_permute_func = PermuteMethodPool.get_pre_permute(
@@ -110,16 +147,11 @@ def run(
             dispatch_output, quant_info, self.config, running_state
         )
 
-        # Pass lora_info to runner_core if LoRA is enabled
-        if self.lora_enabled:
-            runner_output = self.runner_core.run(
-                runner_input, quant_info, running_state, lora_info
-            )
-        else:
-            runner_output = self.runner_core.run(
-                runner_input, quant_info, running_state
-            )
+        hooks = _maybe_build_lora_hooks(runner_input)
 
+        runner_output = self.runner_core.run(
+            runner_input, quant_info, running_state, hooks=hooks
+        )
         runner_format = self.runner_core.runner_backend.value
         combine_format = dispatch_output.format.value
         self.post_permute_func = PermuteMethodPool.get_post_permute(
diff --git a/python/sglang/srt/layers/moe/moe_runner/triton.py b/python/sglang/srt/layers/moe/moe_runner/triton.py
@@ -3,7 +3,7 @@
 import functools
 import os
 from dataclasses import dataclass
-from typing import TYPE_CHECKING, List, Optional
+from typing import TYPE_CHECKING, Any, List, Optional
 
 import torch
 import triton.language as tl
@@ -124,6 +124,7 @@ def run(
         runner_input: TritonRunnerInput,
         quant_info: TritonMoeQuantInfo,
         running_state: dict,
+        hooks: Optional[Any] = None,
     ) -> TritonRunnerOutput:
 
         # TODO: move these functions to the triton runner
@@ -206,6 +207,11 @@ def run(
             block_shape=block_shape,
         )
 
+        if hooks and hooks.after_gate_up:
+            hooks.after_gate_up(
+                hidden_states, intermediate_cache1, topk_weights, topk_ids
+            )
+
         intermediate_cache2 = torch.empty(
             (M * topk_ids.shape[1], N // 2),
             device=hidden_states.device,
@@ -258,13 +264,16 @@ def run(
         else:
             out_hidden_states = torch.empty_like(hidden_states)
 
+        # When LoRA hooks are present, always write to intermediate_cache3
+        # so the hook can modify it before reduction.
+        _use_intermediate = not no_combine and (topk_ids.shape[1] != 1 or hooks)
         invoke_fused_moe_kernel(
             intermediate_cache2,
             w2,
             b2,
             (
                 intermediate_cache3
-                if not no_combine and topk_ids.shape[1] != 1
+                if _use_intermediate
                 else out_hidden_states.unsqueeze(0)
             ),
             a2_scale,
@@ -287,14 +296,23 @@ def run(
             block_shape=block_shape,
         )
 
+        if hooks and hooks.after_down:
+            hooks.after_down(
+                intermediate_cache2, intermediate_cache3, topk_weights, topk_ids
+            )
+
         if routed_scaling_factor is None:
             routed_scaling_factor = 1.0
 
         if no_combine:
             pass
         elif _is_cuda:
-            if topk_ids.shape[1] == 1 and routed_scaling_factor == 1.0:
-                pass  # we write directly into out_hidden_states
+            if (
+                topk_ids.shape[1] == 1
+                and routed_scaling_factor == 1.0
+                and not _use_intermediate
+            ):
+                pass  # we wrote directly into out_hidden_states
             elif topk_ids.shape[1] == 2 and routed_scaling_factor == 1.0:
                 torch.add(
                     intermediate_cache3[:, 0],
diff --git a/python/sglang/srt/layers/moe/moe_runner/triton_kernels.py b/python/sglang/srt/layers/moe/moe_runner/triton_kernels.py
@@ -3,7 +3,7 @@
 from __future__ import annotations
 
 from dataclasses import dataclass
-from typing import TYPE_CHECKING, Optional
+from typing import TYPE_CHECKING, Any, Optional
 
 import torch
 
@@ -84,6 +84,7 @@ def run(
         runner_input: TritonKernelsRunnerInput,
         quant_info: TritonKernelsQuantInfo,
         running_state: dict,
+        hooks: Optional[Any] = None,
     ) -> TritonKernelsRunnerOutput:
         from sglang.srt.layers.moe.fused_moe_triton.triton_kernels_moe import (
             triton_kernel_fused_experts,
diff --git a/python/sglang/srt/layers/quantization/compressed_tensors/compressed_tensors.py b/python/sglang/srt/layers/quantization/compressed_tensors/compressed_tensors.py
@@ -682,16 +682,13 @@ def get_moe_scheme(
                     logger.info_once("Using CompressedTensorsWNA16TritonMoE (ROCm)")
                     return CompressedTensorsWNA16TritonMoE(self)
                 else:
-                    from sglang.srt.server_args import get_global_server_args
-
-                    server_args = get_global_server_args()
-                    if server_args and server_args.enable_lora:
+                    moe_backend = get_moe_runner_backend()
+                    if moe_backend.is_triton():
                         logger.info_once(
-                            "Using CompressedTensorsWNA16TritonMoEMethod "
-                            "(LoRA requires triton-compatible MoE weights)"
+                            "Using CompressedTensorsWNA16TritonMoE "
+                            "(moe_runner_backend=triton)"
                         )
                         return CompressedTensorsWNA16TritonMoE(self)
-
                     logger.info_once("Using CompressedTensorsWNA16MarlinMoEMethod")
                     return CompressedTensorsWNA16MoE(self)
             else:
@@ -1010,6 +1007,9 @@ def create_moe_runner(
     def get_triton_quant_info(self, layer: torch.nn.Module):
         return layer.scheme.get_triton_quant_info(layer)
 
+    def get_marlin_quant_info(self, layer: torch.nn.Module):
+        return layer.scheme.get_marlin_quant_info(layer)
+
     def apply(
         self,
         layer: torch.nn.Module,
diff --git a/python/sglang/srt/layers/quantization/compressed_tensors/schemes/compressed_tensors_wNa16_moe.py b/python/sglang/srt/layers/quantization/compressed_tensors/schemes/compressed_tensors_wNa16_moe.py
@@ -354,6 +354,23 @@ def create_moe_runner(
         self, layer: torch.nn.Module, moe_runner_config: MoeRunnerConfig
     ):
         self.moe_runner_config = moe_runner_config
+        self.runner = MoeRunner(MoeRunnerBackend.MARLIN, moe_runner_config)
+
+    def get_marlin_quant_info(self, layer):
+        from sglang.srt.layers.moe.moe_runner.marlin import MarlinMoeQuantInfo
+
+        return MarlinMoeQuantInfo(
+            w13_qweight=layer.w13_weight_packed,
+            w2_qweight=layer.w2_weight_packed,
+            w13_scales=layer.w13_weight_scale,
+            w2_scales=layer.w2_weight_scale,
+            w13_g_idx_sort_indices=getattr(layer, "w13_g_idx_sort_indices", None),
+            w2_g_idx_sort_indices=getattr(layer, "w2_g_idx_sort_indices", None),
+            weight_bits=self.num_bits,
+            w13_g_idx=getattr(layer, "w13_weight_g_idx", None),
+            w2_g_idx=getattr(layer, "w2_weight_g_idx", None),
+            is_k_full=self.is_k_full,
+        )
 
     def apply_weights(
         self,
diff --git a/python/sglang/srt/lora/layers.py b/python/sglang/srt/lora/layers.py
@@ -808,13 +808,20 @@ def __init__(
             getattr(base_layer.moe_runner_config, "gemm1_alpha", None) is not None
         )
 
-        # initialize triton_lora moe runner for batches with lora enabled
+        # Initialize triton_lora moe runner for batches with lora enabled
         from sglang.srt.layers.moe import MoeRunnerBackend
         from sglang.srt.layers.moe.moe_runner.runner import MoeRunner
-
-        qm = base_layer.quant_method
-        if hasattr(qm, "runner") and qm.runner is not None:
-            runner_backend = qm.runner.runner_backend
+        from sglang.srt.layers.moe.utils import get_moe_runner_backend
+
+        # Determine runner backend: prefer server arg, fall back to quant method's runner
+        global_backend = get_moe_runner_backend()
+        if not global_backend.is_auto():
+            runner_backend = global_backend
+        elif (
+            hasattr(base_layer.quant_method, "runner")
+            and base_layer.quant_method.runner is not None
+        ):
+            runner_backend = base_layer.quant_method.runner.runner_backend
         else:
             runner_backend = MoeRunnerBackend.TRITON
 
@@ -824,8 +831,25 @@ def __init__(
             lora_enabled=True,
         )
 
-        # Pre-compute quant info for efficiency (weights don't change during inference)
-        self._quant_info = base_layer.quant_method.get_triton_quant_info(base_layer)
+        if runner_backend.is_marlin():
+            from sglang.srt.layers.quantization.compressed_tensors.compressed_tensors import (
+                CompressedTensorsFusedMoEMethod,
+            )
+
+            assert isinstance(
+                base_layer.quant_method, CompressedTensorsFusedMoEMethod
+            ), (
+                f"Marlin MoE backend requires CompressedTensorsFusedMoEMethod, "
+                f"got {type(base_layer.quant_method).__name__}"
+            )
+            self._quant_info = base_layer.quant_method.get_marlin_quant_info(base_layer)
+        elif runner_backend.is_triton():
+            assert base_layer.quant_method is not None, "Quant method must be set"
+            self._quant_info = base_layer.quant_method.get_triton_quant_info(base_layer)
+        else:
+            raise NotImplementedError(
+                f"LoRA MoE not supported for backend {runner_backend}"
+            )
 
     def set_lora_info(
         self,
@@ -876,7 +900,6 @@ def _get_lora_info(self):
             num_experts=self.base_layer.num_experts,
             experts_shared_outer_loras=self.experts_shared_outer_loras,
             cg_buffers=cg_buffers,
-            has_active_lora=batch_info.has_active_lora,
             tp_size=self.tp_size,
             tp_rank=self.tp_rank,
             hidden_size=getattr(self.base_layer, "hidden_size", 0),
diff --git a/python/sglang/srt/lora/lora_moe_runner_marlin.py b/python/sglang/srt/lora/lora_moe_runner_marlin.py
diff --git a/python/sglang/srt/lora/lora_moe_runners.py b/python/sglang/srt/lora/lora_moe_runners.py
diff --git a/test/registered/lora/test_lora_moe_runner.py b/test/registered/lora/test_lora_moe_runner.py
diff --git a/test/registered/lora/test_marlin_lora_correctness.py b/test/registered/lora/test_marlin_lora_correctness.py