sgl-project
diff --git a/‎3rdparty/amd/tuning/benchmark_moe_rocm.py‎
Lines changed: 1 addition & 1 deletion b/‎3rdparty/amd/tuning/benchmark_moe_rocm.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎benchmark/kernels/fused_moe_triton/benchmark_sglang_fused_moe_triton.py‎
Lines changed: 3 additions & 3 deletions b/‎benchmark/kernels/fused_moe_triton/benchmark_sglang_fused_moe_triton.py‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎benchmark/kernels/fused_moe_triton/benchmark_torch_compile_fused_moe.py‎
Lines changed: 1 addition & 1 deletion b/‎benchmark/kernels/fused_moe_triton/benchmark_torch_compile_fused_moe.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎benchmark/kernels/fused_moe_triton/benchmark_vllm_vs_sglang_fused_moe_triton.py‎
Lines changed: 1 addition & 1 deletion b/‎benchmark/kernels/fused_moe_triton/benchmark_vllm_vs_sglang_fused_moe_triton.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎benchmark/kernels/fused_moe_triton/common_utils.py‎
Lines changed: 2 additions & 2 deletions b/‎benchmark/kernels/fused_moe_triton/common_utils.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎benchmark/kernels/fused_moe_triton/tuning_fused_moe_triton.py‎
Lines changed: 3 additions & 3 deletions b/‎benchmark/kernels/fused_moe_triton/tuning_fused_moe_triton.py‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎benchmark/kernels/fused_moe_triton/tuning_fused_moe_triton_sep.py‎
Lines changed: 3 additions & 3 deletions b/‎benchmark/kernels/fused_moe_triton/tuning_fused_moe_triton_sep.py‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎python/sglang/srt/layers/moe/fused_moe_triton/__init__.py‎
Lines changed: 6 additions & 25 deletions b/‎python/sglang/srt/layers/moe/fused_moe_triton/__init__.py‎
Lines changed: 6 additions & 25 deletions
@@ -10,7 +10,7 @@
 from tqdm import tqdm
 from transformers import AutoConfig
 
-from sglang.srt.layers.moe.fused_moe_triton.fused_moe import (
+from sglang.srt.layers.moe.moe_runner.triton_utils.fused_moe import (
     fused_moe,
     get_config_file_name,
 )
 
@@ -12,13 +12,13 @@
     init_distributed_environment,
     initialize_model_parallel,
 )
-from sglang.srt.layers.moe.fused_moe_triton.fused_moe import (
-    fused_moe as fused_moe_sglang,
-)
 from sglang.srt.layers.moe.fused_moe_triton.triton_kernels_moe import (
     triton_kernel_moe_forward,
 )
 from sglang.srt.layers.moe.moe_runner import MoeRunnerConfig
+from sglang.srt.layers.moe.moe_runner.triton_utils.fused_moe import (
+    fused_moe as fused_moe_sglang,
+)
 from sglang.srt.layers.moe.topk import (
     TopK,
     TopKConfig,
 
@@ -7,7 +7,7 @@
 from transformers import AutoConfig
 
 from sglang.benchmark.bench_utils import run_bench
-from sglang.srt.layers.moe.fused_moe_triton.fused_moe import (
+from sglang.srt.layers.moe.moe_runner.triton_utils.fused_moe import (
     fused_moe as fused_moe_triton,
 )
 from sglang.srt.model_executor.cuda_graph_runner import set_torch_compile_config
 
@@ -12,7 +12,7 @@
     init_distributed_environment,
     initialize_model_parallel,
 )
-from sglang.srt.layers.moe.fused_moe_triton.fused_moe import (
+from sglang.srt.layers.moe.moe_runner.triton_utils.fused_moe import (
     fused_moe as fused_moe_sglang,
 )
 
 
@@ -3,8 +3,8 @@
 
 import torch
 
-from sglang.srt.layers.moe.fused_moe_triton.fused_moe import get_config_dtype_str
-from sglang.srt.layers.moe.fused_moe_triton.fused_moe_triton_config import (
+from sglang.srt.layers.moe.moe_runner.triton_utils.fused_moe import get_config_dtype_str
+from sglang.srt.layers.moe.moe_runner.triton_utils.fused_moe_triton_config import (
     get_config_file_name,
 )
 from sglang.srt.utils import is_hip
 
@@ -20,13 +20,13 @@
 from ray.experimental.tqdm_ray import tqdm
 
 from sglang.srt.layers.moe.fused_moe_triton import override_config
-from sglang.srt.layers.moe.fused_moe_triton.fused_moe import fused_moe
-from sglang.srt.layers.moe.fused_moe_triton.fused_moe_triton_config import (
+from sglang.srt.layers.moe.moe_runner import MoeRunnerConfig
+from sglang.srt.layers.moe.moe_runner.triton_utils.fused_moe import fused_moe
+from sglang.srt.layers.moe.moe_runner.triton_utils.fused_moe_triton_config import (
     get_config_dtype_str,
     get_default_config,
     get_moe_configs,
 )
-from sglang.srt.layers.moe.moe_runner import MoeRunnerConfig
 from sglang.srt.layers.moe.topk import TopKConfig, select_experts
 from sglang.srt.server_args import (
     ServerArgs,
 
@@ -22,15 +22,15 @@
 )
 from ray.experimental.tqdm_ray import tqdm
 
-from sglang.srt.layers.moe.fused_moe_triton.fused_moe import (
+from sglang.srt.layers.moe.moe_runner import MoeRunnerConfig
+from sglang.srt.layers.moe.moe_runner.triton_utils.fused_moe import (
     get_config_dtype_str,
     invoke_fused_moe_kernel,
     moe_align_block_size,
 )
-from sglang.srt.layers.moe.fused_moe_triton.fused_moe_triton_config import (
+from sglang.srt.layers.moe.moe_runner.triton_utils.fused_moe_triton_config import (
     get_config_file_name,
 )
-from sglang.srt.layers.moe.moe_runner import MoeRunnerConfig
 from sglang.srt.layers.moe.topk import TopKConfig, select_experts
 from sglang.srt.server_args import (
     ServerArgs,
 
@@ -1,35 +1,16 @@
-from contextlib import contextmanager
-from typing import Any, Dict, Optional
-
-from sglang.srt.layers.moe.fused_moe_triton.fused_moe import fused_experts
-from sglang.srt.layers.moe.fused_moe_triton.fused_moe_triton_config import (
-    get_config_file_name,
-    try_get_optimal_moe_config,
-)
 from sglang.srt.layers.moe.fused_moe_triton.layer import (
     FusedMoE,
     FusedMoeWeightScaleSupported,
 )
-from sglang.srt.layers.moe.fused_moe_triton.moe_align_block_size import (
+from sglang.srt.layers.moe.moe_runner.triton_utils import (
+    fused_experts,
+    get_config,
+    get_config_file_name,
     moe_align_block_size,
+    override_config,
+    try_get_optimal_moe_config,
 )
 
-_config: Optional[Dict[str, Any]] = None
-
-
-@contextmanager
-def override_config(config):
-    global _config
-    old_config = _config
-    _config = config
-    yield
-    _config = old_config
-
-
-def get_config() -> Optional[Dict[str, Any]]:
-    return _config
-
-
 __all__ = [
     "FusedMoE",
     "FusedMoeWeightScaleSupported",
Original file line number	Diff line number	Diff line change
`@@ -10,7 +10,7 @@`
`10`	`10`	`from tqdm import tqdm`
`11`	`11`	`from transformers import AutoConfig`
`12`	`12`
`13`		`-from sglang.srt.layers.moe.fused_moe_triton.fused_moe import (`
	`13`	`+from sglang.srt.layers.moe.moe_runner.triton_utils.fused_moe import (`
`14`	`14`	`fused_moe,`
`15`	`15`	`get_config_file_name,`
`16`	`16`	`)`
Original file line number	Diff line number	Diff line change
`@@ -7,7 +7,7 @@`
`7`	`7`	`from transformers import AutoConfig`
`8`	`8`
`9`	`9`	`from sglang.benchmark.bench_utils import run_bench`
`10`		`-from sglang.srt.layers.moe.fused_moe_triton.fused_moe import (`
	`10`	`+from sglang.srt.layers.moe.moe_runner.triton_utils.fused_moe import (`
`11`	`11`	`fused_moe as fused_moe_triton,`
`12`	`12`	`)`
`13`	`13`	`from sglang.srt.model_executor.cuda_graph_runner import set_torch_compile_config`
Original file line number	Diff line number	Diff line change
`@@ -12,7 +12,7 @@`
`12`	`12`	`init_distributed_environment,`
`13`	`13`	`initialize_model_parallel,`
`14`	`14`	`)`
`15`		`-from sglang.srt.layers.moe.fused_moe_triton.fused_moe import (`
	`15`	`+from sglang.srt.layers.moe.moe_runner.triton_utils.fused_moe import (`
`16`	`16`	`fused_moe as fused_moe_sglang,`
`17`	`17`	`)`
`18`	`18`
Original file line number	Diff line number	Diff line change
`@@ -3,8 +3,8 @@`
`3`	`3`
`4`	`4`	`import torch`
`5`	`5`
`6`		`-from sglang.srt.layers.moe.fused_moe_triton.fused_moe import get_config_dtype_str`
`7`		`-from sglang.srt.layers.moe.fused_moe_triton.fused_moe_triton_config import (`
	`6`	`+from sglang.srt.layers.moe.moe_runner.triton_utils.fused_moe import get_config_dtype_str`
	`7`	`+from sglang.srt.layers.moe.moe_runner.triton_utils.fused_moe_triton_config import (`
`8`	`8`	`get_config_file_name,`
`9`	`9`	`)`
`10`	`10`	`from sglang.srt.utils import is_hip`
Original file line number	Diff line number	Diff line change
`@@ -22,15 +22,15 @@`
`22`	`22`	`)`
`23`	`23`	`from ray.experimental.tqdm_ray import tqdm`
`24`	`24`
`25`		`-from sglang.srt.layers.moe.fused_moe_triton.fused_moe import (`
	`25`	`+from sglang.srt.layers.moe.moe_runner import MoeRunnerConfig`
	`26`	`+from sglang.srt.layers.moe.moe_runner.triton_utils.fused_moe import (`
`26`	`27`	`get_config_dtype_str,`
`27`	`28`	`invoke_fused_moe_kernel,`
`28`	`29`	`moe_align_block_size,`
`29`	`30`	`)`
`30`		`-from sglang.srt.layers.moe.fused_moe_triton.fused_moe_triton_config import (`
	`31`	`+from sglang.srt.layers.moe.moe_runner.triton_utils.fused_moe_triton_config import (`
`31`	`32`	`get_config_file_name,`
`32`	`33`	`)`
`33`		`-from sglang.srt.layers.moe.moe_runner import MoeRunnerConfig`
`34`	`34`	`from sglang.srt.layers.moe.topk import TopKConfig, select_experts`
`35`	`35`	`from sglang.srt.server_args import (`
`36`	`36`	`ServerArgs,`