sgl-project
diff --git a/‎docs/advanced_features/rfork.md‎
Lines changed: 36 additions & 0 deletions b/‎docs/advanced_features/rfork.md‎
Lines changed: 36 additions & 0 deletions
diff --git a/‎python/sglang/srt/configs/load_config.py‎
Lines changed: 2 additions & 0 deletions b/‎python/sglang/srt/configs/load_config.py‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎python/sglang/srt/entrypoints/engine.py‎
Lines changed: 25 additions & 4 deletions b/‎python/sglang/srt/entrypoints/engine.py‎
Lines changed: 25 additions & 4 deletions
diff --git a/‎python/sglang/srt/entrypoints/http_server.py‎
Lines changed: 35 additions & 3 deletions b/‎python/sglang/srt/entrypoints/http_server.py‎
Lines changed: 35 additions & 3 deletions
diff --git a/‎python/sglang/srt/managers/scheduler.py‎
Lines changed: 26 additions & 7 deletions b/‎python/sglang/srt/managers/scheduler.py‎
Lines changed: 26 additions & 7 deletions
diff --git a/‎python/sglang/srt/managers/tp_worker.py‎
Lines changed: 6 additions & 0 deletions b/‎python/sglang/srt/managers/tp_worker.py‎
Lines changed: 6 additions & 0 deletions
diff --git a/‎python/sglang/srt/model_executor/model_runner.py‎
Lines changed: 54 additions & 4 deletions b/‎python/sglang/srt/model_executor/model_runner.py‎
Lines changed: 54 additions & 4 deletions
@@ -0,0 +1,36 @@
+# R-Fork
+
+R-Fork (Tensor Remote Fork) is a novel weight loading methodology that leverages efficient inter-node GPU-to-GPU data transfer path to load tensors from a running SGLang instance to a new instance with zero-copy. It can significantly optimize the SGLang instance boot-up time by reducing model weights loading from several minutes to mere seconds.
+
+To learn more details about R-Fork, please check **<a href=https://lmsys.org/blog/2025-12-10-rfork/> R-Fork blog </a>**
+
+## Usage
+
+| Argument     | Usage                                      |
+|--------------|--------------------------------------------|
+| load-format  | set to `remote_instance` to enable R-Fork. |
+| remote-instance-weight-loader-backend | `nccl` or `transfer_engine`, default value is `nccl` |
+| remote-instance-weight-loader-seed-instance-ip | IP address of the seed instance who will provide the model weight |
+| remote-instance-weight-loader-seed-instance-service-port | the port that the seed instance's HTTP server is listening on |
+| remote-instance-weight-loader-send-weights-group-ports | the list of available ports on the seed instance that will be used to build NCCL communication groups between seed and client instance. This argument is only needed by `nccl` backend.  |
+
+### NCCL as backend
+
+```shell
+python -m sglang.launch_server [args] \
+  --load-format remote_instance	\
+  --remote-instance-weight-loader-seed-instance-ip [seed_instance_ip] \
+  --remote-instance-weight-loader-seed-instance-service-port [seed_instance_service_port] \
+  --remote-instance-weight-loader-send-weights-group-ports [send_weights_nccl_group_ports_list]  \
+  --remote-instance-weight-loader-backend nccl
+```
+
+### TransferEngine as backend
+
+```shell
+python -m sglang.launch_server [args] \
+  --load-format remote_instance	\
+  --remote-instance-weight-loader-seed-instance-ip [seed_instance_ip] \
+  --remote-instance-weight-loader-seed-instance-service-port [seed_instance_service_port] \
+  --remote-instance-weight-loader-backend transfer_engine
+```
@@ -73,6 +73,8 @@ class LoadConfig:
     remote_instance_weight_loader_seed_instance_ip: Optional[str] = None
     remote_instance_weight_loader_seed_instance_service_port: Optional[int] = None
     remote_instance_weight_loader_send_weights_group_ports: Optional[List[int]] = None
+    remote_instance_weight_loader_backend: Optional[str] = None
+    remote_instance_weight_loader_transfer_engine: Optional[any] = None
 
     # ModelOpt-specific loading options
     modelopt_checkpoint_restore_path: Optional[str] = None
 
@@ -127,13 +127,18 @@ def __init__(self, **kwargs):
         atexit.register(self.shutdown)
 
         # Launch subprocesses
-        tokenizer_manager, template_manager, scheduler_info, port_args = (
-            _launch_subprocesses(server_args=server_args)
-        )
+        (
+            tokenizer_manager,
+            template_manager,
+            scheduler_info,
+            port_args,
+            remote_instance_transfer_engine_info,
+        ) = _launch_subprocesses(server_args=server_args)
         self.tokenizer_manager = tokenizer_manager
         self.template_manager = template_manager
         self.scheduler_info = scheduler_info
         self.port_args = port_args
+        self.remote_instance_transfer_engine_info = remote_instance_transfer_engine_info
 
         # Initialize ZMQ sockets
         context = zmq.Context(2)
@@ -910,6 +915,7 @@ def _launch_subprocesses(
 
     # Wait for the model to finish loading
     scheduler_infos = []
+    remote_instance_transfer_engine_info = {}
     for i in range(len(scheduler_pipe_readers)):
         try:
             data = scheduler_pipe_readers[i].recv()
@@ -926,9 +932,24 @@ def _launch_subprocesses(
                 "Initialization failed. Please see the error messages above."
             )
         scheduler_infos.append(data)
+        if (
+            "tp_rank" in data
+            and "remote_instance_transfer_engine_session_id" in data
+            and "remote_instance_transfer_engine_weights_info_dict" in data
+        ):
+            remote_instance_transfer_engine_info[data["tp_rank"]] = (
+                data["remote_instance_transfer_engine_session_id"],
+                data["remote_instance_transfer_engine_weights_info_dict"],
+            )
 
     # Assume all schedulers have the same scheduler_info
     scheduler_info = scheduler_infos[0]
     tokenizer_manager.max_req_input_len = scheduler_info["max_req_input_len"]
 
-    return tokenizer_manager, template_manager, scheduler_info, port_args
+    return (
+        tokenizer_manager,
+        template_manager,
+        scheduler_info,
+        port_args,
+        remote_instance_transfer_engine_info,
+    )
@@ -144,6 +144,15 @@ class _GlobalState:
     tokenizer_manager: Union[TokenizerManager, MultiTokenizerRouter, TokenizerWorker]
     template_manager: TemplateManager
     scheduler_info: Dict
+    # Dict{
+    #   rank: Tuple(
+    #           session_id,
+    #           Dict{
+    #               name: Tuple (d_ptr, numel, element_size)
+    #           }
+    #         )
+    # }
+    remote_instance_transfer_engine_info: Optional[Dict] = None
 
 
 _global_state: Optional[_GlobalState] = None
@@ -813,6 +822,24 @@ async def send_weights_to_remote_instance(
         return ORJSONResponse(content, status_code=HTTPStatus.BAD_REQUEST)
 
 
+@app.get("/get_remote_instance_transfer_engine_info")
+async def get_remote_instance_transfer_engine_info(rank: int = None):
+    if rank is None or rank < 0:
+        return Response(status_code=HTTPStatus.BAD_REQUEST)
+
+    try:
+        result = {
+            "rank": rank,
+            "remote_instance_transfer_engine_info": _global_state.remote_instance_transfer_engine_info[
+                rank
+            ],
+        }
+        return result
+    except Exception as e:
+        logger.error(f"Exception: {e}")
+        return Response(status_code=HTTPStatus.BAD_REQUEST)
+
+
 @app.post("/init_weights_update_group")
 async def init_weights_update_group(
     obj: InitWeightsUpdateGroupReqInput, request: Request
@@ -1386,15 +1413,20 @@ def launch_server(
     1. The HTTP server, Engine, and TokenizerManager all run in the main process.
     2. Inter-process communication is done through IPC (each process uses a different port) via the ZMQ library.
     """
-    tokenizer_manager, template_manager, scheduler_info, port_args = (
-        _launch_subprocesses(server_args=server_args)
-    )
+    (
+        tokenizer_manager,
+        template_manager,
+        scheduler_info,
+        port_args,
+        remote_instance_transfer_engine_info,
+    ) = _launch_subprocesses(server_args=server_args)
 
     set_global_state(
         _GlobalState(
             tokenizer_manager=tokenizer_manager,
             template_manager=template_manager,
             scheduler_info=scheduler_info,
+            remote_instance_transfer_engine_info=remote_instance_transfer_engine_info,
         )
     )
 
 
@@ -2573,6 +2573,9 @@ def handle_freeze_gc(self, recv_req: FreezeGCReq):
         self.send_to_detokenizer.send_output(recv_req, recv_req)
         return None
 
+    def get_remote_instance_transfer_engine_info(self):
+        return self.tp_worker.get_remote_instance_transfer_engine_info()
+
 
 class IdleSleeper:
     """
@@ -2686,13 +2689,29 @@ def run_scheduler_process(
             pp_rank,
             dp_rank,
         )
-        pipe_writer.send(
-            {
-                "status": "ready",
-                "max_total_num_tokens": scheduler.max_total_num_tokens,
-                "max_req_input_len": scheduler.max_req_input_len,
-            }
-        )
+        if server_args.remote_instance_weight_loader_support_transfer_engine:
+            (
+                remote_instance_transfer_engine_session_id,
+                remote_instance_transfer_engine_weights_info_dict,
+            ) = scheduler.get_remote_instance_transfer_engine_info()
+            pipe_writer.send(
+                {
+                    "status": "ready",
+                    "max_total_num_tokens": scheduler.max_total_num_tokens,
+                    "max_req_input_len": scheduler.max_req_input_len,
+                    "tp_rank": tp_rank,
+                    "remote_instance_transfer_engine_session_id": remote_instance_transfer_engine_session_id,
+                    "remote_instance_transfer_engine_weights_info_dict": remote_instance_transfer_engine_weights_info_dict,
+                }
+            )
+        else:
+            pipe_writer.send(
+                {
+                    "status": "ready",
+                    "max_total_num_tokens": scheduler.max_total_num_tokens,
+                    "max_req_input_len": scheduler.max_req_input_len,
+                }
+            )
 
         disaggregation_mode: DisaggregationMode = scheduler.disaggregation_mode
         if disaggregation_mode == DisaggregationMode.NULL:
 
@@ -366,6 +366,12 @@ def _forward_batch_generation_dllm(
             can_run_cuda_graph=can_run_cuda_graph,
         )
 
+    def get_remote_instance_transfer_engine_info(self):
+        return (
+            self.model_runner.remote_instance_transfer_engine_session_id,
+            self.model_runner.remote_instance_transfer_engine_weight_info,
+        )
+
     def forward_batch_generation(
         self,
         model_worker_batch: ModelWorkerBatch,
 
@@ -65,6 +65,7 @@
 )
 from sglang.srt.distributed.parallel_state import monkey_patch_vllm_parallel_state
 from sglang.srt.elastic_ep.elastic_ep import ElasticEPStateManager
+from sglang.srt.environ import envs
 from sglang.srt.eplb.eplb_manager import EPLBManager
 from sglang.srt.eplb.expert_distribution import (
     ExpertDistributionRecorder,
@@ -135,9 +136,10 @@
 from sglang.srt.model_executor.piecewise_cuda_graph_runner import (
     PiecewiseCudaGraphRunner,
 )
-from sglang.srt.model_loader import get_model
 from sglang.srt.model_loader.loader import DefaultModelLoader, get_model_loader
 from sglang.srt.model_loader.remote_instance_weight_loader_utils import (
+    RemoteInstanceWeightLoaderBackend,
+    register_memory_region_v2,
     trigger_init_weights_send_group_for_remote_instance_request,
 )
 from sglang.srt.model_loader.utils import set_default_torch_dtype
@@ -157,6 +159,7 @@
     get_available_gpu_memory,
     get_bool_env_var,
     get_cpu_ids_by_node,
+    get_local_ip_auto,
     init_custom_process_group,
     is_cuda,
     is_float4_e2m1fn_x2,
@@ -319,6 +322,10 @@ def __init__(
         self.forward_pass_id = 0
         self.init_new_workspace = False
 
+        self.remote_instance_transfer_engine = None
+        self.remote_instance_transfer_engine_session_id = ""
+        self.remote_instance_transfer_engine_weight_info = None
+
         # Apply the rank zero filter to logger
         if server_args.show_time_cost:
             enable_show_time_cost()
@@ -393,6 +400,9 @@ def initialize(self, min_per_gpu_memory: float):
             enable=self.server_args.enable_memory_saver
         )
 
+        if self.server_args.remote_instance_weight_loader_support_transfer_engine:
+            self.remote_instance_init_transfer_engine()
+
         if not self.is_draft_worker:
             set_global_expert_location_metadata(
                 compute_initial_expert_location_metadata(
@@ -433,6 +443,16 @@ def initialize(self, min_per_gpu_memory: float):
         self.sampler = Sampler()
         self.load_model()
 
+        if (
+            self.server_args.remote_instance_weight_loader_support_transfer_engine
+            and self.remote_instance_transfer_engine_weight_info is None
+        ):
+            self.remote_instance_transfer_engine_weight_info = (
+                register_memory_region_v2(
+                    self.model, self.remote_instance_transfer_engine
+                )
+            )
+
         # Check if the model is using hybrid SWA
         if (
             not self.server_args.disable_hybrid_swa_memory
@@ -547,6 +567,23 @@ def initialize(self, min_per_gpu_memory: float):
         # Initialize piecewise CUDA graph
         self.init_piecewise_cuda_graphs()
 
+    def remote_instance_init_transfer_engine(self):
+        try:
+            from mooncake.engine import TransferEngine
+        except ImportError as e:
+            logger.warning(
+                "Please install mooncake for using remote instance transfer engine: pip install mooncake"
+            )
+            return
+        self.remote_instance_transfer_engine = TransferEngine()
+        local_ip = get_local_ip_auto()
+        self.remote_instance_transfer_engine.initialize(
+            local_ip, "P2PHANDSHAKE", "rdma", envs.MOONCAKE_DEVICE.value
+        )
+        self.remote_instance_transfer_engine_session_id = (
+            f"{local_ip}:{self.remote_instance_transfer_engine.get_rpc_port()}"
+        )
+
     def model_specific_adjustment(self):
         server_args = self.server_args
 
@@ -764,6 +801,8 @@ def load_model(self):
             remote_instance_weight_loader_seed_instance_ip=self.server_args.remote_instance_weight_loader_seed_instance_ip,
             remote_instance_weight_loader_seed_instance_service_port=self.server_args.remote_instance_weight_loader_seed_instance_service_port,
             remote_instance_weight_loader_send_weights_group_ports=self.server_args.remote_instance_weight_loader_send_weights_group_ports,
+            remote_instance_weight_loader_backend=self.server_args.remote_instance_weight_loader_backend,
+            remote_instance_weight_loader_transfer_engine=self.remote_instance_transfer_engine,
             modelopt_config=modelopt_config,
             rl_quant_profile=self.server_args.rl_quant_profile,
         )
@@ -772,7 +811,11 @@ def load_model(self):
                 self.model_config, self.load_config, self.tp_size
             )
 
-        if self.server_args.load_format == LoadFormat.REMOTE_INSTANCE:
+        if (
+            self.server_args.load_format == LoadFormat.REMOTE_INSTANCE
+            and self.server_args.remote_instance_weight_loader_backend
+            == RemoteInstanceWeightLoaderBackend.NCCL
+        ):
             if self.tp_rank == 0:
                 instance_ip = socket.gethostbyname(socket.gethostname())
                 t = threading.Thread(
@@ -797,11 +840,18 @@ def load_model(self):
             GPU_MEMORY_TYPE_WEIGHTS,
             enable_cpu_backup=enable_cpu_backup,
         ):
-            self.model = get_model(
-                model_config=self.model_config,
+            self.loader = get_model_loader(
                 load_config=self.load_config,
+                model_config=self.model_config,
+            )
+            self.model = self.loader.load_model(
+                model_config=self.model_config,
                 device_config=DeviceConfig(self.device, self.gpu_id),
             )
+            if hasattr(self.loader, "remote_instance_transfer_engine_weight_info"):
+                self.remote_instance_transfer_engine_weight_info = (
+                    self.loader.remote_instance_transfer_engine_weight_info
+                )
         monkey_patch_vllm_parallel_state(reverse=True)
 
         get_offloader().post_init()