Share transfer buffer across all worker instances

UNIDY2002 · UNIDY2002 · commit 964e0a96311e · 2025-08-25T23:52:04.000+08:00
diff --git a/mooncake-ep/include/mooncake_backend.h b/mooncake-ep/include/mooncake_backend.h
@@ -1,6 +1,7 @@
 #ifndef MOONCAKE_BACKEND_H
 #define MOONCAKE_BACKEND_H
 
+#include <mooncake_backend_buffer.h>
 #include <mooncake_worker.cuh>
 #include <torch/torch.h>
 #include <torch/csrc/distributed/c10d/Backend.hpp>
@@ -21,7 +22,7 @@ class MooncakeBackend final : public ::c10d::Backend {
 
     MooncakeBackend(c10::intrusive_ptr<::c10d::Store> store, int rank, int size,
                     c10::intrusive_ptr<MooncakeBackendOptions> options,
-                    bool isCpu = false);
+                    bool isCpu = false, bool isTest = false);
 
     ~MooncakeBackend() override;
 
@@ -58,11 +59,7 @@ class MooncakeBackend final : public ::c10d::Backend {
     TransferEngine engine_{true};
     bool isCpu_{false};
     static std::string hostIp_;
-    int device_id_;
-    void* send_buffer_[2];
-    void* recv_buffer_[2];
-    int32_t* cpu_sync_send_region_[2];
-    int32_t* cpu_sync_recv_region_[2];
+    static std::unique_ptr<BackendBuffer> buffer_;
     MooncakeWorker worker_;
 };
 
diff --git a/mooncake-ep/include/mooncake_backend_buffer.h b/mooncake-ep/include/mooncake_backend_buffer.h
@@ -0,0 +1,65 @@
+#ifndef MOONCAKE_BACKEND_BUFFER_H
+#define MOONCAKE_BACKEND_BUFFER_H
+
+#include <cstdlib>
+#include <cuda_runtime.h>
+#include <torch/csrc/distributed/c10d/Utils.hpp>
+
+namespace mooncake {
+
+constexpr size_t kBufferSize = 1u << 29;
+constexpr size_t kMaxNumRanks = 64;
+
+struct BackendBuffer {
+    void* cpuSendBuffer_[2];
+    void* cpuRecvBuffer_[2];
+    void* cudaSendBuffer_[2];
+    void* cudaRecvBuffer_[2];
+    int32_t* cpuSyncSendRegion_[2];
+    int32_t* cpuSyncRecvRegion_[2];
+    int32_t* cudaSyncSendRegion_[2];
+    int32_t* cudaSyncRecvRegion_[2];
+    int cpuTaskCount_ = 0;
+    int cudaTaskCount_ = 0;
+
+    BackendBuffer() {
+        for (size_t i = 0; i < 2; i++) {
+            cpuSendBuffer_[i] = malloc(kBufferSize);
+            TORCH_CHECK(cpuSendBuffer_[i],
+                        c10::str("Failed to allocate CPU send buffer"));
+
+            cpuRecvBuffer_[i] = malloc(kBufferSize);
+            TORCH_CHECK(cpuRecvBuffer_[i],
+                        c10::str("Failed to allocate CPU recv buffer"));
+
+            cudaError err = cudaMalloc(&cudaSendBuffer_[i], kBufferSize);
+            TORCH_CHECK(!err, c10::str("Failed to allocate CUDA send buffer"));
+
+            err = cudaMalloc(&cudaRecvBuffer_[i], kBufferSize);
+            TORCH_CHECK(!err, c10::str("Failed to allocate CUDA recv buffer"));
+
+            cpuSyncSendRegion_[i] = new int32_t[kMaxNumRanks]{};
+            cpuSyncRecvRegion_[i] = new int32_t[kMaxNumRanks]{};
+
+            cudaSyncSendRegion_[i] = new int32_t[kMaxNumRanks]{};
+            cudaSyncRecvRegion_[i] = new int32_t[kMaxNumRanks]{};
+        }
+    }
+
+    ~BackendBuffer() {
+        for (size_t i = 0; i < 2; i++) {
+            free(cpuSendBuffer_[i]);
+            free(cpuRecvBuffer_[i]);
+            cudaFree(cudaSendBuffer_[i]);
+            cudaFree(cudaRecvBuffer_[i]);
+            delete[] cpuSyncSendRegion_[i];
+            delete[] cpuSyncRecvRegion_[i];
+            delete[] cudaSyncSendRegion_[i];
+            delete[] cudaSyncRecvRegion_[i];
+        }
+    }
+};
+
+}  // namespace mooncake
+
+#endif  // MOONCAKE_BACKEND_BUFFER_H
diff --git a/mooncake-ep/include/mooncake_worker.cuh b/mooncake-ep/include/mooncake_worker.cuh
@@ -3,6 +3,7 @@
 
 #include <cuda_bf16.h>
 #include <cuda_runtime.h>
+#include <mooncake_backend_buffer.h>
 #include <torch/torch.h>
 #include <torch/csrc/distributed/c10d/Types.hpp>
 #include <torch/csrc/distributed/c10d/Work.hpp>
@@ -43,25 +44,25 @@ class MooncakeWorker {
 
     void initWorker(const std::vector<std::string>& server_names);
 
+    void setBackendBuffer(BackendBuffer* buffer) { buffer_ = buffer; }
+
     bool* getBrokenRanks() { return brokenRanks_; }
 
    private:
     static constexpr size_t kNumTasks_ = 2;
-    static constexpr size_t kMaxNumRanks = 64;
 
     Task *tasks_, *tasks_device_;
     bool *brokenRanks_, *brokenRanksDevice_;
     bool hasCallback_[kNumTasks_]{};
     std::function<void()> callbacks_[kNumTasks_]{};
 
     int rank_, size_;
+    BackendBuffer* buffer_ = nullptr;
     at::Tensor brokenRanksTensor_;
 
     TransferEngine* engine_;
     std::vector<TransferMetadata::SegmentID> segment_ids_;
     std::vector<std::shared_ptr<TransferMetadata::SegmentDesc>> segment_descs_;
-
-    int taskCount = 0;
 };
 
 }  // namespace mooncake
diff --git a/mooncake-ep/src/mooncake_backend.cpp b/mooncake-ep/src/mooncake_backend.cpp
@@ -6,6 +6,8 @@
 
 namespace mooncake {
 
+constexpr const char* REGISTER_BUFFER_ERROR_MSG =
+    "Failed to register local memory.";
 constexpr const char* MULTI_DEVICE_ERROR_MSG =
     "Expecting one tensor only but got multiple.";
 constexpr const char* SYNC_OP_ERROR_MSG = "Expecting async op but got sync op.";
@@ -15,9 +17,11 @@ constexpr const char* REDUCE_DTYPE_ERROR_MSG = "Unsupported reduce dtype: ";
 
 std::string MooncakeBackend::hostIp_ = "127.0.0.1";
 
+std::unique_ptr<BackendBuffer> MooncakeBackend::buffer_ = nullptr;
+
 MooncakeBackend::MooncakeBackend(
     c10::intrusive_ptr<::c10d::Store> store, int rank, int size,
-    c10::intrusive_ptr<MooncakeBackendOptions> options, bool isCpu)
+    c10::intrusive_ptr<MooncakeBackendOptions> options, bool isCpu, bool isTest)
     : Backend(rank, size),
       isCpu_(isCpu),
       worker_(&engine_, rank, size,
@@ -26,7 +30,8 @@ MooncakeBackend::MooncakeBackend(
                             {size},
                             torch::dtype(torch::kInt32).device(torch::kCUDA))) {
     // Get device data
-    cudaError err = cudaGetDevice(&device_id_);
+    int deviceId_;
+    cudaError err = cudaGetDevice(&deviceId_);
     TORCH_CHECK(!err, c10::str("Failed to get device id"));
 
     // Initialize transfer engine
@@ -37,62 +42,70 @@ MooncakeBackend::MooncakeBackend(
     std::string localServerName = localRpcMeta.ip_or_host_name + ":" +
                                   std::to_string(localRpcMeta.rpc_port);
 
-    // Register GPU buffers
-    constexpr size_t buffer_size = 1u << 29;
+    // Register buffers
+    BackendBuffer* buffer;
+    if (isTest) {
+        buffer = new BackendBuffer();
+    } else {
+        if (!buffer_) {
+            buffer_ = std::make_unique<BackendBuffer>();
+        }
+        buffer = buffer_.get();
+    }
+
     if (isCpu) {
         for (size_t i = 0; i < 2; i++) {
-            send_buffer_[i] = malloc(buffer_size);
-            TORCH_CHECK(send_buffer_[i],
-                        c10::str("Failed to allocate CPU send buffer"));
+            int rc = engine_.registerLocalMemory(buffer->cpuSendBuffer_[i],
+                                                 kBufferSize);
+            TORCH_CHECK(!rc, REGISTER_BUFFER_ERROR_MSG);
+        }
 
-            int rc = engine_.registerLocalMemory(send_buffer_[i], buffer_size);
-            TORCH_CHECK(!rc, c10::str("Failed to register local memory"));
+        for (size_t i = 0; i < 2; i++) {
+            int rc = engine_.registerLocalMemory(buffer->cpuRecvBuffer_[i],
+                                                 kBufferSize);
+            TORCH_CHECK(!rc, REGISTER_BUFFER_ERROR_MSG);
         }
 
         for (size_t i = 0; i < 2; i++) {
-            recv_buffer_[i] = malloc(buffer_size);
-            TORCH_CHECK(recv_buffer_[i],
-                        c10::str("Failed to allocate CPU recv buffer"));
+            int rc = engine_.registerLocalMemory(buffer->cpuSyncSendRegion_[i],
+                                                 kMaxNumRanks * sizeof(int32_t),
+                                                 kWildcardLocation);
+            TORCH_CHECK(!rc, REGISTER_BUFFER_ERROR_MSG);
+        }
 
-            int rc = engine_.registerLocalMemory(recv_buffer_[i], buffer_size);
-            TORCH_CHECK(!rc, c10::str("Failed to register local memory"));
+        for (size_t i = 0; i < 2; i++) {
+            int rc = engine_.registerLocalMemory(buffer->cpuSyncRecvRegion_[i],
+                                                 kMaxNumRanks * sizeof(int32_t),
+                                                 kWildcardLocation);
+            TORCH_CHECK(!rc, REGISTER_BUFFER_ERROR_MSG);
         }
     } else {
-        std::string location = "cuda:" + std::to_string(device_id_);
+        std::string location = "cuda:" + std::to_string(deviceId_);
         for (size_t i = 0; i < 2; i++) {
-            err = cudaMalloc(&send_buffer_[i], buffer_size);
-            TORCH_CHECK(!err, c10::str("Failed to allocate CUDA send buffer"));
-
-            int rc = engine_.registerLocalMemory(send_buffer_[i], buffer_size,
-                                                 location);
-            TORCH_CHECK(!rc, c10::str("Failed to register local memory"));
+            int rc = engine_.registerLocalMemory(buffer->cudaSendBuffer_[i],
+                                                 kBufferSize, location);
+            TORCH_CHECK(!rc, REGISTER_BUFFER_ERROR_MSG);
         }
 
         for (size_t i = 0; i < 2; i++) {
-            err = cudaMalloc(&recv_buffer_[i], buffer_size);
-            TORCH_CHECK(!err, c10::str("Failed to allocate CUDA recv buffer"));
-
-            int rc = engine_.registerLocalMemory(recv_buffer_[i], buffer_size,
-                                                 location);
-            TORCH_CHECK(!rc, c10::str("Failed to register local memory"));
+            int rc = engine_.registerLocalMemory(buffer->cudaRecvBuffer_[i],
+                                                 kBufferSize, location);
+            TORCH_CHECK(!rc, REGISTER_BUFFER_ERROR_MSG);
         }
-    }
 
-    // Register CPU sync regions
-    for (size_t i = 0; i < 2; i++) {
-        cpu_sync_send_region_[i] = new int32_t[size];
-        int rc = engine_.registerLocalMemory(cpu_sync_send_region_[i],
-                                             size * sizeof(int32_t),
-                                             kWildcardLocation);
-        TORCH_CHECK(!rc, c10::str("Failed to register local memory"));
-    }
+        for (size_t i = 0; i < 2; i++) {
+            int rc = engine_.registerLocalMemory(buffer->cudaSyncSendRegion_[i],
+                                                 kMaxNumRanks * sizeof(int32_t),
+                                                 kWildcardLocation);
+            TORCH_CHECK(!rc, REGISTER_BUFFER_ERROR_MSG);
+        }
 
-    for (size_t i = 0; i < 2; i++) {
-        cpu_sync_recv_region_[i] = new int32_t[size];
-        int rc = engine_.registerLocalMemory(cpu_sync_recv_region_[i],
-                                             size * sizeof(int32_t),
-                                             kWildcardLocation);
-        TORCH_CHECK(!rc, c10::str("Failed to register local memory"));
+        for (size_t i = 0; i < 2; i++) {
+            int rc = engine_.registerLocalMemory(buffer->cudaSyncRecvRegion_[i],
+                                                 kMaxNumRanks * sizeof(int32_t),
+                                                 kWildcardLocation);
+            TORCH_CHECK(!rc, REGISTER_BUFFER_ERROR_MSG);
+        }
     }
 
     // Sync metadata
@@ -103,23 +116,24 @@ MooncakeBackend::MooncakeBackend(
         server_names.push_back(
             store->get_to_str({"server_name_" + std::to_string(i)}));
     }
+    worker_.setBackendBuffer(buffer);
     worker_.initWorker(server_names);
 }
 
 MooncakeBackend::~MooncakeBackend() {
-    for (size_t i = 0; i < 2; i++) {
-        engine_.unregisterLocalMemory(cpu_sync_send_region_[i]);
-        delete[] cpu_sync_send_region_[i];
-        engine_.unregisterLocalMemory(cpu_sync_recv_region_[i]);
-        delete[] cpu_sync_recv_region_[i];
-        engine_.unregisterLocalMemory(send_buffer_[i]);
-        engine_.unregisterLocalMemory(recv_buffer_[i]);
-        if (isCpu_) {
-            free(send_buffer_[i]);
-            free(recv_buffer_[i]);
-        } else {
-            cudaFree(send_buffer_[i]);
-            cudaFree(recv_buffer_[i]);
+    if (buffer_) {
+        for (size_t i = 0; i < 2; i++) {
+            if (isCpu_) {
+                engine_.unregisterLocalMemory(buffer_->cpuSendBuffer_[i]);
+                engine_.unregisterLocalMemory(buffer_->cpuRecvBuffer_[i]);
+                engine_.unregisterLocalMemory(buffer_->cpuSyncSendRegion_[i]);
+                engine_.unregisterLocalMemory(buffer_->cpuSyncRecvRegion_[i]);
+            } else {
+                engine_.unregisterLocalMemory(buffer_->cudaSendBuffer_[i]);
+                engine_.unregisterLocalMemory(buffer_->cudaRecvBuffer_[i]);
+                engine_.unregisterLocalMemory(buffer_->cudaSyncSendRegion_[i]);
+                engine_.unregisterLocalMemory(buffer_->cudaSyncRecvRegion_[i]);
+            }
         }
     }
 }
diff --git a/mooncake-ep/src/mooncake_worker.cu b/mooncake-ep/src/mooncake_worker.cu
@@ -174,42 +174,40 @@ c10::intrusive_ptr<c10d::Work> MooncakeWorker::putTaskCpu(
     c10d::OpType opType, size_t tensorSize, int64_t broadcastRoot,
     const std::function<void(void* dst)>& tensorToBuffer,
     const std::function<void(void* src)>& bufferToTensor) {
-    TORCH_CHECK(tensorSize * size_ < (1u << 29), "Too large!");
+    TORCH_CHECK(tensorSize * size_ < kBufferSize, "Too large!");
     auto future = c10::make_intrusive<c10::ivalue::Future>(
         c10::ListType::create(c10::TensorType::get()));
-    int taskId = taskCount % kNumTasks_;
+    int taskId = buffer_->cpuTaskCount_ % kNumTasks_;
     TORCH_CHECK(!tasks_[taskId].active);
 
     tasks_[taskId].opType = opType;
     tasks_[taskId].tensorSize = tensorSize;
     tasks_[taskId].broadcastRoot = broadcastRoot;
-    tensorToBuffer((void*)segment_descs_[rank_]->buffers[taskCount % 2].addr);
+    tensorToBuffer((void*)segment_descs_[rank_]->buffers[taskId].addr);
 
     hasCallback_[taskId] = true;
-    callbacks_[taskId] = [this, bufferToTensor, future] {
-        bufferToTensor(
-            (void*)segment_descs_[rank_]->buffers[2 + taskCount % 2].addr);
-        ++taskCount;
+    callbacks_[taskId] = [this, bufferToTensor, taskId, future] {
+        bufferToTensor((void*)segment_descs_[rank_]->buffers[2 + taskId].addr);
         future->markCompleted(c10::IValue());
     };
 
     tasks_[taskId].active = true;
+    ++buffer_->cpuTaskCount_;
     return c10::make_intrusive<MooncakeWorkCpu>(opType, future);
 }
 
 c10::intrusive_ptr<c10d::Work> MooncakeWorker::putTaskCuda(
     c10d::OpType opType, size_t tensorSize, int64_t broadcastRoot,
     cudaStream_t stream, const std::function<void(void* dst)>& tensorToBuffer,
     const std::function<void(void* src)>& bufferToTensor) {
-    TORCH_CHECK(tensorSize * size_ < (1u << 29), "Too large!");
-    tensorToBuffer((void*)segment_descs_[rank_]->buffers[taskCount % 2].addr);
+    TORCH_CHECK(tensorSize * size_ < kBufferSize, "Too large!");
+    int taskId = buffer_->cudaTaskCount_ % kNumTasks_;
+    tensorToBuffer((void*)segment_descs_[rank_]->buffers[taskId].addr);
     enqueueTaskKernel<<<1, 1, 0, stream>>>(
         opType, tensorSize, broadcastRoot, tasks_device_, size_,
-        brokenRanksDevice_, brokenRanksTensor_.data_ptr<int>(),
-        taskCount % kNumTasks_);
-    bufferToTensor(
-        (void*)segment_descs_[rank_]->buffers[2 + taskCount % 2].addr);
-    ++taskCount;
+        brokenRanksDevice_, brokenRanksTensor_.data_ptr<int>(), taskId);
+    bufferToTensor((void*)segment_descs_[rank_]->buffers[2 + taskId].addr);
+    ++buffer_->cudaTaskCount_;
     cudaEvent_t event;
     cudaEventCreateWithFlags(&event, cudaEventDisableTiming);
     cudaEventRecord(event, stream);
diff --git a/mooncake-ep/src/mooncake_worker_thread.cpp b/mooncake-ep/src/mooncake_worker_thread.cpp
diff --git a/mooncake-ep/tests/mooncake_backend_test.cpp b/mooncake-ep/tests/mooncake_backend_test.cpp