[TensorPipe] Use the new multi-payload message API (#37919)

lw · facebook-github-bot · commit bc09478a60e8 · 2020-05-07T02:52:30.000-07:00
Summary: In D21209901 TensorPipe added support for a vector of payloads inside each message, instead of a single one, so that users with multiple payloads can send them separately as they are instead of having to copy them into a new block of contiguous memory. The PyTorch agent is using the old API, which is preventing us from deleting it. This change has no effects on over-the-wire format and thus on performance. Pull Request resolved: #37919 ghstack-source-id: 103572164 Test Plan: On both workers ``` import os import torch import torch.distributed.rpc as rpc os.environ["MASTER_ADDR"] = "127.0.0.1" os.environ["MASTER_PORT"] = "8765" ``` On worker 0 ``` rpc.init_rpc(name="foo", rank=0, backend=rpc.backend_registry.BackendType.TENSORPIPE, world_size=2, rpc_backend_options=rpc.TensorPipeRpcBackendOptions(worker_name_to_id={"foo": 0, "bar": 0})) ``` On worker 1 ``` rpc.init_rpc(name="bar", rank=1, backend=rpc.backend_registry.BackendType.TENSORPIPE, world_size=2, rpc_backend_options=rpc.TensorPipeRpcBackendOptions(worker_name_to_id={"foo": 0, "bar": 0})) ``` On worker 0 ``` In [15]: rpc.rpc_sync("bar", torch.add, args=(torch.full((2,2), 1), torch.full((2,2), 2))) Out[15]: tensor([[3., 3.], [3., 3.]]) In [16]: rpc.rpc_sync("bar", torch.add, args=(1, 2)) Out[16]: 3 ``` Differential Revision: D21425536 fbshipit-source-id: a0ec2be825556b39aff018a2834baf815a6d8fa5
diff --git a/test/cpp/rpc/test_tensorpipe_serialization.cpp b/test/cpp/rpc/test_tensorpipe_serialization.cpp
@@ -25,12 +25,20 @@ TEST(TensorpipeSerialize, Base) {
   torch::distributed::rpc::TensorPipeEntry tpEntry =
       torch::distributed::rpc::tensorpipeSerialize(sendingRpcMessage);
   tensorpipe::Message sendingTpMessage = std::move(tpEntry.message);
-  EXPECT_EQ(sendingTpMessage.tensors.size(), 2);
 
-  // Mimic receiving message descriptor
+  // Mimic receiving message descriptor: recvingTpMessage is a copy of
+  // sendingTpMessage except for the data pointers which are left null.
   tensorpipe::Message recvingTpMessage;
-  recvingTpMessage.length = sendingTpMessage.length;
   recvingTpMessage.metadata = sendingTpMessage.metadata;
+  recvingTpMessage.payloads.reserve(sendingTpMessage.payloads.size());
+  for (auto& tpPayload : sendingTpMessage.payloads) {
+    tensorpipe::Message::Payload p;
+    p.length = tpPayload.length;
+    p.metadata = tpPayload.metadata;
+    recvingTpMessage.payloads.push_back(std::move(p));
+  }
+  EXPECT_EQ(
+      recvingTpMessage.payloads.size(), sendingTpMessage.payloads.size());
   recvingTpMessage.tensors.reserve(sendingTpMessage.tensors.size());
   for (auto& tpTensor : sendingTpMessage.tensors) {
     tensorpipe::Message::Tensor t;
@@ -46,23 +54,18 @@ TEST(TensorpipeSerialize, Base) {
   // 2. Fill pointers to tensorpipe message
   torch::distributed::rpc::Message recvingRpcMessage =
       torch::distributed::rpc::tensorpipeAllocateMessage(recvingTpMessage);
-  EXPECT_EQ(
-      recvingRpcMessage.tensors().size(), recvingTpMessage.tensors.size());
-  recvingTpMessage.data = (uint8_t*)(recvingRpcMessage.payload().data());
-  for (int i = 0; i < recvingRpcMessage.tensors().size(); i++) {
-    auto& rpcTensor = recvingRpcMessage.tensors()[i];
-    auto& tpTensor = recvingTpMessage.tensors[i];
-    tpTensor.data = (uint8_t*)(rpcTensor.data_ptr());
-  }
 
   // Mimic tensorpipe data transfer
+  for (int i = 0; i < recvingTpMessage.payloads.size(); i++) {
+    tensorpipe::Message::Payload& srcPayload = sendingTpMessage.payloads[i];
+    tensorpipe::Message::Payload& dstPayload = recvingTpMessage.payloads[i];
+    memcpy(dstPayload.data, srcPayload.data, srcPayload.length);
+  }
   for (int i = 0; i < recvingTpMessage.tensors.size(); i++) {
-    auto& srcTensor = sendingTpMessage.tensors[i];
-    auto& dstTensor = recvingTpMessage.tensors[i];
+    tensorpipe::Message::Tensor& srcTensor = sendingTpMessage.tensors[i];
+    tensorpipe::Message::Tensor& dstTensor = recvingTpMessage.tensors[i];
     memcpy(dstTensor.data, srcTensor.data, srcTensor.length);
   }
-  memcpy(recvingTpMessage.data, sendingTpMessage.data, sendingTpMessage.length);
-  recvingTpMessage.metadata = sendingTpMessage.metadata;
 
   // Data is ready
   EXPECT_EQ(mtype, recvingRpcMessage.type());
diff --git a/torch/csrc/distributed/rpc/tensorpipe_agent.cpp b/torch/csrc/distributed/rpc/tensorpipe_agent.cpp
@@ -122,15 +122,6 @@ void TensorPipeAgent::pipeRead(
 
     // Allocate memory and fill in pointers
     Message rpcMessage = tensorpipeAllocateMessage(tpMessage);
-    TORCH_INTERNAL_ASSERT(
-        rpcMessage.tensors().size() == tpMessage.tensors.size(),
-        "Tensor num mismatch");
-    tpMessage.data = (uint8_t*)(rpcMessage.payload().data());
-    for (size_t i = 0; i < rpcMessage.tensors().size(); i++) {
-      auto& rpcTensor = rpcMessage.tensors()[i];
-      auto& tpTensor = tpMessage.tensors[i];
-      tpTensor.data = (uint8_t*)(rpcTensor.data_ptr());
-    }
 
     pipe->read(
         std::move(tpMessage),
diff --git a/torch/csrc/distributed/rpc/utils.cpp b/torch/csrc/distributed/rpc/utils.cpp
@@ -362,8 +362,10 @@ TensorPipeEntry tensorpipeSerialize(const Message& rpcMessage) {
   c10::List<at::Tensor> tensors = cloneSparseTensors(rpcMessage.tensors());
 
   // Payload
-  tpMessage.data = (uint8_t*)(payload.data());
-  tpMessage.length = payload.size();
+  tensorpipe::Message::Payload tpPayload;
+  tpPayload.data = (uint8_t*)(payload.data());
+  tpPayload.length = payload.size();
+  tpMessage.payloads.push_back(std::move(tpPayload));
 
   // Metadata - encode rpc message type and message id into
   // 8 bytes respectively
@@ -412,9 +414,15 @@ TensorPipeEntry tensorpipeSerialize(const Message& rpcMessage) {
                          std::move(copiedTensors)};
 }
 
-Message tensorpipeAllocateMessage(const tensorpipe::Message& tpMessage) {
+Message tensorpipeAllocateMessage(tensorpipe::Message& tpMessage) {
   // Payload, message type and message id
-  std::vector<char> payload(tpMessage.length);
+  TORCH_INTERNAL_ASSERT(
+      tpMessage.payloads.size() == 1,
+      "message expected to contain 1 payload, whereas it contained ",
+      tpMessage.payloads.size(),
+      " payloads");
+  std::vector<char> payload(tpMessage.payloads[0].length);
+  tpMessage.payloads[0].data = (uint8_t*)(payload.data());
   TORCH_INTERNAL_ASSERT(
       tpMessage.metadata.size() == 2 * sizeof(int64_t),
       "message metadata must be ",
@@ -430,7 +438,7 @@ Message tensorpipeAllocateMessage(const tensorpipe::Message& tpMessage) {
   // Tensors
   std::vector<torch::Tensor> tensors;
   tensors.reserve(tpMessage.tensors.size());
-  for (const tensorpipe::Message::Tensor& tpTensor : tpMessage.tensors) {
+  for (tensorpipe::Message::Tensor& tpTensor : tpMessage.tensors) {
     const std::string& metadata = tpTensor.metadata;
     size_t metadataPos = 0;
     auto metaDataReadFunc = [&](char* buf, size_t n) -> size_t {
@@ -451,9 +459,10 @@ Message tensorpipeAllocateMessage(const tensorpipe::Message& tpMessage) {
 
     torch::jit::Unpickler unpickler(
         metaDataReadFunc, nullptr, nullptr, sectionReadFunc, {});
-    auto ival = unpickler.parse_ivalue();
-    auto&& t = ival.toTensor();
-    tensors.emplace_back(std::move(t));
+    c10::IValue ival = unpickler.parse_ivalue();
+    at::Tensor rpcTensor = ival.toTensor();
+    tpTensor.data = (uint8_t*)(rpcTensor.data_ptr());
+    tensors.emplace_back(std::move(rpcTensor));
   }
 
   return Message(std::move(payload), std::move(tensors), mType, mId);
diff --git a/torch/csrc/distributed/rpc/utils.h b/torch/csrc/distributed/rpc/utils.h
@@ -60,8 +60,7 @@ TORCH_API TensorPipeEntry tensorpipeSerialize(const Message& rpcMessage);
 // necessary information for memory allocation, like payload length
 // and tensor metadata. The returned RPC message doesn't have any
 // data, but would be valid after tensorpipe finishs data transfer.
-TORCH_API Message
-tensorpipeAllocateMessage(const tensorpipe::Message& tpMessage);
+TORCH_API Message tensorpipeAllocateMessage(tensorpipe::Message& tpMessage);
 
 // Some Tensors are effectively views of larger Tensors, where only a small
 // subset of the Storage data is referenced. This normally is good and avoids