[iOS GPU] Add the reset of binary ops (#53950)

xta0 · facebook-github-bot · commit bb21aea37add · 2021-03-14T22:14:24.000-07:00
Summary: Pull Request resolved: #53950 Add four binary ops to Metal - `aten::mul_` - `aten::sub_` - `aten::div` - `aten::div_` ghstack-source-id: 123850577 Test Plan: - `buck test pp-mac` ``` 2021-03-11 20:36:47.151139-0800 PyTorchPlayground[8469:5169786] [bool test_sub()],[5 3 167 222 ],[SUCCEED] 2021-03-11 20:36:47.157638-0800 PyTorchPlayground[8469:5169786] [bool test_sub_broadcast()],[1 3 1 1 ],[SUCCEED] 2021-03-11 20:36:47.170640-0800 PyTorchPlayground[8469:5169786] [bool test_sub_broadcast2()],[3 3 192 192 ],[SUCCEED] 2021-03-11 20:36:47.194009-0800 PyTorchPlayground[8469:5169786] [bool test_mul()],[2 7 262 119 ],[SUCCEED] 2021-03-11 20:36:47.210344-0800 PyTorchPlayground[8469:5169786] [bool test_mul_broadcast()],[4 3 192 192 ],[SUCCEED] 2021-03-11 20:36:47.216610-0800 PyTorchPlayground[8469:5169786] [bool test_mul_broadcast2()],[1 3 192 192 ],[SUCCEED] 2021-03-11 20:36:47.224471-0800 PyTorchPlayground[8469:5169786] [bool test_div()],[1 3 192 192 ],[SUCCEED] 2021-03-11 20:36:47.240817-0800 PyTorchPlayground[8469:5169786] [bool test_div_broadcast()],[4 3 192 192 ],[SUCCEED] 2021-03-11 20:36:47.246816-0800 PyTorchPlayground[8469:5169786] [bool test_div_broadcast2()],[1 3 192 192 ],[SUCCEED] ``` Reviewed By: SS-JIA Differential Revision: D27003417 fbshipit-source-id: 290f7e524eef4c444f8884fc1315151752e5ac31
diff --git a/aten/src/ATen/native/metal/MetalShaders.h b/aten/src/ATen/native/metal/MetalShaders.h
@@ -120,6 +120,20 @@ kernel void elementwise_mul(texture2d_array<half, access::read> in0[[texture(0)]
     elementwise_broadcast(in0, in1, out, gid, Mul);
 }
 
+kernel void elementwise_div_nonarray(texture2d<half, access::read> in0[[texture(0)]],
+                                     texture2d<half, access::read> in1[[texture(1)]],
+                                     texture2d<half, access::write> out[[texture(2)]],
+                                     ushort2 gid[[thread_position_in_grid]]) {
+    elementwise_broadcast_nonarray(in0, in1, out, gid, Div);
+}
+
+kernel void elementwise_div(texture2d_array<half, access::read> in0[[texture(0)]],
+                            texture2d_array<half, access::read> in1[[texture(1)]],
+                            texture2d_array<half, access::write> out[[texture(2)]],
+                            ushort3 gid[[thread_position_in_grid]]) {
+    elementwise_broadcast(in0, in1, out, gid, Div);
+}
+
 kernel void copy_nchw_to_metal(constant float* in[[buffer(0)]],
                                texture2d_array<half, access::write> out[[texture(0)]],
                                ushort3 gid[[thread_position_in_grid]]) {
diff --git a/aten/src/ATen/native/metal/mpscnn/tests/MPSCNNTests.h b/aten/src/ATen/native/metal/mpscnn/tests/MPSCNNTests.h
@@ -20,6 +20,9 @@ bool test_sub_broadcast2();
 bool test_mul();
 bool test_mul_broadcast();
 bool test_mul_broadcast2();
+bool test_div();
+bool test_div_broadcast();
+bool test_div_broadcast2();
 bool test_t();
 bool test_view();
 bool test_cat_dim0();
diff --git a/aten/src/ATen/native/metal/mpscnn/tests/MPSCNNTests.mm b/aten/src/ATen/native/metal/mpscnn/tests/MPSCNNTests.mm
@@ -440,6 +440,47 @@ bool test_mul_broadcast2() {
   });
 }
 
+bool test_div() {
+    __block std::vector<int64_t> x{1, 3, 24, 24};
+    return TEST(x, __PRETTY_FUNCTION__, ^bool {
+      auto X1 = at::rand(x, at::TensorOptions(at::kCPU).dtype(at::kFloat));
+      auto X2 = at::rand(x, at::TensorOptions(at::kCPU).dtype(at::kFloat));
+      auto Y1 = at::div(X1, X2);
+      auto MX1 = X1.metal();
+      auto MX2 = X2.metal();
+      auto Y2 = at::div(MX1, MX2).cpu();
+      return almostEqual(Y1, Y2);
+    });
+}
+
+bool test_div_broadcast() {
+    __block std::vector<int64_t> x1{4, 3, 24, 24};
+    __block std::vector<int64_t> x2{4, 3, 1, 1};
+    return TEST(x1, __PRETTY_FUNCTION__, ^bool {
+      auto X1 = at::rand(x1, at::TensorOptions(at::kCPU).dtype(at::kFloat));
+      auto X2 = at::rand(x2, at::TensorOptions(at::kCPU).dtype(at::kFloat));
+      auto Y1 = at::div(X1, X2);
+      auto MX1 = X1.metal();
+      auto MX2 = X2.metal();
+      auto Y2 = at::div(MX1, MX2).cpu();
+      return almostEqual(Y1, Y2);
+    });
+}
+
+bool test_div_broadcast2() {
+    __block std::vector<int64_t> x2{1, 3, 24, 1};
+    __block std::vector<int64_t> x1{1, 3, 24, 24};
+    return TEST(x1, __PRETTY_FUNCTION__, ^bool {
+      auto X1 = at::rand(x1, at::TensorOptions(at::kCPU).dtype(at::kFloat));
+      auto X2 = at::rand(x2, at::TensorOptions(at::kCPU).dtype(at::kFloat));
+      auto Y1 = at::div(X1, X2);
+      auto MX1 = X1.metal();
+      auto MX2 = X2.metal();
+      auto Y2 = at::div(MX1, MX2).cpu();
+      return almostEqual(Y1, Y2);
+    });
+}
+
 bool test_t() {
   bool result = true;
   for (int i = 0; i < ITER_COUNT; ++i) {
diff --git a/aten/src/ATen/native/metal/ops/MetalBinaryElementwise.mm b/aten/src/ATen/native/metal/ops/MetalBinaryElementwise.mm
@@ -204,6 +204,20 @@ Tensor sub_Tensor(const Tensor& input1, const Tensor& input2, Scalar alpha) {
   }
 }
 
+Tensor& sub__Tensor(Tensor& input1, const Tensor& input2, Scalar alpha) {
+  TORCH_CHECK(input1.is_metal());
+  TORCH_CHECK(input1.dim() == input2.dim());
+  TORCH_CHECK(input1.sizes()[0] == input2.sizes()[0]);
+  TORCH_CHECK(input1.sizes()[1] == input2.sizes()[1]);
+  auto input2_ = input2.is_metal() ? input2 : input2.metal();
+  if (@available(iOS 11.3, *)) {
+    return binaryElementwiseMPSCNNKernel_<MPSCNNSubtract>(input1, input2_);
+  } else {
+    return binaryElementwiseShaderKernel_(
+        input1, input2_, @"elementwise_sub", @"elementwise_sub_nonarray");
+  }
+}
+
 Tensor mul_Tensor(const Tensor& input1, const Tensor& input2) {
   TORCH_CHECK(input1.is_metal());
   TORCH_CHECK(input1.dim() == input2.dim());
@@ -218,11 +232,57 @@ Tensor mul_Tensor(const Tensor& input1, const Tensor& input2) {
   }
 }
 
+Tensor& mul__Tensor(Tensor& input1, const Tensor& input2) {
+  TORCH_CHECK(input1.is_metal());
+  TORCH_CHECK(input1.dim() == input2.dim());
+  TORCH_CHECK(input1.sizes()[0] == input2.sizes()[0]);
+  TORCH_CHECK(input1.sizes()[1] == input2.sizes()[1]);
+  auto input2_ = input2.is_metal() ? input2 : input2.metal();
+  if (@available(iOS 11.3, *)) {
+    return binaryElementwiseMPSCNNKernel_<MPSCNNMultiply>(input1, input2_);
+  } else {
+    return binaryElementwiseShaderKernel_(
+        input1, input2_, @"elementwise_mul", @"elementwise_mul_nonarray");
+  }
+}
+
+Tensor div_Tensor(const Tensor& input1, const Tensor& input2) {
+  TORCH_CHECK(input1.is_metal());
+  TORCH_CHECK(input1.dim() == input2.dim());
+  TORCH_CHECK(input1.sizes()[0] == input2.sizes()[0]);
+  TORCH_CHECK(input1.sizes()[1] == input2.sizes()[1]);
+  auto input2_ = input2.is_metal() ? input2 : input2.metal();
+  if (@available(iOS 11.3, *)) {
+    return binaryElementwiseMPSCNNKernel<MPSCNNDivide>(input1, input2_);
+  } else {
+    return binaryElementwiseShaderKernel(
+        input1, input2_, @"elementwise_div", @"elementwise_div_nonarray");
+  }
+}
+
+Tensor& div__Tensor(Tensor& input1, const Tensor& input2) {
+  TORCH_CHECK(input1.is_metal());
+  TORCH_CHECK(input1.dim() == input2.dim());
+  TORCH_CHECK(input1.sizes()[0] == input2.sizes()[0]);
+  TORCH_CHECK(input1.sizes()[1] == input2.sizes()[1]);
+  auto input2_ = input2.is_metal() ? input2 : input2.metal();
+  if (@available(iOS 11.3, *)) {
+    return binaryElementwiseMPSCNNKernel_<MPSCNNDivide>(input1, input2_);
+  } else {
+    return binaryElementwiseShaderKernel_(
+        input1, input2_, @"elementwise_div", @"elementwise_div_nonarray");
+  }
+}
+
 TORCH_LIBRARY_IMPL(aten, Metal, m) {
   m.impl("add.Tensor", TORCH_FN(add_Tensor));
   m.impl("add_.Tensor", TORCH_FN(add__Tensor));
   m.impl("mul.Tensor", TORCH_FN(mul_Tensor));
+  m.impl("mul_.Tensor", TORCH_FN(mul__Tensor));
   m.impl("sub.Tensor", TORCH_FN(sub_Tensor));
+  m.impl("sub_.Tensor", TORCH_FN(sub__Tensor));
+  m.impl("div.Tensor", TORCH_FN(div_Tensor));
+  m.impl("div_.Tensor", TORCH_FN(div__Tensor));
 };
 
 }