pytorch
diff --git a/‎aten/src/ATen/Declarations.cwrap‎
Lines changed: 0 additions & 14 deletions b/‎aten/src/ATen/Declarations.cwrap‎
Lines changed: 0 additions & 14 deletions
diff --git a/‎aten/src/ATen/core/ivalue_inl.h‎
Lines changed: 2 additions & 3 deletions b/‎aten/src/ATen/core/ivalue_inl.h‎
Lines changed: 2 additions & 3 deletions
diff --git a/‎aten/src/ATen/native/TensorIterator.cpp‎
Lines changed: 1 addition & 0 deletions b/‎aten/src/ATen/native/TensorIterator.cpp‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎aten/src/ATen/native/TensorIterator.h‎
Lines changed: 0 additions & 2 deletions b/‎aten/src/ATen/native/TensorIterator.h‎
Lines changed: 0 additions & 2 deletions
diff --git a/‎aten/src/ATen/native/TensorShape.cpp‎
Lines changed: 90 additions & 1 deletion b/‎aten/src/ATen/native/TensorShape.cpp‎
Lines changed: 90 additions & 1 deletion
diff --git a/‎aten/src/ATen/native/UnaryOps.cpp‎
Lines changed: 4 additions & 1 deletion b/‎aten/src/ATen/native/UnaryOps.cpp‎
Lines changed: 4 additions & 1 deletion
diff --git a/‎aten/src/ATen/native/cpu/BinaryOpsKernel.cpp‎
Lines changed: 19 additions & 6 deletions b/‎aten/src/ATen/native/cpu/BinaryOpsKernel.cpp‎
Lines changed: 19 additions & 6 deletions
diff --git a/‎aten/src/ATen/native/cuda/AbsKernel.cu‎
Lines changed: 40 additions & 0 deletions b/‎aten/src/ATen/native/cuda/AbsKernel.cu‎
Lines changed: 40 additions & 0 deletions
diff --git a/‎aten/src/ATen/native/cuda/BinaryAddSubKernel.cu‎
Lines changed: 27 additions & 0 deletions b/‎aten/src/ATen/native/cuda/BinaryAddSubKernel.cu‎
Lines changed: 27 additions & 0 deletions
diff --git a/‎…en/native/cuda/BinaryArithmeticKernel.cu‎ ‎…c/ATen/native/cuda/BinaryMulDivKernel.cu‎aten/src/ATen/native/cuda/BinaryArithmeticKernel.cu renamed to aten/src/ATen/native/cuda/BinaryMulDivKernel.cu
Lines changed: 0 additions & 41 deletions b/‎…en/native/cuda/BinaryArithmeticKernel.cu‎ ‎…c/ATen/native/cuda/BinaryMulDivKernel.cu‎aten/src/ATen/native/cuda/BinaryArithmeticKernel.cu renamed to aten/src/ATen/native/cuda/BinaryMulDivKernel.cu
Lines changed: 0 additions & 41 deletions
@@ -334,20 +334,6 @@
     - bool largest
     - bool sorted
 ]]
-[[
-  name: _th_exp
-  cname: exp
-  types:
-    - floating_point
-  backends:
-    - CUDA
-  variants: function
-  return: argument 0
-  arguments:
-    - arg: THTensor* result
-      output: True
-    - THTensor* self
-]]
 [[
   name: _th_erfc
   cname: erfc
 
@@ -310,12 +310,11 @@ struct C10_EXPORT ivalue::Future final : c10::intrusive_ptr_target {
     return value_;
   }
 
+  // This accessor should only be used if we know that the future is
+  // completed() with no error.
   const IValue& constValue() {
     std::unique_lock<std::mutex> lock(mutex_);
     AT_ASSERT(completed());
-    if (error_) {
-      throw *error_;
-    }
     return value_;
   }
 
 
@@ -4,6 +4,7 @@
 #include <ATen/ExpandUtils.h>
 #include <ATen/Parallel.h>
 #include <ATen/native/TypeProperties.h>
+#include <ATen/MemoryOverlap.h>
 
 namespace at {
 
 
@@ -6,8 +6,6 @@
 #include <c10/util/TypeCast.h>
 #include <ATen/core/Range.h>
 #include <bitset>
-#include <c10/util/Optional.h>
-#include <ATen/MemoryOverlap.h>
 #include <ATen/NamedTensorUtils.h>
 #include <ATen/Parallel.h>
 
 
@@ -613,6 +613,15 @@ Tensor sum_to_size(const Tensor& self, IntArrayRef size) {
   return sum_to(self, size);
 }
 
+// We currently do not support per-channel quant for unfold, diagonal, expand, permute.
+// TODO: Make this an aten function and replace as_strided_qtensorimpl once that is done.
+Tensor make_qtensor(const Tensor& self, IntArrayRef size, IntArrayRef stride, QuantizerPtr quantizer) {
+  auto result = detail::make_tensor<QTensorImpl>(
+      Storage(self.storage()), self.key_set(), quantizer);
+  setStrided(result, size, stride, self.storage_offset());
+  return result;
+}
+
 Tensor as_strided_tensorimpl(const Tensor& self, IntArrayRef size, IntArrayRef stride, optional<int64_t> storage_offset_) {
   auto storage_offset = storage_offset_.value_or(self.storage_offset());
   auto result = detail::make_tensor<TensorImpl>(Storage(self.storage()), self.key_set());
@@ -1232,9 +1241,66 @@ inferUnsqueezeGeometry(const Tensor& tensor, int64_t dim) {
   return std::make_tuple(sizes, strides);
 }
 
+Tensor squeeze_qtensor(const Tensor& self) {
+  auto quantizer = get_qtensorimpl(self)->quantizer();
+  std::vector<int64_t> sizes;
+  std::vector<int64_t> strides;
+  std::tie(sizes, strides) = inferSqueezeGeometry(self);
+  if (quantizer->qscheme() == QScheme::PER_CHANNEL_AFFINE) {
+    const auto* per_channel_quantizer = static_cast<at::PerChannelAffineQuantizer*>(quantizer.get());
+    auto axis = per_channel_quantizer->axis();
+    int64_t shift = 0;
+    for (int64_t d = 0; d < self.dim(); ++d) {
+      if (self.sizes()[d] == 1) {
+        TORCH_CHECK(axis != d, "Squeeze is only possible on non-axis dimension for Per-Channel Quantized Tensors.");
+        if (d < axis) {
+          shift += 1;
+        }
+      }
+    }
+    axis = axis - shift;
+    quantizer = make_per_channel_affine_quantizer(per_channel_quantizer->scales(),
+                                                  per_channel_quantizer->zero_points(),
+                                                  axis,
+                                                  quantizer->scalar_type());
+  }
+  return make_qtensor(self, sizes, strides, quantizer);
+}
+
+Tensor squeeze_qtensor(const Tensor& self, int64_t dim) {
+  auto quantizer = get_qtensorimpl(self)->quantizer();
+  std::vector<int64_t> sizes;
+  std::vector<int64_t> strides;
+  std::tie(sizes, strides) = inferSqueezeGeometry(self, dim);
+  if (quantizer->qscheme() == QScheme::PER_CHANNEL_AFFINE) {
+    const auto* per_channel_quantizer = static_cast<at::PerChannelAffineQuantizer*>(quantizer.get());
+    auto axis = per_channel_quantizer->axis();
+    TORCH_CHECK(axis != dim, "Squeeze is only possible on non-axis dimension for Per-Channel Quantized Tensors.");
+    if (axis >= dim) {
+      axis -= 1;
+    }
+    quantizer = make_per_channel_affine_quantizer(per_channel_quantizer->scales(),
+                                                  per_channel_quantizer->zero_points(),
+                                                  axis,
+                                                  quantizer->scalar_type());
+  }
+  if (self.dim() == 0 || self.sizes()[dim] != 1) {
+    sizes = self.sizes().vec();
+    strides = self.strides().vec();
+  }
+  auto result = make_qtensor(self, sizes, strides, quantizer);
+  namedinference::propagate_names_except(result, self, {dim});
+  return result;
+}
+
 Tensor squeeze(const Tensor& self) {
   auto g = inferSqueezeGeometry(self);
-  auto result = self.as_strided(std::get<0>(g), std::get<1>(g));
+  at::Tensor result;
+  if (self.is_quantized()) {
+    result = squeeze_qtensor(self);
+  } else {
+    result = self.as_strided(std::get<0>(g), std::get<1>(g));
+  }
   auto maybe_outnames = namedinference::compute_squeeze_outnames(self);
   namedinference::propagate_names_if_nonempty(result, maybe_outnames);
   return result;
@@ -1244,6 +1310,9 @@ Tensor squeeze(const Tensor& self, int64_t dim) {
   int64_t dims = self.dim();
   dim = maybe_wrap_dim(dim, dims);
 
+  if (self.is_quantized()) {
+    return squeeze_qtensor(self, dim);
+  }
   if (dims == 0 || self.sizes()[dim] != 1) {
     return self.as_strided(self.sizes(), self.strides());
   }
@@ -1303,11 +1372,31 @@ static Tensor unsqueeze_sparse(Tensor const &self, int64_t dim /* should already
   }
 }
 
+Tensor unsqueeze_qtensor(const Tensor& self, int64_t dim) {
+  dim = maybe_wrap_dim(dim, self.dim() + 1);
+  auto g = inferUnsqueezeGeometry(self, dim);
+  auto quantizer = get_qtensorimpl(self)->quantizer();
+  if (quantizer->qscheme() == QScheme::PER_CHANNEL_AFFINE) {
+    const auto* per_channel_quantizer = static_cast<at::PerChannelAffineQuantizer*>(quantizer.get());
+    auto axis = per_channel_quantizer->axis();
+    if (axis >= dim) {
+      axis += 1;
+    }
+    quantizer = make_per_channel_affine_quantizer(per_channel_quantizer->scales(),
+                                                  per_channel_quantizer->zero_points(),
+                                                  axis,
+                                                  quantizer->scalar_type());
+  }
+  return make_qtensor(self, std::get<0>(g), std::get<1>(g), quantizer);
+}
+
 Tensor unsqueeze(const Tensor& self, int64_t dim) {
   dim = maybe_wrap_dim(dim, self.dim() + 1);
 
   if (self.is_sparse()) {
     return unsqueeze_sparse(self, dim);
+  } else if (self.is_quantized()) {
+    return unsqueeze_qtensor(self, dim);
   } else {
     auto g = inferUnsqueezeGeometry(self, dim);
     return self.as_strided(std::get<0>(g), std::get<1>(g));
 
@@ -171,6 +171,10 @@ Tensor& ceil_out(Tensor& result, const Tensor& self) {
 Tensor ceil(const Tensor& self) { return unary_op_impl(self, at::ceil_out); }
 Tensor& ceil_(Tensor& self) { return unary_op_impl_(self, at::ceil_out); }
 
+Tensor& exp_out(Tensor& result, const Tensor& self) { return unary_op_impl_out(result, self, exp_stub); }
+Tensor exp(const Tensor& self) { return unary_op_impl(self, at::exp_out); }
+Tensor& exp_(Tensor& self) { return unary_op_impl_(self, at::exp_out); }
+
 Tensor& expm1_out(Tensor& result, const Tensor& self) { return unary_op_impl_out(result, self, expm1_stub); }
 Tensor expm1(const Tensor& self) { return unary_op_impl(self, at::expm1_out); }
 Tensor& expm1_(Tensor& self) { return unary_op_impl_(self, at::expm1_out); }
@@ -440,7 +444,6 @@ Tensor& mvlgamma_(Tensor& self, int64_t p) {
 
 IMPLEMENT_UNARY_OP_VEC(erfc)
 IMPLEMENT_UNARY_OP_VEC_CUDA(erfinv)
-IMPLEMENT_UNARY_OP_VEC(exp)
 IMPLEMENT_UNARY_OP_VEC_CUDA(lgamma)
 
 DEFINE_DISPATCH(abs_stub);
 
@@ -483,12 +483,25 @@ void min_elementwise_kernel(TensorIterator& iter) {
 }
 
 void smooth_l1_kernel(TensorIterator& iter) {
-  AT_DISPATCH_FLOATING_TYPES_AND2(kBFloat16, kHalf, iter.dtype(), "smooth_l1_cpu", [&]() {
-    cpu_kernel(iter, [=](scalar_t a, scalar_t b) -> scalar_t {
-      auto z = std::abs(a - b);
-      return z < scalar_t(1.) ? scalar_t(0.5) * z * z : z - scalar_t(0.5);
-    });
-  });
+  AT_DISPATCH_FLOATING_TYPES_AND2(
+        kBFloat16, kHalf, iter.dtype(), "smooth_l1_cpu", [&]() {
+        using Vec = Vec256<scalar_t>;
+        const Vec one_vec(static_cast<scalar_t>(1));
+        const Vec point_five_vec(static_cast<scalar_t>(0.5));
+        cpu_kernel_vec(
+            iter,
+            [](scalar_t a, scalar_t b) -> scalar_t {
+              auto z = std::abs(a - b);
+              return z < static_cast<scalar_t>(1)
+                  ? static_cast<scalar_t>(0.5) * z * z
+                  : z - static_cast<scalar_t>(0.5);
+            },
+            [&one_vec, &point_five_vec](Vec a, Vec b) {
+              auto z = (a - b).abs();
+              return Vec::blendv(
+                  point_five_vec * z * z, z - point_five_vec, z >= one_vec);
+            });
+      });
 }
 
 void sigmoid_backward_kernel(TensorIterator& iter) {
 
@@ -0,0 +1,40 @@
+#include <ATen/native/UnaryOps.h>
+#include <ATen/native/cuda/Loops.cuh>
+#include <ATen/Dispatch.h>
+#include <ATen/native/DispatchStub.h>
+#include <ATen/native/TensorIterator.h>
+
+namespace at { namespace native {
+
+// We manually overload abs because std::abs does not work with thrust::complex types and ROCm.
+template<typename scalar_t>
+__host__ __device__ static inline scalar_t abs_wrapper(scalar_t v) {
+  return ::abs(v);
+}
+
+template<typename T>
+__host__ __device__ static inline c10::complex<T> abs_wrapper(c10::complex<T> v) {
+  return std::abs(v);
+}
+
+__host__ __device__ static inline uint8_t abs_wrapper(uint8_t v) {
+  return v;
+}
+
+__host__ __device__ static inline bool abs_wrapper(bool v) {
+  return v;
+}
+
+void abs_kernel_cuda(TensorIterator& iter) {
+  AT_DISPATCH_ALL_TYPES_AND_COMPLEX_AND3(ScalarType::Half, ScalarType::BFloat16, ScalarType::Bool, iter.dtype(), "abs_cuda", [&]() {
+    AT_SKIP_BFLOAT16_IF_NOT_ROCM(scalar_t, "abs_cuda", [&] {
+      gpu_kernel(iter, []GPU_LAMBDA(scalar_t a) -> scalar_t {
+        return abs_wrapper(a);
+      });
+    });
+  });
+}
+
+REGISTER_DISPATCH(abs_stub, &abs_kernel_cuda);
+
+}} // namespace at::native
@@ -0,0 +1,27 @@
+#include <ATen/Dispatch.h>
+#include <ATen/native/DispatchStub.h>
+#include <ATen/native/cuda/Loops.cuh>
+#include <ATen/native/BinaryOps.h>
+
+// NOTE: CUDA on Windows requires that the enclosing function
+// of a __device__ lambda not have internal linkage.
+
+namespace at { namespace native {
+
+void add_kernel_cuda(TensorIterator& iter, Scalar alpha_scalar) {
+  AT_DISPATCH_ALL_TYPES_AND_COMPLEX_AND3(kHalf, kBool, kBFloat16, iter.common_dtype(), "add_cuda/sub_cuda", [&]() {
+    auto alpha = alpha_scalar.to<scalar_t>();
+    gpu_kernel_with_scalars(iter, [alpha]GPU_LAMBDA(scalar_t a, scalar_t b) -> scalar_t {
+      return a + alpha * b;
+    });
+  });
+}
+
+static void sub_kernel_cuda(TensorIterator& iter, Scalar alpha_scalar) {
+  add_kernel_cuda(iter, -alpha_scalar);
+}
+
+REGISTER_DISPATCH(add_stub, &add_kernel_cuda);
+REGISTER_DISPATCH(sub_stub, &sub_kernel_cuda);
+
+}} // namespace at::native
@@ -4,27 +4,12 @@
 #include <ATen/native/cuda/zmath.cuh>
 #include <ATen/native/TensorIterator.h>
 #include <ATen/native/BinaryOps.h>
-#include <c10/macros/Macros.h>
-
 
 // NOTE: CUDA on Windows requires that the enclosing function
 // of a __device__ lambda not have internal linkage.
 
 namespace at { namespace native {
 
-void add_kernel_cuda(TensorIterator& iter, Scalar alpha_scalar) {
-  AT_DISPATCH_ALL_TYPES_AND_COMPLEX_AND3(kHalf, kBool, kBFloat16, iter.common_dtype(), "add_cuda/sub_cuda", [&]() {
-    auto alpha = alpha_scalar.to<scalar_t>();
-    gpu_kernel_with_scalars(iter, [alpha]GPU_LAMBDA(scalar_t a, scalar_t b) -> scalar_t {
-      return a + alpha * b;
-    });
-  });
-}
-
-static void sub_kernel_cuda(TensorIterator& iter, Scalar alpha_scalar) {
-  add_kernel_cuda(iter, -alpha_scalar);
-}
-
 void div_kernel_cuda(TensorIterator& iter) {
   if (!isIntegralType(iter.common_dtype(), /*includeBool*/ false) && iter.is_cpu_scalar(2)) {
     // optimization for floating-point types: if the second operand is a CPU
@@ -62,33 +47,7 @@ void mul_kernel_cuda(TensorIterator& iter) {
   }
 }
 
-void remainder_kernel_cuda(TensorIterator& iter) {
-  if (isIntegralType(iter.dtype(), /*includeBool*/ false)) {
-    AT_DISPATCH_INTEGRAL_TYPES(iter.dtype(), "remainder_cuda", [&]() {
-      gpu_kernel_with_scalars(iter, []GPU_LAMBDA(scalar_t a, scalar_t b) -> scalar_t {
-        scalar_t r = a % b;
-        if ((r != 0) && ((r < 0) != (b < 0))) {
-          r += b;
-        }
-        return r;
-      });
-    });
-  } else {
-    AT_DISPATCH_FLOATING_TYPES_AND_HALF(iter.dtype(), "remainder_cuda", [&]() {
-      gpu_kernel_with_scalars(iter,
-        []GPU_LAMBDA(scalar_t a, scalar_t b) __ubsan_ignore_float_divide_by_zero__ -> scalar_t {
-          auto mod = ::fmod(a, b);
-          if ((mod != 0) && ((b < 0) != (mod < 0))) mod += b;
-          return mod;
-        });
-    });
-  }
-}
-
-REGISTER_DISPATCH(add_stub, &add_kernel_cuda);
-REGISTER_DISPATCH(sub_stub, &sub_kernel_cuda);
 REGISTER_DISPATCH(div_stub, &div_kernel_cuda);
 REGISTER_DISPATCH(mul_stub, &mul_kernel_cuda);
-REGISTER_DISPATCH(remainder_stub, &remainder_kernel_cuda);
 
 }} // namespace at::native
Original file line number	Diff line number	Diff line change
`@@ -310,12 +310,11 @@ struct C10_EXPORT ivalue::Future final : c10::intrusive_ptr_target {`
`310`	`310`	`return value_;`
`311`	`311`	`}`
`312`	`312`
	`313`	`+ // This accessor should only be used if we know that the future is`
	`314`	`+ // completed() with no error.`
`313`	`315`	`const IValue& constValue() {`
`314`	`316`	`std::unique_lock<std::mutex> lock(mutex_);`
`315`	`317`	`AT_ASSERT(completed());`
`316`		`- if (error_) {`
`317`		`- throw *error_;`
`318`		`- }`
`319`	`318`	`return value_;`
`320`	`319`	`}`
`321`	`320`