pytorch
diff --git a/‎aten/src/ATen/TensorIterator.cpp‎
Lines changed: 35 additions & 27 deletions b/‎aten/src/ATen/TensorIterator.cpp‎
Lines changed: 35 additions & 27 deletions
diff --git a/‎aten/src/ATen/TensorIterator.h‎
Lines changed: 1 addition & 0 deletions b/‎aten/src/ATen/TensorIterator.h‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎aten/src/ATen/native/BinaryOps.cpp‎
Lines changed: 104 additions & 121 deletions b/‎aten/src/ATen/native/BinaryOps.cpp‎
Lines changed: 104 additions & 121 deletions
diff --git a/‎aten/src/ATen/native/BinaryOps.h‎
Lines changed: 10 additions & 10 deletions b/‎aten/src/ATen/native/BinaryOps.h‎
Lines changed: 10 additions & 10 deletions
diff --git a/‎aten/src/ATen/native/cpu/BinaryOpsKernel.cpp‎
Lines changed: 10 additions & 10 deletions b/‎aten/src/ATen/native/cpu/BinaryOpsKernel.cpp‎
Lines changed: 10 additions & 10 deletions
diff --git a/‎aten/src/ATen/native/cuda/BinaryMiscBackwardOpsKernels.cu‎
Lines changed: 3 additions & 3 deletions b/‎aten/src/ATen/native/cuda/BinaryMiscBackwardOpsKernels.cu‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎aten/src/ATen/native/cuda/BinaryMiscOpsKernels.cu‎
Lines changed: 1 addition & 1 deletion b/‎aten/src/ATen/native/cuda/BinaryMiscOpsKernels.cu‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎aten/src/ATen/native/cuda/CompareEQKernel.cu‎
Lines changed: 1 addition & 1 deletion b/‎aten/src/ATen/native/cuda/CompareEQKernel.cu‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎aten/src/ATen/native/cuda/CompareGEKernel.cu‎
Lines changed: 1 addition & 1 deletion b/‎aten/src/ATen/native/cuda/CompareGEKernel.cu‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎aten/src/ATen/native/cuda/CompareGTKernel.cu‎
Lines changed: 1 addition & 1 deletion b/‎aten/src/ATen/native/cuda/CompareGTKernel.cu‎
Lines changed: 1 addition & 1 deletion
@@ -799,6 +799,38 @@ void TensorIteratorBase::build_borrowing_binary_float_op(const Tensor& out, cons
         .add_input(b));
 }
 
+void TensorIteratorBase::build_comparison_op(const Tensor& out, const Tensor& a,
+    const Tensor& b) {
+  TensorIteratorConfig config;
+
+  config.set_check_mem_overlap(true);
+  config.add_owned_output(out);
+  config.add_owned_input(a);
+  config.add_owned_input(b);
+  config.allow_cpu_scalars(true);
+  config.promote_inputs_to_common_dtype(true);
+
+  // When 'out' isn't defined (e.g. for the functional operator 'a == b'), we
+  // want the output to be bool. Otherwise (e.g. 'torch.eq(a, b, out=c)') we
+  // don't coerce the output.
+  if (!out.defined()) {
+    config.declare_static_dtype_and_device(kBool, a.device());
+  }
+
+  // Note [special-case bool outputs]
+  // We explicitly don't call `cast_common_dtype_to_outputs` when the output tensor
+  // has `bool` dtype. This is a performance optimization: the functional
+  // version of all comparison/logical ops uses a bool output tensor, and we'd like to
+  // avoid creating a temporary copy of the output.
+  // However, note that all kernels using this TensorIterator will need to special-case when
+  // the output tensor has bool dtype, and provide a lambda of type (scalar_t, scalar_t -> bool).
+  if (out.defined() && out.scalar_type() != kBool) {
+    config.cast_common_dtype_to_outputs(true);
+  }
+
+  build(config);
+}
+
 // This cannot be a function because TensorIteratorConfig is not
 // copyable or movable, so it can't be returned from the function.
 #define BINARY_OP_CONFIG()                              \
@@ -875,33 +907,9 @@ TensorIterator TensorIterator::binary_float_op(Tensor& out, const Tensor& a, con
 
 TensorIterator TensorIterator::comparison_op(Tensor& out, const Tensor& a,
     const Tensor& b) {
-  // Note [special-case bool outputs]
-  // We explicitly don't call `cast_common_dtype_to_outputs` when the output tensor
-  // has `bool` dtype. This is a performance optimization: the functional
-  // version of all comparison/logical ops uses a bool output tensor, and we'd like to
-  // avoid creating a temporary copy of the output.
-  // However, note that all kernels using this TensorIterator will need to special-case when
-  // the output tensor has bool dtype, and provide a lambda of type (scalar_t, scalar_t -> bool).
-  if (out.scalar_type() == kBool) {
-    return TensorIteratorConfig()
-    .set_check_mem_overlap(true)
-    .add_owned_output(out)
-    .add_owned_input(a)
-    .add_owned_input(b)
-    .allow_cpu_scalars(true)
-    .promote_inputs_to_common_dtype(true)
-    .build();
-  } else {
-    return TensorIteratorConfig()
-    .set_check_mem_overlap(true)
-    .add_owned_output(out)
-    .add_owned_input(a)
-    .add_owned_input(b)
-    .allow_cpu_scalars(true)
-    .promote_inputs_to_common_dtype(true)
-    .cast_common_dtype_to_outputs(true)
-    .build();
-  }
+  TensorIterator iter;
+  iter.build_comparison_op(out, a, b);
+  return iter;
 }
 
 TensorIterator TensorIterator::unary_op(Tensor& out, const Tensor& a) {
 
@@ -351,6 +351,7 @@ struct TORCH_API TensorIteratorBase : public impl::MetaBase {
   void build_unary_float_op(const Tensor& out, const Tensor& a);
   void build_unary_op(const Tensor& out, const Tensor& a);
   void build_unary_force_boolean_op(const Tensor& out, const Tensor& a);
+  void build_comparison_op(const Tensor& out, const Tensor& a, const Tensor& b);
 
 #undef TORCH_DISALLOW_TEMPORARIES
 protected:
 
@@ -39,7 +39,7 @@ inline void sub_check(const Tensor& self, const Scalar& scalar) {
 using structured_binary_fn_alpha = void(*)(TensorIteratorBase&, const Scalar& alpha);
 using structured_binary_fn = void(*)(TensorIteratorBase&);
 
-using binary_fn_alpha = void(*)(TensorIterator&, const Scalar& alpha);
+using binary_fn_alpha = void(*)(TensorIteratorBase&, const Scalar& alpha);
 using binary_fn_double = void(*)(TensorIterator&, double);
 using binary_fn = void(*)(TensorIterator&);
 using binary_clamp_fn_alpha =
@@ -62,12 +62,12 @@ DECLARE_DISPATCH(structured_binary_fn, rshift_stub);
 DECLARE_DISPATCH(binary_fn, logical_xor_stub);
 DECLARE_DISPATCH(binary_fn, logical_and_stub);
 DECLARE_DISPATCH(binary_fn, logical_or_stub);
-DECLARE_DISPATCH(binary_fn, lt_stub);
-DECLARE_DISPATCH(binary_fn, le_stub);
-DECLARE_DISPATCH(binary_fn, gt_stub);
-DECLARE_DISPATCH(binary_fn, ge_stub);
-DECLARE_DISPATCH(binary_fn, eq_stub);
-DECLARE_DISPATCH(binary_fn, ne_stub);
+DECLARE_DISPATCH(structured_binary_fn, lt_stub);
+DECLARE_DISPATCH(structured_binary_fn, le_stub);
+DECLARE_DISPATCH(structured_binary_fn, gt_stub);
+DECLARE_DISPATCH(structured_binary_fn, ge_stub);
+DECLARE_DISPATCH(structured_binary_fn, eq_stub);
+DECLARE_DISPATCH(structured_binary_fn, ne_stub);
 DECLARE_DISPATCH(binary_fn, max_elementwise_stub);
 DECLARE_DISPATCH(binary_fn, min_elementwise_stub);
 DECLARE_DISPATCH(structured_binary_fn, maximum_stub);
@@ -76,9 +76,9 @@ DECLARE_DISPATCH(structured_binary_fn, fmax_stub);
 DECLARE_DISPATCH(structured_binary_fn, fmin_stub);
 DECLARE_DISPATCH(binary_fn_double, smooth_l1_stub);
 DECLARE_DISPATCH(binary_fn_double, huber_stub);
-DECLARE_DISPATCH(binary_fn, sigmoid_backward_stub);
+DECLARE_DISPATCH(structured_binary_fn, sigmoid_backward_stub);
 DECLARE_DISPATCH(binary_fn_alpha, logit_backward_stub);
-DECLARE_DISPATCH(binary_fn, tanh_backward_stub);
+DECLARE_DISPATCH(structured_binary_fn, tanh_backward_stub);
 DECLARE_DISPATCH(binary_fn, mse_stub);
 DECLARE_DISPATCH(structured_binary_fn, fmod_stub);
 DECLARE_DISPATCH(structured_binary_fn, logaddexp_stub);
@@ -91,7 +91,7 @@ DECLARE_DISPATCH(structured_binary_fn, igammac_stub);
 DECLARE_DISPATCH(structured_binary_fn, nextafter_stub);
 DECLARE_DISPATCH(structured_binary_fn, heaviside_stub);
 DECLARE_DISPATCH(structured_binary_fn, copysign_stub);
-DECLARE_DISPATCH(binary_fn, xlogy_stub);
+DECLARE_DISPATCH(structured_binary_fn, xlogy_stub);
 DECLARE_DISPATCH(structured_binary_fn, xlog1py_stub);
 DECLARE_DISPATCH(structured_binary_fn, zeta_stub);
 
 
@@ -408,7 +408,7 @@ void rshift_kernel(TensorIteratorBase& iter) {
   }
 }
 
-void lt_kernel(TensorIterator& iter) {
+void lt_kernel(TensorIteratorBase& iter) {
   // See Note [special-case bool outputs]
   if (iter.dtype() == ScalarType::Bool) {
     AT_DISPATCH_ALL_TYPES_AND3(kBool, kBFloat16, kHalf, iter.common_dtype(), "lt_cpu", [&]() {
@@ -431,7 +431,7 @@ void lt_kernel(TensorIterator& iter) {
   }
 }
 
-void le_kernel(TensorIterator& iter) {
+void le_kernel(TensorIteratorBase& iter) {
   // See Note [special-case bool outputs]
   if (iter.dtype() == ScalarType::Bool) {
     AT_DISPATCH_ALL_TYPES_AND3(kBool, kBFloat16, kHalf, iter.common_dtype(), "le_cpu", [&]() {
@@ -454,7 +454,7 @@ void le_kernel(TensorIterator& iter) {
   }
 }
 
-void gt_kernel(TensorIterator& iter) {
+void gt_kernel(TensorIteratorBase& iter) {
   // See Note [special-case bool outputs]
   if (iter.dtype() == ScalarType::Bool) {
     AT_DISPATCH_ALL_TYPES_AND3(kBool, kBFloat16, kHalf, iter.common_dtype(), "gt_cpu", [&]() {
@@ -477,7 +477,7 @@ void gt_kernel(TensorIterator& iter) {
   }
 }
 
-void ge_kernel(TensorIterator& iter) {
+void ge_kernel(TensorIteratorBase& iter) {
   // See Note [special-case bool outputs]
   if (iter.dtype() == ScalarType::Bool) {
     AT_DISPATCH_ALL_TYPES_AND3(kBool, kBFloat16, kHalf, iter.common_dtype(), "ge_cpu", [&]() {
@@ -500,7 +500,7 @@ void ge_kernel(TensorIterator& iter) {
   }
 }
 
-void eq_kernel(TensorIterator& iter) {
+void eq_kernel(TensorIteratorBase& iter) {
   // See Note [special-case bool outputs]
   if (iter.dtype() == ScalarType::Bool) {
     AT_DISPATCH_ALL_TYPES_AND_COMPLEX_AND3(kBool, kBFloat16, kHalf, iter.common_dtype(), "eq_cpu", [&]() {
@@ -523,7 +523,7 @@ void eq_kernel(TensorIterator& iter) {
   }
 }
 
-void ne_kernel(TensorIterator& iter) {
+void ne_kernel(TensorIteratorBase& iter) {
   // See Note [special-case bool outputs]
   if (iter.dtype() == ScalarType::Bool) {
     AT_DISPATCH_ALL_TYPES_AND_COMPLEX_AND3(kBool, kBFloat16, kHalf, iter.common_dtype(), "ne_cpu", [&]() {
@@ -671,7 +671,7 @@ void huber_kernel(TensorIterator& iter, double delta) {
   });
 }
 
-void sigmoid_backward_kernel(TensorIterator& iter) {
+void sigmoid_backward_kernel(TensorIteratorBase& iter) {
   if (isComplexType(iter.dtype())) {
     AT_DISPATCH_COMPLEX_TYPES(iter.dtype(), "sigmoid_backward_cpu", [&]() {
       auto one_vec = Vectorized<scalar_t>(scalar_t{1});
@@ -700,7 +700,7 @@ void sigmoid_backward_kernel(TensorIterator& iter) {
   }
 }
 
-void logit_backward_kernel(TensorIterator& iter, const Scalar& eps_scalar) {
+void logit_backward_kernel(TensorIteratorBase& iter, const Scalar& eps_scalar) {
   AT_DISPATCH_FLOATING_TYPES_AND(
       kBFloat16, iter.dtype(), "logit_backward_cpu", [&]() {
         const scalar_t eps = eps_scalar.to<scalar_t>();
@@ -750,7 +750,7 @@ void logit_backward_kernel(TensorIterator& iter, const Scalar& eps_scalar) {
       });
 }
 
-void tanh_backward_kernel(TensorIterator& iter) {
+void tanh_backward_kernel(TensorIteratorBase& iter) {
   if (isComplexType(iter.dtype())) {
     AT_DISPATCH_COMPLEX_TYPES(iter.dtype(), "tanh_backward_cpu", [&]() {
       auto one_vec = Vectorized<scalar_t>(scalar_t{1});
@@ -961,7 +961,7 @@ void copysign_kernel(TensorIteratorBase& iter) {
   });
 }
 
-void xlogy_kernel(TensorIterator& iter) {
+void xlogy_kernel(TensorIteratorBase& iter) {
   AT_DISPATCH_FLOATING_TYPES_AND2(kBFloat16, kHalf, iter.common_dtype(), "xlogy_cpu", [&]() {
     cpu_kernel(iter, [](scalar_t x, scalar_t y) -> scalar_t {
       if (at::_isnan(y)){
 
@@ -14,7 +14,7 @@
 namespace at {
 namespace native {
 
-void sigmoid_backward_kernel_cuda(TensorIterator& iter) {
+void sigmoid_backward_kernel_cuda(TensorIteratorBase& iter) {
   if(isComplexType(iter.dtype())) {
     AT_DISPATCH_COMPLEX_TYPES(iter.dtype(), "sigmoid_backward_cuda", [&]() {
       gpu_kernel(iter, [] GPU_LAMBDA(scalar_t a, scalar_t b) -> scalar_t {
@@ -30,7 +30,7 @@ void sigmoid_backward_kernel_cuda(TensorIterator& iter) {
   }
 }
 
-void logit_backward_kernel_cuda(TensorIterator& iter, const Scalar& eps_scalar) {
+void logit_backward_kernel_cuda(TensorIteratorBase& iter, const Scalar& eps_scalar) {
   AT_DISPATCH_FLOATING_TYPES_AND2(
       at::ScalarType::Half,
       at::ScalarType::BFloat16,
@@ -63,7 +63,7 @@ void logit_backward_kernel_cuda(TensorIterator& iter, const Scalar& eps_scalar)
       });
 }
 
-void tanh_backward_kernel_cuda(TensorIterator& iter) {
+void tanh_backward_kernel_cuda(TensorIteratorBase& iter) {
   if(isComplexType(iter.dtype())) {
     AT_DISPATCH_COMPLEX_TYPES(iter.dtype(), "tanh_backward_complex_cuda", [&]() {
       gpu_kernel(iter, [] GPU_LAMBDA(scalar_t a, scalar_t b) -> scalar_t {
 
@@ -41,7 +41,7 @@ void mse_kernel_cuda(TensorIterator& iter) {
   });
 }
 
-void xlogy_kernel_cuda(TensorIterator& iter) {
+void xlogy_kernel_cuda(TensorIteratorBase& iter) {
   AT_DISPATCH_FLOATING_TYPES_AND2(at::ScalarType::Half, at::ScalarType::BFloat16, iter.common_dtype(), "xlogy_cuda", [&]() {
     gpu_kernel_with_scalars(iter, []GPU_LAMBDA(scalar_t x, scalar_t y) -> scalar_t {
       if (at::_isnan(y)){
 
@@ -17,7 +17,7 @@ struct CompareEqFunctor {
   }
 };
 
-void eq_kernel_cuda(TensorIterator& iter) {
+void eq_kernel_cuda(TensorIteratorBase& iter) {
   AT_DISPATCH_ALL_TYPES_AND_COMPLEX_AND3(kHalf, kBFloat16, kBool, iter.common_dtype(), "eq_cuda", [&]() {
     gpu_kernel_with_scalars(iter, CompareEqFunctor<scalar_t>());
   });
 
@@ -17,7 +17,7 @@ struct CompareGEFunctor {
   }
 };
 
-void ge_kernel_cuda(TensorIterator& iter) {
+void ge_kernel_cuda(TensorIteratorBase& iter) {
   AT_DISPATCH_ALL_TYPES_AND3(kHalf, kBFloat16, kBool, iter.common_dtype(), "ge_cuda", [&]() {
     gpu_kernel_with_scalars(iter, CompareGEFunctor<scalar_t>());
   });
 
@@ -17,7 +17,7 @@ struct CompareGTFunctor {
   }
 };
 
-void gt_kernel_cuda(TensorIterator& iter) {
+void gt_kernel_cuda(TensorIteratorBase& iter) {
   AT_DISPATCH_ALL_TYPES_AND3(kHalf, kBFloat16, kBool, iter.common_dtype(), "gt_cuda", [&]() {
     gpu_kernel_with_scalars(iter, CompareGTFunctor<scalar_t>());
   });
Original file line number	Diff line number	Diff line change
`@@ -408,7 +408,7 @@ void rshift_kernel(TensorIteratorBase& iter) {`
`408`	`408`	`}`
`409`	`409`	`}`
`410`	`410`
`411`		`-void lt_kernel(TensorIterator& iter) {`
	`411`	`+void lt_kernel(TensorIteratorBase& iter) {`
`412`	`412`	`// See Note [special-case bool outputs]`
`413`	`413`	`if (iter.dtype() == ScalarType::Bool) {`
`414`	`414`	`AT_DISPATCH_ALL_TYPES_AND3(kBool, kBFloat16, kHalf, iter.common_dtype(), "lt_cpu", [&]() {`
`@@ -431,7 +431,7 @@ void lt_kernel(TensorIterator& iter) {`
`431`	`431`	`}`
`432`	`432`	`}`
`433`	`433`
`434`		`-void le_kernel(TensorIterator& iter) {`
	`434`	`+void le_kernel(TensorIteratorBase& iter) {`
`435`	`435`	`// See Note [special-case bool outputs]`
`436`	`436`	`if (iter.dtype() == ScalarType::Bool) {`
`437`	`437`	`AT_DISPATCH_ALL_TYPES_AND3(kBool, kBFloat16, kHalf, iter.common_dtype(), "le_cpu", [&]() {`
`@@ -454,7 +454,7 @@ void le_kernel(TensorIterator& iter) {`
`454`	`454`	`}`
`455`	`455`	`}`
`456`	`456`
`457`		`-void gt_kernel(TensorIterator& iter) {`
	`457`	`+void gt_kernel(TensorIteratorBase& iter) {`
`458`	`458`	`// See Note [special-case bool outputs]`
`459`	`459`	`if (iter.dtype() == ScalarType::Bool) {`
`460`	`460`	`AT_DISPATCH_ALL_TYPES_AND3(kBool, kBFloat16, kHalf, iter.common_dtype(), "gt_cpu", [&]() {`
`@@ -477,7 +477,7 @@ void gt_kernel(TensorIterator& iter) {`
`477`	`477`	`}`
`478`	`478`	`}`
`479`	`479`
`480`		`-void ge_kernel(TensorIterator& iter) {`
	`480`	`+void ge_kernel(TensorIteratorBase& iter) {`
`481`	`481`	`// See Note [special-case bool outputs]`
`482`	`482`	`if (iter.dtype() == ScalarType::Bool) {`
`483`	`483`	`AT_DISPATCH_ALL_TYPES_AND3(kBool, kBFloat16, kHalf, iter.common_dtype(), "ge_cpu", [&]() {`
`@@ -500,7 +500,7 @@ void ge_kernel(TensorIterator& iter) {`
`500`	`500`	`}`
`501`	`501`	`}`
`502`	`502`
`503`		`-void eq_kernel(TensorIterator& iter) {`
	`503`	`+void eq_kernel(TensorIteratorBase& iter) {`
`504`	`504`	`// See Note [special-case bool outputs]`
`505`	`505`	`if (iter.dtype() == ScalarType::Bool) {`
`506`	`506`	`AT_DISPATCH_ALL_TYPES_AND_COMPLEX_AND3(kBool, kBFloat16, kHalf, iter.common_dtype(), "eq_cpu", [&]() {`
`@@ -523,7 +523,7 @@ void eq_kernel(TensorIterator& iter) {`
`523`	`523`	`}`
`524`	`524`	`}`
`525`	`525`
`526`		`-void ne_kernel(TensorIterator& iter) {`
	`526`	`+void ne_kernel(TensorIteratorBase& iter) {`
`527`	`527`	`// See Note [special-case bool outputs]`
`528`	`528`	`if (iter.dtype() == ScalarType::Bool) {`
`529`	`529`	`AT_DISPATCH_ALL_TYPES_AND_COMPLEX_AND3(kBool, kBFloat16, kHalf, iter.common_dtype(), "ne_cpu", [&]() {`
`@@ -671,7 +671,7 @@ void huber_kernel(TensorIterator& iter, double delta) {`
`671`	`671`	`});`
`672`	`672`	`}`
`673`	`673`
`674`		`-void sigmoid_backward_kernel(TensorIterator& iter) {`
	`674`	`+void sigmoid_backward_kernel(TensorIteratorBase& iter) {`
`675`	`675`	`if (isComplexType(iter.dtype())) {`
`676`	`676`	`AT_DISPATCH_COMPLEX_TYPES(iter.dtype(), "sigmoid_backward_cpu", [&]() {`
`677`	`677`	`auto one_vec = Vectorized<scalar_t>(scalar_t{1});`
`@@ -700,7 +700,7 @@ void sigmoid_backward_kernel(TensorIterator& iter) {`
`700`	`700`	`}`
`701`	`701`	`}`
`702`	`702`
`703`		`-void logit_backward_kernel(TensorIterator& iter, const Scalar& eps_scalar) {`
	`703`	`+void logit_backward_kernel(TensorIteratorBase& iter, const Scalar& eps_scalar) {`
`704`	`704`	`AT_DISPATCH_FLOATING_TYPES_AND(`
`705`	`705`	`kBFloat16, iter.dtype(), "logit_backward_cpu", [&]() {`
`706`	`706`	`const scalar_t eps = eps_scalar.to<scalar_t>();`
`@@ -750,7 +750,7 @@ void logit_backward_kernel(TensorIterator& iter, const Scalar& eps_scalar) {`
`750`	`750`	`});`
`751`	`751`	`}`
`752`	`752`
`753`		`-void tanh_backward_kernel(TensorIterator& iter) {`
	`753`	`+void tanh_backward_kernel(TensorIteratorBase& iter) {`
`754`	`754`	`if (isComplexType(iter.dtype())) {`
`755`	`755`	`AT_DISPATCH_COMPLEX_TYPES(iter.dtype(), "tanh_backward_cpu", [&]() {`
`756`	`756`	`auto one_vec = Vectorized<scalar_t>(scalar_t{1});`
`@@ -961,7 +961,7 @@ void copysign_kernel(TensorIteratorBase& iter) {`
`961`	`961`	`});`
`962`	`962`	`}`
`963`	`963`
`964`		`-void xlogy_kernel(TensorIterator& iter) {`
	`964`	`+void xlogy_kernel(TensorIteratorBase& iter) {`
`965`	`965`	`AT_DISPATCH_FLOATING_TYPES_AND2(kBFloat16, kHalf, iter.common_dtype(), "xlogy_cpu", [&]() {`
`966`	`966`	`cpu_kernel(iter, [](scalar_t x, scalar_t y) -> scalar_t {`
`967`	`967`	`if (at::_isnan(y)){`
Original file line number	Diff line number	Diff line change
`@@ -41,7 +41,7 @@ void mse_kernel_cuda(TensorIterator& iter) {`
`41`	`41`	`});`
`42`	`42`	`}`
`43`	`43`
`44`		`-void xlogy_kernel_cuda(TensorIterator& iter) {`
	`44`	`+void xlogy_kernel_cuda(TensorIteratorBase& iter) {`
`45`	`45`	`AT_DISPATCH_FLOATING_TYPES_AND2(at::ScalarType::Half, at::ScalarType::BFloat16, iter.common_dtype(), "xlogy_cuda", [&]() {`
`46`	`46`	`gpu_kernel_with_scalars(iter, []GPU_LAMBDA(scalar_t x, scalar_t y) -> scalar_t {`
`47`	`47`	`if (at::_isnan(y)){`
Original file line number	Diff line number	Diff line change
`@@ -17,7 +17,7 @@ struct CompareEqFunctor {`
`17`	`17`	`}`
`18`	`18`	`};`
`19`	`19`
`20`		`-void eq_kernel_cuda(TensorIterator& iter) {`
	`20`	`+void eq_kernel_cuda(TensorIteratorBase& iter) {`
`21`	`21`	`AT_DISPATCH_ALL_TYPES_AND_COMPLEX_AND3(kHalf, kBFloat16, kBool, iter.common_dtype(), "eq_cuda", [&]() {`
`22`	`22`	`gpu_kernel_with_scalars(iter, CompareEqFunctor<scalar_t>());`
`23`	`23`	`});`
Original file line number	Diff line number	Diff line change
`@@ -17,7 +17,7 @@ struct CompareGEFunctor {`
`17`	`17`	`}`
`18`	`18`	`};`
`19`	`19`
`20`		`-void ge_kernel_cuda(TensorIterator& iter) {`
	`20`	`+void ge_kernel_cuda(TensorIteratorBase& iter) {`
`21`	`21`	`AT_DISPATCH_ALL_TYPES_AND3(kHalf, kBFloat16, kBool, iter.common_dtype(), "ge_cuda", [&]() {`
`22`	`22`	`gpu_kernel_with_scalars(iter, CompareGEFunctor<scalar_t>());`
`23`	`23`	`});`
Original file line number	Diff line number	Diff line change
`@@ -17,7 +17,7 @@ struct CompareGTFunctor {`
`17`	`17`	`}`
`18`	`18`	`};`
`19`	`19`
`20`		`-void gt_kernel_cuda(TensorIterator& iter) {`
	`20`	`+void gt_kernel_cuda(TensorIteratorBase& iter) {`
`21`	`21`	`AT_DISPATCH_ALL_TYPES_AND3(kHalf, kBFloat16, kBool, iter.common_dtype(), "gt_cuda", [&]() {`
`22`	`22`	`gpu_kernel_with_scalars(iter, CompareGTFunctor<scalar_t>());`
`23`	`23`	`});`