pytorch
diff --git a/‎aten/src/ATen/native/BatchLinearAlgebra.cpp‎
Lines changed: 6 additions & 5 deletions b/‎aten/src/ATen/native/BatchLinearAlgebra.cpp‎
Lines changed: 6 additions & 5 deletions
diff --git a/‎aten/src/ATen/native/BatchLinearAlgebra.h‎
Lines changed: 1 addition & 1 deletion b/‎aten/src/ATen/native/BatchLinearAlgebra.h‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎aten/src/ATen/native/BatchLinearAlgebraKernel.cpp‎
Lines changed: 1 addition & 1 deletion b/‎aten/src/ATen/native/BatchLinearAlgebraKernel.cpp‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎aten/src/ATen/native/LinearAlgebra.cpp‎
Lines changed: 4 additions & 3 deletions b/‎aten/src/ATen/native/LinearAlgebra.cpp‎
Lines changed: 4 additions & 3 deletions
diff --git a/‎aten/src/ATen/native/cuda/BatchLinearAlgebra.cu‎
Lines changed: 2 additions & 1 deletion b/‎aten/src/ATen/native/cuda/BatchLinearAlgebra.cu‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎benchmarks/sparse/dlmc/README.md‎
Lines changed: 15 additions & 0 deletions b/‎benchmarks/sparse/dlmc/README.md‎
Lines changed: 15 additions & 0 deletions
diff --git a/‎benchmarks/sparse/dlmc/__init__.py‎
Lines changed: 3 additions & 0 deletions b/‎benchmarks/sparse/dlmc/__init__.py‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎benchmarks/sparse/dlmc/matmul_bench.py‎
Lines changed: 126 additions & 0 deletions b/‎benchmarks/sparse/dlmc/matmul_bench.py‎
Lines changed: 126 additions & 0 deletions
diff --git a/‎benchmarks/sparse/dlmc/test.sh‎
Lines changed: 27 additions & 0 deletions b/‎benchmarks/sparse/dlmc/test.sh‎
Lines changed: 27 additions & 0 deletions
@@ -848,7 +848,8 @@ static void apply_solve(Tensor& b, Tensor& A, Tensor& infos) {
 std::tuple<Tensor, Tensor> _solve_helper_cpu(const Tensor& self, const Tensor& A) {
   auto self_working_copy = cloneBatchedColumnMajor(self);
   auto A_working_copy = cloneBatchedColumnMajor(A);
-  auto infos = at::empty({std::max<int64_t>(1, batchCount(self))}, self.options().dtype(kInt));
+  // infos might not get filled for empty inputs therefore at::zeros is used instead of at::empty
+  auto infos = at::zeros({std::max<int64_t>(1, batchCount(self))}, self.options().dtype(kInt));
   AT_DISPATCH_FLOATING_AND_COMPLEX_TYPES(self.scalar_type(), "solve_cpu", [&]{
     apply_solve<scalar_t>(self_working_copy, A_working_copy, infos);
   });
@@ -1074,7 +1075,7 @@ static void apply_inverse(Tensor& self, Tensor& infos_lu, Tensor& infos_getri) {
   int lwork = -1;
   scalar_t wkopt;
   lapackGetri<scalar_t>(n, self_data, lda, ipiv_data, &wkopt, lwork, &info);
-  lwork = static_cast<int>(real_impl<scalar_t, value_t>(wkopt));
+  lwork = std::max<int>(1, real_impl<scalar_t, value_t>(wkopt));
   Tensor work = at::empty({lwork}, self.options());
   auto work_data = work.data_ptr<scalar_t>();
 
@@ -1626,7 +1627,7 @@ static void apply_geqrf(Tensor& self, Tensor& tau, int64_t m, int64_t n,
   int lwork = -1;
   scalar_t wkopt;
   lapackGeqrf<scalar_t>(m, n, self_data, m, tau_data, &wkopt, lwork, &info);
-  lwork = static_cast<int>(real_impl<scalar_t, value_t>(wkopt));
+  lwork = std::max<int>(1, real_impl<scalar_t, value_t>(wkopt));
   Tensor work = at::empty({lwork}, self.options());
 
   for (const auto i : c10::irange(batch_size)) {
@@ -2041,7 +2042,7 @@ static void apply_symeig(Tensor& self, Tensor& eigvals, bool eigenvectors, bool
   }
 
   lapackSymeig<scalar_t, value_t>(jobz, uplo, n, self_data, n, eigvals_data, &wkopt, lwork, rwork_data, &info);
-  lwork = static_cast<int>(real_impl<scalar_t, value_t>(wkopt));
+  lwork = std::max<int>(1, real_impl<scalar_t, value_t>(wkopt));
   Tensor work = at::empty({lwork}, self.options());
 
   for (const auto i : c10::irange(batch_size)) {
@@ -2197,7 +2198,7 @@ static void apply_svd(Tensor& self, Tensor& U, Tensor& S, Tensor& VT,
   int lwork = -1;
   scalar_t wkopt;
   lapackSvd<scalar_t, value_t>(jobz, m, n, self_data, lda, S_data, U_data, lda, VT_data, ldvt, &wkopt, lwork, rwork_data, iwork_data, &info);
-  lwork = static_cast<int>(real_impl<scalar_t, value_t>(wkopt));
+  lwork = std::max<int>(1, real_impl<scalar_t, value_t>(wkopt));
   Tensor work = at::empty({lwork}, self.options());
   auto work_data = work.data_ptr<scalar_t>();
 
 
@@ -85,7 +85,7 @@ inline void apply_orgqr(Tensor& self, const Tensor& tau, Tensor& infos, int64_t
   int lwork = -1;
   scalar_t wkopt;
   lapackOrgqr<scalar_t>(m, n_columns, k, self_data, lda, tau_data, &wkopt, lwork, &infos_data[0]);
-  lwork = static_cast<int>(real_impl<scalar_t, value_t>(wkopt));
+  lwork = std::max<int>(1, real_impl<scalar_t, value_t>(wkopt));
   Tensor work = at::empty({lwork}, self.options());
 
   for (int64_t i = 0; i < batch_size; i++) {
 
@@ -117,7 +117,7 @@ void apply_eig(const Tensor& self, bool eigenvectors, Tensor& vals_, Tensor& vec
     int info;
     lapackEig<scalar_t, value_t>('N', jobvr, n, self_data, n, wr,
       nullptr, 1, vecs_data, ldvr, &wkopt, -1, rwork_data, &info);
-    int lwork = static_cast<int>(real_impl<scalar_t, value_t>(wkopt));
+    int lwork = std::max<int>(1, real_impl<scalar_t, value_t>(wkopt));
 
     // call again to do the actual work
     Tensor work = at::empty({lwork}, self.dtype());
 
@@ -142,9 +142,10 @@ Tensor linalg_pinv(const Tensor& input, const Tensor& rcond, bool hermitian) {
   if (input.numel() == 0) {
     // The implementation below uses operations that do not work for zero numel tensors
     // therefore we need this early return for 'input.numel() == 0' case
-    auto input_sizes = input.sizes().vec();
-    std::swap(input_sizes[input.dim() - 1], input_sizes[input.dim() - 2]);
-    return at::empty(input_sizes, input.options());
+    Tensor U, S, V;
+    // TODO: replace input.svd with linalg_svd when torch/xla can work with at::linalg_svd
+    std::tie(U, S, V) = input.svd();
+    return at::matmul(V * S.reciprocal().unsqueeze(-2), U.conj().transpose(-2, -1));
   }
 
   // If not Hermitian use singular value decomposition, else use eigenvalue decomposition
 
@@ -1272,7 +1272,8 @@ AT_ERROR("solve: MAGMA library not found in "
 std::tuple<Tensor, Tensor> _solve_helper_cuda(const Tensor& self, const Tensor& A) {
   auto self_working_copy = cloneBatchedColumnMajor(self);
   auto A_working_copy = cloneBatchedColumnMajor(A);
-  auto infos = at::empty({std::max<int64_t>(1, batchCount(self))}, self.options().dtype(kInt));
+  // infos might not get filled for empty inputs therefore at::zeros is used instead of at::empty
+  auto infos = at::zeros({std::max<int64_t>(1, batchCount(self))}, self.options().dtype(kInt));
   AT_DISPATCH_FLOATING_AND_COMPLEX_TYPES(self.scalar_type(), "solve_cuda", [&]{
     apply_solve<scalar_t>(self_working_copy, A_working_copy, infos);
   });
 
@@ -0,0 +1,15 @@
+# Sparse benchmarks
+
+These sets of benchmarks are for the sparse matrix functionality using a popular real dataset collection called the Deep Learning Matrix Collection (DLMC), which were used in recent studies [1, 2].
+
+Performance benchmarks scripts for matrix-matrix and matrix-vector ops (dense-sparse, sparse-sparse, and compare to dense-dense) are implemented here.
+
+- `matmul_bench.py` with `--operation sparse@sparse|sparse@dense` is for Sparse matrix-matrix multiplication (SPMM) performance test. It can run in forward and backward mode with `--backward_test`, on CPU or CUDA with `--with_cuda`, using different datasets from the dataset collection DLMC. For more details see `test.sh` file.
+
+- `matmul_bench.py` with `--operation sparse@vector` is for Sparse matrix-vector multiplication (SPMV) performance test.
+
+References:
+
+1. Trevor Gale, Matei Zaharia, Cliff Young, Erich Elsen. Sparse GPU Kernels for Deep Learning. Proceedings of the International Conference for High Performance Computing, 2020. https://github.com/google-research/google-research/tree/master/sgk
+
+2. Trevor Gale, Erich Elsen, Sara Hooker. The State of Sparsity in Deep Neural Networks. https://github.com/google-research/google-research/tree/master/state_of_sparsity
@@ -0,0 +1,3 @@
+
+if __name__ == "__main__":
+    pass
@@ -0,0 +1,126 @@
+# Sparse benchmarks
+
+# This benchmark is for  sparse matmul performance test.
+# They exist for comparing the performance of sparse matrix routines
+# `sparse @ vector`, `sparse @ sparse` and `sparse @ dense` with different backends (CPU/CUDA)
+# and with other frameworks such as scipy.
+
+import sys
+import argparse
+import torch
+import torch.utils.benchmark as benchmark_utils
+from .utils import load_dlmc_dataset
+from scipy.sparse import isspmatrix
+import os
+
+
+def scipy_matmul(mat1, mat2):
+    if isspmatrix(mat1) and isspmatrix(mat2):
+        return mat1.dot(mat2).tocoo()
+    return mat1.dot(mat2)
+
+def matmul_backward(a_dense, b_dense, grad_output):
+    r1 = a_dense.matmul(b_dense)
+    r1.backward(grad_output)
+
+
+def sparse_matmul_backward(a, b, grad_output):
+    c = torch.sparse.mm(a, b)
+    c.backward(grad_output)
+
+
+OPS_MAP = {
+    "sparse@sparse": "torch.sparse.mm",
+    "sparse@dense": "torch.matmul",
+    "sparse@vector": "torch.matmul",
+}
+
+
+# also get the arguments as input from the user using `argparse`
+def parse_args():
+    parser = argparse.ArgumentParser(description='matmul benchmark')
+    parser.add_argument('--path', type=str, help='DLMC dataset path')
+    parser.add_argument('--dataset', type=str, default='magnitude_pruning')
+    parser.add_argument('--hidden_size', default=2048, type=int)
+    parser.add_argument('--backward_test', action="store_true")
+    parser.add_argument('--operation', type=str, help="|".join(OPS_MAP.keys()), default=next(iter(OPS_MAP)))
+    parser.add_argument('--with_cuda', action='store_true')
+    parser.add_argument('--timer_min_run_time', default=1, type=float)
+    return parser
+
+
+def get_tasks(op, backward_test, device):
+    def filter_ops(operation):
+        if backward_test:
+            test_name = device + ":matmul-backward"
+            return [
+                (test_name, device, "torch:" + operation.replace("sparse", "dense"),
+                 "matmul_backward(dx, dy, grad_output)"),
+                (test_name, device, "torch:" + operation, "sparse_matmul_backward(x, y, sparse_grad_output)")
+            ]
+        else:
+            test_name = device + ":matmul-forward"
+            return list(filter(None, [
+                (test_name, device, "torch:" + operation.replace("sparse", "dense"),
+                 "{}(dx, dy)".format(OPS_MAP[operation])),
+                (test_name, device, "torch:" + operation, "{}(x, y)".format(OPS_MAP[operation])),
+                (test_name, device, "scipy:" + operation, "scipy_matmul(sx, sy)") if device == "cpu" else None
+            ]))
+
+    all_operations = {
+        "sparse@sparse": filter_ops("sparse@sparse"),
+        "sparse@dense": filter_ops("sparse@dense"),
+        "sparse@vector": filter_ops("sparse@vector"),
+    }
+    return all_operations[op]
+
+
+if __name__ == '__main__':
+    parser = parse_args()
+    args = parser.parse_args()
+
+    if args.with_cuda and not torch.cuda.is_available():
+        raise RuntimeError("No CUDA available")
+
+    dataset_path = args.path
+    dataset_name = args.dataset
+    dataset_path = os.path.join(dataset_path, dataset_name)
+    device = 'cuda' if args.with_cuda else 'cpu'
+
+    tasks = get_tasks(args.operation, args.backward_test, device)
+    repeats = 3
+    timers = [
+        benchmark_utils.Timer(
+            stmt=stmt,
+            globals={
+                "scipy_matmul": scipy_matmul,
+                "matmul_backward": matmul_backward,
+                "sparse_matmul_backward": sparse_matmul_backward,
+                **variables
+            },
+            label=label,
+            sub_label=sub_label,
+            description=f"{sparsity}",
+            env=device,
+        )
+        for sparsity in [0.5, 0.7, 0.8, 0.9, 0.95, 0.98]
+        for label, device, sub_label, stmt in tasks
+        for variables in
+        load_dlmc_dataset(dataset_path, args.operation, args.hidden_size, sparsity, device, args.backward_test)
+    ]
+    measurements = []
+
+    for i, timer in enumerate(timers * repeats):
+        m = timer.blocked_autorange(min_run_time=args.timer_min_run_time)
+        m.metadata = {
+            "device": 'cuda' if m.task_spec.env.find("cuda") >= 0 else 'cpu'
+        }
+        measurements.append(m)
+        print(f"\r{i + 1} / {len(timers) * repeats}", end="")
+        sys.stdout.flush()
+    print()
+
+    comparison = benchmark_utils.Compare(measurements)
+
+    print("== Results " + "=" * 80 + "\n" + "/" * 95 + "\n")
+    comparison.print()
@@ -0,0 +1,27 @@
+#!/bin/bash
+
+DATASET_ROOT_DIR=$HOME/datasets/
+
+# wget https://storage.googleapis.com/sgk-sc2020/dlmc.tar.gz -P $DATASET_ROOT_DIR
+# tar -xvf $DATASET_ROOT_DIR/dlmc.tar.gz
+
+echo "!! SPARSE SPMS TIME BENCHMARK!! "
+
+# cpu
+python -m dlmc.matmul_bench  --path $DATASET_ROOT_DIR/dlmc/rn50 --dataset magnitude_pruning --operation sparse@sparse
+python -m dlmc.matmul_bench  --path $DATASET_ROOT_DIR/dlmc/rn50 --dataset magnitude_pruning --operation sparse@sparse --backward_test
+
+python -m dlmc.matmul_bench  --path $DATASET_ROOT_DIR/dlmc/rn50 --dataset magnitude_pruning --operation sparse@dense
+python -m dlmc.matmul_bench  --path $DATASET_ROOT_DIR/dlmc/rn50 --dataset magnitude_pruning --operation sparse@dense --backward_test
+
+python -m dlmc.matmul_bench  --path $DATASET_ROOT_DIR/dlmc/rn50 --dataset magnitude_pruning --operation sparse@vector
+
+
+# cuda
+python -m dlmc.matmul_bench  --path $DATASET_ROOT_DIR/dlmc/rn50 --dataset magnitude_pruning --operation sparse@sparse --with_cuda
+python -m dlmc.matmul_bench  --path $DATASET_ROOT_DIR/dlmc/rn50 --dataset magnitude_pruning --operation sparse@sparse --with_cuda--backward_test
+
+python -m dlmc.matmul_bench  --path $DATASET_ROOT_DIR/dlmc/rn50 --dataset magnitude_pruning --operation sparse@dense --with_cuda
+python -m dlmc.matmul_bench  --path $DATASET_ROOT_DIR/dlmc/rn50 --dataset magnitude_pruning --operation sparse@dense --with_cuda --backward_test
+
+python -m dlmc.matmul_bench  --path $DATASET_ROOT_DIR/dlmc/rn50 --dataset magnitude_pruning --operation sparse@vector --with_cuda
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,3 @@`
	`1`	`+`
	`2`	`+if __name__ == "__main__":`
	`3`	`+ pass`