feat: LARS optimizer

federicopozzi33 · federicopozzi33 · commit c8c1910f4f2b · 2023-04-03T21:18:44.000+02:00
diff --git a/test/test_optim.py b/test/test_optim.py
@@ -1786,6 +1786,49 @@ def test_fused_optimizer_raises(self):
             with self.assertRaisesRegex(RuntimeError, "`fused` does not support `differentiable`"):
                 optimizer_ctor([torch.empty((), device="cuda")], differentiable=True, fused=True)
 
+    def test_lars(self):
+        # ASK: What's the reason behind two identical calls? (See SGD tests)
+        self._test_basic_cases(
+            lambda weight, bias, maximize: optim.LARS([weight, bias], lr=1e-3, maximize=maximize),
+            constructor_accepts_maximize=True, constructor_accepts_foreach=False,
+        )
+        self._test_basic_cases(
+            lambda weight, bias, maximize: optim.LARS(
+                self._build_params_dict(weight, bias, lr=1e-2),
+                lr=1e-3, maximize=maximize),
+            constructor_accepts_maximize=True, constructor_accepts_foreach=False,
+        )
+        self._test_basic_cases(
+            lambda weight, bias, maximize: optim.LARS(
+                self._build_params_dict_single(weight, bias, lr=1e-2),
+                lr=1e-3, maximize=maximize),
+            constructor_accepts_maximize=True, constructor_accepts_foreach=False,
+        )
+        self._test_basic_cases(
+            lambda weight, bias, maximize: optim.LARS(
+                self._build_params_dict_single(weight, bias, lr=1e-2), maximize=maximize),
+            constructor_accepts_maximize=True, constructor_accepts_foreach=False,
+        )
+        self._test_basic_cases(
+            lambda weight, bias, maximize:
+            optim.LARS([weight, bias], lr=1e-3, momentum=0.5, weight_decay=1, dampening=0.0, nesterov=True, maximize=maximize),
+            constructor_accepts_maximize=True, constructor_accepts_foreach=False,
+        )
+        self._test_basic_cases(
+            lambda weight, bias, maximize:
+            optim.LARS([weight, bias], lr=1e-3, trust_coefficient=0.01, eps=1e-5, maximize=maximize),
+            constructor_accepts_maximize=True, constructor_accepts_foreach=False,
+        )
+        with self.assertRaisesRegex(ValueError, "Invalid learning rate: -0.1"):
+            optim.LARS(None, lr=-0.1)
+        with self.assertRaisesRegex(ValueError, "Invalid weight decay value: -0.5"):
+            optim.LARS(None, lr=1e-2, weight_decay=-0.5)
+        with self.assertRaisesRegex(ValueError, "Invalid momentum value: -0.5"):
+            optim.LARS(None, lr=1e-2, momentum=-0.5)
+        with self.assertRaisesRegex(ValueError, "Nesterov momentum requires a momentum and zero dampening"):
+            optim.LARS(None, lr=1e-2, nesterov=True, momentum=0.1, dampening=0.1)
+        with self.assertRaisesRegex(ValueError, "Nesterov momentum requires a momentum and zero dampening"):
+            optim.LARS(None, lr=1e-2, nesterov=True, momentum=0.0, dampening=0.0)
 
 class SchedulerTestNet(torch.nn.Module):
     def __init__(self):
@@ -4542,6 +4585,14 @@ def test_radam(self):
             ),
         )
 
+    def test_lars(self):
+        p = torch.rand(10, requires_grad=True, dtype=torch.float64)
+        grad = torch.rand(10, requires_grad=True, dtype=torch.float64)
+        mbuff = torch.rand(10, requires_grad=True, dtype=torch.float64)
+        state = {'momentum_buffer': mbuff}
+        gradcheck(_diff_fn, (p, grad, state, torch.optim.LARS, {'lr': 0.9, 'differentiable': True}, *state.values()))
+
+
 
     @unittest.skipIf(not TEST_CUDA, "test requires CUDA")
     def test_defaults_changed_to_foreach(self):
diff --git a/torch/optim/__init__.py b/torch/optim/__init__.py
@@ -21,6 +21,7 @@
 from .lbfgs import LBFGS
 from . import lr_scheduler
 from . import swa_utils
+from .lars import LARS
 
 del adadelta
 del adagrad
@@ -36,3 +37,4 @@
 del optimizer
 del nadam
 del lbfgs
+del lars
diff --git a/torch/optim/lars.py b/torch/optim/lars.py
@@ -0,0 +1,172 @@
+from .optimizer import Optimizer, required, _use_grad_for_differentiable  # type: ignore[attr-defined]
+import torch
+from typing import List, Optional
+from torch import Tensor
+
+__all__ = ["LARS", "lars"]
+
+
+class LARS(Optimizer):
+    """Implements LARS algorithm."""
+
+    def __init__(
+        self,
+        params,
+        lr=required,
+        momentum: float = 0,
+        dampening: float = 0,
+        weight_decay: float = 0,
+        nesterov: bool = False,
+        *,
+        trust_coefficient: float = 0.001,
+        eps: float = 1e-8,
+        maximize: bool = False,
+        differentiable: bool = False,
+    ):
+        if lr is not required and lr < 0.0:
+            raise ValueError(f"Invalid learning rate: {lr}")
+        if weight_decay < 0.0:
+            raise ValueError(f"Invalid weight decay value: {weight_decay}")
+        if momentum < 0.0:
+            raise ValueError(f"Invalid momentum value: {momentum}")
+        if nesterov and (momentum <= 0 or dampening != 0):
+            raise ValueError("Nesterov momentum requires a momentum and zero dampening")
+
+        defaults = dict(
+            lr=lr,
+            momentum=momentum,
+            dampening=dampening,
+            weight_decay=weight_decay,
+            nesterov=nesterov,
+            trust_coefficient=trust_coefficient,
+            eps=eps,
+            maximize=maximize,
+            differentiable=differentiable,
+        )
+
+        super().__init__(params, defaults)
+
+    def __setstate__(self, state):
+        super().__setstate__(state)
+        for group in self.param_groups:
+            group.setdefault("nesterov", False)
+            group.setdefault("maximize", False)
+            group.setdefault("differentiable", False)
+
+    @_use_grad_for_differentiable
+    def step(self, closure=None):
+        loss = None
+        if closure is not None:
+            with torch.enable_grad():
+                loss = closure()
+
+        for group in self.param_groups:
+            params_with_grad = []
+            grads = []
+            momentum_buffer_list = []
+
+            for p in group["params"]:
+                if p.grad is not None:
+                    params_with_grad.append(p)
+                    grads.append(p.grad)
+
+                    state = self.state[p]
+
+                    momentum_buffer_list.append(state.get("momentum_buffer"))
+
+            lars(
+                params_with_grad,
+                grads,
+                momentum_buffer_list,
+                lr=group["lr"],
+                momentum=group["momentum"],
+                dampening=group["dampening"],
+                weight_decay=group["weight_decay"],
+                nesterov=group["nesterov"],
+                trust_coefficient=group["trust_coefficient"],
+                eps=group["eps"],
+                maximize=group["maximize"],
+            )
+
+            for p, momentum_buffer in zip(params_with_grad, momentum_buffer_list):
+                state = self.state[p]
+                state["momentum_buffer"] = momentum_buffer
+
+        return loss
+
+
+def lars(
+    params: List[Tensor],
+    grads: List[Tensor],
+    momentum_buffer_list: List[Optional[Tensor]],
+    *,
+    lr: float,
+    momentum: float,
+    dampening: float,
+    weight_decay: float,
+    nesterov: bool,
+    trust_coefficient: float,
+    eps: float,
+    maximize: bool,
+):
+    if torch.jit.is_scripting():
+        raise RuntimeError('torch.jit.script not supported with foreach optimizers')
+
+    if not torch.jit.is_scripting():
+        func = _single_tensor_lars
+
+    func(
+        params,
+        grads,
+        momentum_buffer_list,
+        lr=lr,
+        momentum=momentum,
+        dampening=dampening,
+        weight_decay=weight_decay,
+        nesterov=nesterov,
+        trust_coefficient=trust_coefficient,
+        eps=eps,
+        maximize=maximize,
+    )
+
+
+def _single_tensor_lars(
+    params: List[Tensor],
+    grads: List[Tensor],
+    momentum_buffer_list: List[Optional[Tensor]],
+    *,
+    lr: float,
+    momentum: float,
+    dampening: float,
+    weight_decay: float,
+    nesterov: bool,
+    trust_coefficient: float,
+    eps: float,
+    maximize: bool,
+):
+    for i, param in enumerate(params):
+        d_p = grads[i] if not maximize else -grads[i]
+
+        p_norm = torch.norm(param.data)
+        g_norm = torch.norm(d_p.data)
+
+        if weight_decay != 0:
+            # LARS scaling:
+            if p_norm * g_norm > 0:
+                lars_lr = trust_coefficient * p_norm / (g_norm + p_norm * weight_decay + eps)
+
+                d_p = d_p.add(param, alpha=weight_decay)
+                d_p.mul_(lars_lr)
+
+        if momentum != 0:
+            buf = momentum_buffer_list[i]
+
+            if buf is None:
+                buf = torch.clone(d_p).detach()
+                momentum_buffer_list[i] = buf
+            else:
+                buf.mul_(momentum).add_(d_p, alpha=1 - dampening)
+
+            d_p = d_p.add(buf, alpha=momentum) if nesterov else buf
+
+    param.add_(d_p, alpha=-lr)