Make LaProp weight decay match typical PyTorch 'decoupled' behaviour where it's scaled by LR

rwightman · rwightman · commit 82e867769026 · 2024-11-29T16:44:43.000-08:00
diff --git a/timm/optim/laprop.py b/timm/optim/laprop.py
@@ -116,6 +116,6 @@ def step(self, closure=None):
                 p.add_(exp_avg, alpha=-step_size)
 
                 if group['weight_decay'] != 0:
-                    p.add_(p, alpha=-group['weight_decay'])
+                    p.add_(p, alpha=-(group['lr'] * group['weight_decay']))
 
         return loss