Shortcuts

Adan

class Adan(params, lr=0.001, betas=(0.98, 0.92, 0.99), eps=1e-08, weight_decay=0.0, max_grad_norm=0.0, no_prox=False, foreach=True, fused=False)[源代码]

一个优化器Adan的官方实现。 论文地址:https://arxiv.org/pdf/2208.06677.pdf 仓库地址:https://github.com/sail-sg/Adan

参数:
  • params -- 待优化的模型参数

  • lr (default: 0.001) -- 学习率,默认值为1e-3

  • betas (default: (0.98, 0.92, 0.99)) -- 用于计算一阶和二阶动量的系数元组

  • eps (default: 1e-08) -- 分母上的微小数值,用于提高数值稳定性,默认值为1e-8

  • weight_decay (default: 0.0) -- 权重衰减系数,默认值为0.0

  • max_grad_norm (default: 0.0) -- 最大梯度范数,默认值为0.0

  • no_prox (default: False) -- 用于指定是否进行解耦权重衰减,默认值为False

  • foreach (bool, default: True) -- 如果为True,则使用torch._foreach实现优化。这样速度更快,但会使用更多的显存,默认值为True

  • fused (bool, default: False) -- 用于指定是否使用融合实现,默认值为False