Adan¶
- class Adan(params, lr=0.001, betas=(0.98, 0.92, 0.99), eps=1e-08, weight_decay=0.0, max_grad_norm=0.0, no_prox=False, foreach=True, fused=False)[源代码]¶
一个优化器Adan的官方实现。 论文地址:https://arxiv.org/pdf/2208.06677.pdf 仓库地址:https://github.com/sail-sg/Adan
- 参数:
params -- 待优化的模型参数
lr (default:
0.001) -- 学习率,默认值为1e-3betas (default:
(0.98, 0.92, 0.99)) -- 用于计算一阶和二阶动量的系数元组eps (default:
1e-08) -- 分母上的微小数值,用于提高数值稳定性,默认值为1e-8weight_decay (default:
0.0) -- 权重衰减系数,默认值为0.0max_grad_norm (default:
0.0) -- 最大梯度范数,默认值为0.0no_prox (default:
False) -- 用于指定是否进行解耦权重衰减,默认值为Falseforeach (
bool, default:True) -- 如果为True,则使用torch._foreach实现优化。这样速度更快,但会使用更多的显存,默认值为Truefused (
bool, default:False) -- 用于指定是否使用融合实现,默认值为False