SophiaG¶
- class SophiaG(params, lr=0.0001, betas=(0.965, 0.99), rho=0.04, weight_decay=0.1, *, maximize=False, capturable=False)[源代码]¶
一个优化器类SophiaG的官方实现。 论文地址:https://arxiv.org/abs/2305.14342 仓库地址:https://github.com/Liuhong99/Sophia
- 参数:
params -- 待优化的参数
lr (default:
0.0001) -- 学习率,默认值为1e-4,betas (default:
(0.965, 0.99)) -- 用于计算一阶和二阶动量的系数元组,默认值为(0.965,0.99)rho (default:
0.04) -- SophiaG梯度平方移动均值的衰减率,默认值为0.04weight_decay (default:
0.1) -- 权重衰减系数,默认值为1e-1maximize (
bool, default:False) -- 是否最大化损失函数,默认值为Falsecapturable (
bool, default:False) -- 是否开启优化器状态的捕获,默认值为False