1. SGD(随机梯度下降):使用每个小批量样本的梯度来更新模型参数。
2. Adam(自适应矩估计):结合了 AdaGrad 和 RMSProp 的优点,通常在很多深度学习任务中表现良好。
3. Adagrad:根据参数的频率调整学习率,对出现频率高的参数降低学习率,出现频率低的参数增加学习率。
4. RMSProp:类似 Adagrad,但引入了指数加权移动平均以减小历史梯度对当前梯度更新的影响。
5. Adadelta:与 RMSProp 类似,但不需要手动设置学习率。
6. AdamW:Adam 的一个变种,通过 L2 正则化在权重衰减上进行改进。
7. LAMB:Layer-wise Adaptive Moments optimizer for Batch training,结合 Adam 和 LARS 的优点,适用于大规模分布式训练。
8. SparseAdam:适用于稀疏参数的 Adam 优化器。
这些优化器涵盖了各种情况下的优化需求,开发者可以根据具体任务选择合适的优化器来训练模型。