Adam & AdamW 原论文


Adam

一种基于低阶矩估计的随机目标函数一阶梯度优化算法。该方法也适用于非平稳目标和具有非常强噪声和/或稀疏梯度的问题。特点有:实现简单、计算高效、低内存要求、对梯度的对角重新缩放不变,并且很适合于数据和/或参数较大的问题。