北大发现Scaling 浪涌现象解决学习率调参难题腾讯混元 law

作者： 2024年06月06日五金快报浏览

过去十年间，基于随机梯度下降（SGD）的深度学习模型在许多领域都取得了极大的成功。与此同时各式各样的 SGD 替代品也如雨后春笋般涌现。在这些众多替代品中，Adam 及其变种最受追捧。无论是 SGD，还是 Adam，亦或是其他优化器，最核心的超参数非 Learning rate 莫属。因此如何调整好 Leanring rate 是炼丹师们从一开始就必学的技能。

从直觉上讲，影响 Learning rate 取值的重要因素是 Batch size。不知你在学习炼丹术时，是否遇到或者思考过入如下问题：

我的 Batch size 增加一倍，Learning rate 该怎么调整？

网上有说 Batch size 和 Learning rate 是线性放缩，也有说是平方根放缩，到底该按照哪个调整？

为什么我按照网上说的经验关系调整之后效果反而变差了？

针对上述问题，腾讯混元联合北京大学基于现有科研基础和实际业务需求，在进行了大量理论分析和实验验证后发布了关于 Batch size 和 Learning rate 放缩关系的调参指南：