现在简单看一下图

当进行大模型训练时,担心因为数据集数量的多少,难以判断大模型的的表现时好时坏,这时我 们可以深挖学习率这一项的设置。简单来说:

学习率(LearningRate)是在梯度下降的过程中更新权重时的超参数,过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。

看完这个解释,感觉还是一头雾水,于是,我有查了一下资料,又问了一下文心:文心给出了比较详细的解释,看完后,感觉对学习率有了更深层的理解。

大概意思是,当数据比较少,学习率又低的话,不考虑其他设置的情况下,大模型可能很难从现有数据集中学到好的规律,或者是你想让他懂的地方。

于是我有本着不懂就问的态度,继续向文心这位老师提问,有没有规律的学习率设置,比如我一千数据集设置多少,以后1万数据集又怎么设置。

文心的回答是:没有太固定的设置规律,大概方向还是,不考虑数据集的情况下,使用较低的学习率可以有助于减缓过拟合的发生。较小的数据集,用较低的学习率可能学不到规律,个人理解意思就是数据集数量太少时,可以适当提高学习率,保证让大模型先学到东西。当数据集越来越多时,就应该考虑学习率降下来。但是多少数据量,设置多少的学习率,文心没有给出明显答案,看来这个还是得看经验。

但是思路已经有了,随着数据集数量的增加,可以缓慢降低学习率。

最后,自己也尝试了一下。希望表现能好一点把。

 如果有哪位大佬有所见解的,欢迎交流指点。

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐