在训练神经网络的过程中,随着batch size的增大,处理相同数据量的速度会越来越快,但是达到相同精度所需要的epoch数量越来越多

换句话说,使用相同的epoch数量时,大batch size训练的模型与小batch size训练的模型相比,验证准确率会减小——>提出了linear scaling learning rate

在mini-batch SGD训练时,增大batch size不会改变梯度的期望,但是会降低它的方差——>batch size 增加时,增大学习率来加快收敛

eg,batch size为256时选择的学习率是0.1,当我们把batch size变为一个较大的数b时,学习率应该变为 0.1 × b/256

精彩文章

评论可见,请评论后查看内容,谢谢!!!评论后请刷新页面。