英伟达也出钢铁做的铲,问题是想要GPU有好的效率,GPU的内存必须至少要大于训练参数的18倍,训练1GB的参数要18GB

的GPU内存,这就是为什么听上去GPU利用率很低的原因。就像你的电脑cpu100%后,你的电脑会变得很慢一样。人脑也只用人脑的10-25%。大模型训练的参数是特别大的,需要很多很大的铲子。

请您先登陆,再发跟帖!