你听说过scaling law吗?

只要10%的计算能力就可以达到90%的性能了

你的芯片哪怕差一大截性能,最后训练出来的模型也只是稍微差一点,几万个gpu算出来的其实就比几百个的loss好20%。

请您先登陆,再发跟帖!