大规模的预训练基本结束。
deep seek这个星期发表的第二篇论文,基本一锤定音了,reasonning 阶段的人工智能,也就是deep seek用的NSA模型,比全attention模型反应速度快十倍,效率高10倍,成本算力要低10倍,基本把七大的语言大模型打入死牢。
AI 肯定需要算力。但是不需要那么多了。这就是为什么英伟达可以长期维持100,而不是30,50块的原因。100以上肯定是不现实的。
一龙家刚发布的grok3 使用大约20,30万块高性能的GPU,但实际效果与用几千块低性能GPU 的deep seek没有很大区别,再次证明,堆算力的语言大模型基本走到头了。
七大的另一个Google可能也会腰斩。现在搜索人们开始习惯使用 GPT, deep seek ,grok3等,用Google越来越少。