简单说说Deepseek
Deepseek 采用混合专家(Mixture-of-Experts,MoE)架构, 创新之处包括细粒度专家细分和共享专家隔离,提升了 MoE 架构的效率和性能。(这是国内的说法)
但是训练它需要高质量的数据。它提出之初就有人怀疑利用chatgpt的输出作为训练数据。所以有人对Deepseek提问你是哪个模型,deepseek回答我是chatgpt.
openAI是真正的从零开始,利用原始数据和追求通用智能。Deepseek所谓训练量只有chatGPT的1/30是夸大了,因为没有计入获取高质量数据的成本。现在也有质疑deepseek故意缩小了它拥有的GPU卡数量和训练计算量。
另外它的通用智能上限也不如从原始数据中生成的大模型高。
再就是开源,拿训练好的用,当然可以。但要验证它的训练量,要花大量金钱,它现在不怕训练计算量的验证,就是因为有这个高花费的门槛。