说说Deepseek,取巧加吹牛,会捞一把,但走不远的

本帖于 2025-01-27 12:14:01 时间, 由普通用户 youtub 编辑

 

简单说说Deepseek

Deepseek 采用混合专家(Mixture-of-Experts,MoE)架构, 创新之处包括细粒度专家细分和共享专家隔离,提升了 MoE 架构的效率和性能。(这是国内的说法)

但是训练它需要高质量的数据。它提出之初就有人怀疑利用chatgpt的输出作为训练数据。所以有人对Deepseek提问你是哪个模型,deepseek回答我是chatgpt. 

openAI是真正的从零开始,利用原始数据和追求通用智能。Deepseek所谓训练量只有chatGPT的1/30是夸大了,因为没有计入获取高质量数据的成本。现在也有质疑deepseek故意缩小了它拥有的GPU卡数量和训练计算量。

另外它的通用智能上限也不如从原始数据中生成的大模型高。

再就是开源,拿训练好的用,当然可以。但要验证它的训练量,要花大量金钱,它现在不怕训练计算量的验证,就是因为有这个高花费的门槛。

Deepseek实际是取巧加吹牛,走不远的。上面内容昨天在紫檀发过,被删。今天什么遭大规模攻击宕机的说法就来了,只开放大陆注册了。
开发它的幻方公司用的是国内2流人才,做的量化交易也亏空不少。现在有消息说幻方已经做空NVDA,要捞一把了.
 
 
请您先登陆,再发跟帖!