纽时:中国AI初创公司DeepSeek是如何与硅谷巨头竞争的

圣诞节的第二天,一家名为深度求索(DeepSeek)的中国小型初创公司发布了一个新的人工智能系统,其功能可与OpenAI和谷歌等公司的尖端聊天机器人相媲美。
能做到这点本已是一个里程碑。但这个名为DeepSeek-V3的大模型背后的团队描述了一个更大的进步。深度求索的工程师在介绍他们如何构建这个大模型的研究论文中写道,他们在训练该系统时只用了领先人工智能公司用的高度专业化计算机芯片的一小部分。
这些芯片是美中激烈技术竞争的核心。随着美国政府努力保持本国在全球人工智能竞争中的领先地位,它正在试图对能出售给中国以及其他竞争对手的高性能芯片(如硅谷公司英伟达生产的那些)进行限制。
但DeepSeek大模型的表现让人们对美国政府贸易限制的意外后果产生了质疑。美国的出口管制措施已迫使中国研究人员使用互联网上免费提供的各种工具来发挥创造力。
据美国人工智能公司一直使用的行业基准测试,DeepSeek聊天机器人能回答问题、解决逻辑问题,并编写自己的计算机程序,其能力不亚于市场上已有的任何产品。
而且它的造价很低,挑战了只有最大的科技企业(它们全都在美国)才能制造出最先进的人工智能系统的普遍观念。中国工程师称,他们只花了约600万美元的原始计算能力就训练了新模型,不到科技巨头Meta训练其最新人工智能模型所耗资金的十分之一。
“有600万美元资金的公司在数量上远远多于有1亿美元或10亿美元资金的公司,”风险投资公司Page One Ventures的投资人克里斯·尼科尔森说道,他主要投资人工智能技术。
自从OpenAI 2022年发布了ChatGPT,引发人工智能热潮以来,许多专家和投资者曾得出结论认为,如果不投入数亿美元购买人工智能专用芯片的话,没有公司能与行业领军者竞争。
世界领先的人工智能公司用超级计算机来训练它们的聊天机器人,这些超级计算机需要多达1.6万个芯片,甚至更多。但DeepSeek的工程师却说,他们只用了约2000个英伟达生产的专用芯片。
中国进口芯片受到限制,迫使DeepSeek工程师“更有效地训练大模型,以让其仍有竞争力”,乔治华盛顿大学专门研究新兴技术和国际关系的助理教授杰弗里·丁(音)说。
本月早些时候,拜登政府颁布了旨在阻止中国通过其他国家获得先进人工智能芯片的新规则。新规则出台前,美国已采取了多轮限制措施,阻止中国公司购买或制造尖端计算机芯片。特朗普总统尚未表明他是否会继续实施或取消这些措施。
美国政府一直试图阻止中国公司获得先进芯片,因为担心这些芯片可能用于军事目的。作为回应,中国的一些公司囤积了大量这类芯片,另一些公司则在蓬勃发展的黑市采购走私芯片。
DeepSeek由一家名叫幻方的量化股票交易公司运营。到2001(注:原文可能有误,很可能是2021)年,它已将利润投入购买数千枚英伟达芯片,用于训练其早期模型。公司没有回复记者的置评请求,它在中国有一种名声,那就是以高薪和让人们能够探索最感兴趣的研究课题为承诺,吸引了刚从顶尖大学毕业的人才。
曾参与早期DeepSeek大模型开发的计算机工程师汪子涵(音)说,公司也雇佣没有任何计算机科学背景的人帮助该技术理解并生成诗歌,并在做难度极大的中国高考试卷时获得高分。
DeepSeek不制造任何消费者产品,而是让工程师全神贯注地做研究。这意味着其技术不受中国有关人工智能法规中最严格部分的限制,中国要求面向消费者的技术必须遵循政府对信息的控制。
领先的美国公司继续推动人工智能的发展。去年12月,OpenAI公布了一款性能超过现有技术的名为o3的新“推理”系统,尽管该系统尚未在该公司以外得到广泛使用。但DeepSeek继续表明自己并不落后,它在本月发布了自己的一个推理模型,性能同样令人印象深刻。
这个快速变化的全球市场的关键部分是一个存在已久的想法:开源软件。与许多其他公司一样,DeepSeek也将其最新的人工智能模型放入开源软件系统,这意味着它已经与其他企业和研究人员共享了基础代码,让其他人能用相同的技术构建和发布自己的产品。
虽然中国大型科技企业的员工只与自己的同事合作,但“如果你从事开源软件开发,你其实是在与世界各地的人才合作”,旧金山Baseten的首席软件工程师张一能(音)说,他为开源的SGLang项目工作。他还帮助其他人和公司使用DeepSeek模型构建产品。
2023年,Meta免费分享了一个名为LLama的人工智能模型后,人工智能的开源生态系统开始蓬勃发展。许多人曾假设,只有像Meta这样的科技巨头——拥有使用大量专用芯片的大型数据中心——继续开源其技术,人工智能社区才会蓬勃发展。但DeepSeek和其他公司已表明,它们也可以拓展开源技术的能力。
许多高管和专家认为,美国大公司不应该开源其技术,因为它们能被用来传播虚假信息或造成其他严重危害。一些美国立法者已在探索阻止或限制开源的可能性。
但也有人认为,如果监管机构扼杀了开源技术在美国的进步,中国将获得显著优势。他们认为,如果最好的开源技术来自中国,美国开发人员将在这些技术的基础上构建他们的系统。从长远来看,这可能会让中国成为研发人工智能的中心。
“开源社区的重心已在向中国转移,”加州大学伯克利分校计算机科学教授伊恩·斯托伊卡说。“这对美国来说可能是一个巨大的危险”,因为它让中国得以加速新技术的研发。
就职典礼数小时后,特朗普总统撤销了拜登政府威胁限制开源技术的行政命令。
斯托伊卡和他的学生最近构建了一个名为Sky-T1的人工智能模型,在某些基准测试中,该模型的性能可与最新的OpenAI系统——OpenAI o1相媲美。他们的模型只需要450美元的计算能力。
他们能做到这点是因为他们的系统是建在中国科技巨头阿里巴巴发布的两项开源技术的基础之上的。
他们450美元的系统不如OpenAI技术或DeepSeek新模型强大。他们使用的技术不太可能产生超越领先技术性能的系统。但他们的研究表明,即使是资源微不足道的组织或者企业,也能构建具有竞争力的系统。
多伦多的技术顾问鲁文·科恩(Reuven Cohen, a technology consultant in Toronto)从去年12月下旬起一直在使用 DeepSeek-V3。他说,该模型与OpenAI、谷歌,以及旧金山初创公司Anthropic的最新系统能力相当,而且使用起来便宜得多。
“DeepSeek是让我省钱的办法,”他说。“这是像我这样的人想用的技术。”

所有跟帖: 

投坛有没有懂AI算法的,DeepSeek是不是算法很先进? -玻璃坊- 给 玻璃坊 发送悄悄话 玻璃坊 的博客首页 (121 bytes) () 01/24/2025 postreply 00:00:27

不需要看投坛的建议,看看X/LinkedIn 有没有反驳的建议 -study169- 给 study169 发送悄悄话 (0 bytes) () 01/24/2025 postreply 01:03:16

是的,具体技术细节你可以自己搜下。当然这里的人是不会承认的。中国的,肯定是坑蒙拐骗偷来的假货歪货,怎么可能。。。 -bulubulu- 给 bulubulu 发送悄悄话 (173 bytes) () 01/24/2025 postreply 01:16:24

如果你有很多钱留给后代,怕什么?这个是拼爹的时代。 -wlwt123- 给 wlwt123 发送悄悄话 (0 bytes) () 01/24/2025 postreply 05:28:00

我认为没什么,因为: -BrightLine- 给 BrightLine 发送悄悄话 BrightLine 的博客首页 (794 bytes) () 01/24/2025 postreply 03:43:39

Top 5 cs大学研究生院用算法常搞些比chat GPT便宜多的东西、哪里还是一堆中国研究生.這些人回国 -BBL123- 给 BBL123 发送悄悄话 (39 bytes) () 01/24/2025 postreply 04:13:47

神特么汇编语言是为了省内存和”算力“ -bulubulu- 给 bulubulu 发送悄悄话 (109 bytes) () 01/24/2025 postreply 08:02:46

问了一个海盗分金的逻辑问题,比之ChatGPT,DeepSeek逻辑上不自洽。 -t130152- 给 t130152 发送悄悄话 t130152 的博客首页 (4449 bytes) () 01/24/2025 postreply 04:40:24

答案分别是? -玻璃坊- 给 玻璃坊 发送悄悄话 玻璃坊 的博客首页 (0 bytes) () 01/24/2025 postreply 06:52:07

我觉得最安全的是5个海盗平分,大家都不会被扔下船。 -羽衣甘蓝- 给 羽衣甘蓝 发送悄悄话 羽衣甘蓝 的博客首页 (700 bytes) () 01/25/2025 postreply 00:47:40

用OpenAi的LLM(Large Language Model)训练自己的LLM,这是创新,弯道超车还是偷鸡摸狗? -parentb- 给 parentb 发送悄悄话 parentb 的博客首页 (0 bytes) () 01/24/2025 postreply 05:24:07

我觉得是创新,从而它发展出左右互搏。OPENAI也可以用自己的LLM去训练自己更牛的LLM啊,没人拦着啊,近水楼台啊, -云崖水暖- 给 云崖水暖 发送悄悄话 (86 bytes) () 01/24/2025 postreply 07:34:12

它用OpenAI的输出训练,这种“自我迭代”还有很多问题没有解决,所以大家不在这上面浪费精力而已。忘了华为7纳米了?:) -kl3527- 给 kl3527 发送悄悄话 kl3527 的博客首页 (199 bytes) () 01/24/2025 postreply 12:18:00

现在训练越来越快,OpenAI的o1到o3, 只用了3个月。我猜测DeepSeek的训练是基于Meta的开源LLM -未知- 给 未知 发送悄悄话 未知 的博客首页 (114 bytes) () 01/24/2025 postreply 12:33:26

据说他的强项是推理和解题 -wjhwsh- 给 wjhwsh 发送悄悄话 wjhwsh 的博客首页 (0 bytes) () 01/25/2025 postreply 08:17:57

请您先登陆,再发跟帖!