转一篇牛经沧海的好文,同时整理了一下这周到狗家蹭饭吃听的八卦

本帖于 2025-11-26 18:44:21 时间, 由普通用户 dancingpig 编辑

远望 CPU、GPU 与 TPU——为什么 Google 重拾市场信心 by 牛经沧海

link: https://bbs.wenxuecity.com/tzlc/2221969.html

 

周一狗家的中餐厅节日小庆祝,菜品对我这种平时自己做饭就是糊弄的挺有吸引力,所以朋友们一吆喝,就赶紧跑去蹭饭了。狗家的华人跑去了有一半?我们排队等了超50分钟,上次排那么长的队为吃饭还是在成都呵呵不过队没白排,扫了不少我知识区的盲点。总结起来有三个方面: 推理的成本,软件护城河CUDA的削弱,和存储墙的物理突破。我让Gemini + Grok把我学到的整理出来,同时让它俩cross reference保证我没有胡说八道加油

 


决战 2027:推理时代的算力、存储与护城河之变 by dancingpig, Gemini, Grok

一、 战局转移:从训练到推理的 1:10 质变

AI 算力的重心正在发生根本性位移。行业数据显示,训练(Training)与推理的工作负载(Inference Workload)的比例正向 1:10 演进。这意味着,服务用户所消耗的算力将远超模型训练本身,推理效率(Inference Efficiency)取代原始算力成为新的竞争高地。

  • 现状: 英伟达(Nvidia)凭借强劲的原始算力和 HBM 带宽,依然主导着训练市场。

  • 挑战: 但在推理端,GPU 未必是最高效的选择。对于大规模在线服务,Google TPU(以及 AWS Inferentia) 这类 ASIC 展现出了显著优势:

    • 能效与散热: 更低的能耗和散热压力。

    • 互联优势: TPU Pod 在大规模集群中提供了更优的互联带宽(ICI)。

    • 极致性价比: 拥有更具竞争力的“每 Token 成本(Cost-per-Token)”。

二、 英伟达护城河的消解:CUDA 不再是不可逾越的壁垒

曾经坚不可摧的“CUDA 护城河”正在经历技术与市场的双重侵蚀:

  1. 中间层的崛起: 随着 PyTorch 2.0OpenAI Triton 等抽象层的成熟,开发者可以绕过底层 CUDA 代码直接进行算力调用。

  2. AI 辅助编程: AI 编程助手(Copilot 等)降低了底层算子(Kernel)优化的准入门槛。

  3. 巨头的反叛(MAGA): 微软、亚马逊、谷歌、Meta (MAGA) 都在构建垂直整合的软硬件体系。无论是 Google 的 JAX/XLA,Amazon 的 Neuron,还是 Meta 的 MTIA 编译器,都在试图从软件栈层面打破英伟达的垄断。

结论: 尽管英伟达仍是霸主,但在对成本高度敏感的推理细分领域,其技术统治力已不再是无可争议的。

三、 核心瓶颈:内存墙与 HBM 的困局

硬件架构正在趋同——GPU 引入 Tensor Core 变得更像 TPU(专用化),TPU 也在迭代中增加灵活性(通用化)。双方真正的决战场,卡在了“内存墙”上。

  • 痛点: Nvidia H100/H200 极其强大,但受限于 HBM(高带宽内存)。HBM 虽然速度快,但容量增长极慢且极其昂贵

  • 后果: 运行一个万亿参数大模型(如 GPT-4),往往需要 8-16 张 H100。这并非因为算力不足,而是因为单卡显存装不下模型权重

  • Google 的应对: 利用 TPU Pod 的高速互联,将成百上千颗芯片连成“大池子”,通过分布式内存相对廉价地解决了装载问题。

四、 破局变量:HBF 技术与 2027 年的“单卡怪兽”

SanDisk 与 SK Hynix 联合开发的 HBF (High Bandwidth Flash) 技术,或许是这场战争中最大的“黑天鹅”。如果能利用 NAND Flash 实现 DRAM 级的高带宽,且容量提升 10 倍以上,战局将被改写。

1. Nvidia 的反击机会 (Rubin 架构 / 2027)
如果 Nvidia 在 2027 年的 Rubin 架构(Blackwell 下一代)中整合 HBF 技术,可能推出一种“终极推理专用卡”:

  • 特征: 算力维持现状,但显存容量达到 TB 级别。

  • 杀伤力: 单张卡即可装下 GPT-5 或 Gemini 2(预计 10 万亿参数级别)。

  • 市场影响: 这对 OpenAI、Meta 等客户是梦寐以求的——他们不再需要购买昂贵的 GPU 集群来做推理,这将直接颠覆现有的成本结构。

2. Google 面临的战略危机

  • 现有哲学: TPU 的设计哲学是“单芯片显存小没关系,靠高速互联(ICI)堆数量”。

  • 潜在风险: 如果 Nvidia 实现了“单卡即推理”,那么分布式推理带来的复杂度和通信开销(Communication Overhead)将瞬间变成劣势。单纯靠互联优化的边际效应将输给物理存储层面的暴力突破。

五、 终局推演

2026 年下半年(样品)至 2027 年初(硬件落地)将是关键的时间窗口。 这正值 GPT-5 / Gemini 2 等超大模型大规模普及的前夜。

  • 对于 Nvidia: HBF 是其“掀翻桌子”的核武器。如果能通过超大容量显存解决推理成本问题,它将从“训练霸主”进化为“全能霸主”。

  • 对于 Google: 警钟已经敲响。虽然在 FlashAttention 等软件算法和 ICI 互联上有先发优势,但如果物理层出现了“容量十倍于 DRAM”的新物种,Google 必须在 TPU v6/v7 中迅速跟进类似的 Tier-2 存储技术,否则其性价比护城河将面临崩塌。

所有跟帖: 

是不是如果AI还是transformer,没有新模型出来,GPU可能会被ASIC超过 -mobius- 给 mobius 发送悄悄话 mobius 的博客首页 (0 bytes) () 11/26/2025 postreply 16:52:19

是的。如果还是Transformer, ASIC 可以砍掉所有与矩阵乘法和注意力(attention)机制无关的晶体管 -dancingpig- 给 dancingpig 发送悄悄话 (238 bytes) () 11/26/2025 postreply 18:58:19

赞一下内行分析:-) -620Oaks- 给 620Oaks 发送悄悄话 (0 bytes) () 11/26/2025 postreply 17:16:43

谢谢美女的专业分享,很多技术术语完全看不懂,就抓了两个关键词,超大容量显存和高速互联 -云起千百度- 给 云起千百度 发送悄悄话 云起千百度 的博客首页 (72 bytes) () 11/26/2025 postreply 17:40:46

你太厉害了,鼻子比搞Tech的人还灵敏 :) -dancingpig- 给 dancingpig 发送悄悄话 (0 bytes) () 11/26/2025 postreply 19:04:31

昨天老黄回应说 still a generation ahead of Google's TPU,他是指GPU -Harp- 给 Harp 发送悄悄话 (78 bytes) () 11/26/2025 postreply 18:20:56

他主要指系统级互联架构(NVLink NVL72)和单个芯片峰值性能,不是 HBF-如果已经有HBF,TPU就没啥得瑟了 -dancingpig- 给 dancingpig 发送悄悄话 (0 bytes) () 11/26/2025 postreply 19:02:28

感觉美女是内行啊,我作为一个外行人,觉得 HBF是双刃剑啊,伤人也伤自己,因为再也不需要那么多GPU了 -verilog- 给 verilog 发送悄悄话 verilog 的博客首页 (60 bytes) () 11/26/2025 postreply 23:02:45

你这个问题提的非常好,对单个用户比如META,确实不需要那么大量的芯片用做推理;但另一方面,各个中小厂甚至个人,拿到已经 -dancingpig- 给 dancingpig 发送悄悄话 (178 bytes) () 11/27/2025 postreply 11:09:38

很有道理 -verilog- 给 verilog 发送悄悄话 verilog 的博客首页 (0 bytes) () 11/27/2025 postreply 13:48:06

难得小猪写文!要么不写,一写惊人:)So my takeaways are: -晓炎- 给 晓炎 发送悄悄话 晓炎 的博客首页 (281 bytes) () 11/27/2025 postreply 02:06:58

昨天你说好久没读到我的随笔了,我在这里悄悄和你分享一篇吧,节日快乐呀:) -晓炎- 给 晓炎 发送悄悄话 晓炎 的博客首页 (4429 bytes) () 11/27/2025 postreply 02:27:18

娓娓道来,还带画面感,哈哈 -甜酒甜- 给 甜酒甜 发送悄悄话 甜酒甜 的博客首页 (882 bytes) () 11/27/2025 postreply 04:47:08

哈!你先生的那句真正是对胃口,温和的男人是块宝:) -晓炎- 给 晓炎 发送悄悄话 晓炎 的博客首页 (254 bytes) () 11/27/2025 postreply 05:09:52

这次我们只在巴黎待了两天,太冷了。又回到爷爷奶奶的马赛家里,那里暖和一些 -晓炎- 给 晓炎 发送悄悄话 晓炎 的博客首页 (4718 bytes) () 11/27/2025 postreply 05:18:27

节日快乐 ! 你这假期长啊~~~~冬天的巴黎有不一样的气氛 -甜酒甜- 给 甜酒甜 发送悄悄话 甜酒甜 的博客首页 (489 bytes) () 11/27/2025 postreply 05:31:25

我们上周四到的,准备这个星期六就回美了, -晓炎- 给 晓炎 发送悄悄话 晓炎 的博客首页 (323 bytes) () 11/27/2025 postreply 05:40:14

我现在很少很少发帖了,流坛至少10年没在那里发帖了,现在更是不去,哈哈 -甜酒甜- 给 甜酒甜 发送悄悄话 甜酒甜 的博客首页 (370 bytes) () 11/27/2025 postreply 05:47:12

是的,大约10年前,也是我偷偷在水下看美丽的甜酒的日子:) -晓炎- 给 晓炎 发送悄悄话 晓炎 的博客首页 (321 bytes) () 11/27/2025 postreply 05:58:12

非常感同身受你说的 -甜酒甜- 给 甜酒甜 发送悄悄话 甜酒甜 的博客首页 (621 bytes) () 11/27/2025 postreply 06:13:38

多谢好文分享!尤其还是和吃相关的:) -dancingpig- 给 dancingpig 发送悄悄话 (0 bytes) () 11/27/2025 postreply 10:37:43

文章写的一如既往的好。感恩节在法国度过是浪漫的。 感恩节快乐!哈 -MarkM76- 给 MarkM76 发送悄悄话 (0 bytes) () 11/28/2025 postreply 09:32:30

仔细的读了一下,非常喜欢这篇文章的温馨和人情,写得太好了!感恩节快乐! -aloevera- 给 aloevera 发送悄悄话 (0 bytes) () 11/28/2025 postreply 10:05:55

哈,你看问题很精准,这就是我这篇小作文想说的! -dancingpig- 给 dancingpig 发送悄悄话 (0 bytes) () 11/27/2025 postreply 10:34:32

不知为啥大家都开始称呼你“教授”了,我还可以昵称你“小猪”吗?LOL有小猪的认可,我很荣幸:) -晓炎- 给 晓炎 发送悄悄话 晓炎 的博客首页 (0 bytes) () 11/28/2025 postreply 08:45:19

看不懂,哈哈。 小猪 Happy Thanksgiving! -bogbog- 给 bogbog 发送悄悄话 bogbog 的博客首页 (0 bytes) () 11/27/2025 postreply 04:15:10

老毛病又犯了,丢了一堆jargon, 下次改。Bog Happy Thanksgiving! -dancingpig- 给 dancingpig 发送悄悄话 (0 bytes) () 11/27/2025 postreply 10:46:32

美女教授感恩节快乐。我也在研究你的分享。我会check文中的每一个点 找数据支持 -香虞- 给 香虞 发送悄悄话 (0 bytes) () 11/27/2025 postreply 04:50:51

香虞感恩节快乐! -dancingpig- 给 dancingpig 发送悄悄话 (0 bytes) () 11/27/2025 postreply 10:47:44

谢谢好文分享!感恩节快乐! -aloevera- 给 aloevera 发送悄悄话 (0 bytes) () 11/28/2025 postreply 08:33:58

请您先登陆,再发跟帖!