AMD keynote 学习 变浅的 KUDA护城河
昨天认真听了老苏的Keynote . 总结如下:
AMD 通过 ROCm 生态的持续优化(尤其是 HIP 接口与工具链的演进),确实在大幅降低从 CUDA 迁移到 AMD GPU 的成本,甚至在许多场景下接近“零成本”或“近零成本”。这并不意味着 CUDA 的“护城河”完全消失,而是 AMD 用多管齐下的策略把护城河挖得越来越浅,让它从“难以逾越”变成“可以轻松跨过”。
1. 核心工具:HIP + HIPIFY → 源代码级“几乎自动”转换
AMD 从很早开始就开发了 HIP(Heterogeneous-compute Interface for Portability),这是一个语法几乎与 CUDA 完全兼容的接口层:
? HIP 的 API 设计故意“对齐” CUDA(尤其是从 ROCm 7.0 开始,进一步“even more closely with CUDA”)。
? 开发者可以用 HIPIFY(AMD 官方源到源转换工具)自动把绝大部分 CUDA 代码转换成 HIP 代码。
? HIPIFY 支持 CUDA 12.x+ 的新 API,包括 FP4/FP6/FP128 等低精度类型。
? 许多情况下,转换后只需少量手动调整(甚至零调整),就能在 AMD GPU 上编译运行。
? AMD 在 ROCm 7.x 系列(包括刚刚发布的 7.2)中持续强化 HIP 的CUDA 兼容性:添加了 CUDA 风格的 launch API、异常转发、零拷贝传输等功能,让 HIP 代码写起来“像 CUDA”。
结果:对于新项目或有源代码的项目,迁移成本从“重写几个月”降到“跑一次 HIPIFY + 几小时调试”,很多开发者反馈“接近零成本”。
2. 真正“零修改二进制”运行:ZLUDA 项目(AMD 暗中资助两年,现已开源)
AMD 在 2022 年起悄悄资助了一个开源项目 ZLUDA,其目标是直接让未修改的 CUDA 二进制文件在 AMD ROCm 上运行:
? ZLUDA 是一个API 拦截层(类似 shim/wrapper),把 CUDA 调用实时翻译成 HIP/ROCm 调用。
? 不需要源代码、不需要重新编译:直接把 CUDA 程序的可执行文件丢到 AMD GPU 上,就能跑(加载 ZLUDA 库替换 CUDA runtime 即可)。
? 支持许多真实世界工作负载:如 CUDA 优化的 Blender 渲染、部分 AI 推理工具,甚至某些闭源软件。
? 性能往往接近或超过原生 HIP 端口(因为利用了 CUDA 编译器的优化)。
? ZLUDA 已支持 ROCm 7 系列,并在 2025-2026 年持续更新,成为 AMD 破除“二进制兼容壁垒”的杀手锏。
这才是很多人说“零成本迁移”的真正含义:连源代码都不用碰,直接跑旧 CUDA 程序。
3. 生态+性能+开放的双重打击,让 CUDA 护城河失效
AMD 在 ROCm 7.x(尤其是 7.2 今天刚在 CES 2026 强调的版本)上做了这些关键突破:
? 框架 Day-0 支持:PyTorch、TensorFlow、vLLM、SGLang、Hugging Face 等主流框架对 ROCm 的支持越来越完善,很多模型直接开箱即用。
? 性能不输甚至超:在 FP8/FP4 等 AI 关键精度上,AMD Instinct MI355X/MI455X 经常比同级 NVIDIA 快 20-30%(AMD 官方 benchmark + 社区验证)。
? 完全开源:不像 CUDA 是闭源专有,ROCm + HIP 全部开源,社区/公司可自由修改、优化、不怕被锁死。
? 跨平台:ROCm 7.2 正式打通 Windows + Linux,双系统支持;再加上 Ryzen AI 400 / Radeon 系列的扩展,让开发者/终端用户门槛大幅降低。
AMD 高管在 2025 Advancing AI 大会上直言:“CUDA 不是新架构的护城河,谁先写出新内核谁赢,而我们靠开源合作更快。”(Raimine Roane 原话)
现实残酷的一面:护城河还没完全倒,但已千疮百孔
? 极老旧/高度依赖 CUDA 私有扩展的闭源软件仍难迁移(ZLUDA 覆盖不全)。
? 某些专业领域(如特定科学计算库)生态仍偏向 CUDA。
? 但对于主流 AI/LLM/生成式模型/推理(占现在算力需求的 80%以上),AMD 生态已经让迁移成本从“天堑”变成“沟渠”。
总结一句话:AMD 没“消灭” CUDA 护城河,而是用HIP 自动转换 + ZLUDA 二进制直通 + 性能反超 + 开源生态,把护城河从 10 米深挖到 1 米深,再加上自家 GPU 性价比更高,很多公司/开发者自然就“跳”过来了。这就是为什么 Luma AI 敢把 60% 推理负载放到 AMD 上,其他 hyperscaler 也在加速测试 Instinct 的原因。