谷歌的Gemini完全用TPU训练,既不用GPU也不用Cuda
亚马逊正在努力搞Trainium并在自己的云上提供Neuron作为GPU替代
苹果一直在搞Metal和MLX在自家的Apple Silicon上推理
Meta在忙着给Pytorch写各种ASIC的加速代码
甚至OpenAI也在和Broadcom合作搞专用硬件
甚至DeepSeek虽然用GPU但也早爆出绕开了Cuda自己重写底层