这个还是在cuda之上,pytorch之下的中间实现,主要用8位浮点数计算以前16/32位的矩阵乘法。
另外优化了内存之间数据移动。 这个还是机遇nvidia体系的优化, 让大家知道低精度运算一样可靠。
新的nvidia显卡加入了FP4的支持, 明显会因deepseek开源获益。
我其实觉得deekseek这个开源操作是对nvidia利好,以前一直是ASIC可以代替NVIDIA, 因为ASIC可以更加高效得实现矩阵乘法。
但是deepseek一开源,马上可以让nvidia效率提升,如果我负责数据中心硬件采购, 我投入ASIC之前会想想, 是我用旧的nvidia卡挖掘效率简单还是用ASIC用固定精度实现矩阵乘法容易?如果那天又有人实现了一个完全不同的优化并且开源一个新的模型, 是不是我的ASIC就不能跑新模型?我的投资泡汤? 市场在衡量ASIC vs NVIDIA, 看看最近AVGO/MRVL vs NVDA走势吧, 看哪个analysist 知道GPU跟ASIC实现细节吧