华为费了老大劲做的事,DS轻轻松松接近解决
所有跟帖:
•
英伟达的护城河是cuda生态,如果META可以用,别人也可以,那么英伟达20年的努力白费了
-cn_abcd-
♂
(0 bytes)
()
01/29/2025 postreply
16:28:21
•
看META工程师的post
-cn_abcd-
♂
(0 bytes)
()
01/29/2025 postreply
16:34:21
•
绿色的那一段
-cn_abcd-
♂
(0 bytes)
()
01/29/2025 postreply
16:41:03
•
他不说了是prompt了吗?SIMD在Intel 刚出MMX的时候是很简单的优化。
-BeyondWind-
♂
(0 bytes)
()
01/29/2025 postreply
16:45:27
•
举个例子,Linux 计算 blas库里面嵌套汇编的例子太多了,不代表blas可以轻松移植到其他cpu.
-BeyondWind-
♂
(0 bytes)
()
01/29/2025 postreply
16:37:28
•
这些最终的汇编不是自己写的,是AI根据标注生成的
-cn_abcd-
♂
(0 bytes)
()
01/29/2025 postreply
16:39:04
•
Blas 库里面SIMD 是最基本的汇编嵌入指令了,只不过这年头都不学汇编了,搞得很先进似的。
-BeyondWind-
♂
(0 bytes)
()
01/29/2025 postreply
16:42:04
•
他自己说的
-cn_abcd-
♂
(937 bytes)
()
01/29/2025 postreply
17:20:48
•
这个和gpu 指令优化没关系。
-BeyondWind-
♂
(0 bytes)
()
01/29/2025 postreply
17:27:18
•
the bigger deepseek helping optimize code to run the smaller
-cn_abcd-
♂
(0 bytes)
()
01/29/2025 postreply
17:34:54