是在底层更细的颗粒度上做优化,不是用汇编重写一遍cuda.

请您先登陆,再发跟帖!