可以提高超大规模参数下的性能。所以归根结底还是算法的提高,然后用这个方法堆算力scaling law也是有极限的,大家基本已经确定目前已经接近或达到这个极限,再堆下去甚至负作用了。
任何算法都有其极限和适用范围,对技术一知半解的门外汉就只能靠生搬硬套的通俗讲解来想象,当然会被牵着鼻子走。