因为觉得写得好,遂去翻看了系列第5篇。觉得两篇有点矛盾。
(here): Transformer 本质上是“短记忆动物”。它的表示空间天生偏向保留局部模式,
VS
(第五篇:)它既不健忘,也不近视。
能不能再具体说说。这是因为在不同的要求下看问题吗,一个目的是宏观叙事,另一个要追问更多细节?