的确现在模型的记忆力是有缺陷的,跟人类不一样。。
这个新的方式,就接近人类了,为AI的自我学习开辟的道路,
发展下去就是自我进化,再发展下去AI有自我意识

https://arxiviq.substack.com/p/nested-learning-the-illusion-of-deep
这篇论文题为**《Nested Learning: The Illusion of Deep Learning Architectures》(嵌套学习:深度学习架构的幻觉)**,由 Google Research 的研究人员(如 Ali Behrouz 等)提出,并被 NeurIPS 2025 接收。
这篇文章提出了一个新的机器学习范式——嵌套学习 (Nested Learning, NL),挑战了传统“深度学习”中关于“深度”的定义。
以下是该论文的要点总结:
1. 核心观点:深度学习的“幻觉” (The Illusion)
-
层数不等于深度:论文认为,目前的“深度”神经网络(通过堆叠层数)实际上并没有带来真正的“计算深度”或算法上的深度。增加层数往往只是在“压缩”上下文流 (Context Flow),而没有提升模型解决复杂嵌套优化问题的能力。
-
真正的深度是“嵌套”:真正的智能不仅仅是处理输入到输出的映射,而是包含多层级的学习过程(即“学习如何学习”)。
2. 嵌套学习范式 (Nested Learning Paradigm)
-
模型即优化问题的集合:NL 将一个机器学习模型视为一组嵌套的、多层级的优化问题。
-
每个层级都有自己的“上下文流” (context flow) 和更新频率。
-
这类似于人类大脑:有的部分学习得很快(短期记忆),有的部分学习得很慢(长期记忆/巩固)。
-
-
重新定义优化器:在 NL 框架下,优化器(如 SGD, Adam)不再仅仅是更新规则,而是被视为联想记忆模块 (Associative Memory Modules)。它们实际上是在尝试基于过去的梯度信息来预测最佳更新方向。
3. 关键创新与贡献
-
深度优化器 (Deep Optimizers):
-
既然优化器也是一种“学习模块”,论文提出可以设计具有“深度记忆”和更强表达能力的优化器,而不仅仅是简单的点积相似度(如传统动量)。
-
这使得模型能够进行更高级的上下文学习。
-
-
HOPE 模型 (Hierarchical Optimizing Processing Ensemble):
-
论文提出了一种名为 HOPE 的新架构(基于 "Self-Modifying Titans" 概念)。
-
自修正能力:HOPE 能够通过学习自己的更新算法来修改自身。它不仅仅是被动地被训练,而是主动地调整自己的学习策略。
-
连续体记忆系统 (Continuum Memory System):模拟大脑的记忆巩固过程,允许在不同时间尺度上更新记忆。
-
4. 解决的问题
-
灾难性遗忘 (Catastrophic Forgetting):通过多层级的嵌套优化(不同频率的更新),模型可以在学习新任务时更好地保留旧知识。
-
长上下文推理 (Long-Context Reasoning):嵌套结构允许模型更有效地处理和推理极长的上下文信息。
-
上下文学习 (In-Context Learning):论文从数学上解释了大型模型中上下文学习能力的涌现,是由于内部优化过程的结果。
总结
这篇论文试图将神经网络的架构设计与优化算法统一起来。它认为我们不应该把它们看作分离的两个部分(网络 vs 优化器),而应该看作一个统一的嵌套优化系统。这种视角为实现更接近人类智能的持续学习 (Continual Learning) 和自我进化 AI 指明了新方向。