有点像牛顿在17世纪奠基了经典物理学，但第一次工业革命是一个多世纪后的事。

来源: IT-guy 于 2024-12-23 12:28:31 [旧帖] [给我悄悄话] 本文已被阅读：次

基于人工神经网络AI的理论在80年代就已经完成了，过去30年没有理论上的突破。

理论上一个足够大的神经网络可以无限逼近（也就是所谓的“学习”）任意数学函数，但实际上经常碰到的问题是学习不收敛，或者是收敛了但overfitting。过于30年的研究基本上围绕这些问题找到各种“巫术”：
1. CNN，LSTM, Transformer: 针对具体问题，给网络施加一些限制，而不是让一个无限制的网络任意学习。这些措施有助于收敛和减少overfitting
2. 用ReLU取代Sigmoid: 极大地降低了梯度为0的情况，使学习更容易收敛。

但这些“巫术”发现更多依赖的是直觉和经验，不需要很高深的理论。因此，博士生比本科生多的只是经验，而不是理论。