基于人工神经网络AI的理论在80年代就已经完成了,过去30年没有理论上的突破。
理论上一个足够大的神经网络可以无限逼近(也就是所谓的“学习”)任意数学函数,但实际上经常碰到的问题是学习不收敛,或者是收敛了但overfitting。过于30年的研究基本上围绕这些问题找到各种“巫术”:
1. CNN,LSTM, Transformer: 针对具体问题,给网络施加一些限制,而不是让一个无限制的网络任意学习。这些措施有助于收敛和减少overfitting
2. 用ReLU取代Sigmoid: 极大地降低了梯度为0的情况,使学习更容易收敛。
但这些“巫术”发现更多依赖的是直觉和经验,不需要很高深的理论。因此,博士生比本科生多的只是经验,而不是理论。