有点像牛顿在17世纪奠基了经典物理学,但第一次工业革命是一个多世纪后的事。

来源: 2024-12-23 12:28:31 [旧帖] [给我悄悄话] 本文已被阅读:

基于人工神经网络AI的理论在80年代就已经完成了,过去30年没有理论上的突破。

理论上一个足够大的神经网络可以无限逼近(也就是所谓的“学习”)任意数学函数,但实际上经常碰到的问题是学习不收敛,或者是收敛了但overfitting。过于30年的研究基本上围绕这些问题找到各种“巫术”:
1. CNN,LSTM, Transformer: 针对具体问题,给网络施加一些限制,而不是让一个无限制的网络任意学习。这些措施有助于收敛和减少overfitting
2. 用ReLU取代Sigmoid: 极大地降低了梯度为0的情况,使学习更容易收敛。

但这些“巫术”发现更多依赖的是直觉和经验,不需要很高深的理论。因此,博士生比本科生多的只是经验,而不是理论。