http://kc.njnu.edu.cn/xlxs/ebook_shows.asp?id=149
第三节 联结主义的认知心理学
查看:[大字体 中字体 小字体] 阅读308次
从现代认知心理学产生至20世纪80年代中期,信息加工心理学的理论研究和实验研究几乎都采用了计算机类比的方法。但是,这种研究取向在20世纪80年代遇到了严重挑战,认知心理学从内部开始发生本质性的嬗变——联结主义逐渐走向认知心理学的前台。
一、联结主义和第二次认知革命
联结主义早在20世纪40年代,它的基本思想就有所表达。在以感知机(perceptron)为代表的脑模型的研究方面出现过热潮,由于当时的理论模型、生物原型和技术条件的限制,脑模型研究在70年代后期至80年代初期落入低潮,直到1986年鲁梅尔哈特(Rumelhart)等人提出多层网络中的反向传播(BP)算法。此后,联结主义势头大振,从模型到算法,从理论分析到工程实现,都取得了重要进展。在联结主义思想形成过程中,有几位心理学家作出过重要贡献。首先是麦克洛奇(McCulloch)和匹兹(Pitts)早在1943年就提出了基于脑组织的加工范式,也称为“McCulloch-Pitts神经元模型”,简称为M-P模型。接着是心理学家赫布(Donald Olding Hebb)于1949年提出假说:神经系统的学习是发生在两个神经细胞相互连接的突触处,突触间的连结强度是可变的,并首次给出了突触间连结权重值变化的方案,这就是著名的Hebb学习规则(余嘉元,2001,p.79)。1958年罗森布莱特提出感知器模型,该模型具有分类、自学习、分布式贮存、并行处理和一定的容错性。但由于当时神经网络模型的学习规则和算法很不成熟,难以对付复杂的计算问题,人们对其发展前景持怀疑态度,特别是当时有影响的美国麻省理工学院人工智能科学家明斯基(Marvin Minsky,)和佩帕特(Seymour Papert,)(1969)出版了一本题为《感知机》的著作,该书认为,简单的感知器只能解决线性问题,其能力非常有限,甚至对于简单的非线性问题都难以解决。由于明斯基在学术界的权威地位,所以他的这些观点大大降低了许多人对联结主义模型的研究热情,导致了其后十多年中联结主义的研究进展缓慢,直到1982年霍普菲尔德(Hopfield)为联想记忆提出了一种递归网络(Recurrent Networks),并为联结主义模型引入了“能量函数”的概念,给出了模型稳定性的判据,使他所提出的模型具有联想记忆和优化求解的能力,这一年联结主义理论重新开始受到心理学家的注意。
1986年出版的《并行分布加工:认知的微观结构之探索》(McClelland & Rumelhart,1986),第一次系统阐述了联结主义的观点和成就,因此这一著作被称为是联结主义的里程碑式的著作。此后不久,联结主义被赞誉为认知心理学的“新浪潮”和第二次革命。正如费尔德曼(Feldman)在就联结主义的早期表述中指出,这一范型与符号操作范型相比,更加接近大脑的功能方式,因为人脑就是由大量神经细胞以复杂方式联结起来的。
二、联结主义的基本观点与模型
联结主义模式的基本构成成分包括单元和联结。单元是带有活性值的简单加工器;联结则是单元之间相互作用的中介,单元及单元之间的联结构成网络。一般来说联结都是加权的。因此特定的输入将根据权数的提示而决定接受它的单元是兴奋还是抑制。这些数值通过联结而在单元之间传递。运用这种网络时,大多是选择一些单元作为输入端。这些单元都具有由环境所赋予的活性值。其它的一些单元则被选作输出端,网络的任务就是计算与每一输入单元所对应的输出单元的数值。在联结主义模式中,知识贮存在加工单元的联结之中,单元的激活表征将引起其他单元的新的激活模式。在联结主义看来,认知并不能用符号运算的规则进行解释,认知其实就是相互联系的具有活性值的神经单元所构成的网络的动态整体活动,这种网络所实现的整体状态与对象世界的特征基本一致。联结主义网络模式虽然包含很多神经节,但它们本身并不起多大作用,因为神经节中不包含任何信息,它认为信息是整个交互作用的神经节的激活模式,知识信息并不存在于特定的地点,而是存在于神经网络的联结中或权重里,通过调整权重就可以改变网络的联结关系并进而改变网络的功能,这就是“联结主义”概念的基本内涵。由于它把信息看成是分布在各个神经元及神经元的联结中,信奉通过合作并行主义的形式来运用简单的单个加工单元来加工信息,因此又称为并行分布加工;由于它是对真实神经网络的模拟,故又称为人工神经网络;由于斯摩伦斯基(P.Smolensky)把它与符号加工范式进行了比较,认为它是处于符号层次水平和真实神经元层次之间的无意识加工,因此有时又把它称作亚符号范式。
与符号加工范式相比,利用人工神经网络模型解释信息加工过程具有更大的生态适应性,这主要是由该模型所具有的多方面特点决定的:(1)并行结构和并行加工。联结主义模型中的各结点是并行的网状结构,它采用的是并行分布的信息加工模式,信息或知识也是分布地储存在各个神经单元之间的联结权重中。无论是单个神经单元或是整个网络,都同时具有信息储存和信息处理的双重功能。正是由于大量神经单元可以同时处理信息,因此它的反应速度就大大加快了。(2)可塑性、自学习、自组织和自适应性(余嘉元,2001,pp.77-78)。各神经单元间的联结是可塑的,其联结强度可以在学习过程中得到调整和变化,因此人工神经网络具有很强的学习能力,和人脑一样有自组织性和自适应性;(3)非线性和容错性。人工神经元处于激活或抑制两种不同的状态,其在数学上表现为一种非线性关系。此外,由于模型中信息的分布式储存,模型激活时会有大量神经单元的并行加工,因此少数神经元受到损伤,整个系统的功能将继续有效,局部残缺或甚至是错误的信息,不会从根本上影响整个系统的正常功能,这就是它的容错性。(4)非凸性:一个系统的演化方向,在一定条件下将取决于某个特定的状态函数,例如能量函数,它的极值相应于系统比较稳定的状态。非凸性是指这种函数有多个极值,故系统具有多个较稳定的平衡态,这将导致系统演化的多样性。总之,联结主义模型模拟了人脑的结构特点和功能特点,它是涉及神经科学、思维科学、人工智能、计算机科学等多个领域的交叉学科,在解释人的心理和行为方面显得更加有效。
三、联结主义模型的学习规则
联结主义模型或人工神经网络模型主要考虑的是网络连接的拓扑结构、神经元的特征、学习规则等。学习是神经网络研究的一个重要内容,它的适应性是通过学习实现的。根据环境的变化,对权值进行调整,改善系统的行为,其学习方式可分为非监督学习和监督学习。。
(一)Hebb学习规则
赫布(1904-1985)是加拿大著名生理心理学家。在1949年出版的《行为的组织》中,赫布提出了其神经心理学理论。赫布认为神经网络的学习过程最终是发生在神经元之间的突触部位,突触的联结强度随着突触前后神经元的活动而变化,变化的量与两个神经元的活性之和成正比。Hebb学习规则是一个无监督学习规则,这种学习的结果是使网络能够提取训练集的统计特性,从而把输入信息按照它们的相似性程度划分为若干类。这一点与人类观察和认识世界的过程非常吻合,人类观察和认识世界在相当程度上就是在根据事物的统计特征进行分类。
由赫布提出的Hebb学习规则为神经网络的学习算法奠定了基础,在此基础上,人们提出了各种学习规则和算法,以适应不同网络模型的需要。有效的学习算法,使得神经网络能够通过联结权重的调整,构造客观世界的内在表征。
(二)Delta学习规则和BP算法
Hebb规则在解释人的学习方面也有其局限性,他忽略了人的学习在许多情况下是有目标驱动的,期望目标也必然影响到学习规则的操作,于是后来就有监督性学习规则提出来,如Delta规则和BP算法等等。“这种规则是对于具有连续函数的神经元的一种有监督学习规则,也是一种梯度下降的学习规则,它主要是通过把完全的输出模式与完全的目标模式相比较而操作的。”[1]当输入层神经元接收到外部作用后,经过隐含层和输出层神经单元的运算得到输出,这一输出结果会与目标或期望结果比较,比较的结果会使神经网络对神经单元的联结权重作出调整和改变。这里有两条原则:“其一,权重的增量应该正比于误差的梯度;其二,权重向量的调整结果能够使误差减少。”(余嘉元,2001,pp.77-78)
依靠Delta学习规则,鲁梅尔哈特(Rumelhart)和麦克莱兰德(MacClelland)等于1986年详细讨论了多层前馈网络的误差反传算法(Backpropagation,简称为BP算法)。在神经网络学习过程中,首先要有一组目标值,然后给予网络一组刺激信号对之进行训练,每次训练网络都会输出一组向量与目标值进行比较,于是多项误差汇总形成全局误差函数。误差反传使得误差函数能够指导网络对单元联结权重的调整和改变。BP算法的基本思想就是通过调整权重,使得该误差函数的输出达到全域最低或达到全域的误差允许值。BP算法及其以后的改进成为人工神经网络模型建构的常用操作过程。