AlphaGo的核心算法是reinforcement learning。通过大量棋谱学习两个参数,一个是policy函数
,另一个是value函数。policy 函数决定下一步棋下那个位置,而value函数一般是来计算未来总奖励的期望值,这里是计算赢棋的概率。这两个函数的学习(逼近)是通过deep feed forward neural networks 来实现的。后来,AlphaGo Zero不用棋谱了,而是通过和自己下产生大量棋谱,再从棋谱中学习这两个函数。policy 函数是两个,每个棋手一个。