AlphaGo的核心算法是reinforcement learning。通过大量棋谱学习两个参数,一个是policy函数

本帖于 2025-02-12 10:22:17 时间, 由普通用户 衡山老道 编辑
回答: 智力游戏皇冠上的明珠——围棋30亩地2025-02-12 07:53:12

,另一个是value函数。policy 函数决定下一步棋下那个位置,而value函数一般是来计算未来总奖励的期望值,这里是计算赢棋的概率。这两个函数的学习(逼近)是通过deep feed forward neural networks 来实现的。后来,AlphaGo Zero不用棋谱了,而是通过和自己下产生大量棋谱,再从棋谱中学习这两个函数。policy 函数是两个,每个棋手一个。

请您先登陆,再发跟帖!