,另一个是value函数。policy 函数决定下一步棋下那个位置,而value函数一般是来计算未来总奖励的期望值,这里是计算赢棋的概率。这两个函数的学习(逼近)是通过deep feed forward neural networks 来实现的。后来,AlphaGo Zero不用棋谱了,而是通过和自己下产生大量棋谱,再从棋谱中学习这两个函数。policy 函数是两个,每个棋手一个。
,另一个是value函数。policy 函数决定下一步棋下那个位置,而value函数一般是来计算未来总奖励的期望值,这里是计算赢棋的概率。这两个函数的学习(逼近)是通过deep feed forward neural networks 来实现的。后来,AlphaGo Zero不用棋谱了,而是通过和自己下产生大量棋谱,再从棋谱中学习这两个函数。policy 函数是两个,每个棋手一个。
WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.
Copyright ©1998-2025 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy