AlphaGo的核心算法是reinforcement learning。通过大量棋谱学习两个参数，一个是policy函数

来源: 衡山老道于 2025-02-12 10:19:19 [博客] [旧帖] [给我悄悄话] 本文已被阅读：次

，另一个是value函数。policy 函数决定下一步棋下那个位置，而value函数一般是来计算未来总奖励的期望值，这里是计算赢棋的概率。这两个函数的学习（逼近）是通过deep feed forward neural networks 来实现的。后来，AlphaGo Zero不用棋谱了，而是通过和自己下产生大量棋谱，再从棋谱中学习这两个函数。policy 函数是两个，每个棋手一个。

文学城简介
广告服务
联系我们
招聘信息
注册笔名
申请版主
收藏文学城

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.