围棋人工智能Master只用了一个GPU（转）

来源: Twinlight 于 2017-03-27 14:08:03 [档案] [博客] [旧帖] [给我悄悄话] 阅读数 : (2595 bytes)

发信人: nightwizard (JK), 信区: Weiqi
标题: Master只用了一个GPU
发信站: 水木社区 (Sun Mar 26 23:19:17 2017), 转信

http://www.lifein19x19.com/viewtopic.php?p=217809#p217809

1. 好像用到了adversarial learning的思想，让一个anti-AlphaGo找出AlphaGo未考虑
到的选点，以减少漏算、避免过拟合（应该就是整天自我对局，容易不知如何应对新招
的意思吧）

2. 如果要增加开局变化，可调整一个“温度”参数，温度越高则选择评分不是最高但
接近最高的选点概率增加（这个应该是常识吧）

3. Master只用了一个GPU（！）

4. 关于不依赖人类棋谱训练的工作，暂时无可奉告

youtube的视频只有半个小时，并没有提到上面那四点，可能实在Q&A环节说的。

1. adversarial learning现在在图像生成和识别里面很火，也有用在自然语言处理里
面的。图像识别里面就是设置一个generator和一个discriminator，分别训练它们生成
尽可能真实的图像，和区分真实图像和generator生成的图像。对generator来说
discriminator就是一个目标函数，对discriminator来说generator探索真实图像以外
的空间中可能被discriminator误判为真是图像的样本，帮助discriminator更好的区别
真假图像。这里用在AG里的目标类似第二种。

2. 这个温度是指策略网络输出层也就是softmax层的一个参数，网络对每个选点给出一
个跟选点概率相关的数x_i, 然后分别计算exp(x_i/T), 归一化后得到最后的选点概率
。这里T就是温度，T越大不同选点的概率差异越小，这是一个受热力学启发的概念。这
点说明差不多质量的开局比人预想的要多。

3. 测试会比训练用的资源少，但只用1个GPU如果是真的只能说牛逼大发了。。

4. 也许开局变化多也跟没用人类棋谱bootstrap策略网络有关，如果是这样那第二点的
回答其实是避重就轻，因为调温度也是很老的技巧了。我才这点应该是真的，不过
Demis要留个悬念。。

您的位置：文学城 » 论坛 » 回国发展 » 围棋人工智能Master只用了一个GPU（转）

所有跟帖：

• 一个GPU 没啥稀奇的，一定不是训练。使用的话，自动驾驶都用不了一个GPU，很正常。 -正义的门徒- ♂ (0 bytes) () 03/27/2017 postreply 16:37:46

• +100 -土棉农- ♂ (0 bytes) () 03/27/2017 postreply 17:33:03

请您先登陆，再发跟帖！