围棋人工智能Master只用了一个GPU(转)

来源: Twinlight 2017-03-27 14:08:03 [] [博客] [旧帖] [给我悄悄话] 本文已被阅读: 次 (2595 bytes)


发信人: nightwizard (JK), 信区: Weiqi
标  题: Master只用了一个GPU
发信站: 水木社区 (Sun Mar 26 23:19:17 2017), 转信

http://www.lifein19x19.com/viewtopic.php?p=217809#p217809

1. 好像用到了adversarial learning的思想,让一个anti-AlphaGo找出AlphaGo未考虑
到的选点,以减少漏算、避免过拟合(应该就是整天自我对局,容易不知如何应对新招
的意思吧)

2. 如果要增加开局变化,可调整一个“温度”参数,温度越高则选择评分不是最高但
接近最高的选点概率增加(这个应该是常识吧)

3. Master只用了一个GPU(!)

4. 关于不依赖人类棋谱训练的工作,暂时无可奉告

youtube的视频只有半个小时,并没有提到上面那四点,可能实在Q&A环节说的。

1. adversarial learning现在在图像生成和识别里面很火,也有用在自然语言处理里
面的。图像识别里面就是设置一个generator和一个discriminator,分别训练它们生成
尽可能真实的图像,和区分真实图像和generator生成的图像。对generator来说
discriminator就是一个目标函数,对discriminator来说generator探索真实图像以外
的空间中可能被discriminator误判为真是图像的样本,帮助discriminator更好的区别
真假图像。这里用在AG里的目标类似第二种。

2. 这个温度是指策略网络输出层也就是softmax层的一个参数,网络对每个选点给出一
个跟选点概率相关的数x_i, 然后分别计算exp(x_i/T), 归一化后得到最后的选点概率
。这里T就是温度,T越大不同选点的概率差异越小,这是一个受热力学启发的概念。这
点说明差不多质量的开局比人预想的要多。

3. 测试会比训练用的资源少,但只用1个GPU如果是真的只能说牛逼大发了。。

4. 也许开局变化多也跟没用人类棋谱bootstrap策略网络有关,如果是这样那第二点的
回答其实是避重就轻,因为调温度也是很老的技巧了。我才这点应该是真的,不过
Demis要留个悬念。。
 

所有跟帖: 

一个GPU 没啥稀奇的,一定不是训练。使用的话,自动驾驶都用不了一个GPU,很正常。 -正义的门徒- 给 正义的门徒 发送悄悄话 (0 bytes) () 03/27/2017 postreply 16:37:46

+100 -土棉农- 给 土棉农 发送悄悄话 土棉农 的博客首页 (0 bytes) () 03/27/2017 postreply 17:33:03

请您先登陆,再发跟帖!

发现Adblock插件

如要继续浏览
请支持本站 请务必在本站关闭/移除任何Adblock

关闭Adblock后 请点击

请参考如何关闭Adblock/Adblock plus

安装Adblock plus用户请点击浏览器图标
选择“Disable on www.wenxuecity.com”

安装Adblock用户请点击图标
选择“don't run on pages on this domain”