DeepMind和阿尔法狗 - 我在人工智能围棋战胜人类中的经历

来源: 火耳 2020-11-07 22:32:58 [] [博客] [旧帖] [给我悄悄话] 本文已被阅读: 次 (27722 bytes)
一. 我爱下围棋
 
我上高中时开始学围棋,是在中日围棋擂台赛影响下接触围棋的那一代人。学会之后就一直保持着这个爱好,在围棋上花了不少时间,也因为围棋交了一些朋友。
 
棋艺的高低和棋才有关,不过对大多数业余棋迷来说,这并不是最重要的。不管你处于什么水平,无论棋盘内的技艺,还是棋盘外的趣闻轶事,总能让人找到兴趣点,棋乐融融,也其乐融融。围棋就是有这样吸引人的魅力,无怪乎古人给了它一个形象的名称:“木狐狸”。
 
围棋是一项小众的游戏或运动,原因就在于它有一定的难度。这种难度,也给这项属于东方文化的运动增添了神秘和高深的色彩:占据这项运动顶尖的都是中日韩棋手。西方人,即便是麦克·雷蒙在日本升到了九段,在竞技场上的成绩,也和顶尖棋手差得很远。在和科技的较量上,围棋也很骄傲:IBM的电脑“深蓝”在20年多前就击败了国际象棋大师卡斯帕罗夫。但对围棋,电脑一直是一筹莫展。
 
就在阿尔法狗击败李世石前两年,我还和一位朋友聊过,为什么电脑围棋水平不行的原因。当时我的看法是,围棋变化太多。特别是从布局到序盘阶段,有很多对“虚”和“实”的判断。而这种判断,在顶尖高手间由于棋风不同都会各说各话,无法给出一个唯一的答案。另外,围棋中的很多概念,如“筋”、“形”、“厚实”、“薄味”、“入界宜缓”等等,都有只可意会、不可言传的味道在里面,在电脑程序中要如何体现?似乎很难。所以多年以来,电脑的围棋水平都不高。
 
当然这只是我一个技术外行的认知。人工智能技术的顶尖代表,起源于英国的DeepMind公司,在创始人哈萨比斯(Demis Hassabis)的带领下,正在总结过去的理论,结合最新的技术手段,悄悄地积蓄着突破的力量。围棋作为一项复杂的智能游戏,也成了他们用来挑战的最佳目标。
 
二. 阿尔法狗横空出世
 
“Go"是日语中“棋”的发音,近代以来很长时间里日本水平最高,推广围棋国际化也出力最多,所以在英语中,就用日语的发音来翻译围棋。Alpha Go是谷歌/DeepMind开发的人工智能围棋项目,中文形象地翻译成“阿尔法狗”。
 
 
DeepMind是一家创始于英国科技公司,后来被谷歌收购。我在上一篇文章中提过,英国成就突出的科技公司,被美国的大企业收购是双赢的结果。DeepMind有着在人工智能研究上领先的水平,最终做出了阿尔法狗这个轰动世界的项目,离不开谷歌提供的巨大资源,就是一个好的例子。
 
除了DeepMind本身的硬核实力之外,阿尔法狗这个项目还调动了很多资源,包括对事件进程的策划和掌控,很有章法。
 
阿尔法狗首先邀请的对手是曾获得欧洲围棋冠军的樊麾,时间是2015年10月。樊麾是原中国职业棋手,2000年后赴法国发展,代表法国参加比赛。中日韩的职业棋手去到海外,工作的重心是围棋的教育和普及工作,而不在竞技一线,樊麾也不例外。
 
阿尔法狗和樊麾对战的结果是5:0,不过这个结果当时没有广泛报道。过去电脑围棋的最好水平是职业高手让4-5子,樊麾曾是职业棋手,虽不在顶尖行列,但阿尔法狗的这个成绩比过去的程序是进了一大步。用樊麾本人的话来说,是感觉到要出大事了
 
2016年1月,DeepMind的科学家们在自然杂志上发表文章,拉开了人工智能和人类竞技的大幕。
 
 
2016年3月阿尔法狗和李世石比赛前,更多关于阿尔法狗的细节被披露,包括和樊麾的对局。
 
职业棋手们认真地研究了这5局棋的内容,做了不少分析棋局的节目,人工智能的围棋水平果然大有长进。大家对第一局官子中,电脑下出的这一巧手赞赏有加。
 
樊麾对战阿尔法狗第一局
 
官子是围棋终局前的最后收束阶段,是棋局的关键之处。聂卫平老师棋高眼光也高,轻易不会表扬人。在李昌镐出道的早期,有一次在官子阶段走出一步只便宜了一点点的巧手。聂老看到了,便断言此子前途无量。阿尔法狗在这个细小处的处理,确实代表了其不凡的水平。
 
不过樊麾和李世石还是有很大的差距。比赛开始前,棋界的多数人,也都认为李世石会获胜。
 
李世石是当事人,说要以5:0结束比赛。棋手赛前夸大给自己打气是常事,何况李世石也是个性鲜明、爱发狂言的棋手。
 
 
中国棋界的9位世界冠军,也认为电脑还不是对手。
 
 
日本棋界水平现在落后于中韩,但即使在李世石已经输了三盘的情况下,他们还是希望中国棋手能打败电脑,保住人类的尊严。
 
 
这挺有趣,恩怨情仇交织的中日韩三国,这大概是一件少有的目标一致的事情。
 
棋界之外,很多人的看法也类似。爱说话的李开复老师,常常以“前电脑工程师”的身份对技术问题发言,也认为李世石会赢。
 
 
阿尔法狗一方,DeepMind的创始人哈萨比斯和项目负责人席尔瓦,倒是态度谦和,发言谨慎。很像另一类谦逊但倔强的棋手:多说无益,我们实战解决
 
 
2016年3月9日开始的5番棋,的确在实战中让我们跌破了眼镜。前三盘李世石输得没有机会,第四盘在战斗中发挥出色,拿下一盘,第五盘又是脆败。
 
在谷歌公司的策划下,这场人机大战也成为媒体关注的大事件。有消息称,阿尔法狗和李世石的第一场比赛,全球有一亿人观看直播,其中6000万来自中国。这大概是有史以来,围棋吸引到的最多关注。
 
我就是这一亿分之一。那几天里,每天一开赛,我就挂在直播间里,一边看棋局进程,一边看棋手的讲解,一边还在各种懂棋和不懂棋的群里热烈讨论,精神高度兴奋。情绪也随着棋局的进程,夹杂进各种对人工智能技术的震惊、赞叹、迷惑和恐惧,起伏不止,似乎自己也成了一个局中人。
 
妻子看到我亢奋得不行,给我泼了点冷水。
 
我妻子不懂围棋,在我的影响下也了解了一下这场人机大战的来龙去脉。她是技术背景出身,从她的专业出发,说了一堆听不懂的技术名词,给我讲了一下她的看法:这只是一个技术突破,解决了一个简单的游戏问题,没那么伟大,不至于那么激动。
 
什么?你一个不会下棋的人,说围棋简单?这话像是冒犯了我一个多年的老朋友,我有些火了:
 
你知道高川格"流水不争先"的洒脱隽永吗?你看过吴清源新布局革命的震憾吗?你了解日本六超时代的辉煌吗?你体会过老聂擂台连胜带给国人的激昂吗?你知道曹薰铉的灵动、李昌镐的不动、马晓春的飘逸、刘昌赫的华丽、李世石的锐利、常昊的厚重、古力的斗力,还有新生代百花齐放、群星灿烂得两个巴掌数都数不过来柯洁、朴廷桓、申真谞、井山裕太、辜梓豪、谢尔豪、芈昱廷、唐韦星、范廷钰、檀啸、时越们的精彩吗?以上每一点还只是标题,每个话题我还可以延伸说下去……
 
当然,这只是我在脑子里的翻江倒海,没有喷发出来。多年的经验告诉我,家不是用来辩论的地方。何况在家里,即便是辩赢了,也还是我要认输。
 
三. 我长达一年的反射弧
 
李世石和阿尔法狗的人机大战过后,余波荡漾。
 
2016年底,阿尔法狗的升级版化名Master,一周内在网络上与多位顶尖棋手交战60局,无一败绩。
 
2017年5月,等级分排名世界第一的中国棋手柯洁和阿尔法狗激战三盘,全部败阵,输得毫无机会。
 
人类这下才服了,没有人再敢对机器说大话了,当然也包括还是很爱说话的李开复老师。
 
这一年里,社会也在消化这个事件,DeepMind引领的人工智能技术在社会生活的各个方面被讨论。科普作家们在普及相关的知识,技术投资人也在介绍这项技术的应用场景和前途。从不同的角度和渠道,我学习了更多的背景知识。阿尔法狗战胜人类这一让我和很多人震惊的事件,轮廓渐渐清晰了起来:
 
  1. 围棋“简单”指的是规则明确,包括行棋的规则和胜负的判断,都是可以准确定义的。用数学语言说,就是变量明确,结果唯一,这样目标函数就容易确定。对于科学研究,这种有边界的问题,突破就有了方向,容易解决。
  2. DeepMind攻克这一难题在理论上没有突破。具体说,深度学习、神经网络理论和蒙特卡洛搜索树这些理论和方法,都是几十年前就提出来了的,不是新东西。
  3. 这次突破的关键是计算力。DeepMind的科学家们将深度学习、强化学习、传统树搜索和大规模计算结合起来,开发出了新算法,一举攻克了围棋这个难题。
  4. 神经网络理论模仿人脑的决策机制,先是通过已有的棋谱,让机器学习后,模拟出一个可以用获胜概率来衡量的下一手,这一过程也减少了计算量,使得在操作上可行。至于机器是怎样确定函数关系得出结果的,目前人类并不知道。基于此,有人认为这种未知性是个潜在的风险,很可怕,比如特斯拉老板伊隆·马斯克就持这样的观点。
 
简单讲,阿尔法狗战胜人类高手可以总结为:围棋规则明确,在理论和方法上整合有效,同时得益于计算机算力的大幅提升
 
我撇开对围棋的深厚感情,把上面的认识和妻子讲了一遍。听我讲完后,她一乐:去年这时候我讲的,不就是这意思吗
 
你去年讲的是这意思?我怎么只记得你说围棋简单来着了?
 
对呀,我家领导可是科班出身,从本科到博士,读的都是计算机科学。包括机器学习、深度学习、决策树这些属于算法的内容是她的日常工作,怎么就敌不过我对围棋的感情呢?神经网络理论也是她多年前就学习过的内容,我家书架上,也有好几本关于神经网络的书籍。她未必像我一样,会以读科普作品和科学史的为兴趣点,记得这一理论的提出者Hinton教授,但她熟知这一理论的内容和相关的应用方法。
 
何况,她就有同学在DeepMind工作。科研工作的日常,其实和她也差不多:读论文,想算法,处理数据,写程序编码,解决跑程序中出现的问题,哪有新闻报道里的渲染的那么高大上。我花了一年的发现,是她多年里已经存在的认知,只是没能用我最熟悉的语言来表达。
 
最后我俩各退一步,各自检讨。
 
我检讨的是,文青思维贻误人。对于一件需要用理智来观察判断的事,过于丰富的情感会阻碍认知能力,让我白白损失了一年认识这个问题的时间。
 
她检讨的是,理工思维需要改进表达的方式。对于自己了解掌握的知识,她没能像科普作家或是技术投资人一样,用简明易懂的语言表述出来说服我。从而让我白白损失了一年认识这个问题的时间。
 
关于围棋是个“简单”的研究对象,我家领导又给我举了两个例子。
 
例如说,如果机器来处理做菜,就不简单。比如说用料,特别中国菜,油盐酱醋各种调料的用量,常会说“少许”,这就是变量无法精准定义。而做出来菜好不好吃,不同的人有不同的判断标准,这是结果无法精确衡量。这样的问题,找目标函数的难度就很大,处理起来会比围棋更棘手。
 
这个类比我就能很好地接受了,围棋规则明确,对所有人都一样。棋迷中也有类似的说法,比如说,李昌镐的棋,也要两个真眼才能活。说的就是这个道理,下棋的人都明白。
 
领导给我举的另一个例子是在医学研究中,比如寻找某种病症的原因。在摸索中陆续找到一些致病原因,但是在找到之前就是变量不明。或者说,发现的某个原因相关,比如情绪能影响病症,但如何用量化手段把情绪作为一个变量去建模,又是一个不能精准定义的例子。又或者,开个更大的脑洞,目前对于该病症的所有基础理论都是错的,在这样的框架下得出的结果就是在碰运气,这也许是某些病症治愈率很低的真正原因。这样的问题就是开放性的,和围棋相比也是难了几个数量级。
 
有了这些知识,我基本理解了围棋是个简单问题的说法。甚至于听到有人说阿尔法狗解决的不过是个初级人工智能问题这样扎心的说法,也能一笑置之。
 
可是,在对阿尔法狗认识这件事上,最初我是听了围棋高手们的判断。特别是柯洁,他是等级分排名第一的顶尖棋手。围棋上的事,你说我是相信第一高手柯洁,还是不懂棋、但懂深度学习和神经网络的我家领导?
 
下面是柯洁对阿尔法狗的认识过程。
 
樊麾对战阿尔法狗之后,柯洁是这么评论的:
 
 
李世石第一盘输了以后,柯洁是这么表态的:
 
 
直到2017年5月,柯洁对战阿尔法狗,三战皆败后,才服了:
 
 
我的这个反射弧,长达一年,算是把这个问题搞清楚了。过程想起来,还是挺有意思的。
 
四. 阿尔法狗带来的乐趣和恐惧
 
对于棋迷来说,阿尔法狗带来的除了震憾,还有棋艺上的收获和乐趣。
 
复杂的大雪崩定式,从吴清源大师走出的内拐招法,到近年周睿羊苦心研究的能便宜两目棋的次序,内里有无数的玄机。但是在阿老师的棋局中,这个定式不见踪影,被淘汰了;
 
隐藏着无数把飞刀的妖刀定式,过去被看成俗手的简单乱冲取地的走法,阿老师给出的胜率高企。原来的定式,也淘汰了;
 
高者在腹,五路肩冲的下法,或造势或围地,也是可以走的,过去这么下一定会被批评;
 
人机大战第二局,阿尔法狗五路肩冲
 
对手下星位,开局就点三三,捞地为先,在当下的高手对局中,流行得让人生厌。我的一位哥儿们,棋高也很自信的业余强手,对此更是感触颇深:有一段时间下棋,碰到对手上来就这么走。开始以为是乱下,但走着走着就发现实地不够了,到很后面才明白过来这是AI在练手呢。
 
Master在2016年底横扫棋界的60盘棋里,也有很多精彩的瞬间。比如这盘对唐韦星,在四路上对两子的一靠,被孟泰龄评为60局中最具视觉冲击力的一手。这手棋实在太帅,而作为对手,后面的许多种变化,都是被虐的结果。
 
 
我有一段时间喜欢看一位台湾的职业棋手陈峰讲棋。他谈到与AI对局的感受,说觉得没走什么坏棋,但是4、50手之后一看胜率只剩个位数,心情陷入绝望。
 
不过,李世石和和机器对局赢了两盘,也是人类赢的两盘棋,靠的是他强大的计算力
 
在与阿尔法狗的第四局棋中,在战斗中下出第78手挖,被古力称为神之一手,奠定胜局。
 
阿尔法狗对李世石第四局
 
2019年底,与阿尔法狗对战之后棋力逐渐下坡的李世石,决定在36岁时退出现役。告别赛他选择了和韩国的人工智能软件“韩豆”对弈,在第二盘被让两子的棋局中,以他出色的计算,枷住棋筋获胜。
 
 
计算力是棋手最重要的能力,近年来中韩棋坛上唱主角的青少年群雄,无一不是算力超群的大神。
 
棋迷对职业棋手算力的崇拜之情,我深有体会。
 
我上大学时,同宿舍的一哥们儿学会下棋后,有点怀疑职业棋手被吹得神乎其神的算路,是不是有言过其实的成分?
 
我正好看到围棋天地上的一盘棋,就和他说,我们来摆一摆吧。
 
那是一盘聂卫平对武宮正树的对局,当时两位大师的巅峰期已过,是一个不太重要的比赛。老聂亲自写的讲解。有一个局部的变化,他说这么走不行,后面附了好几个参考图。
 
我们的棋力都还没到看参考图可以明白的程度,就随着说明一步步在棋盘上摆下去,好几十手棋。一直到把参考图上都没有的,一口口紧完气,看清了对杀一方差一口气。这就是老聂在开始说的结论,这么走不行。
 
我那哥们儿把棋子拍在棋盘上,紧上了最后一口气,然后重重地说出了表示服气的两个字:我(wo第四声)cao(同样为第四声)!
 
职业棋手的算路都很深,老聂和武宫的棋风都还不是以计算见长的类型。精于算路的棋手,如赵治勋,在日本两日制的比赛上,关键时一手棋常常会长考好几个小时。从不行的变化开始,算清尽可能多的变化。
 
只是这样的计算,现在电脑一秒钟就能算几个来回。是不是细思极恐,让人后背发凉?
 
过去对职业棋手的崇拜原因是棋艺高超,现在都输给了机器。棋艺上没了神秘感,那么棋外的轶闻趣事还会有吸引力吗?
 
不过,阿尔法狗和棋手的对战中,谷歌一方也安排了一些暖心的细节。
 
在Master和聂卫平老师的对局中,一直代替机器执子的项目成员、来自台湾的黄士杰博士,考虑到尊重年龄长的聂老师,把每步的限时调长了。对局获胜后,在电脑上打出“谢谢聂老师”,向聂老致意。
 
 
这是符合棋盘礼仪和东方文化的举动,尤其是在棋盘上碾压了对手之后。这短短五个字让人觉得面对的不止是冰冷的机器,不光老聂感动,我看了也很感动。
 
五. 阿尔法狗之后的围棋
 
2017年5月27日,在柯洁和阿尔法狗比赛之后,DeepMind宣布阿尔法狗将不再参加围棋比赛。2017年底,黄士杰博士宣布他已经转到了其它项目上。DeepMind对围棋的探索,暂告一段落。
 
 
事了拂衣去,不留身,但留下了名。DeepMind下次再出现在媒体上时,没准又是一条惊爆眼球的大新闻。
 
阿尔法狗不玩了之后,其它人工智能程序继续着它的工作。中国的绝艺,日本的Zen和韩国的韩豆,同样扮演着碾压顶尖棋手的角色。不甚完善的韩豆,都把李世石打到了让两子的境地。
 
这里又显出科研中原创的重要性了。DeepMind突破了之后,理论和方法的框架确定了,其它跟随者需要做的就是优化工作,做出结果只是时间问题,也就不再神秘了。
 
科研中有时候在项目上成功了,就能够传达一个有效信息。美国先研制成功了氢弹,那时候冷战已经开始,技术对苏联是严密封锁的。苏联看到美国成功了,得到的信息是“这事能成”,很快也搞出了氢弹。
 
现在我也还在看棋、下棋。现在比赛中的讲解,对某位职业高手的夸赞,已经变成了“在多少手内这招法和机器跑出来的一模一样”。我一则以喜,敬佩这些棋手勤奋用功(如韩国的朴廷桓);一则以忧,有人把人工智能战胜人脑类比成机器力战胜了人的体力。就如今天,还有多少人无聊到去比较人和机器,谁能能举起更重的物品?一百年后,还会有围棋这项运动吗?或者说,举重比赛,会有围棋对弈那么多乐趣吗?
 
我也想到,几年前我不相信人工智能会战胜李世石的态度,不就和一百多年前,一个愚民不相信火车会拉得比马多一样吗?
 
阿尔法狗战胜李世石到现在,已经四年多了。当中我经历了从激动到平静的过程,着手写这篇文章时,又经历了一次从平静到激动的过程。心情再次平静下来之后,尽管我已经明白了阿尔法狗的基本原理,接受了围棋是个“简单”的游戏的说法。我还是隐隐觉得,我们经历的,或许真的是一个改变时代的大事件
 

如果喜欢我的文字,请按下面的二维码关注我的微信公众号,“火耳的古城”。

 




更多我的博客文章>>>
请您先登陆,再发跟帖!

发现Adblock插件

如要继续浏览
请支持本站 请务必在本站关闭Adblock

关闭Adblock后 请点击

请参考如何关闭Adblock

安装Adblock plus用户请点击浏览器图标
选择“Disable on www.wenxuecity.com”

安装Adblock用户请点击图标
选择“don't run on pages on this domain”