世纪大战中,阿尔法狗为什么会赢?
- 2018-09-14 17:04
- 腾讯网
美国的谷歌公司,经常出其不意地推出一款新产品来引爆舆论赚够眼球。2016年初,他们牵出了一条精通围棋的阿尔法狗(AlphaGo),挑战人类的顶级围棋大师李世石,并以4:1的比分得胜。之后,升级的阿尔法狗又以“Master”的网名约战中日韩围棋大师,并取得60局连胜。
图:计算机围棋冠军阿尔法狗大战李世石
虽然业内人士并不认为阿尔法狗代表了人工智能之巅峰,它在人机大战中取胜也丝毫不能说明机器的智力已经超过人类,但它确实将人工智能、机器学习、神经网络、深度学习,蒙特卡洛搜索等等一大堆专业名词抛到了普罗大众的面前,让这些科学概念进入了普通人的生活中。
其实,人工智能的成果早就已经悄悄地渗透进了现代人的生活,在你的手机上就有不少的应用。比如人脸识别,这种在10年前,对经典计算机程序而言颇为困难的技术,在目前手机上已经是司空见惯了。
就计算机的“棋艺”而言,十几年前IBM的象棋冠军“深蓝”,与如今的阿尔法狗比较,也不能同日而语。如今看来,深蓝是一台基本只会使用穷举法的 “笨机器”,犹如一个勇多谋少的冷血杀手。
然而,这种穷举方法对格点数大得多的19×19围棋棋盘成为不可能,因为每走一步的可能性太多了。阿尔法狗使用的是机器学习中的“深度学习”,利用计算技术加概率论和统计推断而达到了目的。
说到这儿,不由得使人联想到有些类似于之前我们介绍过的“频率学派与贝叶斯学派”之差异,一个基于“穷举”,一个基于“推断”。也许这个比喻并不十分恰当,但贝叶斯的一套玩意儿,从贝叶斯定理、贝叶斯方法,到贝叶斯网络,的确是阿尔法狗以及其他人工智能技术的重要基础。
阿尔法狗使用的关键技术叫做“多层卷积神经网络”,网络的层与层之间像瓦片一样重叠排列在一起,输入是19*19大小的棋局图片。如图7-1-2所示,第一部分包括一个13层的监督学习策略网络(SL),每层192个神经元,用以训练了3千万个围棋专家的棋局,可以被理解成是机器模仿人类高手的“落子选择器”。
其次,是13层的强化学习(RL)策略网络,通过自我对弈来提升 SL策略网络,目的是调整策略网络之参数朝向赢棋的目标发展,在学习期间,策略网络每天可以自对弈一百万盘之多,而人类个体一辈子也下不到一万盘棋,计算技术之威力可见一斑。
阿尔法狗的最后部分是一个估值网络,或者说,是它的“棋局评估器”,用以预测博弈的赢者,注重于对全局形势的判断。总结而言,AlphaGO有效地把两个策略网络、估值网络,和蒙特卡洛搜索树结合在一起,充分利用围棋专家的数据库及自我对弈和评估之策略而取胜。
图:AlphaGo算法原理图
最终版本的 AlphaGo使用了40个搜索线程,48个CPU,和8个GPU。分布式的AlphaGo版本,利用了多台电脑,40个搜索线程,1202个CPU,176个GPU。正因为阿尔法狗采取了新型的机器深度学习算法,充分利用了互联网的优越性,才得以挫败人类顶级选手而旗开得胜。
- 索尼加强监管PS4游戏中情色内容 引部分开发者不满2019-06-13 10:24
- 腾讯京东成乐融致新新晋股东 乐视网盘中涨超9%2019-06-12 14:03
- “向新而行 ,强大中国车”比亚迪演绎强大中国车2019-05-30 13:57
- 獐子岛扇贝又又又跑路了 证监会和交易所看不下去了2019-05-24 17:27
- “深海勇士”:碧海寻声2019-05-14 13:50
-
2
哪个比特币钱包更安全,选择币信靠谱吗?
2021-02-05 16:02
-
3
受央视关注,必要科技C2M模式赋予产业发展新动能
2021-02-04 16:43
-
4
腾讯Light·公益创新挑战赛正式启动 腾讯优图向科技公益深度探索
2020-12-30 15:50
-
5
首届中国数字冰雪运动会成都站暨线下滑雪体验赛圆满落幕
2020-11-30 10:30