阿尔法狗再进化：自学3天就100:0碾压李世石版旧狗

小大

用微信扫描二维码
分享至好友和朋友圈

扫描到手机×

2017-10-19 01:29:42 澎湃参与评论()人

AlphaGo Zero强化学习下的自我对弈。

经过几天的训练，AlphaGo Zero完成了近5百万盘的自我博弈后，已经可以超越人类，并击败了此前所有版本的AlphaGo。DeepMind团队在官方博客上称，Zero用更新后的神经网络和搜索算法重组，随着训练地加深，系统的表现一点一点地在进步。自我博弈的成绩也越来越好，同时，神经网络也变得更准确。

阿尔法狗再进化:自学3天就100:0碾压李世石版旧狗

AlphaGo Zero习得知识的过程

“这些技术细节强于此前版本的原因是，我们不再受到人类知识的限制，它可以向围棋领域里最高的选手——AlphaGo自身学习。” AlphaGo团队负责人大卫·席尔瓦（Dave Sliver）说。

据大卫·席尔瓦介绍，AlphaGo Zero使用新的强化学习方法，让自己变成了老师。系统一开始甚至并不知道什么是围棋，只是从单一神经网络开始，通过神经网络强大的搜索算法，进行了自我对弈。

随着自我博弈的增加，神经网络逐渐调整，提升预测下一步的能力，最终赢得比赛。更为厉害的是，随着训练的深入，DeepMind团队发现，AlphaGo Zero还独立发现了游戏规则，并走出了新策略，为围棋这项古老游戏带来了新的见解。

自学3天，就打败了旧版AlphaGo

除了上述的区别之外，AlphaGo Zero还在3个方面与此前版本有明显差别。

阿尔法狗再进化:自学3天就100:0碾压李世石版旧狗

AlphaGo-Zero的训练时间轴

首先，AlphaGo Zero仅用棋盘上的黑白子作为输入，而前代则包括了小部分人工设计的特征输入。

其次，AlphaGo Zero仅用了单一的神经网络。在此前的版本中，AlphaGo用到了“策略网络”来选择下一步棋的走法，以及使用“价值网络”来预测每一步棋后的赢家。而在新的版本中，这两个神经网络合二为一，从而让它能得到更高效的训练和评估。

第三，AlphaGo Zero并不使用快速、随机的走子方法。在此前的版本中，AlphaGo用的是快速走子方法，来预测哪个玩家会从当前的局面中赢得比赛。相反，新版本依靠地是其高质量的神经网络来评估下棋的局势。

关键词：阿尔法狗进化

阿尔法狗再进化：自学3天就100:0碾压李世石版旧狗

相关报道:

为您推荐：

韩国在蒙古发掘出一男性干尸：穿2000年前中国服饰

蒙古发掘一具中国男性干尸穿2000年前中原服饰

阿尔及利亚驻华大使:祝十九大引领中国创辉煌

蒙古发掘中国干尸:穿2千年前中国服饰

蒙古发掘一具2000年前中国干尸男性身高1米7左右

诺奖得主丁肇中：有望2024年找到暗物质线索

中小学生手机考验校园管理智慧是疏还是堵？

白领求职调查报告：全国平均招聘薪酬7599元

猫头鹰训练课起飞瞬间变身“小飞象”(图)

波兰知名爵士乐团在杭演出促中国中东欧国家文化交流

贵州：突破电视机“方寸” 实现“数字化生活”

中华推荐

小编推荐

郑州一医院2天接收10位封控区产妇

你知道一次无偿献血，你的身体会发生哪些变化吗？

赵露思后援会发文揭露生病始末重病吸氧不让请假

今日热点

《乙巳年》特种邮票首发设计灵感揭秘

近期儿童呼吸道感染多是流感病毒家长该注意什么

尹锡悦逮捕令即将失效舆论聚焦后续行动

阿尔法狗再进化：自学3天就100:0碾压李世石版旧狗

相关报道:

为您推荐：

中华推荐

小编推荐

今日热点

《乙巳年》特种邮票首发 设计灵感揭秘

近期儿童呼吸道感染多是流感病毒 家长该注意什么

尹锡悦逮捕令即将失效 舆论聚焦后续行动

《乙巳年》特种邮票首发设计灵感揭秘

近期儿童呼吸道感染多是流感病毒家长该注意什么

尹锡悦逮捕令即将失效舆论聚焦后续行动