当然,这只是开始。在搭建了一个可以下围棋的神经网络之后,工程师们开始让它自己跟自己对局。AlphaGo每天跟自己(不同的分身)下上几十万盘,在不断的试错中自我完善、自我进化,并累积3000万手的数据库。这个系统叫“强化学习”,灵感源自动物大脑中的神经递质多巴胺奖励系统。在这个算法里,机器得到的唯一的指示就是要赢,就像一只未经训练的小狗,先被编程好去寻找奖励,但并不指点它怎么得到奖励。它的第一步是随机的,对游戏的逻辑一无所知。但通过哪些能得分、哪些不能得分,它逐渐建立起得分的原理。 “强化学习”算法给了AlphaGo一个唯一的强烈动机——赢。所以,它总是在不断地计算胜率,它下的每一步都是在试图
03-10 21:57
0人推荐
0人转推