论文《Masteing the game of Go without human knowledge》解读

原作者: [db:作者] 来自: [db:来源] 收藏邀请

1、整体解读

AlphaGo Zero中使用的是强化学习方法，使用的深度神经网络记为 $f_{θ}$ (其中 $θ$ 是网络的参数)。网络的输入是棋盘状态 $s$ ( $s$ 中表示了当前玩家落子的信息，对手的落子信息，棋盘最后一步落子的信息，当前的棋盘转态谁是先手等信息，即棋盘的历史信息和当前信息)。网络的输出是 $(p, v)$ ,其中 $p$ 是当前玩家在局面 $s$ 状态下，即将要选择落子到每一步的概率，所以 $p$ 是一个向量，假设局面是8*8的五子棋，则 $p$ 是长度为64的向量，而 $v$ 则是一个标量的评估值，估计当前玩家从状态 $s$ 获胜的概率， $v$ 的取值范围是 $v \in [- 1, 1]$ ，从当前玩家的角度看， $v = - 1 ， 0 ， 1$ 分别代表当前玩家输了，平局，赢了（为了方便描述，下面的解读都以8*8的五子棋作为说明实例。）值得注意的是，这个网络将策略网络（输出 $p$ 的部分）和价值网络（输出 $v$ 的部分）结合在一起而形成单一架构。该网络由许多具有批量归一化的卷积层和残余块等组成。

图.1 AlphaGo Zero的自我对弈与训练过程
如图.1所示，在每一个

s

的状态中都首先执行蒙特卡洛（MCTS）搜索得出每次即将要移动的概率

π

(

π

跟前面介绍的

p

其实意义相同，只不过

π

是MCTS输出的结果，而

p

是神经网络

f_{θ}

输出的结果)，这里的MCTS跟纯的MCTS搜索不同，它是在神经网络

f_{θ}

的指导下进行的搜索。(下面部分详细讲解)。

图1.a.Self-Play表示的过程如下：
假设 $s_{1}$ 是初始棋盘状态，当前玩家是1，玩家1在棋盘状态 $s_{1}$ 下准备落子，它不知道走哪一步是最佳的落子位置，所以先在 $s_{1}$ 的棋盘状态下，执行n次MCTS搜索，根据MCTS搜索得出的移动概率 $π$ 进行落子(这里 $π$ 的计算:(1)根据n次MCTS模拟对局产生的每个节点的访问次数得出概率向量p1,即访问最多的p1向量对应那个节点的概率就越大，p1中每个节点概率之和为1，(2)然后经过公式1的计算，即将每个节点的访问次数N通过公式(1)的变换在进行计算其概率,那么最终的概率是p2,如果 $τ$ 一直取值1，则p2其实就是p1，其中 $τ$ 为温度参数，控制探索的程度， $τ$ 越大，不同走法间差异变小，探索比例增大，反之，则更多选择当前最优操作(3)将p2的每个节点概率即 $p_{a}$ 进行公式(2)变换，其中在论文中 $ε = 0.25$ ， $η_{a}$ 是dirichlet分布，如公式(3)所示，这样做的目的是在一定程度上有助于覆盖到更多的局面)。当前玩家1在棋盘状态 $s_{1}$ 经过以上的执行n次MCTS搜索得出 $π_{1}$ 后，选择落子的方法就是按照概率 $π_{1}$ 的分布取出下一步移动 $a_{1}$ ，然后进入下一个棋盘状态 $s_{2}$ ，当前玩家交换为玩家2，不断重复上面步骤直到状态 $s_{t}$ 分出胜负 $z$ ，这里 $z$ 只有3种可能，赢，平局，输，分别对应1,0,-1。收集到的数据形式是 $(s_{i}, π_{i}, z)$ 。