新AlphaGo有多厉害？100:0把李世乭版秒成渣 | {$randkws}热点解读从0基础的神经联网着手

来源：想望风采网 | 栏目：热点 | 2026-06-16 14:29:47

　　导读：新的AlphaGo Zero使用了一种全新的强化进修方式，从0基础的神经联网着手，与检索算力结合，不断进化改动、迭代升级。AlphaGo Zero的年初关注民生新闻各异之处在于：除了黑白棋子，没有其他人类教给AlphaGo Zero怎么下棋。而之前的AlphaGo包含些许人工设计的特征。

　　“它最后超越了我们所有预期”。

　　DeepMind团队又放惊天讯息。

　　简易地说，AlphaGo又有了重大提升。DeepMind把这个新版次的围棋AI称为AlphaGo Zero。之所以这样命名，是由于这个AI完全从零着手，自我进修下围棋，完全脱离人类知识。

　　过去其他版次的AlphaGo，都经过人类知识的训练，它们被告知人类高手如何下棋025Xbox热点而新近亮相的AlphaGo Zero使用了更多原理和算力，从0着手，使用随机招式，40天后变成围棋界的绝世高手。真真正正的自学成才。

　　新的AlphaGo Zero使用了一种全新的强化进修方式，从0基础的神经联网着手，与检索算力结合，不断进化改动、迭代升级。AlphaGo Zero的各异之处在于：

　　除了黑白棋子，没有其他人类教给AlphaGo Zero怎么下棋。而之前的AlphaGo包含些许人工设计的特征。

　　AlphaGo Zero只用了一个神经联网，而不是两个。过去AlphaGo是由“策略联网”和“价值联网”来共同确定如何落子。

　　AlphaGo Zero依赖神经联网来评估落子位置，而不使用rollouts——这是其他围棋程序使用的高效、随机游戏，热门千元机动态用来预测哪一方会获胜。

　　革新工场AI工程院副院长王咏刚用“大道至简”四个字点评新版的AlphaGo Zero。

　　上述种种，让AlphaGo Zero异常强大。

　　“人们普通觉得机器进修就是有关大资料和海量计算，但是DeepMind经由AlphaGo Zero的案例察觉，算力比计算或者资料可用性更重大”，AlphaGo团队负责人席尔瓦(Dave Silver)说明说，AlphaGo Zero的计算，比之前的AlphaGo缩减了一个数量级。

　　如上图所示，AlphaGo Zero也只用了4个TPU。

　　AlphaGo Zero到底多厉害，且看权威公开的分数单：

　　3小时后，AlphaGo Zero顺利入门围棋。

　　仅仅36小时后，AlphaGo Zero就摸索出所有基础并且重大的围棋知识，以100:0的战绩，碾压了当年击败李世乭的范丞丞相关健康养生引关注AlphaGo v18版次。

　　21天后，AlphaGo Zero达到了Master的水平。这也就是年初在网上60连胜横扫围棋界的版次。Master后来击败了柯洁。

　　40天后，AlphaGo Zero对战Master的胜率达到90%。也就是说，AlphaGo Zero变成寂寞无敌的最强围棋AI。

　　DeepMind首要作者之一的黄士杰博士归纳：AlphaGo Zero完全从零着手，初始阶段乃至会填真眼自杀。AlphaGo Zero自学而成的围棋知识，例如打劫、征子、棋形、布局先下在角等等，都与人类的围棋观念一致。

　　“间接呼应了人类几千年依赖围棋探究的价值”，黄士杰写道。

　　技术详情

　　DeepMind的新近探究成果，已然全文亮相在《自然》杂志上。这也是第二篇在《自然》杂志上发表的AlphaGo论文。

　　论文摘要

　　AI的持久目标是创造一个会进修的算力，能在特定领域中从一块白板着手，超越人类。最近，AlphaGo变成第一个在围棋游戏中打败全球冠军的程序。AlphaGo中的树检索使用深度神经联网来评估位置、挑选落子。这些神经联网用人类专家的棋谱来开展推动进修的训练，并经由自我对弈来开展强化进修。本文说明了一种仅基于强化进修的方法，除了游戏规则之外，没有人类的资料、推动或者领域知识。AlphaGo成了它自己的教师：一个被训练来预测AlphaGo自己落子挑选以及对弈结局的神经联网。这个神经联网提升了树检索的强度，提升了落子品质、增强了自我对弈迭代的能力。从一块白板着手，我们的新程序AlphaGo Zero的表现超越了人类，并以100-10击败了过去曾打败全球冠军的AlphaGo版次。

　　AlphaGo Zero的强化进修

　　上面谈及AlphaGo使用了一个神经联网，这是怎么做到的？

　　DeepMind使用了一个新的神经联网fθ，θ是参数。这个神经联网将原始棋盘表征s（落子位置和过程）身为输入，输出落子概率(p, v)= fθ(s)。这里的落子概率向量p强调下一步的概率，而v是一个标量估值，衡量当前落子位置s获胜的概率。

　　这个神经联网把之前AlphaGo所使用的策略联网和价值联网，整合成一个单独的架构。其中包含很多基于卷积神经联网的残差模块。

　　AlphaGo Zero的神经联网，使用新的强化进修算力，自我对弈开展训练。在每个落子位置s，神经联网fθ推动开展MCTS（蒙特卡洛树）检索。MCTS检索给出每一步的落子概率π。通常这种方式会选出更有效的落子方式。

　　所以，MCTS可以被看作是一个强大的策略提升operator。这个操控系统经由检索开展自我对弈，使用增强的MCTS策略确定如何落子，然后把获胜z身为价值样本。

　　这个强化进修算力的首要理念，实在策略迭代过程中，反复使用这些这些检索operator：神经联网的参数不断升级，让落子概率和价值（P,v）=fθ(s)越来越接近改进后的检索概率和自我对弈赢家（π, z）。这些新参数也被用于下一次的自我对弈迭代，让检索变得更强大。全部过程如下图所示。

　　上图阐释了AlphaGo Zero中的自我对弈强化进修。图a展示了程序的自我对弈过程。程序在从s1到st的棋局中开展自我对弈，在任意位置st，程序会用新近的神经联网fθ来执行MCTS αθ，依据MCTS计算出的检索概率at?πt挑选落子位置，依据游戏规则来确定最后位置sT，并计算出胜者z。

　　图b展示了AlphaGo Zero中的神经联网训练过程，神经联网以棋盘位置st为输入，将它和参数θ经由多层CNN传递，输出向量Pt和张量值vt，Pt强调几步之后或许的局面，vt强调st位置上当前玩家的胜率。以便将Pt和检索概率πt的相似度最大化，并最小化vt和游戏实际胜者z之间的误差，神经联网的参数θ会不断升级，升级后的参数会用到如图a所示的下一次自我对弈迭代中。

　　AlpaGo Zero中的MCTS结构如上图所示，从图a显示的挑选步骤可以看出，每次模拟都会经由挑选最大行为价值Q的边缘，加上置信区间上限U来遍历树，U取决于存储先验概率P和访问次数N。

　　图b显示，叶节点扩展和有关位置s的评估都是经由神经联网(P(s, ·)，V(s)) = fθ(s)做到的，P的向量值存储在s的出口边缘。

　　图c显示了升级行为价值Q以追踪该行为下面子树中所有评估V的平均值。

　　图d显示，检索达成后，检索概率π返回，与N1/τ成比例，其中N是从根状态每次移动的访问次数，τ是控制温度的参数。

　　从零着手的训练

　　DeepMind在论文中强调，使用了强化进修的pipeline来训练AlphaGo Zero，训练从完全随机的行为着手，并在没有觉得干预的状况下持续3天。

　　训练过程中，生成了490万盘自我博弈对局，每个MCTS使用1600次模拟，相当于每下一步思考0.4秒。下图显示了在自我对弈强化进修期间，AlphaGo Zero的表现。全部训练过程中，没有呈现震荡或者灾难性遗忘的困扰。

　　令人惊讶的是，AlphaGo Zero在训练36小时后，表现就优于击败李世乭的版次AlphaGo Lee。当年那个版次经过了数月的训练。AlphaGo Zero使用了4个TPU，而击败李世乭的AlphaGo使用了48个TPU。

　　下图就是AlphaGo Zero和AlphaGo Lee的神经联网架构较为。

年初关注民生新闻 2025Xbox热点热门千元机动态

上一篇：日式温馨恋爱冒险《丽露娅与夏夏的纯白谎言》Steam正式发售

下一篇：《辐射76》最新情报消息仍是辐射系着重剧情

《喷射战士2》玩家开挂占据天梯只为警示任天堂反外挂

2022年1月贵阳人们正在衢州景区门票免费

《论语》哲理小故事哲理典范短句

成皆周边泡温泉往那里最好成皆周边泡温泉的处所

PS4独占《战神4》4月20日发售将追加照片模式

栾川夏季有甚么好玩栾川夏季哪个景面最好玩

哲教文章100篇哲理好文戴抄十部顶级哲教巨著

茶卡盐湖骗局是如何一回事