正文

模仿并超越人类围棋手，kl正则化搜索让ai下棋更像人类，meta&cmu出品

QbitAl  QbitAl  2023-03-01  264

关键词：

晓查发自凹非寺
量子位报道 | 公众号 QbitAI

如果非要问AlphaGo有什么缺点，那就是下棋不像人类。

和AlphaGo对弈过的顶级棋手都有这种感受，他们觉得AI落子经常让人捉摸不透。

这不仅是AlphaGo的问题，许多AI系统无法解释，且难以学习。如果想让AI与人类协作，就不得不解决这个问题。

现在，来自Meta AI等机构的研究者们打造出一个能战胜人类顶级棋手、且更容易复盘棋谱的AI。

他们用人类棋谱训练AI模仿，并让后者超越了人类。

上图分别展示了该方法在国际象棋（左）、围棋（右）的表现。

纵轴为AI与原始模型对弈的胜率，横轴为AI预测人类落子位置的Top-1准确度。可以看出新的算法（绿色）在两方面都已经超过了SOTA结果（蓝色）。

像人类，还能打败人类

正所谓“鱼与熊掌难以兼得”。

AlphaGo使用的自我博弈与蒙特卡洛树搜索（MCTS），虽然练就了无比强大的AI，但它的下棋更像凭直觉，而非策略。

如果要让AI更像人类，更应当使用模仿学习（Imitative learning），但是这却很难让AI达到人类顶级棋手水准。

Meta AI和CMU的研究者发现，加入了KL正则化搜索后，一切都不一样了。AI的落子策略变得与人类棋手更加相似，这就是他们提出的新方法。

在国际象棋、围棋和无合作的博弈游戏中，这种方法在预测人类的准确性上达到了SOTA水平，同时也大大强于模仿学习策略。

作者选择了遗憾最小化算法（regret minimization algorithms）作为模仿学习的算法，但是非正则化遗憾最小化算法在预测人类专家行为方面的准确性较低。

因此作者引入了新的方法，引入了与搜索策略和人类模仿学习的锚策略之间的KL散度成正比的成本项。此算法被称为策略正则化对冲，简称piKL-hedge。

piKL-hedge的执行步骤如下：

在下图中，piKL-Hedge（绿色）可以生成预测人类博弈的策略，其准确度与模仿学习（蓝色）相同，同时性能强1.4倍。

另一方面，在实现更高预测准确性的同时，piKL-Hedge优于非正则化搜索（黄色）的策略。

作者团队简介

本文共有三位共同一作，分别是来自Meta AI的Athul Paul Jacob、David Wu，以及CMU的Gabriele Farina。

Athul Paul Jacob同时也是MIT CSAIL的二年级博士生，从2016年到2018年，他还在Mila担任访问学生研究员，在Yoshua Bengio手下工作，与Bengio共同发表了多篇论文。

David Wu是Meta AI的国际象棋和围棋首席研究员。

Gabriele Farina是CMU一名六年级博士生，曾是2019-2020年Facebook经济学和计算奖学金的获得者，他的研究方向是人工智能、计算机科学、运筹学和经济学。

另外，Gabriele Farina还参与过著名的CMU德州扑克AI程序Libratus的开发。

论文地址：
https://arxiv.org/abs/2112.07544

ai无敌？人类的反击静悄悄。

...随着相关论文的发布和国内外各个技术团队的跟进，超越顶尖人类棋手的围棋AI已经越来越多，开源版，单机版，任何人都可以用一台稍微配置好一点的个人电脑，部署一套成熟的开源围棋AI代码，实现吊... 查看详情

游戏npc不再是站桩工具人，ai凭对话内容生成3d动作，真实度超越人类｜网易新研究...

...量子位|公众号QbitAI你有没有看过油管很火的外国小姐姐模仿游戏NPC视频？△来自YouTube@Locznikiofficial这僵硬的姿势、空洞的眼神、面瘫的表情，让游戏玩家们直呼DNA动了！如果你也苦于此很久了，现在，网易... 查看详情

7岁男孩被ai机器人折断手指，仅因下棋太快？(代码片段)

...机器人，人们第一个想起的往往是AlphaGo——那个完胜人类顶尖棋手、60战全胜的史上最年轻围棋九段。不过AlphaGo并非实体机器人，对战过程中需由执子人根据电脑程序上AlphaGo的落子代替其在真实棋盘上对弈。由于落子双... 查看详情

ai人工智能：在生活变难之前，先让自己变强！

...级围棋棋手李世石后，人们开始担心人工智能机器人是否超越了人类智慧。之后围棋天才柯洁输给AlphaGo、AI入侵华尔街引发裁员狂潮、京东黑科技无人超市面世等等诸如此类的消息屡屡登上热搜榜单，人查看详情

模仿学习与强化学习的结合（原理讲解与ml-agents实现）(代码片段)

简介模仿学习是强化学习的好伙伴，使用模仿学习可以让智能体在比强化学习短得多的时间内得到与人类操作相近的结果，但是这种做法并不能超越人类，而强化学习能够得到远超人类的智能体，但训练时间往往... 查看详情

关于alphago

很多人说，AlphaGo下围棋超越了人类，并不能说明人工智能怎么样，因为人类造了汽车，人类跑不过汽车，人类也没觉得不正常。但这个类比是不恰当的，这根本是不同的概念，因为：第一，人类造汽车，就是为了速度，如果速... 查看详情

首次超越人类！“读图会意”这件事，ai比你眼睛更毒辣|达摩院

金磊发自凹非寺量子位报道|公众号QbitAI在超越人类这件事上，AI又拿下一分。就在最近，国际权威机器视觉问答榜单VQALeaderboard，更新了一项数据：AI在“读图会意”任务中，准确率达到了81.26%。要知道，... 查看详情

深度学习是什么

...师卡斯帕罗夫。深蓝能算出12手棋之后的最优解，而身为人类的卡斯帕罗夫只能算出10手棋。深蓝的核心是通过穷举方法，生成所有可能的下法，然后执行尽可能深的搜索，并不断对局面进行评估，尝试找出最佳的一手。简单地... 查看详情

ai超越人类大脑，或许是场“别有用心者”的骗局

650)this.width=650;"class="aligncentersize-fullwp-image-1718"src="http://www.kjxfx.com/wp-content/uploads/2017/07/%E5%9B%BE%E7%89%874-18.png"width="580"height="326"style="border:0px;vertical-align:mid 查看详情

为什么科学家如此热衷于研发棋牌类ai？

为什么在人工智能领域，科学家总是热衷于让AI跟人类下棋，玩游戏？从简单的跳棋、五子棋，到更加复杂的中国象棋、国际象棋，以及最近非常热门的围棋和德州扑克。每次AI在某个智力游戏上成功地击败人类选手，便会让大... 查看详情

突破！阿里达摩院刷新vqa纪录，ai再次超越人类

近年来，在深度学习和大数据的支撑下，自然语言处理技术迅猛发展。而预训练语言模型把自然语言处理带入了一个新的阶段，得到了工业界的广泛关注。随着技术的发展，阿里巴巴达摩院在通用语言的基础上... 查看详情

ai自己写代码让智能体进化！openai的大模型有“人类思想”那味了

...上人类都是怎么提交更新（commit）的，然后就模仿人类程序员修改代码……最终，这个AI还成功“调教”出了个智能体机器人：没开玩笑，这种细思极恐的事情，在OpenAI最新发布的一项研究中，就真... 查看详情

deepmind用新ai超越自己：提速200倍，在所有雅达利游戏上胜过人类

羿阁发自凹非寺量子位|公众号QbitAIDeepMind又对雅达利游戏下手了！这次，他们最新推出的智能体MEME，在效果不变的前提下，比两年前的Agent57提速了200倍！Agent57，是DeepMind在2020年搞的一个智能体，史上... 查看详情

人工智能入门-课堂笔记

...采取相应操作的设备都具有AI。通过使用AI，机器可以模仿人的认知功能，深入学习和解决问题的能力。使用人工智能的一个常见例子，是让设备具有扫描功能并且可以解释其物理环境，这样一来，他们就可以... 查看详情

ai的胜利，人类的荣耀

...打败了自己，我确信，以后在越来越多的领域，AI将全面超越人类。那么将来人工智能是不是会把人类给废了呢？恐怕现在谁也无法给出答案。但我想，假定有那么一天，这个过程应该还很查看详情

别以为ai只会下棋，ai手机正在带来一场颠覆性革命

...时间，AI的狂风被再次掀起。但我们都知道，AI远不止会下棋这么简单。特别是在互联网创新科技成果遍地开花的时代，AI正在改变各个行业。在AI机器人领域，AlphaGo见证了人工智能的每一个阶段性拔高，并正在开启智能家居时代... 查看详情

轻松理解人工智能机器学习与深度学习的关系

...短的定义来介绍。?人工智能意味着让计算机以某种方式模仿人类行为。?机器学习是人工智能的一个子集，它包括使计算机能够从数据中找出问题并交付人工智能应用程序的技术。?与此同时，深度学习是机器学习的一个子集，它... 查看详情

《时代》专访chatgpt我还有很多局限，但人类应准备好应对ai

...计算机科学家艾伦·图灵（AlanTuring）设计了一种被他称为模仿游戏的测试：计算机程序能否让人相信，人类是在和另一个人而不是一台机器对话？众所周知，图灵测试通常被认为是一种判断计算机是否能够真正“思考”的测试。... 查看详情

正文