正文

价值连城知名深度强化学习pieterabbeel的采访给机器学习深度学习和机器人学研究者从业者的建议

架构师易筋  架构师易筋  2022-12-06  421

关键词：

在这里插入图片描述

非常感谢你 Pieter 今天来参加访谈我想很多人觉得你是一个知名的机器学习深度学习和机器人学研究者我希望能让观众们听一听你的故事你是如何最终走上了现在的道路的呢?

这是个好问题其实如果你问14岁的我这个问题我要立志做什么问题的答案大概不会是这些实际上在当时我认为成为一名专业篮球运动员应该不错但我觉得没有能力实现那个目标我感觉对机器学习来说这是一件幸事因为篮球的打算没能实现对篮球之梦没有实现虽然打篮球本身非常有乐趣但是把它当成事业却行不通我在学校时真正喜欢的是物理和数学所以在此基础之上学习工程就是很自然的事情因为工程就是物理和数学在真实生活中的应用事实上在我本科修完电气工程之后我不太确定接下来应该做什么因为事实上任何工程学科都我都有兴趣像是理解世间万物是如何工作的就很有趣尝试去建造一些东西也是有趣的在某种意义上人工智能是最有意思的因为看起来它能够从某种方式上对所有的领域都提供一些帮助同时它看起来也更接近万物的核心你得去思考如何让机器思考也许这一点比选择任何具体领域都更接近万物的核心

我曾说过人工智能就是新时代的电力这么听起来你早在14岁时就更早地提出那种想法了在过去几年中你在深度强化学习中做了许多工作当中发生了什么? 为什么深度强化学习突然间就火了呢?

在我从事深度强化学习的工作之前我做过很多强化学习的工作当然正是与你和Durrant在斯坦福一起完成的我们曾经研究过直升机自动飞行之后在伯克利我和我的学生研究了如何让机器人学会叠衣服这些工作的特点是一种机器学习技法它能够使得之前不可能的一些事情成为可能另一方面学习还需要辅以许多领域知识才能成功这很有意思因为收集所需要的那些领域知识这个过程很有趣但是同时想要在新任务上取得不错的效果这一步就会变得很费时总之你既需要领域知识也需要机器学习的专业知识

在我看来深度学习是起于2012年多伦多大学的Geoff Hinton研究组在ImageNet数据集上的突破 AlexNet的结果表明一夜之间为某个专门领域完成监督学习所需的工程努力就突然可以减少很多在AlexNet中机算机视觉方面上的专门工程设计是很少的这件事让我认为我们需要重新审视强化学习从同样的视角去审视强化学习来试试看我们是否能提出一种深度强化学习方法就像深度监督学习一样完成同样有趣的事情

所以听起来你比别人更早看到深度强化学习的潜力那么现在展望一下未来你觉得接下来的会怎样呢? 你对于未来深度强化学习的发展趋势有何预测呢?

我认为深度强化学习中有趣的地方在于在某种意义上深度强化学习比深度监督学习存在更多问题监督学习的主要内容是习得从输入到输出的映射而在强化学习中甚至存在着这些数据究竟从哪里来? 这个观念所以那就是探索(exploration)问题而有了数据又如何做信用分配(credit assignment)呢? 你如何弄清楚之前哪个动作导致了之后的反馈呢? 再接下来还有安全问题当你让一个系统去自动收集信息时大多数情况下其实是蛮危险的想象一家自动驾驶汽车公司说 “我们打算运行深度强化学习方法” 那就很有可能导致他们的车还没学到什么就惹出不少的车祸吧

你需要一个这个方面的反例是吗你确实需要一些反例啊

是的不过也需要正面的例子的我认为在深度强化学习中还有为数不少的挑战主要是在于明白让方法起作用的细节上深度是指表现(representation)这一层而强化学习这部分本身依然有很多问题我的感觉是随着深度学习的发展强化学习中的一部分不管怎么说已经很大程度上解决了也就是表现(representation)的部分比如说如果数据中有一种模式那我们大概可以用一个深层网络来概括并表现它但是如何把这个模式解构成不同的部分
在强化学习中还是一个大挑战我认为大的挑战包括如何使得系统能够在长的时间视野(time horizon)上进行推理

目前我认为在深度强化学习中很多的成功的算法都仅限于很短的时间视野在那些问题中如果模型在五秒的时间视野内表现良好那就表示在整个问题中表现都良好了而五秒钟的视野却是很不同于一天长的视野的或者说很不同于作为一个机器人或某个软件主体的生存一生的能力的我认为在这里有许多挑战

我认为关于安全就有许多挑战比如说如何安全地学习以及如何在已经学习得比较好的情况下继续学习? 所以如果要再举一个例子的话举一个很多人都熟悉的例子自动驾驶汽车如果自动驾驶汽车的表现想要超越人类的话假定人类驾驶员每三百万小时才卷入一场恶性交通事故那么当你已经和人类驾驶员一样好时想要获得负面样本就要花很长时间但你的目标却是让自动驾驶汽车比人类驾驶员更优秀所以到那个时候得要有意思的样本才能让系统继续改善而那种数据的获得就会变得非常非常困难关于探索问题的这部分有许多相关的挑战但其中我最感到兴奋的一件事情是看看我们能否退后一步转而学习强化算法本身强化学习算法很复杂信用分配很复杂探索也是很复杂的所以可能就像在监督学习中深度学习可以替代很多领域专家的知识

或许我们也能通过学习来得到程序得到一个强化学习程序来完成所有的事情而不是由我们来设计其中的细节只是学习奖励函数还是学习整个程序?

这里要学习的是整个强化学习程序也就是想像一下你有一个强化学习程序无论是什么样的程序然后你丢给它一个问题看它能用多少时间完成学习然后你看到嗯这用了一些时间然后你让另一个程序来修改这个强化学习程序在修改之后再看它学习的速度有多快如果它学习得更快那这个修改就是好的你可以保留它再在其上提升嗯明白了这可是个很远大的目标我觉得有一件事情与之关系很大也就是我们现在能动用的计算力因为这相当于把强化学习算法放在循环内层而现在强化学习算法却是最终目标所以我们的计算力越强的话那就越有可能能够把类似强化学习这种任务放进某个更大的问题的内层循环当中去运行

从你14岁时开始你已经在人工智能领域工作了20多年了告诉我一些你对人工智能在这些年中取得的进化的理解吧

当我开始接触人工智能时我觉得它很有意思因为当时恰逢我来斯坦福念硕士所以我得以与一些标志性人物交谈比如John McCarthy 他对人工智能有非常不同的见解在2000年时他做的事情与大多数人不一样然后我还得以与Daphne Koller聊过我想Daphne的思考塑造了我对于人工智能许多最初的想法她的人工智能课程和概率图模型课程当时让我觉得很着迷的是就是一个简单的许多随机变量的组合分布然后在一些变量上加上限定条件并在其它变量上做出结论就能让你获得如此丰富的结论只要它是可被计算的能让图模型的计算变得可行着实是一项挑战从那以后当我开始念博士时你来到了斯坦福我想你给了我一个非常好的在实践中检验的机会让我知道那并不是评价一项工作的正确标准正确的标准应当是看到你正做的工作与它能真正对现实产生的影响之间的联系应该看你能带来多大改变而不是你的工作中的数学技巧对吧

太令人惊讶了我没想起来我不记得了

是的这个问题其实是人们经常问的问题中的一个就是吴恩达的建议中有哪一句令你至今记忆犹新那就是你要看到工作与现实影响之间的联系

你目前的人工智能生涯相当成功并且成功还在继续所以对于那些正在收看视频的观众们如果他们也想进入或从事人工智能方面的工作你有什么给他们的建议吗?

我想现在是进入人工智能领域的非常好的时间你看人们对这个领域的需求是如此之高有这么多的工作机会有这么多可做的事情无论是研究还是创立新公司还是其它所以我会说是的决定去从事人工智能绝对是明智的决定有许多东西你可以自学无论你还在学校或是不在学校有许多在线课程比如说您的机器学习课程还有比如说 Andrej Karpathy的深度学习课程在网上都有视频这都是很好的开始学习的方式伯克利也有一门深度强化学习课程那门课程所有的课件也都能在网上看到所以这些都是很好的开始学习的地方

我认为有一件非常重要的事情就是确保你亲自去动手做不光是读文章或看视频而是要动手尝试现在有很多深度学习框架比如Tensorflow 比如Chainer, Theano, PyTorch 等等无论你喜欢什么都能够很容易地开始很快搭建起一个能运行的东西亲自动手练习对吗? 通过实现来看什么方法行得通什么行不通上个星期在Mashable网站上有篇文章讲的是英国的一个16岁的少年在Kaggle比赛中名列前茅文章中说他就只是开始去着手开始学习了在网上找到了素材所有东西都自学而没有参与任何正式的正儿八经的课程一个16岁的少年都能在Kaggle比赛中名列前茅所以自学当然是可能的我们活在一个好时代人们想学习就能学习

完全正确我想你经常被问到的一个问题是如果某人想进入人工学习机器学习或深度学习领域他们应当申请一个博士项目还是应该去大公司找一个工作呢?

我觉得很大一部分应该取决于你能得到多少的指导在博士项目中你的指导能得到有力保证因为教授也就是你的导师他的职责就是密切照看你的研究做一切他们能做的事情去从某种意义上塑造你助你在想做的任何事情上变得更强比方说人工智能所以总是有一个专注于你的人有时你还会有两个导师他们的工作就是指导也就是他们身为教授的原因他们大多数当教授最喜欢的一点是能够帮助塑造学生增进他们的才能不过这不意味着在公司就不可能学习因为有很多公司有很好的职业导师他们热爱的事情是教育人加强人等等区别在于相比博士项目这种指导的保障并不是那么强因为博士项目的关键之处就是你是想学习的并且有一个人帮助你学习所以确实要看具体公司和具体博士项目的当然是的所以关键还是自学能学到的也是相当之多但如果有更有经验的人相助你的进步速度能快得多特别是当这样的人将花费时间加速你的进步作为他们的责任时所以你已经是深度强化学习领域中最有名的带头人之一

所以有什么事情是深度强化学习已经能做得很好了的呢?

我想如果你去看一看深度强化学习的成功案例你会觉得非常非常吸引人比如说通过观察显示的像素来玩雅达利(Atari)游戏通过处理这些像素也就是一堆数字像素以某种方式处理变成操纵杆操作另一个例子是我们在伯克利完成的一些工作我们模拟了一个机器人它悟出了走路技巧我们给它的回报只是简单的一直向北走走越远越好对地面的施力用得越小越好然后机器人就以某种方式做出决策发明了走路/跑步的动作而甚至并没有任何人告诉它走路和跑步是什么样的或者把儿童故事片段给机器人让它学习如何把片段组合起来把一段内容与故事开头匹配起来等等之类的所以我认为在这所有事情中有意思的是从原始感官输入就能学习出最终的控制动作比如说输出马达的力矩但在同一时间所以有意思的是你只需要有一个算法比如说通过推力轨迹优化算法你能让机器人学习跑步让机器人学习站立你可以在教完双腿机器人之后把它换成一个四腿机器人你可以用同样的强化学习算法让机器人学习跑步所以强化学习算法本身并没有变化它是非常通用的

这对雅达利游戏也是适用的对于每一个游戏的深度Q-网络(DQN)是一样的不过还有一些前沿研究方向上的东西是现在尚不可能的目前它只能从头开始学习每个任务这并不差但是如果能重新利用之前所学的知识就更好了这样对下一个任务的学习能够完成得更快那还是前沿研究题目目前还不可能实质上它每次都是从头开始学习的

那你认为还要多少时间深度强化学习就会被布署在我们身边的机器人里这些正逐渐进入我们的世界的机器人里

我认为在实践中比较实际的情况是它会从监督学习的方式开始行为模仿也就是还是由人类进行工作我认为有许多商业化部署会是这样的就是在后台有许多人类在工作比如Facebook Messenger助手这个助手可以在后台有一个真人在幕后做许多工作而机器学习技法则是对人类进行匹配为人类提供行动建议给人类少数选项以供选择这样人就只要点选就行了然后当时间渐长机器在任务上也表现良好你就会开始将强化学习融合进来给机器提出实际目标并不只是与后台的人类进行匹配而是给予带有奖励的目标

比如这两个人要多久才能商定好会议时间或者他们预订一张机票要多少时间或者其它能用时间衡量的事情或者他们的满意程度如何? 这可能需要利用自助法(bootstrap) 从大量对人类的模仿中明白这些任务如何达成

所以听起来行为模仿就是先用监督学习来模仿人类做的无论什么事情之后渐渐地用强化学习来让机器从更长时间视野上去思考这样的总结合适吗?

我觉得可以的因为从头开始的强化学习观察起来相当有意思非常引人入胜没有太多东西比这有意思能胜过看一个强化学习机器人从零开始开始学会新本领只是它很耗时而且并不总是安全的

非常感谢非常有意思能一同交谈我感到非常荣幸

谢谢你Andrew 感谢你邀请我也非常感激

参考

https://www.coursera.org/learn/neural-networks-deep-learning/lecture/eqiZZ/pieter-abbeel-interview

强化学习价值函数的近似表示与deepq-learning(代码片段)

...规模比较小的强化学习问题求解算法。今天开始我们步入深度强化学习。这一篇关注于价值函数的近似表示和DeepQ-Learning算法。　　　　Deep Q-Learning这一篇对应Sutton书的第11章部分和UCL强化学习课程的第六讲。1.为何需要价值... 查看详情

深度强化学习与深度q网络

...实例。本节笔者将在上一讲的基础上，将强化学习回归到深度学习的主题上。深度强化学习强化学习+深度学习的一个结果就是形成了深度强化学习这样的新领域，本节我们先简单介绍一下深度强化学习，然后来看一下深度神经... 查看详情

深度学习和深度强化学习的区别

强化学习和深度学习是两种技术，只不过深度学习技术可以用到强化学习上，这个就叫深度强化学习.1.强化学习其实也是机器学习的一个分支，但是它与我们常见的机器学习不太一样。它讲究在一系列的情景之下，通过多步恰当... 查看详情

深度强化学习policygradients模型解析，附pytorch完整代码(代码片段)

大家好，今天和各位分享一下基于策略的深度强化学习方法，策略梯度法是对策略进行建模，然后通过梯度上升更新策略网络的参数。我们使用了OpenAI的gym库，基于策略梯度法完成了一个小游戏。完整代码可以从... 查看详情

强化学习、深度学习和深度强化学习有啥区别？

】强化学习、深度学习和深度强化学习有啥区别？【英文标题】：What\'sthedifferencebetweenreinforcementlearning,deeplearning,anddeepreinforcementlearning?强化学习、深度学习和深度强化学习有什么区别？【发布时间】：2018-11-0515:46:20【问题描述... 查看详情

理解策略和价值函数强化学习

】理解策略和价值函数强化学习【英文标题】：Understandingpolicyandvaluefunctionsreinforcementlearning【发布时间】：2017-05-2411:42:18【问题描述】：你有一个策略，它实际上是我所有状态的动作概率分布。价值函数决定了获得最高回报的最... 查看详情

并行深度强化学习

】并行深度强化学习【英文标题】：parallelizeddeepreinforcementlearning【发布时间】：2022-01-1706:55:18【问题描述】：我尝试在低速环境中运行DRL，而顺序学习让我感到不安。有没有办法加快学习过程？我尝试了一些离线深度强化学习... 查看详情

深度强化学习技术概述

在本文中详细介绍了深度强化学习技术，将强化学习分成三大类（value-based算法、policy-based算法及结合两者的AC算法）来进行介绍。首先，从数学理论角度介绍了强化学习；接着，从不同适用方向对两类深... 查看详情

深度强化学习ddpg模型解析，附pytorch完整代码(代码片段)

大家好，今天和各位分享一下深度确定性策略梯度算法(DeterministicPolicyGradient，DDPG)。并基于OpenAI的gym环境完成一个小游戏。完整代码在我的GitHub中获得：https://github.com/LiSir-HIT/Reinforcement-Learning/tree/main/Model1.基本原理深... 查看详情

深度强化学习泡沫及路在何方？

一、深度强化学习的泡沫 2015年，DeepMind的VolodymyrMnih等研究员在《自然》杂志上发表论文Human-levelcontrolthroughdeepreinforcementlearning[1]，该论文提出了一个结合深度学习（DL）技术和强化学习（RL）思想的模型DeepQ-Network(DQN)，在Atari... 查看详情

深度强化学习-duelingdqn算法原理与代码(代码片段)

...QN算法还不太了解的话，可以参考我的这篇博文：深度强化学习-DQN算法原理与代码，里面详细讲述了DQN算法的原理和代码实现。本文就带领大家了解一下DuelingDQN算法，论文链接见下方。论文：http://proceedings.mlr... 查看详情

深度学习简介

深度学习是机器学习的一种，深度学习是实现机器学习算法的技术，深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习算法有卷积神经网络（cnn），循环神经网络（rnn）等，卷积... 查看详情

cp1934-麦子深度学习深入与强化

麦子深度学习第三阶段深入与强化随笔背景：在很多时候，很多入门不久的朋友都会问我：我是从其他语言转到程序开发的，有没有一些基础性的资料给我们学习学习呢，你的框架感觉一下太大了，希望有个循序渐进的教程或者... 查看详情

深度强化学习(代码片段)

强化学习有两个基本概念：环境（即外部世界）和智能体（即你正在编写的算法）。智能体向环境发送行为，环境回复观察和奖励（即分数）。强化学习其实也是机器学习的一个分支，但是它与... 查看详情

深度强化学习 - CartPole 问题

】深度强化学习-CartPole问题【英文标题】：DeepReinforcementLearning-CartPoleProblem【发布时间】：2021-08-1323:03:57【问题描述】：我尝试实现最简单的深度Q学习算法。我认为，我已经正确地实施了它，并且知道深度Q学习与分歧作斗争，... 查看详情

复现深度强化学习论文经验之谈

近期深度强化学习领域日新月异，其中最酷的一件事情莫过于OpenAI和DeepMind训练智能体接收人类的反馈而不是传统的奖励信号。本文作者认为复现论文是提升机器学习技能的最好方式之一，所以选择了OpenAI论文《DeepReinforcementLearn... 查看详情

强化学习|多智能体深度强化学习(博弈论—＞多智能体强化学习)

1简介近年来，AlphaGo代表的“决策智能备受关注”，即将来临的物联网时代，群体决策智能将成为另一个研究重点。说到群体决策智能，就免不了提及博弈论。博弈论研究的是多个智能体的理性... 查看详情

keras深度学习实战（42）——强化学习基础(代码片段)

Keras深度学习实战（42）——强化学习基础0.前言1.强化学习基础1.1基本概念1.2马尔科夫决策过程1.3目标函数2.在具有非负奖励的模拟游戏中获取最佳动作2.1问题设定2.2模型分析2.3模型构建与训练3.在模拟游戏中获取最佳动... 查看详情