深度强化学习curriculum-guidedhindsightexperiencereplay读后感

zhangshengdong      2022-04-24     487

关键词:

导读

看任何一个领域的文章,一定要看第一手资料。学习他们的思考方式,论述逻辑,得出一点自己的感悟。因此,通过阅读paper,来提升自己对于这个领域的感性和理性认识。如少年时,玩war3电子竞技一般。练习一个种族,找寻突破点。

文章原文:https://ai.tencent.com/ailab/zh/paper/detial?id=329

看到这篇文章的title是:Curriculum-guided Hindsight Experience Replay。可能一下会犯晕,但是要想到一点,万事万物是"简易"的,是一步步由简单到复杂的。"天下难事必作于易"。

  • Curriculum-guided
    是某些前辈提出来了。paper中也有如下的引用:curriculum learning [Bengio et al., 2009] and its applications [Khanet al., 2011, Basu and Christensen, 2013, Spitkovsky et al., 2009]他是借鉴人类的思想方式。如果有一个精心设计的课程可以显著提高强化学习的质量和效率。

  • Hindsight Experience Replay
    事后经验复盘(个人翻译,只为个人理解,不权威)。就像人类一样,从失败的经历中得到教训和经验,从而去修正自己的行为。这个概念也是有前辈已经提出来的,引用HER [Andrychowicz et al., 2017]

作者,是把这两种思路,进行了融合。然后加入了一些参数因子goal-proximitydiversity-based curiosity,这个可以说是作者思考的核心要点。采取像人类一般的思考策略(human-like learning strategy),对一件事物,你前期对于它的兴趣越大,那么你接近目标的可能性概率也就越高。通过这些思考,作者提出了Curriculum-guided HER (CHER)

以上是个人分析,但我觉得事物的发展,是通过思考而来的。如果我们也可以站在"巨人的肩膀之上",把A和B的思路合为一体,再加一点点C因素。构成自己的D理论。我们也可能写出顶会的paper。

目录

继续分析,paper的目录结构:

  • Abstract
  • Introduction
  • Related Work
  • Methodology
  • Experiments
  • Conclusion
    Acknowledgements
    References

可以看到,一篇paper的目录结构还是很简单易懂的。介绍一些前人的工作和算法,他们有哪些事情是可以值得借鉴的;他们有哪些是不足的;我(这里不是指我,而是作者)可以做哪些工作取弥补他们。然后我提出来的算法,在某个领域的应用比前辈们有哪些优势。通过基准测试的数据证明我的有效性。最后,得出一定的结论。

全文可以看出,作者任何一句话都不是顺便说的,没有那么多主观论断,都是有客观的引用。循序渐进,最终提出自己的思路和想法。

因此,我(这里指我)可以学到的是什么?他的逻辑思维,思考逻辑和运用的一些方法。如果我要去写的话,也得找出这些前辈们的算法中的优势和不足在哪里。

正文

我不是翻译的,而是,喜欢个人分析。转为自己的思路。如果想看原文请点击最上方。

Abstract【摘要】

提出现象:在off-policy的深入强化学习框架之下,很难在稀疏奖励(sparse matrix)之下获得有效和成功的经验。
那怎么办呢?
前人提出来了HER ,能解决一部分。但是无法把所有的失败案例做有效的复盘和统一整理。

这篇paper,提出的解决思路:
1)利用好奇心多样性驱动,来自适应性的选择这些失败的经验进行复盘。
2)选择想人类一般的思考策略,在前期阶段强制投入过多的好奇心,这样后期阶段达到goal-proximity的可能性就越大。

而这个算法作者取名为:CHER,并在具有挑战性的机器人环境中证明它这种算法有一定的提升性。

什么是off-policy?on-policy:相当于,古时候的皇帝,想了解百姓生活,要眼见为实。所以微服私访,自己去调查民情。而off-policy:就是皇帝自己待在宫中,派百官去了解百姓的民情,然后通过百官的论述做决策。这里就有百官是否可靠的问题了,和RL算法中提到的agent有异曲同工之妙。

Introduction【介绍】

  1. Deep reinforcement Learning(RL)是一个有效的框架,可以解决很多复杂的控制问题。在模拟(simulated)领域中,它可以驱动代理(这里可以比喻为皇帝的百官)去执行各种各样的有挑战性的任务。引用来自:[Mnih et al., 2015, Lillicrap et al., 2015, Duan et al., 2016].(其中括弧中的话,是我说的。主要是为了让人们理解)
  2. 为了训练可靠的代理(判断百官是否忠诚),就要设立奖惩制度(design a reward)。引用来自: [Ng et al., 1999].通过这些代理密集型的反馈(百官们积极反映社会问题),有效指导了算法的决策(皇帝做决策的时候,更符合民情)。因此,在特定环境下特定场景内效果还是不错滴。

--先写到这里,九层之台始于垒土,慢慢来,后面更新--









深度学习和深度强化学习的区别

强化学习和深度学习是两种技术,只不过深度学习技术可以用到强化学习上,这个就叫深度强化学习.1.强化学习其实也是机器学习的一个分支,但是它与我们常见的机器学习不太一样。它讲究在一系列的情景之下,通过多步恰当... 查看详情

深度强化学习技术概述

在本文中详细介绍了深度强化学习技术,将强化学习分成三大类(value-based算法、policy-based算法及结合两者的AC算法)来进行介绍。首先,从数学理论角度介绍了强化学习;接着,从不同适用方向对两类深... 查看详情

并行深度强化学习

】并行深度强化学习【英文标题】:parallelizeddeepreinforcementlearning【发布时间】:2022-01-1706:55:18【问题描述】:我尝试在低速环境中运行DRL,而顺序学习让我感到不安。有没有办法加快学习过程?我尝试了一些离线深度强化学习... 查看详情

机器学习深度学习强化学习知识脉络

统计学习方法模型  k近邻(knn):kd树朴素贝叶斯:决策树:逻辑回归与最大熵模型:SVM:CRF:   查看详情

深度强化学习 - CartPole 问题

】深度强化学习-CartPole问题【英文标题】:DeepReinforcementLearning-CartPoleProblem【发布时间】:2021-08-1323:03:57【问题描述】:我尝试实现最简单的深度Q学习算法。我认为,我已经正确地实施了它,并且知道深度Q学习与分歧作斗争,... 查看详情

深度强化学习泡沫及路在何方?

一、深度强化学习的泡沫 2015年,DeepMind的VolodymyrMnih等研究员在《自然》杂志上发表论文Human-levelcontrolthroughdeepreinforcementlearning[1],该论文提出了一个结合深度学习(DL)技术和强化学习(RL)思想的模型DeepQ-Network(DQN),在Atari... 查看详情

keras深度学习实战(42)——强化学习基础(代码片段)

Keras深度学习实战(42)——强化学习基础0.前言1.强化学习基础1.1基本概念1.2马尔科夫决策过程1.3目标函数2.在具有非负奖励的模拟游戏中获取最佳动作2.1问题设定2.2模型分析2.3模型构建与训练3.在模拟游戏中获取最佳动... 查看详情

深度强化学习(代码片段)

强化学习有两个基本概念:环境(即外部世界)和智能体(即你正在编写的算法)。智能体向环境发送行为,环境回复观察和奖励(即分数)。强化学习其实也是机器学习的一个分支,但是它与... 查看详情

是否要入坑“深度强化学习”,看了这篇论文再说!

...einforcementLearningThatMatters这篇打响DRL(DeepReinforcementLearning,深度强化学习)劝退第一枪的文章后,回来以后久违刷了一下推特,看到了这篇爆文 DeepReinforcementLearningDoesn‘tWorkYet,或可直译为深度强化学习还玩不转或意译为深度... 查看详情

cp1934-麦子深度学习深入与强化

麦子深度学习第三阶段深入与强化随笔背景:在很多时候,很多入门不久的朋友都会问我:我是从其他语言转到程序开发的,有没有一些基础性的资料给我们学习学习呢,你的框架感觉一下太大了,希望有个循序渐进的教程或者... 查看详情

复现深度强化学习论文经验之谈

近期深度强化学习领域日新月异,其中最酷的一件事情莫过于OpenAI和DeepMind训练智能体接收人类的反馈而不是传统的奖励信号。本文作者认为复现论文是提升机器学习技能的最好方式之一,所以选择了OpenAI论文《DeepReinforcementLearn... 查看详情

强化学习|多智能体深度强化学习(博弈论—>多智能体强化学习)

1简介        近年来,AlphaGo代表的“决策智能备受关注”,即将来临的物联网时代,群体决策智能将成为另一个研究重点。    说到群体决策智能,就免不了提及博弈论。博弈论研究的是多个智能体的理性... 查看详情

深度学习简介

深度学习是机器学习的一种,深度学习是实现机器学习算法的技术,深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习算法有卷积神经网络(cnn),循环神经网络(rnn)等,卷积... 查看详情

深度强化学习之:模仿学习(imitationlearning)

深度强化学习之:模仿学习(imitationlearning)2017.12.10      本文所涉及到的模仿学习,则是从给定的展示中进行学习。机器在这个过程中,也和环境进行交互,但是,并没有显示的得到reward。在某些任务上,也很难定... 查看详情

深度强化学习deepreinforcementlearning学习过程流水账

2016/10/23这篇文章和那篇三维重建的流水账一样,用来记录一些关键资料来源和发牢骚。 Python怎么学上手快,够用?神经网络怎么上手?强化学习怎么上手? 目标驱动,先去看用Python写的强化学习的代码,再去看一些实... 查看详情

深度学习与图神经网络核心技术实践应用高级研修班-day4深度强化学习(deepq-learning)

深度强化学习(DeepQ-learning)1.深度强化学习简介2.DQN算法解析3.DQN在游戏中的应用4.代码讲解4.1数据预处理4.2网络结构4.3Exploration&Exploitation4.4经验回放机制4.5经验存储4.6经验回放1.深度强化学习简介传统的强化学习通常... 查看详情

深度强化学习动手,第 7 章。无法让 tensorflow 工作

】深度强化学习动手,第7章。无法让tensorflow工作【英文标题】:DeepReinforcementLearningHandson,chapter7.Can\'tgettensorflowtowork【发布时间】:2020-04-1804:01:07【问题描述】:正在学习机器学习课程,但无法让Tensorboard工作。我已经从运行DQN... 查看详情

综述|多智能体深度强化学习

...,联系删除转载于:专知【论文标题】多智能体深度强化学习:综述Multi-agentdeepreinforcementlearning:asurvey【作者团队】SvenGronauer,KlausDiepold 查看详情