dqn(deepq-learning)入门教程(零)之教程介绍

xiaohuiduan xiaohuiduan     2023-03-16     200

关键词:

简介

DQN入门系列地址:https://www.cnblogs.com/xiaohuiduan/category/1770037.html

本来呢,在上一个系列数据挖掘入门系列博客中,我是准备写数据挖掘的教程,然后不知怎么滴,博客越写越偏,写到了神经网络,深度学习去了。在我写完数据挖掘博客之后,我又不知道在哪里(YouTube or B站杀我)看到了有人使用CNN网络玩飞翔的小鸟(Flappy Bird)的游戏,当时我觉得,emm,竟然使用CNN就可以玩游戏,有意思,可以一试,然后发现,要用到DQN,再然后,又发现其是强化学习的知识,然后,就入坑了。

技术图片

别人的学习流程是强化学习——>Q-learning——>DQN——>??Fly,我学习流程TM是 ??Fly——>CNN——>DQN——>Q-learning——>强化学习

当然,本教程还是会按照"强化学习——>Q-learning——>DQN——>??Fly"的流程来,不然反着来谁受得了。

技术图片

至于为什么教程名叫做DQN入门教程而不是强化学习入门博客,是因为该系列侧重点不是强化学习,而是DQN。因此,一切的目标都是朝着DQN向前。

教程目标

该系列博客仍然定位为入门博客,因此不会涉及详细对强化学习的各个方面都进行介绍,但是不会影响从入门到入土的连贯性。至于为什么定位为入门博客:1. 博主自己也是刚学,并且也不是系统性的学习(因为要准备考研,没有时间),所以自己的知识面也不够。 2. 实际上只要我们能够入门,知道什么是强化学习,什么是DQN,能够自己写一个DQN的模型,然后得到结果就??了。至于更深入的内容,都入门了,还不能够自己修炼吗?同样,这也是我的学习方法:先知道能够做什么,然后做出来(并不是简单的copy代码,还是需要知道为什么这样做),然后再深入的来了解怎么做,怎么做的更好。

该教程涉及的内容如下:

  • 强化学习简介
  • 马尔科夫决策过程
  • Q-learing算法
  • DQN
  • Nature DQN

最终会完成2个有意思的小项目:

  1. MountainCar-v0

    通过DQN训练之后,小车能够自动移动到旗帜的地方。

    技术图片

  2. Flappy Bird

    通过DQN训练之后,小鸟能够自动玩游戏。

技术图片

如果有任何问题,欢迎mail我。

dqn(deepq-learning)入门教程之dqn介绍

简介DQN——DeepQ-learning。在上一篇博客DQN(DeepQ-learning)入门教程(四)之Q-learningPlayFlappyBird中,我们使用Q-Table来储存state与action之间的q值,那么这样有什么不足呢?我们可以将问题的稍微复杂化一点了,如果在环境中,State很... 查看详情

1.deepq-learning

...感知能力,因此延展出深度强化学习,最经典的就是DQN(DeepQ-Learning)。DQN2013DQN的主要思想是训练CNN拟合出Q-Learning算法,以此让智能体在复杂的RL环境中从原始视频数据学到成功的控制策略。实现:用参数( heta)的CNN近似最优Q-values[... 查看详情

强化学习与deepq-learning进阶之naturedqn(代码片段)

    在强化学习(八)价值函数的近似表示与DeepQ-Learning中,我们讲到了DeepQ-Learning(NIPS2013)的算法和代码,在这个算法基础上,有很多DeepQ-Learning(以下简称DQN)的改进版,今天我们来讨论DQN的第一个改进版NatureDQN(NIPS2015)。... 查看详情

deepq-learning的发展及相关论文汇总(dqnddqn,priorityexperiencereplay等)

         在DQN提出之前,强化学习与神经网络的结合遭受着不稳定和发散等问题的困扰。DQN做了以下改进:    (1)使用memoryreplay和targetnetwork稳定基于DL的近似动作值函数;    (2)使用reward... 查看详情

深度学习与图神经网络核心技术实践应用高级研修班-day4深度强化学习(deepq-learning)

深度强化学习(DeepQ-learning)1.深度强化学习简介2.DQN算法解析3.DQN在游戏中的应用4.代码讲解4.1数据预处理4.2网络结构4.3Exploration&Exploitation4.4经验回放机制4.5经验存储4.6经验回放1.深度强化学习简介传统的强化学习通常... 查看详情

dqn强化学习

...Tensorflow的100行DQN代码我制作的DQN动画简介我的DQNTensorflow教程我的强化学习教程PyTorch官网论文 PlayingAtariwithDeepReinforcementLearning要点Torch是神经网络库,那么也可以拿来做强化学习,之前 查看详情

pytorch-21强化学习(dqn,deepqlearning)教程(代码片段)

要查看图文并茂的教程,请移步:http://studyai.com/pytorch-1.4/intermediate/reinforcement_q_learning.html本教程演示如何使用PyTorch在OpenAIGym的手推车连杆(CartPole-v0)任务上训练深度Q-学习的智能体(DeepQLearning(DQN)agent 查看详情

教你从头到尾利用dqn自动玩flappybird(全程命令提示,纯小白教程)

...从头到尾利用DQN自动玩flappybird(全程命令提示、纯小白教程)作者:骁哲、李伟、July说明:本教程主要由骁哲编写,且最后跑的是yenchenlin的github开源demo。如遇问题欢迎加Q群交流:472899334。时间:二零一六年十月十三日。前言&... 查看详情

5.值函数近似——deepq-learning

前4篇,我们都是假设动作值函数Q是一张大表,状态-动作对都是一一对应的。这对于现实应用状态动作空间很大的情况来说,计算量就非常的大,甚至根本无法求解这样一张大表。因此,我们引入状态值函数v,由参数$fw$描述,... 查看详情

learningroadmapofdeepreinforcementlearning

1.知乎上关于DQN入门的一个系列文章:DQN从入门到放弃2.入门Paper2.1 PlayingAtariwithDeepReinforcementLearningDeepMind在NIPS2013上发表的一文,在该文中第一次提出DeepReinforcementLearning这个名称,并且提出DQN(DeepQ-Network)算法,实现从纯图... 查看详情

深度强化学习(deepreinforcementlearning)入门:rlbase&dqn-ddpg-a3cintroduction

转自https://zhuanlan.zhihu.com/p/25239682过去的一段时间在深度强化学习领域投入了不少精力,工作中也在应用DRL解决业务问题。子曰:温故而知新,在进一步深入研究和应用DRL前,阶段性的整理下相关知识点。本文集中在DRL的model-free... 查看详情

pytorch-21强化学习(dqn,deepqlearning)教程(代码片段)

要查看图文并茂的教程,请移步:http://studyai.com/pytorch-1.4/intermediate/reinforcement_q_learning.html本教程演示如何使用PyTorch在OpenAIGym的手推车连杆(CartPole-v0)任务上训练深度Q-学习的智能体(DeepQLearning(DQN)agent)。任务(Task)... 查看详情

dqn(代码片段)

...rcementLearning" https://arxiv.org/abs/1312.5602李宏毅"强化学习教程" http://speech.ee.ntu.edu.tw/~tlkagk/courses.htmlDavidSilver“强化学习教程”http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html莫烦代码“强化学习教程”https://morvanzhou.g... 查看详情

强化学习价值函数的近似表示与deepq-learning(代码片段)

...步入深度强化学习。这一篇关注于价值函数的近似表示和DeepQ-Learning算法。    Deep Q-Learning这一篇对应Sutton书的第11章部分和UCL强化学习课程的第六讲。1.为何需要价值函数的近似表示    在之前讲到了强化学习求解... 查看详情

强化学习-q-learningsarsa和dqn的理解

本文用于基本入门理解。 强化学习的基本理论:R,S,A这些就不说了。 先设想两个场景: 一。1个5x5的格子图,里面有一个目标点, 2个死亡点二。一个迷宫,  一个出发点, 3处分叉点,5个死角,1条活... 查看详情

稳定的基线:DQN 表现不佳?

】稳定的基线:DQN表现不佳?【英文标题】:StableBaselines:DQNNotperformingproperly?【发布时间】:2021-02-1713:47:08【问题描述】:我在使用DQN作为对角线和正弦波作为价格波动时遇到问题。当价格上涨时,会有奖励,并且在图表中显示... 查看详情

004-dqn

什么是DQN今天我们会来说说强化学习中的一种强大武器,DeepQNetwork简称为DQN.GoogleDeepmind团队就是靠着这DQN使计算机玩电动玩得比我们还厉害.  强化学习与神经网络 之前我们所谈论到的强化学习方法都是比较传统的方式,... 查看详情

初始dqn程序所遇到的问题

初始DQN程序所遇到的问题  最近在看DQN,但是想试试别人放出来的code,但是发现,额,各种问题,在此记录,以备不时之需!   问题1. [email protected]:~/Documents/DRL/DQN-tensorflow-master$pythonmain.py--env_name=Breakout-v0--is_trai... 查看详情