正文

hulu机器学习问题与解答系列|第八弹：强化学习

peizhe123  peizhe123  2022-10-21  730

关键词：

答应你们的解答部分来啦！

“视频游戏里的强化学习”

场景描述

游戏是强化学习最有代表性也是最合适的应用领域之一，其几乎涵盖了强化学习所有的要素，例如环境：游戏本身的状态，动作：用户操作，机器人：程序，回馈：得分、输赢等。通过输入原始像素来玩视频游戏，是人工智能成熟的标志之一。雅达利（Atari）是20世纪七八十年代红极一时的电脑游戏，类似于国内的红白机游戏，但是画面元素要更简单一些。它的模拟器相对成熟简单，使用雅达利游戏来测试强化学习，是非常合适的。应用场景可以描述为：在离散的时间轴上，每个时刻你可以得到当前的游戏画面，选择向游戏机发出一个指令（上下左右，开火等），然后得到一个回馈（reward）。由于基于原始像素的强化学习对应的状态空间巨大，没有办法直接使用传统的方法。于是，2013年DeepMind提出了深度强化学习模型，开始了深度学习和强化学习的结合[1]。

传统的强化学习主要使用Q-learning，而深度强化学习也使用Q-learning为基本框架，把Q-learning的对应步骤改为深度形式，并引入了一些技巧，例如经验重放（experience replay）来加快收敛以及提高泛化能力。

问题描述

什么是深度强化学习，它和传统的强化学习有什么不同，如何用它来玩视频游戏？

背景知识：强化学习，Q-learning

解答与分析

技术分享图片

先来看看经典的Q-learning：

技术分享图片

为了能与Deep Q-learning作对比，我们把最后一步换成下面等价的描述：

技术分享图片

深度的Q-learning（其中红色部分为和传统Q-learning不同的部分）：

技术分享图片

不同点主要在子步骤的细节上：

技术分享图片

需要注意的是，传统的Q-learning直接从环境观测获得当前状态，而在Deep Q-learning中，往往需要对观测的结果进行某些处理来获得Q函数的输入状态。在用Deep Q-learning玩Atari游戏中，是这样对观察值进行处理的。

技术分享图片

总结

本章介绍了强化学习中的三种方法，还有一些其他方法和其类似，但是思想是相同的。

扩展阅读：

[1] Antonoglou, I., Graves, A., Kavukcuoglu, K., Mnih, V., Riedmiller, M.A., Silver, D., & Wierstra, D. (2013). Playing Atari with Deep Reinforcement Learning. CoRR, abs/1312.5602.

下一题预告

【循环神经网络】

场景描述

循环神经网络（Recurrent Neural Network）是一种主流的深度学习模型，最早在20世纪80年代被提出，目的是建模序列化的数据。我们知道，传统的前馈神经网络一般的输入都是一个定长的向量，无法处理变长的序列信息，即使通过一些方法把序列处理成定长的向量，模型也很难捕捉序列中的长距离依赖关系。而RNN通过将神经元串行起来处理序列化的数据，比如文本的词序列、音频流和视频流序列等。由于每个神经元能用它的内部变量保存之前输入的序列信息，使得整个序列可以被浓缩成抽象的表示，并可以据此进行分类或生成新的序列。近年来，得益于计算能力的大幅提升和网络设计的改进（LSTM、GRU、Attention机制等），RNN在很多领域取得了突破性的进展。比如机器翻译、序列标注、图像描述、视频推荐、智能聊天机器人、自动作词作曲等，给我们的日常生活带来了不少便利和乐趣。

问题描述

什么是循环神经网络？如何用它产生文本表示？
RNN为什么会出现梯度的消失或爆炸？有什么样的改进方案？

hulu机器学习问题与解答系列|第六弹：pca算法

好久不见，Hulu机器学习问题与解答系列又又又更新啦！你可以点击菜单栏的“机器学习”，回顾本系列前几期的全部内容，并留言发表你的感悟与想法，说不定会在接下来的文章中看到你的感言噢～今天的主题是... 查看详情

hulu机器学习问题与解答系列|第九弹：循环神经网络

...NN问题的解答。记得多多思考和转发，公式供应充足的Hulu机器学习系列，怎么能只自己知(shou)道(nue) ~ 今天的内容是【循环神经网络】场景描述循环神经网络（RecurrentNeuralNetwork）是一种主流的深度学习模型... 查看详情

hulu机器学习问题与解答系列|十七：随机梯度下降算法之经典变种

这是本周第二篇机器学习，也是Hulu面试题系列的第十七篇了~之前的所有内容都可以在菜单栏的“机器学习”中找到，愿你温故，知新。今天的内容是【随机梯度下降算法之经典变种】场景描述提到DeepLearning中的优化方... 查看详情

hulu机器学习问题与解答系列|第一弹：模型评估

...这是科学家门捷列夫的名言。在计算机科学中，特别是在机器学习的领域，对模型的测量和评估同样至关重要。只有选择与问题相匹配的评估方法，我们才能够快速的发现在模型选择和训练过程中可能出现的问题，迭代地对模型... 查看详情

hulu机器学习问题与解答系列|二十四：随机梯度下降法

...量的爆炸式增长。如下图所示，随着数据量的增长，传统机器学习算法的性能会进入平台期，而深度学习算法因其强大的表示能力，性能得以持续增长，甚至在一些任务上超越人类。因此有人戏称，“得查看详情

hulu机器学习问题与解答系列|第四弹：不均衡样本集的处理

Hulu机器学习系列按时来报到～快搬好小板凳，一起来学习吧今天的主题是【采样】引言古人有云：“知秋一叶，尝鼎一脔”，其中蕴含的就是采样思想。采样，就是根据特定的概率分布产生对应的样本点。对于一些简... 查看详情

hulu机器学习问题与解答系列|十九：主题模型

今天的内容是【主题模型】场景描述基于Bag-Of-Words（或N-gram）的文本表示模型有一个明显的缺陷，就是无法识别出不同的词（或词组）具有相同主题的情况。我们需要一种技术能够将具有相同主题的词（或词组）映射到同一... 查看详情

hulu机器学习问题与解答系列|十八：svm–核函数与松弛变量

嗨，又见面了~你可以进入公众号，点击菜单栏的“机器学习”回顾本系列的全部内容，并留言与作者交流。今天的内容是【SVM–核函数与松弛变量】场景描述当我们在SVM中处理线性不可分的数据时，核函数可以对数据... 查看详情

hulu机器学习问题与解答系列|十六：经典优化算法

HappyNewYear! 新年伊始，我们都会在祝福他人之余，为自己暗暗定下几个小目标。那就从现在开始努力吧，跑得更快一点，才会让时间显得慢一些~ 今天的内容是【经典优化算法】场景描述针对我们遇到的各类优化问题... 查看详情

hulu机器学习问题与解答系列|二十一：分类排序回归模型的评估

本期问题的解答结合了具体的Hulu业务案例，可以说是很有趣又好懂了。快快学起来吧！今天的内容是【分类、排序、回归模型的评估】场景描述在模型评估过程中，分类问题、排序问题、回归问题往往需要使用不... 查看详情

hulu机器学习问题与解答系列|二十二：特征工程—结构化数据

...问题寻找有效的特征并进行处理成适合模型的输入形式。机器学习中有句经典的话叫做“Garbagein,garbageout”，意思是如果输入的数据是垃圾，那么得到的结果查看详情

hulu机器学习问题与解答系列|十五：多层感知机与布尔函数

今天没有别的话，好好学习，多多转发！本期内容是【多层感知机与布尔函数】场景描述神经网络概念的诞生很大程度上受到了神经科学的启发。生物学研究表明，大脑皮层的感知与计算功能是通过分多层实现的，... 查看详情

hulu机器学习问题与解答系列|十二：注意力机制

几天不见想死你们啦~今儿的课题很好玩，跟上队伍一起来读！今天的内容是【注意力机制】场景描述作为生物体，我们的视觉和听觉会不断地获得带有序列的声音和图像信号，并交由大脑理解；同时我们在说话、打字... 查看详情

hulu机器学习问题与解答系列|十四：如何对高斯分布进行采样

欢迎回到“采样”系列~ 今天的内容是【如何对高斯分布进行采样】场景描述高斯分布，又称正态分布，是一个在数学、物理及工程领域都非常重要的概率分布。在实际应用中，我们经常需要对高斯分布进行采样。虽然... 查看详情

hulu机器学习问题与解答系列|十一：seq2seq

你可以点击菜单栏的“机器学习”，回顾本系列前几期的全部内容，并留言发表你的感悟与想法。今天的内容是【Seq2Seq】场景描述作为生物体，我们的视觉和听觉会不断地获得带有序列的声音和图像信号，并交由大脑... 查看详情

hulu机器学习问题与解答系列|二十三：神经网络训练中的批量归一化

来看看批量归一化的有关问题吧！记得进入公号菜单“机器学习”，复习之前的系列文章噢。今天的内容是【神经网络训练中的批量归一化】场景描述深度神经网络的训练中涉及诸多手调参数，如学习率，权重衰减系数... 查看详情

机器学习问题与解答系列（17-24）

老朋友了，还用多说什么吗？点击下面的链接复习咯： 17. 随机梯度下降算法之经典变种18. SVM—核函数与松弛变量19. 主题模型20. PCA最小平方误差理论21. 分类、排序、回归模型的评估22. 特征工程—结构... 查看详情

正文

hulu机器学习问题与解答系列|第八弹：强化学习

hulu机器学习问题与解答系列|第六弹：pca算法

hulu机器学习问题与解答系列|第九弹：循环神经网络

hulu机器学习问题与解答系列|十七：随机梯度下降算法之经典变种

hulu机器学习问题与解答系列|第一弹：模型评估

hulu机器学习问题与解答系列|二十四：随机梯度下降法

hulu机器学习问题与解答系列|第四弹：不均衡样本集的处理

hulu机器学习问题与解答系列|十九：主题模型

hulu机器学习问题与解答系列|十八：svm–核函数与松弛变量

hulu机器学习问题与解答系列|十六：经典优化算法

hulu机器学习问题与解答系列|二十一：分类排序回归模型的评估

hulu机器学习问题与解答系列|二十二：特征工程—结构化数据

hulu机器学习问题与解答系列|十五：多层感知机与布尔函数

hulu机器学习问题与解答系列|十二：注意力机制

hulu机器学习问题与解答系列|十四：如何对高斯分布进行采样

hulu机器学习问题与解答系列|十一：seq2seq

hulu机器学习问题与解答系列|二十三：神经网络训练中的批量归一化

机器学习问题与解答系列（17-24）

推荐算法工程师技术栈系列机器学习深度学习--强化学习(代码片段)