正文

hulu机器学习问题与解答系列|二十四：随机梯度下降法

peizhe123  peizhe123  2022-10-21  485

关键词：

Hulu优秀的作者们每天和公式抗争，只为提升你们的技能，感动的话就把文章看完，然后哭一个吧。

今天的内容是

【随机梯度下降法】

场景描述

深度学习得以在近几年迅速占领工业界和学术界的高地，重要原因之一是数据量的爆炸式增长。如下图所示，随着数据量的增长，传统机器学习算法的性能会进入平台期，而深度学习算法因其强大的表示能力，性能得以持续增长，甚至在一些任务上超越人类。因此有人戏称，“得数据者得天下”。

技术分享图片

经典的优化方法，例如梯度下降法，每次迭代更新需要用到所有的训练数据，这给求解大数据、大规模的优化问题带来了挑战。掌握基于大量训练数据求解模型的方法，对于掌握机器学习，尤其是深度学习至关重要。

问题描述

针对训练数据量过大的问题，当前有哪些优化求解算法？

先验知识：概率论、梯度下降法

解答与分析

在机器学习中，优化问题的目标函数通常可以表示成

技术分享图片

其中θ是待优化的模型参数，x是模型输入，f(x, θ)是模型的实际输出，y是模型的目标输出，L(·,·)刻画了模型在数据(x, y)上的损失，P_data表示数据的分布，E表示期望。J(θ)刻画了当参数为θ时，模型在所有数据上的平均损失，我们希望能够找到使得平均损失最小的模型参数，也就是求解优化问题

技术分享图片

为了求解该问题，梯度下降法的迭代更新公式为

技术分享图片

其中α＞0是步长。若采用所有训练数据的平均损失来近似目标函数及其梯度，即

技术分享图片

其中M表示训练数据的个数，则对模型参数的单次更新需要遍历所有的训练数据，这在M很大时是不可取的。

为了解决该问题，随机梯度下降法（stochastic gradient descent, SGD）采用单个训练数据的损失近似平均损失，即

技术分享图片

因此，随机梯度下降法用单个训练数据即可对模型参数进行一次更新，大大加快了收敛速率。该方法也非常适用于数据源源不断到来的在线场景。

为了降低梯度的方差从而使得算法的收敛更加稳定，也为了充分利用高度优化的矩阵运算操作，实际中我们会同时处理若干训练数据，该方法被称为小批量梯度下降法（mini-batch gradient descent）。假设需要处理m个训练数据x_i1, y_i1, …, x_im, y_im，则目标函数及其梯度为

技术分享图片

对于小批量梯度下降法，有三点需要注意的地方：

如何选取参数m？在不同的应用中，最优的m通常会不一样，需要通过调参选取。一般m取2的幂次时能充分利用矩阵运算操作，所以我们可以在2的幂次中挑选最优的取值，例如64，128，256，512等。
如何挑选m个训练数据？为了避免数据的特定顺序给算法收敛带来的影响，一般会在每次遍历训练数据之前，先对所有的数据进行随机排序，然后顺序挑选m个训练数据进行训练，直至遍历完所有的数据。
如何选取学习速率α？为了加快收敛速率同时提高求解精度，通常会选取递减的学习速率方案。算法一开始能够以较快的速率收敛到最优解附近，再以较小的速率精细调整最优解。最优的学习速率方案也通常需要调参才能得到。

综上，我们通常采用小批量梯度下降法解决训练数据量过大的问题，每次迭代更新只需要处理m个训练数据即可，其中m是一个远小于总数据量M的常数，能够大大加快收敛速率。

下一题预告

【初识生成式对抗网络（GANs）】

场景描述

2014年的一天，Goodfellow与好友相约到酒吧聊天。也许平日里工作压力太大，脑细胞已耗尽了创作的激情，在酒吧的片刻放松催生了一个绝妙的学术点子，然后就有了GANs的传说。GANs全称为生成式对抗网络，是一个训练生成模型的新框架。

技术分享图片

GANs自提出之日起，就迅速风靡深度学习的各个角落，GANs的变种更是雨后春笋般进入人们的视野，诸如：WGAN、InfoGAN、f-GANs、BiGAN、DCGAN、IRGAN等等。

技术分享图片

GANs之火，就连任何初入深度学习的新手都能略说一二。GANs刚提出时没有华丽的数学推演，描绘出的是一幅魅力感极强的故事画面，恰好契合了东方文化中太极图的深刻含义——万物在相生相克中演化，听起来很有意思。想象GANs框架是一幅太极图，“太极生两仪”，这里“两仪”就是生成器和判别器，生成器负责“生”，判别器负责“灭”，这一生一灭间有了万物。具体说来，生成器在初始混沌中孕育有形万物，判别器甄别过滤有形万物，扮演一种末日大审判的角色。回到严谨的学术语言上，生成器从一个先验分布中采得随机信号，经过神经网络的“妙手”转换，得到一个模拟真实数据的样本；判别器既接收来自生成器的模拟样本，也接收来自实际数据集的真实样本，我们不告诉判别器这个样本是哪里来的，需要它判断样本的来源。判别器试图区分这两类样本，生成器则试图造出迷惑判别器的模拟样本，两者自然构成一对“冤家”，置身于一种对抗的环境。然而，对抗不是目的，在对抗中让双方能力各有所长才是目的，理想情况下最终达到一种平衡，使得双方的能力以臻完美，彼此都没有了更进一步的空间。

技术分享图片

问题描述

关于GANs，从基本理论到具体模型再到实验设计，我们依次思考三个问题：

（1）GANs可看作一个双人minimax游戏，请给出游戏的value function。我们知道在理想情况下最终会达到一个纳什均衡点，此时生成器表示为G^*，判别器表示为D^*，请给出解(G^*, D^*)和value function的值；在未达到均衡时，我们将生成器G固定，去寻找当前下最优的判别器D_G^*，请给出D_G^*和此时的value function。至此的答案都很容易在原论文中找到，这里进一步发问，倘若固定D，我们将G优化到底，那么解G_D^*和此时的value function是什么？

（2）发明GANs的初衷是为了更好地对概率生成模型作估计，我们知道在应用传统概率生成模型（如：马尔科夫场、贝叶斯网）时会涉及大量难以完成的概率推断计算，GANs是如何避开这类计算的？

（3）实验中训练GANs的过程会如描述的那么完美吗，求解G的最小化目标函数

技术分享图片

在训练中会遇到什么问题，你有什么解决方案？

hulu机器学习问题与解答系列|十四：如何对高斯分布进行采样

欢迎回到“采样”系列~ 今天的内容是【如何对高斯分布进行采样】场景描述高斯分布，又称正态分布，是一个在数学、物理及工程领域都非常重要的概率分布。在实际应用中，我们经常需要对高斯分布进行采样。虽然... 查看详情

hulu机器学习问题与解答系列|二十一：分类排序回归模型的评估

本期问题的解答结合了具体的Hulu业务案例，可以说是很有趣又好懂了。快快学起来吧！今天的内容是【分类、排序、回归模型的评估】场景描述在模型评估过程中，分类问题、排序问题、回归问题往往需要使用不... 查看详情

hulu机器学习问题与解答系列|二十二：特征工程—结构化数据

...问题寻找有效的特征并进行处理成适合模型的输入形式。机器学习中有句经典的话叫做“Garbagein,garbageout”，意思是如果输入的数据是垃圾，那么得到的结果查看详情

hulu机器学习问题与解答系列|二十三：神经网络训练中的批量归一化

来看看批量归一化的有关问题吧！记得进入公号菜单“机器学习”，复习之前的系列文章噢。今天的内容是【神经网络训练中的批量归一化】场景描述深度神经网络的训练中涉及诸多手调参数，如学习率，权重衰减系数... 查看详情

hulu机器学习问题与解答系列|第七弹：非监督学习算法与评估

听说，Hulu机器学习与冬日的周末更配噢～你可以点击菜单栏的“机器学习”，回顾本系列前几期的全部内容，并留言发表你的感悟与想法。同时，为使大家更好地了解Hulu，菜单“关于Hulu”也做了相应调整，好奇宝宝们，牌... 查看详情

hulu机器学习问题与解答系列|第六弹：pca算法

好久不见，Hulu机器学习问题与解答系列又又又更新啦！你可以点击菜单栏的“机器学习”，回顾本系列前几期的全部内容，并留言发表你的感悟与想法，说不定会在接下来的文章中看到你的感言噢～今天的主题是... 查看详情

机器学习问题与解答系列（17-24）

老朋友了，还用多说什么吗？点击下面的链接复习咯： 17. 随机梯度下降算法之经典变种18. SVM—核函数与松弛变量19. 主题模型20. PCA最小平方误差理论21. 分类、排序、回归模型的评估22. 特征工程—结构... 查看详情

hulu机器学习问题与解答系列|十八：svm–核函数与松弛变量

嗨，又见面了~你可以进入公众号，点击菜单栏的“机器学习”回顾本系列的全部内容，并留言与作者交流。今天的内容是【SVM–核函数与松弛变量】场景描述当我们在SVM中处理线性不可分的数据时，核函数可以对数据... 查看详情

hulu机器学习问题与解答系列|第九弹：循环神经网络

...NN问题的解答。记得多多思考和转发，公式供应充足的Hulu机器学习系列，怎么能只自己知(shou)道(nue) ~ 今天的内容是【循环神经网络】场景描述循环神经网络（RecurrentNeuralNetwork）是一种主流的深度学习模型... 查看详情

hulu机器学习问题与解答系列|十五：多层感知机与布尔函数

今天没有别的话，好好学习，多多转发！本期内容是【多层感知机与布尔函数】场景描述神经网络概念的诞生很大程度上受到了神经科学的启发。生物学研究表明，大脑皮层的感知与计算功能是通过分多层实现的，... 查看详情

hulu机器学习问题与解答系列|第八弹：强化学习

...的要素，例如环境：游戏本身的状态，动作：用户操作，机器人：程序，回馈：得分、输赢等。通过输入原始像素来玩视频游戏，是人工智能成熟的标志之一。雅达利（Atari）是20世纪七八十年代红极一时的电脑游戏，类似于国... 查看详情

hulu机器学习问题与解答系列|第一弹：模型评估

...这是科学家门捷列夫的名言。在计算机科学中，特别是在机器学习的领域，对模型的测量和评估同样至关重要。只有选择与问题相匹配的评估方法，我们才能够快速的发现在模型选择和训练过程中可能出现的问题，迭代地对模型... 查看详情

hulu机器学习问题与解答系列|十九：主题模型

今天的内容是【主题模型】场景描述基于Bag-Of-Words（或N-gram）的文本表示模型有一个明显的缺陷，就是无法识别出不同的词（或词组）具有相同主题的情况。我们需要一种技术能够将具有相同主题的词（或词组）映射到同一... 查看详情

hulu机器学习问题与解答系列|第四弹：不均衡样本集的处理

Hulu机器学习系列按时来报到～快搬好小板凳，一起来学习吧今天的主题是【采样】引言古人有云：“知秋一叶，尝鼎一脔”，其中蕴含的就是采样思想。采样，就是根据特定的概率分布产生对应的样本点。对于一些简... 查看详情

hulu机器学习问题与解答系列|十六：经典优化算法

HappyNewYear! 新年伊始，我们都会在祝福他人之余，为自己暗暗定下几个小目标。那就从现在开始努力吧，跑得更快一点，才会让时间显得慢一些~ 今天的内容是【经典优化算法】场景描述针对我们遇到的各类优化问题... 查看详情

hulu机器学习问题与解答系列|十二：注意力机制

几天不见想死你们啦~今儿的课题很好玩，跟上队伍一起来读！今天的内容是【注意力机制】场景描述作为生物体，我们的视觉和听觉会不断地获得带有序列的声音和图像信号，并交由大脑理解；同时我们在说话、打字... 查看详情

hulu机器学习问题与解答系列|十一：seq2seq

你可以点击菜单栏的“机器学习”，回顾本系列前几期的全部内容，并留言发表你的感悟与想法。今天的内容是【Seq2Seq】场景描述作为生物体，我们的视觉和听觉会不断地获得带有序列的声音和图像信号，并交由大脑... 查看详情

机器学习100天（十四）：014梯度下降算法求解线性回归

机器学习100天，今天讲的是：使用梯度下降算法求解线性回归问题。一、梯度下降更新公式之前我们介绍了正规方程法直接求解线性回归问题，但是梯度下降算法在机器学习中更为常用，因为面对复杂问题时，梯度下降算法能够... 查看详情