正文

文本主题模型之ldalda求解之变分推断em算法

hx868  hx868  2023-01-29  595

关键词：

　本文是LDA主题模型的第三篇，读这一篇之前建议先读文本主题模型之LDA(一) LDA基础，同时由于使用了EM算法，如果你对EM算法不熟悉，建议先熟悉EM算法的主要思想。LDA的变分推断EM算法求解，应用于Spark MLlib和Scikit-learn的LDA算法实现，因此值得好好理解。

1. 变分推断EM算法求解LDA的思路

　　　　首先，回顾LDA的模型图如下：

技术分享图片　　

　　　　变分推断EM算法希望通过“变分推断(Variational Inference)”和EM算法来得到LDA模型的文档主题分布和主题词分布。首先来看EM算法在这里的使用，我们的模型里面有隐藏变量 $θ, β, z$

　　　　问题是在EM算法的E步，由于 $θ, β, z$

　　　　当进行若干轮的E步和M步的迭代更新之后，我们可以得到合适的近似隐藏变量分布 $θ, β, z$

　　　　可见要完全理解LDA的变分推断EM算法，需要搞清楚它在E步变分推断的过程和推断完毕后EM算法的过程。

2. LDA的变分推断思路

　　　　要使用EM算法，我们需要求出隐藏变量的条件概率分布如下：

p (θ, β, z | w, α, η) = p ( θ , β , z , w | α , η ) p ( w | α , η )

　　　　前面讲到由于 $θ, β, z$

技术分享图片

　　　　我们假设隐藏变量 $θ$

q (β, z, θ | λ, ?, γ) = \prod k = 1 K q (β k | λ k) \prod

　　　　我们的目标是用 $q (β, z, θ | λ, ϕ, γ)$

(λ ?, ? ?, γ ?) = a r g

　　　　其中 $D (q | | p)$

D (q | | p) = \sum x q (x) l o g q ( x ) p ( x ) = E q ( x ) ( l

　　　　我们的目的就是找到合适的 $λ^{*}, ϕ^{*}, γ^{*}$

　　　　这个合适的 $λ^{*}, ϕ^{*}, γ^{*}$

l o g (w | α, η) = l o g \int \int \sum z p (θ, β, z, w |

　　　　其中，从第(5)式到第(6)式用到了Jensen不等式：

f (E (x)) \geq E (f (x))

　　　　我们一般把第(7)式记为：

L (λ, ?, γ; α, η) = E q

　　　　由于 $L (λ, ϕ, γ; α, η)$

D (q (β, z, θ | λ, ?, γ) | | p (θ, β, z | w, α, η))

　　　　在(10)式中，由于对数似然部分和我们的KL散度无关，可以看做常量，因此我们希望最小化KL散度等价于最大化ELBO。那么我们的变分推断最终等价的转化为要求ELBO的最大值。现在我们开始关注于极大化ELBO并求出极值对应的变分参数 $λ, ϕ, γ$

3. 极大化ELBO求解变分参数

　　　　为了极大化ELBO，我们首先对ELBO函数做一个整理如下：

L (λ, ?, γ; α, η) = E q [l o g p (β | η)] + E q [l o g

　　　　可见展开后有7项，现在我们需要对这7项分别做一个展开。为了简化篇幅，这里只对第一项的展开做详细介绍。在介绍第一项的展开前，我们需要了解指数分布族的性质。指数分布族是指下面这样的概率分布：

p (x | θ) = h (x) e x p (η (θ) ? T (x) ? A (θ))

　　　　其中， $A (x)$

d d η ( θ ) A ( θ ) = E p ( x | θ ) [ T ( x ) ]

　　　　这个证明并不复杂，这里不累述。我们的常见分布比如Gamma分布，Beta分布，Dirichlet分布都是指数分布族。有了这个性质，意味着我们在ELBO里面一大推的期望表达式可以转化为求导来完成，这个技巧大大简化了计算量。

　　　　回到我们ELBO第一项的展开如下：

E q [l o g p (β | η)] = E q [l o g \prod k = 1 K (Γ (

　　　　第(15)式的第三项的期望部分，可以用上面讲到的指数分布族的性质，转化为一个求导过程。即：

E q [\sum i = 1 V l o g β k i] = (l o g Γ (λ k i) ? l o g Γ (\sum

　　　　其中：

Ψ (x) = d d x l o g Γ ( x ) = Γ ' ( x ) Γ ( x )

　　　　最终，我们得到EBLO第一项的展开式为：

E q [l o g p (β | η)] = K l o g Γ (\sum i = 1 V η i) ? K \sum

　　　　类似的方法求解其他6项，可以得到ELBO的最终关于变分参数 $λ, ϕ, γ$

E q [l o g p (z | θ)] = \sum n = 1 N \sum k = 1 K ? n k Ψ (γ

E q [l o g p (θ | α)] = l o g Γ (\sum k = 1 K α k) ? \sum k =

E q [l o g p (w | z, β)] = \sum n = 1 N \sum k = 1 K \sum i =

E q [l o g q (β | λ)] = \sum k = 1 K (l o g Γ (\sum i = 1 V λ k

E q [l o g q (z | ?)] = \sum n = 1 N \sum k = 1 K ? n k l o

E q [l o g q (θ | γ)] = l o g Γ (\sum k = 1 K γ k) ? \sum k =

　　　　有了ELBO的具体的关于变分参数 $λ, ϕ, γ$

4. EM算法之E步：获取最优变分参数

　　　　有了前面变分推断得到的ELBO函数为基础，我们就可以进行EM算法了。但是和EM算法不同的是这里的E步需要在包含期望的EBLO计算最佳的变分参数。如何求解最佳的变分参数呢？通过对ELBO函数对各个变分参数 $λ, ϕ, γ$

　　　　这里就不详细推导了，直接给出各个变分参数的表达式如下：

? n k \propto e x p (\sum i = 1 V w i n (Ψ (λ k i) ? Ψ (\sum

　　　　其中， $w_{n}^{i} = 1$

γ k = α k + \sum n = 1 N ? n k (24)

λ k i = η i + \sum n = 1 N ? n k w i n (25)

　　　　由于变分参数 $λ$

λ k i = η i + \sum d = 1 M \sum n = 1 N d ? d n k w i

　　　　最终我们的E步就是用（23）（24）（26）式来更新三个变分参数。当我们得到三个变分参数后，不断循环迭代更新，直到这三个变分参数收敛。当变分参数收敛后，下一步就是M步，固定变分参数，更新模型参数 $α, η$

5. EM算法之M步：更新模型参数

　　　　由于我们在E步，已经得到了当前最佳变分参数，现在我们在M步就来固定变分参数，极大化ELBO得到最优的模型参数 $α, η$

　　　　对于 $α$

? α k L = M (Ψ (\sum k' = 1 K α k') ? Ψ (α k

? α k α j L = M (Ψ' (\sum k' = 1 K α k'

　　　　其中，当且仅当 $k = j$

　　　　对于 $η$

? η i L = K (Ψ (\sum i' = 1 V η i') ? Ψ (η i

? η i η j L = K (Ψ' (\sum i' = 1 V η i'

　　　　其中，当且仅当 $i = j$

　　　　最终牛顿法法迭代公式为：

α k + 1 = α k + ? α k L ? α k α j L (27)

η i + 1 = η i + ? η i L ? η i η j L (28)

6. LDA变分推断EM算法流程总结

　　　　下面总结下LDA变分推断EM的算法的概要流程。

　　　　输入：主题数 $K$

　　　　1）初始化 $α, η$

　　　　2）开始EM算法迭代循环直到收敛。

　　　　　　a) 初始化所有的 $ϕ, γ, λ$

　　　　　　　　(i) for d from 1 to M:

　　　　　　　　　　　for n from 1 to $N_{d}$

　　　　　　　　　　　　　for k from 1 to K:

　　　　　　　　　　　　　　　　按照(23)式更新 $ϕ_{n k}$

　　　　　　　　　　　标准化 $ϕ_{n k}$

　　　　　　　　　　按照(24) 式更新 $γ_{k}$

　　　　　　　　(ii) for k from 1 to K:

　　　　　　　　　　　　for i from 1 to V:

　　　　　　　　　　按照(26) 式更新 $λ k i$

　　　　　　　　(iii)如果 $ϕ, γ, λ$

　　　　　　b) 进行LDA的M步迭代循环，直到 $α, η$

　　　　　　　　(i) 按照(27)(28)式用牛顿法迭代更新 $α, η$

　　　　　　c) 如果所有的参数均收敛，则算法结束，否则回到第2)步。

　　　　　　算法结束后，我们可以得到模型的后验参数 $α, η$

$α, η$

文本主题模型之ldalda求解之gibbs采样算法

　本文是LDA主题模型的第二篇，读这一篇之前建议先读文本主题模型之LDA(一)LDA基础，同时由于使用了基于MCMC的Gibbs采样算法，如果你对MCMC和Gibbs采样不熟悉，建议阅读之前写的MCMC系列MCMC(四)Gibbs采样。 1. Gibbs采样算法求... 查看详情

文本主题模型之ldalda基础

https://www.cnblogs.com/pinard/p/6831308.html http://www.360doc.com/content/16/0428/10/478627_554452907.shtml LDA（LatentDirichletAllocation）是一查看详情

文本主题模型之ldalda基础

...这个LDA的信息，参看之前写的线性判别分析LDA原理总结。文本关注于隐含狄利克雷分布对应的LDA。1.LDA贝叶斯模型　　　　LDA是基查看详情

[转]em算法总结

...学习领域算法的基础，比如隐式马尔科夫算法（HMM），LDA主题模型的变分推断等等。本文就对EM算法的原理做一个总结。1. EM算法要解决的问题　　　　我们经常会从样本观察数据中，找出样本的模型参数。最常用的方法就是... 查看详情

数据挖掘十大经典算法之em

...turemodel，简称GMM）的参数；隐式马尔科夫算法（HMM）、LDA主题模型的变分推断等等。EM算法是一种迭代优化策略，由于它的计算方法中每一次迭代都分两步，其中一个为期望步（E步），另一个为极大步（M步），一轮轮迭代更新... 查看详情

gaussianlda:lda回想以及变分em

LatentDirichletAllocation(LDA)是一个主题模型，可以对文本进行建模。得到文档的主题分布。经常使用的模型參数预计方法有GibbsSampling和VariationalInference，网上有许多关于LDA的介绍，最为经典的比如Rickjin的《LDA数学八卦》。本文旨在... 查看详情

gaussianlda:lda回顾以及变分em

LatentDirichletAllocation(LDA)是一个主题模型，能够对文本进行建模，得到文档的主题分布。常用的模型参数估计方法有GibbsSampling和VariationalInference，网上有非常多关于LDA的介绍，最为经典的例如Rickjin的《LDA数学八卦》... 查看详情

概率图模型之em算法

...极大算法）是一种迭代算法，用于求解含有隐变量的概率模型参数的极大似然估计（MLE）或极大后验概率估计（MAP）。EM算法是一种比较通用的参数估计算法，被广泛用于朴素贝叶斯、GMM（高斯混合模型）、K-means（K均值聚类）... 查看详情

gaussianlda:lda回顾以及变分em

从em到vi，最后落地vae

...EM是一种从频率角度解决优化问题（常见的频率角度模型有：回归模型、SVM等）。EM常与MLE进行对比。MLE（极大似然估计）EM算法1.2VI算法变分推断（VariationalInference）解决的是贝叶斯角度的积分问题࿰... 查看详情

变分推断——进阶

...我们可以通过变分推断将其转换为简单的可计算的问题来求解。现在我们贝叶斯统计的角度，来看一个难以准确计算的案例。推断问题可以理解为计算条件概率$p(y|x)$。利用贝叶斯定理，可以将计算条件概率（或者说后验概率，p... 查看详情

变分推断

...GAN的原理以及一些变种，这次打算介绍另一个重要的生成模型——变分自编码器（VariationalAutoEncoder，VAE）。但在介绍编码器之前，这里会先花一点时间介绍变分推断（VariationalInference，VI），而这一小系列最后还会介绍贝... 查看详情

lda笔记

...ationalInference）。该方法较为复杂，而且最后训练出的topic主题非全局最优分布，而是局部最优分布。后期发明了CollapsedGibbsSample方法，推导和使用较为简洁。　　　　LatentDirichletAllocation是Blei等人于2003年提出的基于概率模型的主... 查看详情

变分推断——进阶（续）

SVI变分推断的前两篇介绍了变分推断的构造方法、目标函数以及优化算法CAVI，同时上一篇末尾提到，CAVI并不适用于大规模的数据的情况，而这一篇将要介绍一种随机优化（stochasticoptimization）的方法。这种优化方法与随机梯度下... 查看详情

统计学习方法ｃ++实现之八em算法与高斯混合模型(代码片段)

EM算法与高斯混合模型前言EM算法是一种用于含有隐变量的概率模型参数的极大似然估计的迭代算法。如果给定的概率模型的变量都是可观测变量，那么给定观测数据后，就可以根据极大似然估计来求出模型的参数，比如我们假... 查看详情

大模型时代的ai之变与开发之根

自2018年谷歌发布Bert以来，预训练大模型以强大的算法效果，席卷了NLP为代表的各大AI榜单与测试数据集。随着产学研各界的深入研究，大模型在AI产学研各界的地位得到不断加强。到2021年，我们可以看到各大学术... 查看详情

em算法

...代算法，1977年由Dempster等人提出，用于含有隐变量的概率模型参数的极大似然估计，或极大后验概率估计。每次迭代由两部分构成，E步求期望，M步求极大，称为期望极大算法。　　概率模型有时既含有观测变量，又含有隐变量... 查看详情

em算法

...期望最大化的算法最大似然估计：已知：样本服从分布的模型观测到的样本求解：模型的参数极大似然估计是用来估计模型参数的统计学方法就是什么参数能使得样本符合这么一个模型最大似然函数：什么样的参数使得出现当前... 查看详情