正文

简单易学的机器学习算法——latentdirichletallocation（理论篇）

author  author  2022-09-22  430

关键词：

引言

LDA(Latent Dirichlet Allocation)称为潜在狄利克雷分布，是文本语义分析中比较重要的一个模型，同时，LDA模型中使用到了贝叶斯思维的一些知识，这些知识是统计机器学习的基础。为了能够对LDA原理有清晰的认识，也为了能够对贝叶斯思维有全面的了解，在这里对基本知识以及LDA的相关知识进行阐述，本系列包括两个部分：

Latent Dirichlet Allocation——理论篇
Latent Dirichlet Allocation——实践篇

在理论篇中将重点阐述贝叶斯相关的知识和LDA的基本思想，基本的知识点包括Gamma函数和分布，Beta函数和分布，Dirichlet函数和分布，贝叶斯定理，Gibbs采样等等。在接下来的文章，我们通过以下几个方面具体介绍LDA的核心思想：

基础知识：二项分布，多项式分布，Gamma分布，Beta分布，Dirichlet分布，贝叶斯定理，共轭分布
文本建模：Unigram Model，概率主题模型，Gibbs采样以及贝叶斯推理

一、基础知识

在贝叶斯思维以及LDA中需要使用到一些概率的知识，下面我们罗列下会使用到的一些基本知识。

1、二项分布

二项分布是概率分布里面最简单也是最基本的分布，要理解二项分布，我们首先得定义

假设对于一个事件

P n (k) = C k n p k (1 ? p) n ? k

在这里，参数

可以验证下式成立：

\sum k = 0 n P n (k) = \sum k = 0 n C k n p k (1 ? p) n

2、多项式分布

多项式分布是二项分布的一个推广形式，在二项分布中，事件

\sum i = 1 k p i = 1

多项式分布的概率形式为：

P (x 1, x 2, ?, x k

3、Gamma分布

Gamma函数的具体形式如下：

Γ (x) = \int \infty 0 e ? u u x ? 1 d u

其中，

技术分享

Gamma函数

性质1：

Γ (x + 1) = x Γ (x)

这个性质可以通过分部积分的方法得到证明，证明如下：

Γ (x + 1) = \int \infty 0 e ? u u x d u = \int \infty 0 ? u

性质2：

Γ (1) = 1,

性质3：

Γ (n + 1) = n!

4、Beta分布

Beta函数的具体形式如下：

B e t a (a, b) = \int 1 0 x a ? 1 (1 ? x) b ? 1 d x

其中，

B e t a (a, b) = Γ ( a ) Γ ( b ) Γ ( a + b )

上述的关于Beta函数的性质将Beta函数与Gamma函数联系起来，对于该性质的证明如下所示：

Γ (a) Γ (b) = \int \infty 0 e ? u u a ? 1 d u ? \int \infty 0

此时，令

Γ (a) Γ (b) = \int \infty 0 \int 1 0 e ? z (z t) a ? 1

由此可知：

5、Dirichlet分布

Dirichlet函数的基本形式为：

D (a 1, a 2, ?, a k) = \int ? \int x a 1 ? 1 1 ? x a k ? 1 k d x 1 ?

其中，

p (x 1, ?, x k) = 1 D ( a 1 , ? , a k ) x a 1 1 ? x a k

其中，

D (a 1, ?, a k) = Γ ( a 1 ) ? Γ ( a k ) Γ ( a 1 + ? + a k )

注意到Beta分布是特殊的Dirichlet分布，即

6、贝叶斯定理

贝叶斯定理中牵涉到概率的一些基本知识，包括：

条件概率
联合概率
边缘概率

条件概率的表达形式为：

联合概率的表达形式为：

事件

有了以上的定义，贝叶斯定理可以通过如下的贝叶斯公式表示：

P (B ∣ A) = P ( A ∣ B ) P ( B ) P ( A )

对于上述的贝叶斯公式，

对于两个相互独立的事件的联合概率有如下的性质：

P (A,

7、共轭分布

有了如上的贝叶斯定理，对于贝叶斯派而言，有如下的思考方式：

先验分布+样本信息

上述的形式定义是贝叶斯派的思维方式，人们对于事物都会存在着最初的认识（先验分布），随着收集到越来越多的样本信息，新观察到的样本信息会不断修正人们对事物的最初的认识，最终得到对事物较为正确的认识（后验分布）。若这样的后验概率

有了如上的的共轭先验分布的定义，有如下的两个性质：

1、Beta分布是二项分布的共轭先验分布，即：
$B e t a (p ∣ α, β) + C o u n t (m 1, m 2) = B e t a (p ∣ α + m 1, β + m$

对于上式，对于事件

P (m 1 ∣ p) = p m 1 (1 ? p) n ? m 1 = p m 1 (1 ? p)

而对于参数

P (p ∣ α, β) = p a ? 1 ( 1 ? p ) b ? 1 \int 1 0 p a ?

已知在贝叶斯定理中有如下的公式成立：

P (B ∣ A) = P ( A ∣ B ) P ( B ) P ( A ) \propto P ( A ∣ B ) P ( B )

则对于上述的后验概率，即为：

P (p ∣ m 1) = P ( m 1 ∣ p ) ? P ( p ) P ( m 1 ) \propto P ( m

由上可知，Beta分布是二项分布的共轭先验分布。

2、Dirichlet分布是多项式分布的共轭先验分布，即：
$D i r (p ? ∣ α ?) + M u l t C o u n t (m ?) = D i r (p ? ∣$

我们对上式采用与Beta分布同样的证明方式，对于多项式分布，有下式成立：

P (m ? ∣ p ?) = p m 1 1 p m 2 2 ? p m k k

然而概率

P (p ? ∣ α ?) = p α 1 1 p α 2 2 ? p α k k D

由贝叶斯定理可知：

P (p ? ∣ m ?) = P ( m ? ∣ p ? ) ? P ( p ? )

由此可知，Dirichlet分布是多项式分布的共轭先验分布。

二、文本建模

对于一篇文章，是文章中出现的次的过程，在文章中，我们已经知道每个词出现的概率，则在省城文章的过程中，我们在词库中根据概率取出每个词，形成一篇文章。

1、Unigram Model

1.1、频率派

上述的过程说明了最简单的文本是如何产生的，我们对上述的过程数学化，假设：

词库中(即对所有文档中的词去停用词)共有
词库中每一个词出现的次数记为：
每个词对用的概率记为：

假设有

P (W) = P (w ? 1, w ? 2, ?, w ? m)

在这里，我们假设文档与文档之间是相互独立的，而且进一步词与词之间也是相互独立的——词袋模型(Bag-of-words)。词袋模型表名词的顺序是无关紧要。基于这样的假设后上述的概率可以表示为：

P (W) = P (w ? 1) P (w ? 2) ? P (w ? m)

对所有的这

P (W) = P (w ? 1) P (w ? 2) ? P (w ? m) =

至此，已经计算出全部文档的联合概率，但是对于每个词被选择的概率

取上式的log似然函数：

l o g

对上述似然函数取最大值，即对每个概率值

最终，可以求得参数

p i = n i N

1.2、贝叶斯派

对于贝叶斯派来说，其并不认同上述的求解参数值估计的方法，贝叶斯思维认为，一切的参数都是随机变量，因此上述的选择每个词的概率不是一个确定的值，而是一个随机变量，随机变量就应该服从一个分布。因此参数

首先由先验分布
由参数

上述的过程，可以由下面的概率图模型表示：

技术分享

依据上述的观点，则文档的概率可以表示为：

P (W) = \int P (W ∣ p ?) ? P (p ?) d p ?

此处的

多项式分布的共轭分布是Dirichlet分布。

因此对于先验分布

D i r (p ? ∣ α ?) = 1 Δ ( α ? ) \prod i = 1 V p α

其中，

Δ (α ?) = \int \prod i = 1 V p α i ? 1 i d p ?

由共轭分布的知识可知：

先验分布为Dirichlet分布+多项分布的数据知识=后验分布为Dirichlet分布
$D i r (p ? ∣ α ?) + M u l t C o u n t (n ?) = D i r (p ? ∣$

基于上述的共轭分布的性质，已知了参数

P (p ? ∣ W, α ?) = D i r (p ? ∣ n ? + a ?)

为了求得后验分布中的参数

E (p ?) = (n 1 + α 1 \sum V i = 1 ( n i + α i ) ,

即：

p^i = n i + α i \sum V i = 1 ( n i + α i )

对于整个文本的概率：

P (W ∣ α ?) = \int P (W ∣ p ?) ? P (p ? ∣ α ?) d p ?

由于

P (W ∣ α ?) = \int \prod i = 1 V p n i i ? D i r (p ? ∣

而已知：

P (W ∣ α ?) = Δ ( n ? + α ? ) Δ ( α ? )

2、概率主题模型

前面对文档的生成方式做了简单的介绍，其实在写文章的过程中，每一篇文章都会有一些主题，表示这篇文章主要讲的是关于哪方面的文章，如本篇文章主要是在介绍贝叶斯，LDA等等，而文章的基本组成单元式词，文章的主题则主要表现在词在不同组题的分布上，每一个词是在这些确定的主题上产生的，具体的如下图所示：

技术分享

文章的主题最终体现在词在每个主题的分布上。在写文章的过程中，首先我们需要做的是确定文章的主题，在确定了文章的主题的前提下，我们产生每一个词，从而构成了整篇文章。

如果要写一篇文章，我们往往是先确定其主题，比如这篇文章是写社会的，还是写的技术类的，或者游记类的，在主题确定的条件下，如要写一篇关于机器学习方面的文章，在确定了主题的条件下，会谈及到损失函数，模型，神经网络，深度学习等等，每个词在这篇文章中的比重会有所不同。这便是文章的生成过程，即：

一篇文章，通常是由多个主题构成的，而每个主题大概可以用于该主题相关的频率最高的一些词来描述。

在上面们提及到一篇文章的生成过程，即：

对于文章选择主题
每个主题下对词汇的选择

2.1、频率派

频率派的观点是选择每个主题的概率和根据主题选择具体词的概率都是具体的值，根据上述的概率主题模型的思想，我们假设文档集中有

注意：这里的文档与文档之间是相互独立的，同一个文档中的词与词之间也是相互独立的。

因此，上述过程中很多步骤是可以合并在一起的，同样，我们有如下的假设：

词库中(即对所有文档中的词去停用词)共有
词库中每一个词出现的次数记为：
第
第
对于每一篇文章中对应的词所属主题的编号为：

则对于第

P (w ∣ d m) = \sum z = 1 K P (w ∣ z) P (z ∣ d m)

其中

P (w ∣ d m) = \sum z = 1 K φ z, w ? θ m, z

由于在文档中词与词之间是相互独立的，因此对于一篇文档，其生成概率为：

P (w ? ∣ d m) = \prod i = 1 N m \sum z = 1 K P (w i ∣ z

2.2、贝叶斯派

上面介绍的思路中，对于文档选择主题的概率以及依据主题选择每一个词的概率都是固定的数，对于贝叶斯派来说，这是无法接受的，贝叶斯派认为所有的值都是随机变量，因此，在文档对应的主题以及依据指定的主题选择每一个词的概率都服从特定的分布。因此上述的过程可以通过如下的概率图模型表示：

技术分享

该图可以分解成如下的两个部分：

1、

对于上述过程中的两个阶段，其中从文档的主题的概率到词对应主题的编号服从的是多项式分布，由上述的共轭先验分布的知识可以知道：

多项式分布的共轭分布是Dirichlet分布。

可以选择

对于整个文档集来说，文档与文档之间是相互独立的，单个文档中词与词之间也是相互独立的，因此上述的两个过程我们可以分解成如下的两个过程：

首先对于
对于

有了上述的两个过程的分解，对于整个文档集，我们可以得到下述的生成概率：

P (W, Z ∣ α ?, β ?) = P (W ∣ Z, β ?) ? P (Z ∣ α ?)

其中，

对于上述的第一个过程有：

P (z ? m ∣ α ?) = \int P (z ? m ∣ θ ? m) ? P (θ

已知

P (z ? m ∣ α ?) = \int \prod k = 1 K θ n k m, k ? D i

其中，

P (Z ∣ α ?) = \prod m = 1 M P (z ? m ∣ α ?) = \prod m = 1

对于第二个过程，有下式成立：

P (w ? k ∣ z ? k, β ?) = \int P (w ? k ∣ φ

其中，

P (w ? k ∣ z ? k, β ?) = \int \prod v = 1 V φ

其中，

P (W ∣ Z, β ?) = \prod k = 1 K P (w ? k ∣ z ? k,

因此，对于整个文档，有：

P (W, Z ∣ α ?, β ?) = P (W ∣ Z, β ?) ? P (Z ∣ α ?) =

3、LDA训练——Gibbs采样

3.1、Markov Chain的相关概念

MCMC(Markov Chain Monte Carlo)和Gibbs采样算法是用来生成样本的随机模拟方法，Gibbs采样算法是LDA中参数求解的一种很有效的方法，想要理解Gibbs采样，必须了解以下的几个概念：

1、马尔可夫链

马尔可夫链的数学表示如下所示：

P (X t + 1 = x ∣ X t, X t ? 1, ?) = P (X t + 1 = x ∣ X t)

上述公式的含义是由状态

2、马氏链的平稳分布

如果一个非周期马氏链具有转移概率矩阵为

lim n \to \infty P n i j = ???????? π (1) π (1) ? π (1) ?

π (j) = \sum i = 0 \infty π (i) P i j

π = [π (1), π (2), ?, π (j), ?]

\sum i = \infty π i = 1

3、细致平稳条件

如果非周期马氏链的转移矩阵

π (i) P i j = π (j) P j i,

则

以上三条定理摘自参考文献1。

3.2、Gibbs采样

现在我们假设平面上有一些点，这些点服从概率分布

P (x, y A) ? P (y B ∣ x) = P (x) ? P (y A ∣ x) ? P (y B ∣ x)

P (x, y B) ? P (y A ∣ x) = P (x) ? P (y B ∣ x) ? P (y A ∣ x)

由上式可得：

P (x, y B) ? P (y A ∣ x) = P (x, y A) ? P (y B ∣ x)

由上式可以知道，如果以

由此，我们可以得到Gibbs采样的通俗理解方式，即已知样本

当马氏链收敛后，得到的样本：

(x t, y t), (x t + 1, y t), (x t + 1, y t + 1), ?

便是服从概率为

上述过程可由下面的形式描述：

技术分享

这样的情况很容易推广到多维的情况：

技术分享

上述两张图来自参考文献1。

3.3、LDA训练

对于LDA，我们希望的是能够计算在词确定的条件下计算其所属主题的概率，即如下的条件分布：

P (Z ∣ W, α ?, β ?)

由于主题

P (z i = k ∣ Z ? i) \propto P (z i = k, w i = t ∣ Z ? i, W ? i)

而已知：

P (θ ? m ∣ Z ? i, W ? i) = D i r (θ ? m ∣ n ?

P (φ ? k ∣ Z ? i, W ? i) = D i r (φ ? k ∣ n ?

则可以推出下面的式子：

P (z i = k ∣ Z ? i, W) \propto P (z i = k, w i = t ∣ Z ? i, W

= \int θ m k D i r (θ ? m ∣ n ? m, ? i + α ?) d

在Dirichlet分布中，我们知道：

θ m k^＝ n ( k ) m , ? i + α k \sum K k = 1 (

φ k t^＝ n ( t ) k , ? i + β t \sum V t = 1 (

因此有：

P (z i = k ∣ Z ? i, W) \propto n ( k ) m , ? i + α k \sum K

LDA的训练过程如下所示：

技术分享

4、LDA推理

LDA推理的过程与LDA训练的过程类似，具体过程如下所示：

技术分享

两张图来自参考文献1。

参考文献

1、LDA数学八卦

2、通俗理解LDA主题模型

3、零基础小白使用LDA模型

4、LDA理解以及源码分析(二)

5、Xuan-Hieu Phan and Cam-Tu Nguyen. GibbsLDA++: A C/C++ implementation of latent Dirichlet allocation (LDA), 2007

简单易学的机器学习算法——k-means++算法(代码片段)

一、K-Means算法存在的问题由于K-Means算法的简单且易于实现，因此K-Means算法得到了很多的应用，但是从K-Means算法的过程中发现，K-Means算法中的聚类中心的个数k需要事先指定，这一点对于一些未知数据存在很大的... 查看详情

简单易学的机器学习算法——神经网络之bp神经网络

一、BP神经网络的概念 BP神经网络是一种多层的前馈神经网络，其基本的特点是：信号是前向传播的，而误差是反向传播的。详细来说。对于例如以下的仅仅含一个隐层的神经网络模型：(三层BP神经网络模型)BP神经网络... 查看详情

机器学习算法实现解析——word2vec源码解析

在阅读本文之前，建议首先阅读“简单易学的机器学习算法——word2vec的算法原理”，掌握如下的几个概念：什么是统计语言模型神经概率语言模型的网络结构CBOW模型和Skip-gram模型的网络结构HierarchicalSoftmax和NegativeSampling的训练... 查看详情

机器学习常见算法简单汇总

机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。这里IT经理网为您总结一下常见的机器学习算法，以供您在工作和学习中参考。机器学习的算法很多。很多时候... 查看详情

机器学习算法实现解析——word2vec源代码解析

在阅读本文之前，建议首先阅读“简单易学的机器学习算法——word2vec的算法原理”（眼下还没公布）。掌握例如以下的几个概念：什么是统计语言模型神经概率语言模型的网络结构CBOW模型和Skip-gram模型的网络结构HierarchicalSoftma... 查看详情

什么算法适合这个简单的机器学习问题？

】什么算法适合这个简单的机器学习问题？【英文标题】：Whatalgorithmsaresuitableforthissimplemachinelearningproblem?【发布时间】：2011-01-3123:28:20【问题描述】：我有一个我认为是简单的机器学习问题。这是一个基本问题：我反复得到一... 查看详情

模糊逻辑真的能改进简单的机器学习算法吗？

】模糊逻辑真的能改进简单的机器学习算法吗？【英文标题】：Doesfuzzylogicreallyimprovesimplemachinelearningalgorithms?【发布时间】：2011-05-2223:46:03【问题描述】：我正在阅读有关模糊逻辑的内容，但我只是看不出它在大多数情况下如何... 查看详情

机器学习&数据挖掘笔记_16（常见面试之机器学习算法思想简单梳理）

...学习&数据挖掘笔记_16（常见面试之机器学习算法思想简单梳理）　　前言：　　找工作时（IT行业），除了常见的软件开发以外，机器学习岗位也可以当作是一个选择，不少计算机方向的研究生都会接触这个，如果你的... 查看详情

常见面试之机器学习算法思想简单梳理

前言：　　找工作时（IT行业），除了常见的软件开发以外，机器学习岗位也可以当作是一个选择，不少计算机方向的研究生都会接触这个，如果你的研究方向是机器学习/数据挖掘之类，且又对其非常感兴趣的话，可以考虑考虑... 查看详情

常见面试之机器学习算法思想简单梳理

http://www.cnblogs.com/tornadomeet/p/3395593.html（转）前言：　　找工作时（IT行业），除了常见的软件开发以外，机器学习岗位也可以当作是一个选择，不少计算机方向的研究生都会接触这个，如果你的研究方向是机器学习/数据挖掘之... 查看详情

常见面试之机器学习算法思想简单梳理

转：http://www.chinakdd.com/article-oyU85v018dQL0Iu.html前言：　　找工作时（IT行业），除了常见的软件开发以外，机器学习岗位也可以当作是一个选择，不少计算机方向的研究生都会接触这个，如果你的研究方向是机器学习/数据挖掘之... 查看详情

机器学习&数据挖掘笔记_16（常见面试之机器学习算法思想简单梳理）

【转】　　前言：　　找工作时（IT行业），除了常见的软件开发以外，机器学习岗位也可以当作是一个选择，不少计算机方向的研究生都会接触这个，如果你的研究方向是机器学习/数据挖掘之类，且又对其非常感兴趣的话... 查看详情

常见面试之机器学习算法思想简单梳理

查看详情

机器学习算法入门

机器学习算法简单入门。由于团队（大数据团队）技术发展需要，借对交通业务数据进行需求拓展，实现数据挖掘和数据分析技术的掌握，绕不开机器学习算法，可以说，大数据的核心价值在于算法。如下图，当前机器学习... 查看详情

使用机器学习算法打造一个简单的“微博指数”

欢迎大家前往腾讯云技术社区，获取更多腾讯海量技术实践干货哦~作者：林浩威前言随着人工智能的大热，越来越多的小伙伴们开始投身到机器学习的大潮中。作为其中的一员，我对此也是极有兴趣的。当然我更感兴趣的... 查看详情

机器学习分类算法--k近邻算法knn(代码片段)

...算法基础KNN-------K近邻算法--------K-NearestNeighbors思想极度简单应用数学知识少（近乎为零）效果好（缺点？）可以解释机器学习算法使用过程中很多细节问题更完整的刻画机器学习应用的流程 importnumpyasnpimportmatplotlib.pyplotasplt... 查看详情

k近邻算法简单介绍——机器学习(代码片段)

K近邻算法一.简介二.KNN算法API使用2.1导入Scikit-learn工具2.2k-近邻算法API案例悄悄介绍自己：作者：神的孩子在跳舞本人是快升大四的小白，在山西上学，学习的是python方面的知识，希望能找到一个适合自己的实... 查看详情

机器学习-k-近邻算法(代码片段)

...后的感触便是：机器学习和我想象的有点不一样KNN是真滴简单(?￣△￣)?算法介绍KNN属于有监督的分类算法，也就是说，KNN是通过有标签的样本集进行训练，并查看详情