lda主题模型学习相关的书籍介绍

author author     2023-04-20     646

关键词:

关于LDA主题模型,一度是NLP领域一个非常火的模型,后来深度学习大放异彩,它的热度才慢慢降了下来。

由于数学基础很差,一直没有理解LDA的整个核心。到目前为止,也只是理解了皮毛。记录一下关于LDA主题模型相关的学习资料。

LDA主题模型属于编码简单,但是数学功底要求较高的一个机器学习模型,在搜索引擎和广告领域有用到。按照《LDA 数学八卦》作者靳志辉老师的说法,是一个比较简单的模型,前提是需要数学功底扎实。如果统计学基础扎实,理解LDA主题模型基本是一马平川。

理解LDA主题模型,其实包含4大块的内容: 微积分基础,概率论与数理统计基础, 随机模拟算法, 文本建模思路。LDA数学八卦讲解的思路就是微积分-分布函数-随机模拟-文本建模这条主线的。个人认为,如果数学基础比较差的话,光靠《LDA数学八卦》是很难理解清楚LDA主题模型的。出于弥补数学短板的目的,也是出于兴趣,我前后看了一些书。如下的书籍我觉得还是不错的。

  1. 微积分基础

《普林斯顿微积分读本》 这本书从高中数学的基本函数开始,到微积分的各种技巧。讲解细致,学习曲线平缓。

如果这本书觉得枯燥,可以配合如下的4本科普入门。
《数学悖论与三次数学危机》
《天才引导的历程:数学中的伟大定理》
《微积分的历程:从牛顿到勒贝格》
《简单微积分 : 学校未教过的超简易入门技巧》

这几本书下来,不敢说理解微积分了,至少看到微积分的那个求和符号会感觉亲切很多。

  1. 概率论与数理统计基础

关于数理统计,有几个个人名不得不提: 陈希儒,吴喜之,茆诗松。
《机会的数学》
《数理统计学简史》

上面两本是科普层面的书,简史中数学推导有点难,但是不妨碍理解整个主线条。接下来就是比较硬的专业书籍了。

《概率论与数理统计教程》(茆诗松)
《概率论与数理统计》(陈希孺)
《数理统计学教程》(陈希孺)
《贝叶斯统计》(茆诗松)

这里面能看懂多少是多少吧,我到现在也只能理解很少的一部分。到这里,就到了LDA数学八卦里面提到的数学不超出《概率论与数理统计》这本书的层级了。其实,陈院士的这本书难度还是颇大的,毕竟立足点高远。就像《高观点下的初等数学》那样,尽管讲解的是初等数学,但是无奈站的太高,只能仰望。 吴喜之教授的几本书,在豆瓣上评价也挺不错的,可以搭配着看。

  1. 随机模拟

其实随机模拟是比较简单的。这里推荐一本讲随机模拟的书,尽管里面没有讲Gibbs算法。我是看了这本书,才理解了MCMC算法的基本思路的。个人觉得对于理解MCMC算法非常有帮助。
《随机模拟方法与应用》

看完这本书的几个章节估计就能理解清楚MCMC算法的来龙去脉了。 几乎没有书籍专门讲解MCMC是因为它的内容基本不足以支撑一本书。
《统计模拟》在豆瓣的评价也不错,应该可以搭配着看。

  1. 文本建模

我理解文本建模就是数学建模。各种降低现实问题复杂度的假设,比如词袋模型。其实有了前面的数学基础,这里应该是不需要看什么书来帮助理解的。如果一定要看一下的话,吴军老师的《数学之美》我觉得应该不错。再或者,看一下《统计自然语言处理基础》。

个人觉得,看书没必要严格按照一定的先后顺序,相互印证,配合理解才是王道。

整个路径梳理下来,感觉对于机器学习的模型,最关键的还是数学功底。去年看了一些数学类的书籍,感觉数学还是相当有意思的,关键在于选择合适自己当前水平的书,才能不至于因为难度太大而丧失探索的兴趣和欲望。 李健老师说"重复也是一种力量", 路慢慢其修远兮,呵护培养着兴趣,且行且珍惜吧。

spark机器学习:lda主题模型算法

1.LDA基础知识LDA(LatentDirichletAllocation)是一种主题模型。LDA一个三层贝叶斯概率模型,包含词、主题和文档三层结构。LDA是一个生成模型,可以用来生成一篇文档,生成时,首先根据一定的概率选择一个主题,然后在根据概率选... 查看详情

lda主题模型三连击-入门/理论/代码(代码片段)

本文将从三个方面介绍LDA主题模型——整体概况、数学推导、动手实现。关于LDA的文章网上已经有很多了,大多都是从经典的《LDA数学八卦》中引出来的,原创性不太多。本文将用尽量少的公式,跳过不需要的证明,将最核心需... 查看详情

机器学习入门-文本特征-使用lda主题模型构造标签1.latentdirichletallocation(lda用于构建主题模型)2.lda.components(输出各个词向量的权重值)(代码(代码

...数说明 1.LDA(n_topics,max_iters,random_state) 用于构建LDA主题模型,将文本分成不同的主题 参数说明:n_topics表示分为多少个主题,max_iters表示最大的迭代次数,random_state表示随机种子 2.LDA.components_打印输入特征的权重参... 查看详情

主题模型(topicmodels)总结

主题模型(topicmodels)总结相关主题模型(CTM)是一种用于自然语言处理和机器学习的统计模型。相关主题模型(CTM)用于发现一组文档中显示的主题。CTM的关键是logistic正态分布。相关主题模型(CTM)依赖于LDA。表1.主题建模方法的特点... 查看详情

lda主题建模

参考技术A前言:本文用到的方法叫做主题建模(topicmodel)或主题抽取(topicextraction),在机器学习的分类中,它属于非监督学习(unsupervisedmachinelearning)。它是文本挖掘中常用的主题模型,用来从大量文档中提取出最能表达各个主题的... 查看详情

lda

...ation)潜在狄立克雷分配模型,它是将文档集中每篇文档的主题按照概率分布的形式给出,是一种典型的概率生成性模型,能够发现语料库中潜在的主题信息,因此也称为LDA主题模型。它是一种无监督学习,可以应用于推荐系统之... 查看详情

如何在 LDA 模型中获取新文档的主题

】如何在LDA模型中获取新文档的主题【英文标题】:HowtogettopicofnewdocumentinLDAmodel【发布时间】:2020-07-0704:03:19【问题描述】:如何在LDA模型中动态传递用户给出的.txt文档?我已经尝试了下面的代码,但它不能给出正确的文档主... 查看详情

文本主题模型之ldalda基础

在前面我们讲到了基于矩阵分解的LSI和NMF主题模型,这里我们开始讨论被广泛使用的主题模型:隐含狄利克雷分布(LatentDirichletAllocation,以下简称LDA)。注意机器学习还有一个LDA,即线性判别分析,主要是用于降维和分类的,如果... 查看详情

主题模型topicmodel:隐含狄利克雷分布lda

http://blog.csdn.net/pipisorry/article/details/42649657主题模型LDA简介隐含狄利克雷分布简称LDA(LatentDirichletallocation),是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法,在训练时... 查看详情

什么是lda

参考技术A  1、LDA(LatentDirichletAllocation)是一种文档主题生成模型:也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个... 查看详情

文档主题生成模型(lda)

主题模型(topicmodeling)是一种常见的机器学习应用,主要用于对文本进行分类。传统的文本分类器,例如贝叶斯、KNN和SVM分类器,只能将测试对象分到某一个类别中,假设我给出三个分类:“算法”、“网络”和“编译”让其... 查看详情

我是这样一步步理解--主题模型(topicmodel)、lda(案例代码)

...种是线性判别分析(LinearDiscriminantAnalysis),一种是概率主题模型:隐含狄利克雷分布(LatentDirichletAllocation,简称LDA),本文讲后者。按照wiki上的介绍,LDA由Blei,DavidM.、Ng,AndrewY.、Jordan于2003年提出,是一种主题模型,它可以将... 查看详情

lda主题模型

PLSA模型是基于频率派思想的,每篇文档的K个主题是固定的,每个主题的词语概率也是固定的,我们最终要求出固定的topic-word概率模型。贝叶斯学派显然不认同,他们认为,文档的主题未知,主题的词语分布未知,我们无法求解... 查看详情

无监督第四节:lda(latentdirichletallocation快速理解)(主题模型)

...话建议先学习概率知识。LDA在NLP中应用广泛,主要是用于主题模型(topicmodeling)。关于主题模型和主题分类的区别请参考https://monkeylearn.com/blog/introduction-to-topic-modeling/LDA的主要作用是通过softclustering的方式使得每个数据点属于不仅... 查看详情

lda笔记

...ationalInference)。该方法较为复杂,而且最后训练出的topic主题非全局最优分布,而是局部最优分布。后期发明了CollapsedGibbsSample方法,推导和使用较为简洁。    LatentDirichletAllocation是Blei等人于2003年提出的基于概率模型的主... 查看详情

[python人工智能]三十一.keras实现bilstm微博情感分类和lda主题挖掘分析(上)(代码片段)

...、机器学习和深度学习的情感分类,后续结合LDA进行主题挖掘。基础性文章,希望对您有所帮助ÿ 查看详情

LDA 主题模型性能 - scikit-learn 的主题一致性实现

】LDA主题模型性能-scikit-learn的主题一致性实现【英文标题】:LDATopicModelPerformance-TopicCoherenceImplementationforscikit-learn【发布时间】:2019-02-0517:58:29【问题描述】:我有一个关于测量/计算scikit-learn中构建的LDA模型的主题连贯性的问... 查看详情

从 LDA 主题模型生成文档

】从LDA主题模型生成文档【英文标题】:GeneratingdocumentsfromLDAtopicmodel【发布时间】:2015-11-1523:56:35【问题描述】:我正在从一组文档中学习一个主题模型,并且效果很好。但我想知道是否有任何现有系统实际上会根据模型中的主... 查看详情