潜在语义分析(lsa)

author author     2023-05-07     576

关键词:

参考技术A

潜在语义分析(Latent Semantic Analysis,LSA)是一种无监督学习方法,主要用于分本的话题分析,其特点是 通过矩阵分解发现文本与单词之间的基于话题的语义关系。

文本信息处理的一个核心问题是 对文本的语义内容进行表示,并进行文本之间的语义相似度计算。 最简单的方法是利用向量空间模型(Vector Space Model,VSM)。向量空间模型的基本想法是,给定一个文本,用一个向量表示该文本的“语义”,向量的每一维对应一个单词,其数值为该单词在该文本中出现的频数或权值。 这里的基本假设是文本中所有单词的出现情况表示了文本的语义内容。 向量空间的度量,如内积或标准化内积表示文本之间的“语义相似度”。

严格定义如下:给出一个含有 个文本的集合 以及在所有文本中出现的 个单词的集合 。将单词在文本中出现的数据用一个 单词-文本矩阵 表示,记作 :

表示单词 在文本 中出现的频数或权值。这是一个稀疏矩阵。

权值常用 单词频率-逆文本频率(term frequency-inverse document frequency,TF-IDF) 表示,其定义是:

其中 是单词 出现在文本 中的频数, 是文本 中出现的所有单词的频数之和, 是含有单词 的文本数, 是文本集合 的全部文本数。

这个概念的解释我在读吴军先生的《数学之美》时见过,至今记忆犹新。举例来说,很多单词在所有文本中出现频率都很高(比如I,is,are,and)但它们并不能代表文本的语义,因为这些单词在所有文本中都出现,因此它们并不能代表文本的特点。这就是不能直接使用单词频率的原因。为了度量一个单词能多大程度地反映文本的特点,可以使用逆文本频率,即 一个单词在整个文本集合中出现的文本越少,这个单词越能表示其所在文本的特点,重要度越高。 这就是逆文本频率的含义。综合逆文本频率(度量单词多大程度反映文本特点)以及单词频率(度量单词对文本的重要性)就得到了 TF-IDF

两个单词向量的内积或标准化内积(余弦)表示对应文本之间的语义相似度,文本 与 之间的相似度为:

VSM的优点是模型简单,计算效率高,因此单词向量通常是稀疏的,两个向量的内积计算只需要在同不为零的维度上进行即可。但VSM也有一定局限性,那就是有时内积相似度未必能准确表达两个文本的语义相似度,因为单词具有一词多义性(polysemy)和多词一义性(synonymy),所以基于单词向量的相似度计算存在不精确的问题。

所谓话题(topic),并没有严格定义,就是指文本讨论的内容和主题。一个文本一般含有若干话题。

单词-文本矩阵 定义同上,记为 。

另外我们定义 单词-话题矩阵 ,记作 :

矩阵 也可以写作 ( 为所有文本的话题数)。

其中 表示单词 在话题 的权值, ,权值越大,该单词在该话题中重要度越高。这 个话题向量 张成一个话题向量空间,维数为 。

接下来我们定义 话题-文本矩阵

矩阵 也可以写作 。

其中 表示话题 在文本 的权值, ,权值越大,该话题在该文本中重要度越高。

这样一来, 在单词向量空间的文本向量 可以通过它在话题空间中的向量 近似表示,具体地由 个话题向量以 为系数的线性组合近似表示:

表示单词在文本 的权值, 表示话题 在文本 的权值, 表示单词在话题 的权值。即:

这就是潜在语义分析。

进行潜在语义分析,需要同时决定两部分内容——单词-话题矩阵 和话题-文本矩阵 ,使两者乘积是原始矩阵数据的近似。这一结果完全从单词-文本矩阵 中获得。

潜在语义分析的思路是对单词-文本 矩阵进行奇异值分解,将其左矩阵作为单词-话题矩阵 ,将其对角矩阵和右矩阵的乘积作为话题-文本矩阵 。

具体来说,潜在语义分析根据固定的话题个数 对单词-文本矩阵 进行截断奇异值分解:

是 矩阵,它的列由 的前 个互相正交的左奇异向量组成, 是 阶对角阵,对角元素为前 个最大奇异值, 是 矩阵,它的列由 的前 个互相正交的右奇异向量组成。

从而 为单词-话题矩阵 (话题空间), 为话题-文本矩阵 (文本在话题空间的表示)。

若一个矩阵所有元素非负,则称该矩阵为非负矩阵,若矩阵 非负,记为 。

给定非负矩阵 ,找到两个非负矩阵 和 :

称为矩阵 的非负矩阵分解。

假设非负矩阵 是一个 矩阵,非负矩阵 和 分别为 矩阵和 矩阵。假设 ,即 和 小于原矩阵 ,所以非负矩阵分解是对原数据的压缩。

非负矩阵分解可形式化为最优化问题来求解。首先定义损失函数。

第一种是平方损失,两非负矩阵 和 的平方损失函数为:

第二种是散度,两非负矩阵 和 的散度损失函数为:

接着定义最优化问题:

或者:

使用梯度下降法求解得到的 可分别作为话题矩阵和文本表示矩阵。

潜在语义分析(lsa)

参考技术A潜在语义分析(LatentSemanticAnalysis,LSA)是一种无监督学习方法,主要用于分本的话题分析,其特点是通过矩阵分解发现文本与单词之间的基于话题的语义关系。文本信息处理的一个核心问题是对文本的语义内容进行表示... 查看详情

概率潜在语义分析(probabilisticlatentsemanticanalysis,plsa)

概率潜在语义分析(ProbabilisticLatentSemanticAnalysis,PLSA)目录概率潜在语义分析(ProbabilisticLatentSemanticAnalysis,PLSA)pLSA模型改进LSA 查看详情

潜在语义分析概念

】潜在语义分析概念【英文标题】:LatentSemanticAnalysisconcepts【发布时间】:2011-10-2623:02:53【问题描述】:我读过有关使用奇异值分解(SVD)在文本语料库中进行潜在语义分析(LSA)的文章。我已经了解如何做到这一点,我也了解SVD的... 查看详情

潜在语义分析的介绍

参考技术A潜在语义分析(LatentSemanticAnalysis)或者潜在语义索引(LatentSemanticIndex),是1988年S.T.Dumais等人提出了一种新的信息检索代数模型,是用于知识获取和展示的计算理论和方法,它使用统计计算的方法对大量的文本集进行... 查看详情

lsa,plsa原理及其代码实现

一.LSA1.LSA原理LSA(latentsemanticanalysis)潜在语义分析,也被称为LSI(latentsemanticindex),是ScottDeerwester,SusanT.Dumais等人在1990年提出来的一种新的索引和检索方法。该方法和传统向量空间模型(vectorspacemodel)一样使用向量来表示词(terms)和文... 查看详情

scikit-learn:通过non-negativematrixfactorization(nmfornnmf)实现lsa(隐含语义分析)

...TruncatedSVD的简介:scikit-learn:通过TruncatedSVD实现LSA(隐含语义分析)今天发现NMF也是一个非常好非常有用的模型,就简介一下。它也属于scikit-learn:2.5.矩阵因子分解问题的一部分。NMF是还有一种压缩方法,前提是如果数据矩阵... 查看详情

潜在语义分析plsa中文档概率p(d)到底是啥?

...共有M篇文档,那p(d)不就是1/M吗?有什么好统计的?参考技术A潜在语义分析LSA(I)——>概率性潜在语义分析PLSA(...我们把各个主题z在文档d中出现的概率分布称之为.. 参考技术Bd,document,文档,p(d)就是某个文档的概率。当然不是1/M的... 查看详情

机器学习实战精读--------奇异值分解(svd)

...本思想就是把高维的文档降到低维空间,那个空间被称为潜在语 查看详情

LSA 或 BERT 变压器?哪一个更适合用于短句的实时语义相似性和语义聚类? [关闭]

】LSA或BERT变压器?哪一个更适合用于短句的实时语义相似性和语义聚类?[关闭]【英文标题】:LSAorBERTtransformers?Whichoneisbettertouseforreal-timesemanticSimilairtyandsemanticclusteringofshortsentence?[closed]【发布时间】:2022-01-1810:25:55【问题描述... 查看详情

20190529

【Gradle】eclipse导入Gradle项目Echarts:https://echarts.baidu.com/echarts2/doc/example.html 使用NSIS打包一个客户端的完整示例主题模型一——潜在隐语义索引(LSI/LSA) Echarts:https://echarts.baidu.com/echarts2/doc/exam 查看详情

潜在语义索引 (LSI) 是一种统计分类算法吗?

】潜在语义索引(LSI)是一种统计分类算法吗?【英文标题】:IsLatentSemanticIndexing(LSI)aStatisticalClassificationalgorithm?【发布时间】:2010-12-1016:23:00【问题描述】:为什么或者为什么不?基本上,我想弄清楚为什么theWikipediapageforStatistica... 查看详情

第九篇:分布式语义

...eModel操作向量空间模型VSMTf-idf降维奇异值分解SVD截断——潜在语义分析使用相邻词作为上下文逐点互信息PMIPMI矩阵PMI技巧SVD(A=UΣVT)神经网络方法词嵌入神经模型对于嵌入Word2VecSkip-gramMode 查看详情

短语的无监督语义聚类

...布时间】:2014-08-0604:51:29【问题描述】:我有大约一千个潜在的调查项目作为字符串向量,我想减少到几百个。通常,当我们谈论数据缩减时,我们有实际数据。我将项目管理给参与者,并使用因子分析、PCA或其他一些降维方法... 查看详情

奇异值分解

奇异值分解潜在语义索引作为PCA的经典应用之一,是在文本分类中,这样的方法有一个专有的名字,叫潜在语义索引(LSI,latensemanticindexing)。这部分需要注意的是,在文本分类中,不需要先进行归一化处理(PCA要求归一化处理),... 查看详情

潜在狄利克雷分配(lda)

参考技术A潜在狄利克雷分配(LDA),作为基于贝叶斯学习的话题模型,是潜在语义分析、概率潜在语义分析的扩展,于2002年由Blei等提出。LDA在文本数据挖掘、图像处理、生物信息处理等领域被广泛使用。LDA模型是文本集合的生成... 查看详情

基于gensim的文本相似度计算

...ncy),隐含狄利克雷分配(LatentDirichletAllocation,LDA), 潜在语义分析(LatentSemanticAnalysis,LSA)或随机预测(RandomProjections)等, 是通过检查单词在训练语料库的同一文档中的统计共现模式来发现文档的语义结构,最后转化... 查看详情

代码审核:安全性测试方案

...信息与其特有软件安全规则库进行匹对,从中找出代码中潜在的安全漏洞。 代码审计工具RIPS: 介绍:RIPS是一个用php编写的源代码分析工具,它使用了静态分析技术,能够自动化地挖掘PHP源代码潜在的安全漏洞。渗透测试... 查看详情

代码审计:安全性测试方案

...信息与其特有软件安全规则库进行匹对,从中找出代码中潜在的安全漏洞。 代码审计工具RIPS: 介绍:RIPS是一个用php编写的源代码分析工具,它使用了静态分析技术,能够自动化地挖掘PHP源代码潜在的安全漏洞。渗透测试... 查看详情