NLP/机器学习文本比较[关闭]

     2023-03-12     87

关键词:

【中文标题】NLP/机器学习文本比较[关闭]【英文标题】:NLP/Machine Learning text comparison [closed] 【发布时间】:2013-08-28 16:29:22 【问题描述】:

我目前正在开发一个程序,该程序能够将小文本(比如 250 个字符)与类似文本的集合(大约 1000-2000 个文本)进行比较。

目的是评估文本 A 是否与集合中的一个或多个文本相似,如果是,则集合中的文本必须可以通过 ID 检索。每个文本都有一个唯一的 ID。

我希望输出有两种方式:

选项 1: 文本 A 与文本 B 的相似度为 90%,文本 C 的相似度为 70%,以此类推。

选项 2: 文本 A 匹配文本 D 相似度最高

我在学校读过一些机器学习,但我不确定哪种算法最适合这个问题,或者我是否应该考虑使用 NLP(不熟悉该主题)。

有没有人建议使用什么算法或在哪里可以找到必要的文献来解决我的问题?

【问题讨论】:

【参考方案1】:

这似乎不是机器学习问题,您只是在寻找一些文本相似性度量。选择一个后,您只需根据获得的“分数”对数据进行排序。

根据您的文本,您可以使用以下指标之一 (list from the wiki) 或定义您自己的指标:

汉明距离 Levenshtein 距离和 Damerau-Levenshtein 距离 Needleman-Wunsch 距离或 Sellers 算法 史密斯-沃特曼距离 Gotoh 距离或 Smith-Waterman-Gotoh 距离 蒙格埃尔坎距离 街区距离或L1距离或城市街区距离 Jaro-Winkler 距离 Soundex 距离度量 简单匹配系数 (SMC) 骰子的系数 Jaccard 相似度或 Jaccard 系数或 Tanimoto 系数 特沃斯基索引 重叠系数 欧几里得距离或 L2 距离 余弦相似度 变化距离 Hellinger 距离或 Bhattacharyya 距离 信息半径(Jensen-Shannon 散度) 偏斜发散 混淆概率 Tau 度量,Kullback–Leibler 散度的近似值 Fellegi 和 Sunters 指标 (SFS) 最大匹配数 背风距离

上述某些(例如余弦相似度)需要将您的数据转换为矢量化格式。这个过程也可以通过多种方式实现,使用最简单的词袋/tfidf 技术。

List 本身远非完整,只是此类方法的一个草稿。特别是,有许多字符串内核,它们也适用于测量文本相似度。尤其是 Wordnet Kernel 可以基于最完整的英语语义数据库之一来衡量语义相似度。

【讨论】:

Tf-idf 是一个术语加权方案,FASTA 和 BLAST 是计算生物学包。 -1 来自***的不加批判的复制粘贴。 感谢您澄清您的反对意见,尽管这些方面很难被视为答案“错误”或“坏”的原因。 此外,余弦相似度、L1 和 L2 距离以及可能还有很多其他的不是在字符串上定义的,而是在特征空间(例如词袋)上定义的。调用这些字符串指标是相当牵强的。将调和平均值列为字符串度量是非常荒谬的。两根弦的调和平均值是多少? 我称它们为“文本相似性度量”,这似乎与矢量化格式的流行度量并不矛盾。我敢说,余弦相似度是在简单应用程序中测量文本相似度的最常用方法之一。【参考方案2】:

听说有three approaches from Dr. Golden:

余弦角分离

汉明距离

潜在语义分析 (LSA) 或潜在语义索引 (LSI)

这些方法基于语义相似性。

我还听说一些公司使用名为Spacy 的工具来汇总文档以相互比较。

【讨论】:

数学之路(机器学习实践指南)-文本挖掘与nlp

#条件频率,每个词条在不同分类中出现的频率print"------------------"cfd=nltk.ConditionalFreqDist(samplewords)fdist=cfd[u‘财经‘]forwordinfdist:printwordprint"---------流动性出现次数-----------"printcfd[u‘财经‘][u‘流 查看详情

机器学习/NLP 文本分类:从文本文件的语料库中训练模型 - scikit learn

】机器学习/NLP文本分类:从文本文件的语料库中训练模型-scikitlearn【英文标题】:MachineLearning/NLPtextclassification:trainingamodelfromcorpusoftextfiles-scikitlearn【发布时间】:2019-01-1203:23:26【问题描述】:我对机器学习非常陌生,我想知道... 查看详情

火炉炼ai机器学习042-nlp文本的主题建模(代码片段)

【火炉炼AI】机器学习042-NLP文本的主题建模(本文所使用的Python库和版本号:Python3.6,Numpy1.14,scikit-learn0.19,matplotlib2.2,NLTK3.3)文本的主题建模时用NLP来识别文本文档中隐藏的某种模式的过程,可以发现该文档的隐藏主题,以便对文档... 查看详情

我如何处理这个机器学习/NLP 上下文感知文本分类项目?请参阅下面的说明

】我如何处理这个机器学习/NLP上下文感知文本分类项目?请参阅下面的说明【英文标题】:HowdoIapproachthismachinelearning/NLPcontextawaretextclassificationproject?Seethedescriptionbelow【发布时间】:2018-04-1316:17:13【问题描述】:我是机器学习和N... 查看详情

深度学习机器学习与nlp的前世今生

...、为什么做文本挖掘什么是NLP?简单来说:NLP的目的是让机器能够理解人类 查看详情

机器学习--如何将nlp应用到深度学习

数据收集以后,我们下面接着要干的事情是如何将文本转换为神经网络能够识别的东西。 词向量 作为自然语言,只有被数学化才能够被计算机认识和计算。数学化的方法有很多,最简单的方法是为每个词分配一个编号,这... 查看详情

机器学习--如何将nlp应用到深度学习

数据收集以后,我们下面接着要干的事情是如何将文本转换为神经网络能够识别的东西。 词向量作为自然语言,只有被数学化才能够被计算机认识和计算。数学化的方法有很多,最简单的方法是为每个词分配一个编号,这种... 查看详情

6个顶级pythonnlp库的比较!

...其主要任务包括语音识别和生成、文本分析、情感分析、机器翻译等 查看详情

nlp:从attention到bert

...中在NLP领域,但该领域的诸多研究成果已经渗透到了机器学习领域的各个方向。且对于文本的处理也是许多机器学习任务的必经之路。经过简单探索,作者发现各种平台上对该领域的研究成果的详解非常丰富。因此本文... 查看详情

文本挖掘和机器学习 [关闭]

】文本挖掘和机器学习[关闭]【英文标题】:TextminingandMachinelearning[closed]【发布时间】:2017-03-2001:58:21【问题描述】:我有一个单词和文本的数据集,我想制作集群(通过K-means)或任何其他无监督/监督学习方法来区分单词,例... 查看详情

如何在机器学习中赋予文本作为特征和价值? [关闭]

】如何在机器学习中赋予文本作为特征和价值?[关闭]【英文标题】:HowtogivetextasfeatureandvalueinMachinelearning?[closed]【发布时间】:2018-04-2501:26:45【问题描述】:目前,我正在研究基于文本的机器学习。我是ML新手。我从输入文本中... 查看详情

《nlp的相关资料推荐》

...众号"CS的陋室"的相关内容。一 作者的NLP学习之路1机器学习:《统计学习方法》,雷明的《机器学习与应用》,塞巴斯蒂安的《Python机器学习》,sklearn的API文档深度学习:黄文坚《tensorflow实战》,tensorflow技术解析与实战... 查看详情

nlp分类的目的和方法

文本分类的目的和方法1.文本分类的目的2.机器学习中常见的分类方法2.1步骤2.2优化3.深度学习实现文本分类1.文本分类的目的回顾之前的流程,我们可以发现文本分类的目的就是为了进行意图识别在当前我们的项目的下,... 查看详情

机器学习:人工智能主要分支

...支一、计算机视觉二、语音识别三、文本挖掘/分类四、机器翻译五、机器人人工智能主要分支通讯、感知与行动是现代人工智能的三个关键能力,在这里我们将根据这些能力/应用对这三个技术领域进行介绍:计算机视觉... 查看详情

目录nlp相关理论及应用

...中文文本分类实战)使用inceptionv3做各种图像分类识别08-4机器学习、深度学习及NLP需要掌握的相关算法关于nlp的学习资料收集 查看详情

nlp之文本分类

...法的发展,特别是在90年代后互联网在线文本数量增长和机器学习学科的兴起,逐渐形成了一套解决大规模文本分类问题的经典玩法,这个阶段的主要套路是人工特征工程+浅层分类模型。整个文本分类问题就拆分成了特征工程和... 查看详情

用于文本分类的 SVM - 机器学习教程?我该如何开始? [关闭]

】用于文本分类的SVM-机器学习教程?我该如何开始?[关闭]【英文标题】:SVMfortextclassification-tutorialonmachinelearning?HowdoIgetstarted?[closed]【发布时间】:2014-01-1309:41:15【问题描述】:我正在寻找一个关于文本分类机器学习的非常好... 查看详情

机器学习算法学习---推荐系统的常用算法

概括分类:1)基于内容的推荐:这一类一般依赖于自然语言处理NLP的一些知识,通过挖掘文本的TF-IDF特征向量,来得到用户的偏好,进而做推荐。这类推荐算法可以找到用户独特的小众喜好,而且还有较好的解释性。这一类由... 查看详情