文本分类/分类算法[关闭]

     2023-02-19     191

关键词:

【中文标题】文本分类/分类算法[关闭]【英文标题】:Text classification/categorization algorithm [closed] 【发布时间】:2011-04-04 19:26:55 【问题描述】:

我的目标是[半]自动将文本分配到不同的类别。有一组用户定义的类别和每个类别的一组文本。理想的算法应该能够从人为定义的分类中学习,然后自动对新文本进行分类。 任何人都可以建议这样的算法,也许是实现ше的.NET库?

【问题讨论】:

【参考方案1】:

这样做并非易事。显然,您可以构建一个将某些关键字映射到类别的字典。只需找到一个关键字就会建议某个类别。

然而,在自然语言文本中,关键字通常不会采用词干形式。您需要一些形态学工具来查找词干形式并将其用于字典。

但是有人可能会这样写:“这篇文章不是关于……”。这将引入对语法和语义分析的需求。

然后您会发现某些关键字可以用于多个类别:“乐队”可以用于音乐、技术甚至手工艺品。因此,如果不确定,您将需要一个本体和统计或其他方法来权衡要选择的类别的概率。

有些关键词甚至可能不容易融入本体:数学家更接近程序员还是园丁?但是您在问题中说类别是由男性构建的,因此他们也可以帮助构建本体。

在这里查看computational linguistics 和Wikipedia 以进行进一步研究。

现在,你的文本来自的领域越窄,它们就越有条理,词汇量越小,问题就越容易。

再进一步研究一些关键词:形态学、句法分析、语义学、本体论、计算语言学、索引、关键词

【讨论】:

【参考方案2】:

自动文本分类有多种方法。朴素贝叶斯分类器可能是其中最简单的一个。另一个是您可以使用的 K-最近邻。 categorization of text 上的这个谷歌答案可能会对您有所帮助。

【讨论】:

您提供的链接的Up-V。答案经过了严格的研究,其中总结的信息令人震惊。谢谢!我希望我能给一个答案 10 票。 链接很好,可能相当稳定,但 Stack Overflow 的答案应该是独立的。您能否至少简要总结一下您链接到的资源?【参考方案3】:

观看我关于这个主题的视频系列。

http://vancouverdata.blogspot.com/2010/11/text-analytics-with-rapidminer-loading.html

分类在视频 5 中,但其他视频可能会帮助您快速了解。

这一切都基于 FOSS 程序 RapidMiner。

【讨论】:

【参考方案4】:

查看this example from scikit learn。示例中应用了一大堆不同的算法,因此您可以比较结果。

【讨论】:

虽然此链接可能会回答问题,但最好在此处包含答案的基本部分并提供链接以供参考。如果链接页面发生更改,仅链接答案可能会失效。 - From Review 在这种情况下,答案确实是使用那个特定的框架,我已经在我的答案中命名了它。哪种算法更适合取决于数据。【参考方案5】:

支持向量机。每个人都喜欢支持向量机。你需要做很多阅读,甚至可能买一本书。但是你可以先阅读a paper 看看你是否喜欢这个想法。

【讨论】:

一位比我了解更多的朋友说“SVM 确实是一个明智的选择 Tom。不过,如果您有大型数据集,有更有效的技术可以为您提供类似的结果.. . 每个类别有多少训练样本?”,我回答说“不确定,我问别人。但不是很多,我想。”,他反过来回答“好吧,简单的答案是 SVM将是一个很好的起点。”。所以现在你知道了。 更难用 SVM 进行多类分类。使用朴素贝叶斯或 knn 会更容易【参考方案6】:

这些方法的总称是“多变量方法”。通过搜索“文本分类”或“文本分类”应该会带来一些有用的线索。祝你好运!

【讨论】:

【参考方案7】:

我一直在寻找这个问题的答案。今天我找到了我的答案。

有一个名为“dbacl”的开源程序可以做到这一点。它将文档分类为您喜欢的多个类别(最多为某个最大值)。

说“不平凡”之类的其他答案都是正确的,但是拥有一个易于使用的包来完成困难的工作有助于使其易于管理。

【讨论】:

虽然这是一个有用的现成实用程序,但问题和本网站都是关于编程问题,而不是找到有用的实用程序。因此,这个答案也许应该是一个评论。 同意,如果“编程”是主题,那么标准实用程序是题外话。另一方面,开源程序允许您对其进行调查并提取所使用的算法。我将最初的问题视为:“我有这个问题想要解决,如有必要,我愿意自己编程”。鉴于此,标准实用程序将帮助最初的提问者以及最终遇到类似问题的人。 "。

大型数据集最快的分类算法是啥? [关闭]

】大型数据集最快的分类算法是啥?[关闭]【英文标题】:Whatisthefastestclassificationalgorithmforlargedatasets?[closed]大型数据集最快的分类算法是什么?[关闭]【发布时间】:2018-04-0215:10:09【问题描述】:最快的分类算法是什么?如果我... 查看详情

基于协同训练的半监督文本分类算法

半监督学习文本分类系列用半监督算法做文本分类(sklearn)sklearn半监督学习(sklearn)基于自训练的半监督文本分类算法一.摘要本文主要讲述基于协同训练的半监督算法做文本分类,用三个差异性比较大的分类器对未标注数据进行标... 查看详情

如何使用分类器算法对单个文本进行分类

】如何使用分类器算法对单个文本进行分类【英文标题】:Howtoclassifysingletextusingclassifieralgorithms【发布时间】:2017-07-1018:03:37【问题描述】:我有一组集群的文档。现在每个文档都有一个标签。我想基于此构建一个分类器,对其... 查看详情

搜索引擎文本分类

Q1.为什么搜索引擎要用到文本分类?  搜索引擎要处理海量文本,人工分类不现实,机器的自动分类对提高文本的分类效率至少起到了一个基准的效果。另外,文本分类跟搜索引擎系统可以进行信息互通,文本分类的输入是文... 查看详情

机器学习算法与编程实践之中文文本分类

这周学习了机器学习算法与编程实践第二章——中文文本分类的部分内容。该章以文本挖掘为大背景,以文本分类算法为中心,详细介绍了中文文本分类项目的相关知识点。一、文本挖掘与文本分类的概念被普遍认可的文本挖掘... 查看详情

基于半监督学习算法的文本分类(自训练)

半监督学习文本分类系列用半监督算法做文本分类(sklearn)sklearn半监督学习(sklearn)摘要之前调用sklearn库里的半监督算法——标签传播算法做文本分类,但是它无法支持大数据量的操作,所以就放弃了。小的数据量是可以跑的,详... 查看详情

分类 10 位数字键的算法 [关闭]

】分类10位数字键的算法[关闭]【英文标题】:Algorithmtoclassify10digitkeys[closed]【发布时间】:2018-02-1301:27:43【问题描述】:我正在寻找一种算法,可以对不同格式的10位(主要是)整数键进行分类。训练数据集如下所示:+------------... 查看详情

什么是有监督的 ML 分类算法? [关闭]

】什么是有监督的ML分类算法?[关闭]【英文标题】:WhataresupervisedMLClassificationalgorithms?[closed]【发布时间】:2015-05-1223:02:46【问题描述】:我发现的是:1.朴素贝叶斯分类器2.K最近邻分类器3.决策树算法(C4.5,随机森林)4.核判别... 查看详情

最近邻文本分类[关闭]

】最近邻文本分类[关闭]【英文标题】:NearestNeighbourtextclassification[closed]【发布时间】:2014-03-1322:24:16【问题描述】:我有两个文本文件(1)坏词样本和(2)好词样本。现在我已经执行最近邻分类,其中发现了新词将被归类为好或坏... 查看详情

Chatbot的文本分类[关闭]

】Chatbot的文本分类[关闭]【英文标题】:TextClassificationfromChatbot[closed]【发布时间】:2020-04-1821:33:10【问题描述】:我刚刚开始成为一名初级数据分析师。我申请了一家初创公司,他们给了我一个测试。我想知道是否有人可以提... 查看详情

使用 createML 创建文本分类器模型时使用啥机器学习算法?

】使用createML创建文本分类器模型时使用啥机器学习算法?【英文标题】:whatmachinelearningalgorithmisusedwhilecreatingatextclassifiermodelusingcreateML?使用createML创建文本分类器模型时使用什么机器学习算法?【发布时间】:2021-06-0310:09:03【... 查看详情

朴素贝叶斯文本分类在一个类别中失败。为啥? [关闭]

】朴素贝叶斯文本分类在一个类别中失败。为啥?[关闭]【英文标题】:Naivebayestextclassificationfailsinonecategory.Why?[closed]朴素贝叶斯文本分类在一个类别中失败。为什么?[关闭]【发布时间】:2013-05-1204:07:20【问题描述】:我正在实... 查看详情

文本分类(代码片段)

背景    文本分类属于文本挖掘。文本挖掘从已知文本提取未知的知识,即从非结构的文本中提取知识。文本挖掘主要领域:搜索和信息检索;文本聚类;文本分类;Web挖掘;信息抽取;自然语言处理;概念提取。... 查看详情

文本分类textclassification

什么是文本分类文本分类任务是NLP十分常见的任务大类,他的输入一般是文本信息,输出则是预测得到的分类标签。主要的文本分类任务有主题分类、情感分析、作品归属、真伪检测等,很多问题其实通过转化后也能用分类的方... 查看详情

如何微调 HuggingFace BERT 模型以进行文本分类 [关闭]

】如何微调HuggingFaceBERT模型以进行文本分类[关闭]【英文标题】:HowtoFine-tuneHuggingFaceBERTmodelforTextClassification[closed]【发布时间】:2021-10-3115:55:33【问题描述】:是否有分步说明关于如何微调HuggingFaceBERT模型以进行文本分类?【问... 查看详情

使用 svm 进行文本分类

】使用svm进行文本分类【英文标题】:textclassificationusingsvm【发布时间】:2013-07-1600:52:59【问题描述】:我看了这篇文章:k近邻的混合分类方法,贝叶斯方法和遗传算法建议使用遗传算法来改进文本分类我想用SVM替换遗传算法,... 查看详情

朴素贝叶斯算法

朴素贝叶斯算法 文本分类模型 在结束生成算法模型之前,我们将一种专门用于文本分类的算法。对于分类问题,朴素贝叶斯算法通常效果很好,而对于文本分类而言,则有更好的模型。 对于文本分类,之前提到的朴素贝叶... 查看详情

如何对数字标记形式的文本数据应用分类算法?

】如何对数字标记形式的文本数据应用分类算法?【英文标题】:HowcanIapplyclassificationalgorithmfortextdatawhichisintheformofnumericaltokens?【发布时间】:2020-01-2107:20:50【问题描述】:我正在尝试解决分类问题:数据是来自电子商务平台的... 查看详情