文本分类与句子分类[重复]

     2023-03-12     279

关键词:

【中文标题】文本分类与句子分类[重复]【英文标题】:Text classification vs. Sentence classification [duplicate] 【发布时间】:2014-06-21 01:51:27 【问题描述】:

这两者有什么区别?文章似乎以不同的方式对待它们......也就是说,一篇论文将展示对文本分类句子分类的研究。

我想知道 - 如果一个人对整个文本应用句子分类,然后根据其大部分句子被分类到的内容对段落进行分类 - 这会算作正确的文本分类吗?还是文本分类有不同的“捕获”?

【问题讨论】:

@adi92,感谢您的参考(也是一个非常好的答案!)我注意到您的答案和 lejlot 的答案完全相反。你对他写的有什么意见吗? @Chesie 我们的两个答案似乎都说没有真正的区别.. 是什么让你说我们的答案相反? @adi92 - lejlot 说句子分类与文本分类相同,只是更小。你说过,虽然相似——但你对待它们的方式不同。在句子分类中,你需要squeeze each training instance for all the information it can give you - 意思是添加单词的顺序,POS标签,也许跳过特征选择......我相信它与你处理文本分类的方式略有不同,而且它不仅仅是一个较小的问题. 这更像是一个旁注。在任何 ML 任务中,当您的单个训练实例的大小有点小时,您在从该实例中提取特征向量时更有可能需要更聪明。当您对政客的演讲(可能很长)进行分类时,指示某些单词存在/不存在的 0-1 特征向量可能足以进行分类。在对推文进行分类时,由于要处理的文本较少,因此您可能需要通过查看 POS 标签、自上一条推文以来的时间、转发次数等来变得更聪明 谢谢@adi92。你的“旁注”是我迄今为止找到的最接近的答案(赞成):-) 【参考方案1】:

任务,问题是关于做什么而不是如何。因此,如何处理文本分类并不重要,如果您对文本进行分类,它始终是文本分类。就这样。您可以掷硬币对其进行分类,如果它取得了良好的分数,它仍然会“算作正确的文本分类”。

句子分类可以看作是一个“较小规模”的问题,因为文本分类更适合用于较大文本块(如文档)的上下文。但是这里没有严格的区别/界限。我宁愿将文本分类视为一个包,一个通用术语,您可以在其中放置单词级别的任务(例如 POS 标记);句子分类;情感分析(在单词、句子、段落或文档层面)等。

【讨论】:

如何将 if-then 语句与某些文本分类器合并以构建将句子分类为不同类的模型?

】如何将if-then语句与某些文本分类器合并以构建将句子分类为不同类的模型?【英文标题】:HowcanImergeif-thenstatementwithsometextclassifiertobuildsuchamodelthatclassifiesasentencesintodifferentclasses?【发布时间】:2015-12-0602:39:03【问题描述】:我... 查看详情

tensorflor实现文本分类

Tensorflor实现文本分类下面我们使用CNN做文本分类cnn实现文本分类的原理下图展示了如何使用cnn进行句子分类。输入是一个句子,为了使其可以进行卷积,首先需要将其转化为向量表示,通常使用word2vec实现。d=5表示每个词转化为... 查看详情

多类文本分类:如果输入与类不匹配,则新类

】多类文本分类:如果输入与类不匹配,则新类【英文标题】:Multiclasstextclassification:newclassifinputdoesnotmatchtoaclass【发布时间】:2017-11-2003:30:18【问题描述】:我正在尝试将文本片段分类。我有9个类别,但我拥有的给定句子可以... 查看详情

计算序列标记任务的分类指标

...类任务计算准确率/精度/召回/F1度量。我之前已经为整个文本分类计算了它,这很容易,但是当我们在句子级别而不是文本/句子级别执行句子分类时,我感到很困惑。请注意,一个文本可能包含多个句子...这是一个示例:假设我 查看详情

文本分类 - 你能做啥与你的能力是啥?

】文本分类-你能做啥与你的能力是啥?【英文标题】:TextClassification-whatcanyoudovs.whatareyourcapabilities?文本分类-你能做什么与你的能力是什么?【发布时间】:2020-01-1021:23:46【问题描述】:文本分类基本上适用于输入的训练句子。... 查看详情

文本分类:我的数据有多少维?

】文本分类:我的数据有多少维?【英文标题】:textclassificacion:howmanydimensionsdoesmydatahave?【发布时间】:2017-03-2017:30:27【问题描述】:我正在使用词袋模型对文本进行分类。我阅读了800个文本文件,每个文件都包含一个句子。然... 查看详情

文本分类方法都有哪些

参考技术A文本分类问题:给定文档p(可能含有标题t),将文档分类为n个类别中的一个或多个文本分类应用:常见的有垃圾邮件识别,情感分析文本分类方向:主要有二分类,多分类,多标签分类文本分类方法:传统机器学习... 查看详情

《自然语言处理实战入门》文本分类----使用textrnn进行文本分类

...些变种,如LSTM(更常用),GRU。当然我们也可以把RNN运用到文本分类任务中。这里的文本可以一个句子,文档(短文本,若干句子)或篇章(长文本),因此每段文本的长度都不尽相同。在对文本进行分类时,我们一般会指定一个固定... 查看详情

bilstm默认激活函数

...。1.2情感分类任务自然语言处理中情感分类任务是对给定文本进行情感倾向分类的任务,粗略来看可以认为其是分类任务中的一类。对于情感分类任务,目前通常的做法是先对词或者短语进行表示,再通过某种组合方式把句子中... 查看详情

文本分类之fasttext

...将句子中的词向量取均值,然后softmax得到句子的label进行文本分类,这样虽然没有考虑词序,说明句子和句意之间也许没有那么复杂的非线性关系。上图中所示的是d维的一层隐层结构,那hidden里到底是什么结构呢???论文中... 查看详情

用于分类的 Python 矢量化 [重复]

...问题描述】:我目前正在尝试构建一个包含大约80个类的文本分类模型(文档分类)。当我使用随机森林构建和训练模型时(在将文本向量化为TF-IDF矩阵之后),模型运行良好。但是,当我引入新数据时,我用来构建RF的单词不... 查看详情

使用 NLTK 从自己的文本数据中进行情感分类

】使用NLTK从自己的文本数据中进行情感分类【英文标题】:SentimentClassificationfromownTextDatausingNLTK【发布时间】:2012-05-2622:52:54【问题描述】:我要问的内容可能听起来与帖子SentimentanalysiswithNLTKpythonforsentencesusingsampledataorwebservice?... 查看详情

文本分类:多标签文本分类与多类文本分类

】文本分类:多标签文本分类与多类文本分类【英文标题】:TextClassification:MultilableTextClassificationvsMulticlassTextClassification【发布时间】:2016-06-1417:21:43【问题描述】:我对处理多标签分类问题的方法有疑问。根据文献回顾,我发... 查看详情

有没有在单词和句子级别都起作用的分类器?

...想考虑词频,用于分类的句子结构。我有15类问题。每个文本文件都包含带有换行符的句子。Categorycity包含这句话:Inwh 查看详情

删除 Bert 中的 SEP 令牌以进行文本分类

】删除Bert中的SEP令牌以进行文本分类【英文标题】:RemovingSEPtokeninBertfortextclassification【发布时间】:2020-04-3007:49:15【问题描述】:给定一个情感分类数据集,我想微调Bert。如您所知,BERT创建的目的是在给定当前句子的情况下... 查看详情

用cnn对文本处理,句子分类(简单理解卷积原理)

首先需要理解N-gramhttps://zhuanlan.zhihu.com/p/32829048对于在NLP中N-gram的理解,一元,二元,三元gram大多数NLP任务的输入不是图像像素,而是以矩阵表示的句子或文档。矩阵的每一行对应一个标记,通常是一个单词,但它也可以是一个... 查看详情

[转]文本分类——glue数据集介绍

...:https://gluebenchmark.com/leaderboard/ 如果要用一句话形容文本分类任务在NLP中的应用之广,某种程度上,大概这句话最适合:一切NLP皆分类。通常来说,NLP可以分为自然语言理解(NLU)和自然语言生成(NLG)。在NLU方面,我们拿... 查看详情

scikit-learn 中分类算法的文本特征输入格式

】scikit-learn中分类算法的文本特征输入格式【英文标题】:Textfeaturesinputformatforclassificationalgorithmsinscikit-learn【发布时间】:2012-08-1914:24:00【问题描述】:我开始使用scikit-learn来做一些NLP。我已经使用了一些来自NLTK的分类器,现... 查看详情