多标签文本分类,每个训练数据的类标签分布不均匀

     2023-03-13     155

关键词:

【中文标题】多标签文本分类,每个训练数据的类标签分布不均匀【英文标题】:Multi-label text classification with non-uniform distribution of class labels for every train data 【发布时间】:2020-04-09 19:52:50 【问题描述】:

我有一个多标签分类问题,我想用六个标签对文本进行分类,每个文本可以有一到六个标签,但这个标签分布并不相等。例如,10个人将句子1注释如下:

这些标签是该类别的投票数。我可以像悲伤 0.7、愤怒 0.2、恐惧 0.1、快乐 0.0、... 这个问题的最佳分类器是什么?我的意思是我是否应该规范化它们的最佳标签类型是什么? 这种标签概率不相等的多标签分类问题,我应该搜索什么关键词?

【问题讨论】:

【参考方案1】:

首先,澄清一下我是否正确理解了您的问题。您有句子=[sent1, sent2, ... sentn],并且您想将它们分类为这六个标签标签=[l1,l2,...,l6]。您的数据不是标签本身,而是文本中包含该标签的概率。您还提到了六个标签来自人工注释(我不知道您说的10个人评论是什么意思,我猜是注释)

如果是这种情况,您可以使用多标签分类或多目标回归视角来处理问题。我将介绍两种情况下您可以对数据执行的操作:

    多标签分类:在这种情况下,您需要为每个句子定义类,以便您可以训练模型。现在你只有概率。您可以通过创建阈值来做到这一点,并且高于阈值的标签概率可以被视为句子的标签。您可以阅读更多关于评估指标的信息here。 多目标回归:在这种情况下,您不需要定义类,您只需使用训练输入,我们使用数据来预测每个标签的概率。考虑到您的数据收集,我认为这是一个更好、更容易的问题。如果你想了解更多关于多目标回归的问题,你可以阅读更多关于它的内容here,但是他们在本教程中使用的模型并不是最先进的(注意它) .

训练模型:您可以使用浅层模型和深层模型来完成此任务。您需要一个可以接收句子作为输入并预测六个标签或六个概率的模型。我建议你看看这个example,它可以成为你工作的一个很好的起点。作者提供了一个关于如何使用深度神经网络构建多标签文本分类器的教程。他基本上在最后构建了一个 LSTM 和一个前馈层来对标签进行分类。如果您决定使用回归而不是分类,您可以在最后放弃激活。

最好的结果很可能是通过深度神经网络得到的,所以我发给你的文章可以很好地工作。我还建议您查看最先进的文本分类方法,例如 BERT 或 XLNET。我用BERT实现了一个多标签分类方法,也许对你有帮助。

【讨论】:

多标签分类策略

...没有人,没有太阳,没用动物。那么这样图片就可以如下标签化。因此,对这类问题进行分类,称之为多标签分类问题。唯一区别于多分类在于:一个样本是否可以拥有多个标签。基本上,有三种方法可以用来解决一个多标签分... 查看详情

多标签文本分类deeplearningforextrememulti-labeltextclassification

...:  本文提出结合CNN的XML-CNN模型来解决大规模的多标签文本分类问题。  [1]DeepLearningforExtremeMulti-labelTextClassification[0]摘要  极端多标签文本分类(extrememulti-labeltextclassification(XMTC))是指从一个非常大的标签集合为每个文... 查看详情

数据分区中的类标签

】数据分区中的类标签【英文标题】:Classlabelsindatapartitions【发布时间】:2013-12-2414:04:23【问题描述】:假设有人将数据划分为训练/验证/测试集以进一步应用某种分类算法,而训练集恰好不包含完整数据集中存在的所有类标签-... 查看详情

使用深度学习处理文本分类中的嘈杂训练标签

】使用深度学习处理文本分类中的嘈杂训练标签【英文标题】:Dealingwithnoisytraininglabelsintextclassificationusingdeeplearning【发布时间】:2017-02-2121:03:11【问题描述】:我有一个由句子和相应的多标签组成的数据集(例如,一个句子可... 查看详情

bert-多标签文本分类实战之七——训练-评估-测试与运行主程序(代码片段)

·请参考本系列目录:【BERT-多标签文本分类实战】之一——实战项目总览·下载本实战项目资源:>=点击此处=<[1]损失函数与评价指标  多标签文本分类任务,用的损失函数是BCEWithLogitsLoss,不是交叉... 查看详情

bert-多标签文本分类实战之七——训练-评估-测试与运行主程序(代码片段)

·请参考本系列目录:【BERT-多标签文本分类实战】之一——实战项目总览·下载本实战项目资源:>=点击此处=<[1]损失函数与评价指标  多标签文本分类任务,用的损失函数是BCEWithLogitsLoss,不是交叉... 查看详情

bert-多标签文本分类实战之七——训练-评估-测试与运行主程序(代码片段)

·请参考本系列目录:【BERT-多标签文本分类实战】之一——实战项目总览·下载本实战项目资源:>=点击此处=<[1]损失函数与评价指标  多标签文本分类任务,用的损失函数是BCEWithLogitsLoss,不是交叉... 查看详情

ml-10多分类及多标签分类算法

目录单标签二分类单标签多分类多标签算法一、单标签二分类单标签二分类这种问题是我们最常见的算法问题,主要是指label标签的取值只有两种,并且算法中只有一个需要预测的label标签;直白来讲就是每个实例的可能类别只... 查看详情

多标签分类的预训练

】多标签分类的预训练【英文标题】:Pre-trainingformultilabelclassification【发布时间】:2019-05-2021:02:03【问题描述】:我必须为多标签分类预先训练一个模型。我正在使用cifar10数据集进行预训练,我想知道我是否必须用于预训练\'cat... 查看详情

文本分类:多标签文本分类与多类文本分类

】文本分类:多标签文本分类与多类文本分类【英文标题】:TextClassification:MultilableTextClassificationvsMulticlassTextClassification【发布时间】:2016-06-1417:21:43【问题描述】:我对处理多标签分类问题的方法有疑问。根据文献回顾,我发... 查看详情

bert-多标签文本分类实战之四——数据集预处理(代码片段)

·请参考本系列目录:【BERT-多标签文本分类实战】之一——实战项目总览·下载本实战项目资源:>=点击此处=<[1]数据集预处理的流程  在拿到数据集之后,我们关心接下来操作的步骤:  ·查看数... 查看详情

bert-多标签文本分类实战之四——数据集预处理(代码片段)

·请参考本系列目录:【BERT-多标签文本分类实战】之一——实战项目总览·下载本实战项目资源:>=点击此处=<[1]数据集预处理的流程  在拿到数据集之后,我们关心接下来操作的步骤:  ·查看数... 查看详情

bert-多标签文本分类实战之四——数据集预处理(代码片段)

·请参考本系列目录:【BERT-多标签文本分类实战】之一——实战项目总览·下载本实战项目资源:>=点击此处=<[1]数据集预处理的流程  在拿到数据集之后,我们关心接下来操作的步骤:  ·查看数... 查看详情

拟合多标签文本分类模型时的错误

】拟合多标签文本分类模型时的错误【英文标题】:BugswhenfittingMultilabeltextclassificationmodels【发布时间】:2019-12-1723:09:57【问题描述】:我现在正在尝试为多标签文本分类问题拟合分类模型。我有一个训练集X_train,其中包含已清... 查看详情

恒源云_长尾分布的多标签文本分类平衡方法(论文学习笔记)

...示通常我们讨论长尾分布或者是文本分类的时候只考虑单标签,即一个样本只对应一个标签,但实际上多标签在实际应用中也非常常见,例如个人爱好的集合一共有6个元素:运动、旅游、读书、工作、睡觉、美食... 查看详情

bert-多标签文本分类实战之一——实战项目总览

[1]总览  【BERT-多标签文本分类实战】系列共七篇文章:  【BERT-多标签文本分类实战】之一——实战项目总览  【BERT-多标签文本分类实战】之二——BERT的地位与名词术语解释  【BERT-多标签文本分类实战】之三—... 查看详情

bert-多标签文本分类实战之三——多标签文本分类的方向与常用数据集介绍(代码片段)

·请参考本系列目录:【BERT-多标签文本分类实战】之一——实战项目总览·下载本实战项目资源:>=点击此处=<【注】本篇将首先介绍多标签文本分类中几个小方向,然后介绍这几个小方向对应的常用数据集... 查看详情

bert-多标签文本分类实战之三——多标签文本分类的方向与常用数据集介绍(代码片段)

·请参考本系列目录:【BERT-多标签文本分类实战】之一——实战项目总览·下载本实战项目资源:>=点击此处=<【注】本篇将首先介绍多标签文本分类中几个小方向,然后介绍这几个小方向对应的常用数据集... 查看详情