多标签文本分类层次多标签文本分类方法

征途黯然. 征途黯然.     2023-03-09     560

关键词:

·阅读摘要:
  本文是一篇中文综述,主要介绍了层次多标签分类的一些算法。
·参考文献:
  [1] 赵海燕,曹杰,陈庆奎,曹健.层次多标签文本分类方法[J/OL].小型微型计
算机系统. https://kns.cnki.net/kcms/detail/21.1106.TP .20211130.1228.002.html

[1] 引言

  层次结构的标签一般有两种表示:

  两种结构表示的示例图如下:

[2] 基本概念

  文中提出层级多标签分类的基本处理过程:

【注一】:文中提到“特征降维”这个过程,解释为:由向量空间模型来描述的文本向量通常具有较高的维度,这对于后续的分类任务来说,将带来效率低下和精确性下降的危害。 一般的话,特征降维是在机器学习的算法用的,深度学习的话,用词向量表示完文本,就直接卫道模型里面去了。

[4] 层次多标签文本分类器研究现状

  脑图如下:

【注二】:个人觉得,基于图表示的算法值得深究。

[6] 展望

  文中提到的未来突破方向有四:

  (1)分类器的设计。如何利用文本和各层标签的关系、如何利用层次标签的依赖关系是考察分类器优劣的一个重要方面。

  (2)寻找更好的文本编码表示。文本分类和其他分类的一个很大区别在于,因为文本一般是非结构化或者半结构数据,如何将其表示并能够较少地损失其原来蕴含的信息,这对后续的文本分类来说很重要,当然,Transformer和 BERT是两个目前效果较好的语言模型,也可以寻求其他方法来表示文本,比如文本的图表示等。但是这些表示都是通用的表示方法,而什么样的编码表示更适合于层次多标签文本分类还有待进一步研究。

  (3)极端的层次多标签文本分类问题。随着应用的深入,不少应用面临极端的层次多标签文本分类任务。它的特点是层次标签的数目非常多,层次级别也非常深,造成模型规模可能非常庞大,目前的计算能力难以处理。如何高效地处理极端层次多标签文本分类问题将成为未来的一个研究方向。

  (4)现实数据集中标签的长尾问题。在现实数据集中,大部分标签的数据是相对较少的,即很少的数据和一些标签关联,甚至没有数据关联,特别在层次结构的底层靠近叶子节点处。长尾问题在极端的层次多标签文本分类问题中尤其严重。这种情况对于模型学习将造成困难,可能导致无法预测的问题。因此,如何处理层次多标签文本分类中的长尾问题,也是未来的一个重要研究方向。

【注三】:比较好突破的是1、3、4。
模型是最好做出突破的;
其次是解决长尾问题,长尾问题不是只存在于文本分类任务中的,它几乎在所有的分类任务中都存在,包括CV领域,所以解决方法很多,比较容易找到灵感;
极端的层次多标签文本分类问题做的不多,但是“极端”就意味着“大”,“大”就意味着“显卡”,没有硬实力会很难做。

多标签文本分类《基于标签语义注意力的多标签文本分类》

·阅读摘要:  为了建立标签的语义信息和文档的内容信息之间的联系并加以利用,文章提出了一种基于标签语义注意力的多标签文本分类(LAbelSemanticAttentionMulti-labelClassification,简称LASA)方法。·参考文献:  [1]基... 查看详情

bert-多标签文本分类实战之一——实战项目总览

[1]总览  【BERT-多标签文本分类实战】系列共七篇文章:  【BERT-多标签文本分类实战】之一——实战项目总览  【BERT-多标签文本分类实战】之二——BERT的地位与名词术语解释  【BERT-多标签文本分类实战】之三—... 查看详情

多标签文本分类《基于标签语义注意力的多标签文本分类》

·阅读摘要:  为了建立标签的语义信息和文档的内容信息之间的联系并加以利用,文章提出了一种基于标签语义注意力的多标签文本分类(LAbelSemanticAttentionMulti-labelClassification,简称LASA)方法。·参考文献:  [1]基... 查看详情

使用 Sklearn 进行多标签文本分类

】使用Sklearn进行多标签文本分类【英文标题】:MultilabeltextclassificationwithSklearn【发布时间】:2020-09-0206:07:30【问题描述】:为了解决我在Python中的多标签文本分类问题,我已经尝试了所有我能想到的方法,我非常感谢任何帮助... 查看详情

多标签文本分类《融合注意力与cornet的多标签文本分类》

·阅读摘要:  本文主要提出标签与文本注意力+文本注意力、CorNet增强标签预测概率两个创新点,提升了实验精度。·参考文献:  [1]融合注意力与CorNet的多标签文本分类参考论文信息  论文名称:《融... 查看详情

bert-多标签文本分类实战之三——多标签文本分类的方向与常用数据集介绍(代码片段)

·请参考本系列目录:【BERT-多标签文本分类实战】之一——实战项目总览·下载本实战项目资源:>=点击此处=<【注】本篇将首先介绍多标签文本分类中几个小方向,然后介绍这几个小方向对应的常用数据集... 查看详情

bert-多标签文本分类实战之三——多标签文本分类的方向与常用数据集介绍(代码片段)

·请参考本系列目录:【BERT-多标签文本分类实战】之一——实战项目总览·下载本实战项目资源:>=点击此处=<【注】本篇将首先介绍多标签文本分类中几个小方向,然后介绍这几个小方向对应的常用数据集... 查看详情

bert-多标签文本分类实战之三——多标签文本分类的方向与常用数据集介绍(代码片段)

·请参考本系列目录:【BERT-多标签文本分类实战】之一——实战项目总览·下载本实战项目资源:>=点击此处=<【注】本篇将首先介绍多标签文本分类中几个小方向,然后介绍这几个小方向对应的常用数据集... 查看详情

Pyspark 多标签文本分类

】Pyspark多标签文本分类【英文标题】:Pysparkmultilabeltextclassification【发布时间】:2018-05-1601:04:36【问题描述】:我正在尝试预测未知文本的标签。我的数据如下所示:+-----------------+-----------+|label|text|+-----------------+-----------+|[0,1,0... 查看详情

拟合多标签文本分类模型时的错误

】拟合多标签文本分类模型时的错误【英文标题】:BugswhenfittingMultilabeltextclassificationmodels【发布时间】:2019-12-1723:09:57【问题描述】:我现在正在尝试为多标签文本分类问题拟合分类模型。我有一个训练集X_train,其中包含已清... 查看详情

带反馈的多标签文本分类

】带反馈的多标签文本分类【英文标题】:multi-labeltextclassificationwithfeedback【发布时间】:2018-06-1013:54:13【问题描述】:我目前正在研究一个多标签多类文本分类问题。在问题的某些部分,我需要向用户提供反馈,即算法根据哪... 查看详情

多标签文本分类,每个训练数据的类标签分布不均匀

】多标签文本分类,每个训练数据的类标签分布不均匀【英文标题】:Multi-labeltextclassificationwithnon-uniformdistributionofclasslabelsforeverytraindata【发布时间】:2020-04-0919:52:50【问题描述】:我有一个多标签分类问题,我想用六个标签对... 查看详情

为多标签文本分类转换数据集

】为多标签文本分类转换数据集【英文标题】:TransformingaDatasetforMulti-LabelTextClassification【发布时间】:2021-11-0501:51:10【问题描述】:我正在通过深度学习模型进行一些关于多标签分类的实验。但是我遇到了数据集的问题。我使... 查看详情

多标签文本分类《融合注意力与cornet的多标签文本分类》

·阅读摘要:  本文主要提出标签与文本注意力+文本注意力、CorNet增强标签预测概率两个创新点,提升了实验精度。·参考文献:  [1]融合注意力与CorNet的多标签文本分类参考论文信息  论文名称:《融... 查看详情

使用 TensorFlow 的多标签文本分类

】使用TensorFlow的多标签文本分类【英文标题】:MultilabelTextClassificationusingTensorFlow【发布时间】:2016-05-2519:32:19【问题描述】:文本数据组织为具有20,000个元素的向量,例如[2,1,0,0,5,....,0]。第i个元素表示文本中第i个单词的频率... 查看详情

为啥我的多标签文本分类 LSTM 表现不佳?

】为啥我的多标签文本分类LSTM表现不佳?【英文标题】:WhymyLSTMforMulti-LabelTextClassificationunderperforms?为什么我的多标签文本分类LSTM表现不佳?【发布时间】:2021-11-0705:01:17【问题描述】:我使用的是Windows10机器。库:带有Tensorflo... 查看详情

bert模型做多标签文本分类(代码片段)

Bert模型做多标签文本分类参考链接BERT模型的详细介绍图解BERT模型:从零开始构建BERT(强推)李宏毅2021春机器学习课程我们现在来说,怎么把Bert应用到多标签文本分类的问题上。注意,本文的重点是Bert的应用,对... 查看详情

使用 scikit-learn 进行多标签文本分类,使用哪些分类器?

】使用scikit-learn进行多标签文本分类,使用哪些分类器?【英文标题】:Multi-labeltextclassificationwithscikit-learn,whichclassifierstouse?【发布时间】:2018-07-2719:58:10【问题描述】:我已经使用导入这些分类器的scikit-learnPython库完成了文本... 查看详情