中文情感分类单标签

红色石头Will 红色石头Will     2023-03-09     617

关键词:

接上一篇:

你所不知道的 Transformer!

超详细的 Bert 文本分类源码解读 | 附源码

章节

  • 背景介绍

  • 预处理

完整的 GitHub 项目代码地址:

https://github.com/sherlcok314159/ML/blob/main/nlp/practice/sentiment.md

背景介绍

这次的任务是中文的一个评论情感去向分类:

每一行一共有三个部分,第一个是索引,无所谓;第二个是评论具体内容;第三个是标签,由0,1,2组成,1代表很好,2是负面评论,0应该是情感取向中立。

数据预处理

bert模型是可以通用的,但是不同数据需要通过预处理来达到满足bert输入的标准才行。

首先,我们创造一个读入自己数据的类,名为MyDataProcessor。其实,这个可以借鉴一下谷歌写好的例子,比如说MrpcProcessor。

首先将DataProcessor类复制粘贴一下,然后命名为MyDataProcessor,别忘了继承一下DataProcessor。

接下来我们以get_train_examples为例来简单介绍一下如何读入自己的数据。

第一步我们需要读取文件进来,这里需要注意的是中文要额外加一个utf-8编码。

读取好之后,这里模仿创建train_data为空列表,索引值为0。

代码主体跟其他的差不多,有区别的是我们这里并没有用DataProcessor的_read_tsv方法,所以文件分割部分我们得自己写。同时因为中文每行结束会有换行符("\\n"),需要换为空白。

至于dev和test数据集处理方式大同小异,只需要将名字换一下,这里不多赘述,这里放了处理训练集的完整函数。

然后get_labels方法,里面写具体的labels,这里是0,1,2,那么就是0,1,2,注意不要忘了带上英文引号就行。最重要的是去main(_)方法下面添加自己定义的数据处理类别

模型去bert官方下载中文的预训练模型,其他的对着改改就好,相信看过我的文本分类(https://github.com/sherlcok314159/ML/blob/main/nlp/tasks/text.md)的剩下的都不需要多说。跑出来的结果如下,我用的是Tesla K80,白嫖Google Colab的,用时1h17min47s。


AI 角:你能看出这个 AI 做得嘛

中文对话情感分类调研(代码片段)

由这个比赛:https://god.yanxishe.com/5 中的亚军代码https://god.yanxishe.com/codeplan/detail/41,发现了roeberta_zh_L-24_H-1024_A-16(貌似就是下文中的chinese_roberta_wwm_large_ext_L-24_H-1024_A-16.zip࿰ 查看详情

nlpcc2013中文微博细粒度情感识别(代码片段)

...本分类的整个过程。数据使用的是NLPCC2013的第二个任务,中文微博细粒度情感识别,现在在官网已经不太好找到合适的数据了,我用的是从CSDN上面下载的,tb花了几块钱解决。打开一看好家伙,还是xml格式的,有的里面自带标签... 查看详情

中文文本分类大概的步骤

...特征提取、分类模型构建等。和英文文本处理分类相比,中文文本的预处理是关键技术。 一 查看详情

paddlenlp基于ernir3.0文本分类以中医疗搜索检索词意图分类(kuake-qic)为例多分类(单标签)(代码片段)

...抽取任务【打车数据、快递单】Paddlenlp之UIE分类模型【以情感倾向分析新闻分类为例】含智能标注方案)应用实践:分类模型大集成者[PaddleHub、Finetune、prompt]Paddlenlp之UIE关系抽取模型【高管关系抽取为例】本项目链接... 查看详情

paddlenlp之uie分类模型以情感倾向分析新闻分类为例含智能标注方案)(代码片段)

...tudio直接fork我的项目就可以复现Paddlenlp之UIE分类模型【以情感倾向分析新闻分类为例】含智能标注方案)0前言首先回顾上一个项目:Paddlenlp之UIE模型实战实体抽取任务【打车数据、快递单】会存在以下问题:自己样 查看详情

阿旭机器学习实战33中文文本分类之情感分析--朴素贝叶斯knn逻辑回归(代码片段)

【阿旭机器学习实战】系列文章主要介绍机器学习的各种算法模型及其实战案例,欢迎点赞,关注共同学习交流。目录1.查看原始数据结构2.导入数据并进行数据处理2.1提取数据与标签2.2过滤停用词2.3TfidfVectorizer将文本向... 查看详情

将单标签分类器转换为多标签分类器

】将单标签分类器转换为多标签分类器【英文标题】:Convertmono-labelClassifierintomulti-labelclassifier【发布时间】:2018-12-2618:02:15【问题描述】:大家好!继续我的问题:我有一个简单的图像分类器(2conv+2fc),它在我的数据集(95%acc)上... 查看详情

sklearn中带有词袋和附加情感特征的文本分类器

】sklearn中带有词袋和附加情感特征的文本分类器【英文标题】:textclassifierwithbagofwordsandadditionalsentimentfeatureinsklearn【发布时间】:2016-05-1705:21:30【问题描述】:我正在尝试构建一个分类器,除了词袋外,它还使用情绪或主题(LD... 查看详情

mxnet中使用双向循环神经网络birnn对文本进行情感分类

...的文本序列变换为文本的类别。这节主要就是关注文本的情感分析(sentimentanalysis),对电影的评论进行一个正面情绪与负面情绪的分类。整理数据集第一步都是将数据集整理好,这里我们使用"大型电影评论数据集"LMD... 查看详情

单标签多类分类随机森林python

】单标签多类分类随机森林python【英文标题】:Single-labelmulticlassclassificationrandomforestpython【发布时间】:2020-01-3117:01:39【问题描述】:我是机器学习的新手,我目前正在处理由分类数据组成的csv文件格式的数据集。作为一种预处... 查看详情

bert实战:使用distilbert进行文本情感分类(代码片段)

...rtheFirstTime学习下如何在Pytorch框架下使用BERT。主要参考了中文翻译版本教程提供了可用的代码,可以在colab或者github获取。1.huggingface/transformersTransformers提供了数千个预训练的模型来执行文本任务,如100多种语 查看详情

文本分类(代码片段)

...类的例子,通过训练简历分类,是一种自动分类的技术。中文短文本多类分类(multi-label-class)[2]单标签多分类概述一、单标签二分类算法  单标签的label标签取值只有两种,并且算法中只有一个需要预测的标签的label标签,即... 查看详情

基于ernie-3.0cail2019法研杯要素识别多标签分类任务(代码片段)

...抽取任务【打车数据、快递单】Paddlenlp之UIE分类模型【以情感倾向分析新闻分类为例】含智能标注方案)应用实践:分类模型大集成者[PaddleHub、Finetune、prompt]Paddlenlp之UIE关系抽取模型【高管关系抽取为例】PaddleNLP基于ERNI... 查看详情

ml-10多分类及多标签分类算法

目录单标签二分类单标签多分类多标签算法一、单标签二分类单标签二分类这种问题是我们最常见的算法问题,主要是指label标签的取值只有两种,并且算法中只有一个需要预测的label标签;直白来讲就是每个实例的可能类别只... 查看详情

标签的分类

标签分类1、单|双标签单标签:单标签在自身标签标识结束,主要应用场景为功能性标签双标签:双标签有成对的结束标识,主要应用场景为内容性标签2、行|块标签行标签:又名内联标签,内联标签自身不具备宽高,通常同行... 查看详情

【技术综述】多标签图像分类综述

参考技术A图像分类作为计算机视觉领域的基础任务,经过大量的研究与试验,已经取得了傲人的成绩。然而,现有的分类任务大多是以单标签分类展开研究的。当图片中有多个标签时,又该如何进行分类呢?本篇综述将带领大... 查看详情

文本分类:多标签文本分类与多类文本分类

】文本分类:多标签文本分类与多类文本分类【英文标题】:TextClassification:MultilableTextClassificationvsMulticlassTextClassification【发布时间】:2016-06-1417:21:43【问题描述】:我对处理多标签分类问题的方法有疑问。根据文献回顾,我发... 查看详情

文本情感分类:传统模型

基于情感词典的文本情感分类传统的基于情感词典的文本情感分类,是对人的记忆和判断思维的最简单的模拟,如上图。我们首先通过学习来记忆一些基本词汇,如否定词语有“不”,积极词语有“喜欢”、“爱”,消极词语有... 查看详情