“此苹果非彼苹果”看意图识别的那些事儿

百度大脑 百度大脑     2022-12-06     406

关键词:

项目简介

“手把手带你学NLP”是基于飞桨PaddleNLP的系列实战项目。本系列由百度多位资深工程师精心打造,提供了从词向量、预训练语言模型,到信息抽取、情感分析、文本问答、结构化数据问答、文本翻译、机器同传、对话系统等实践项目的全流程讲解,旨在帮助开发者更全面清晰地掌握百度飞桨框架在NLP领域的用法,并能够举一反三、灵活使用飞桨框架和PaddleNLP进行NLP深度学习实践。


6月,百度飞桨 & 自然语言处理部携手推出了12节NLP视频课,课程中详细讲解了本实践项目。

观看课程回放请戳:https://aistudio.baidu.com/aistudio/course/introduce/24177

欢迎来课程QQ群(群号:758287592)交流吧~~

意图识别原来如此

意图识别是指分析用户的核心需求,输出与查询输入最相关的信息,例如在搜索中要找电影、查快递、市政办公等需求,这些需求在底层的检索策略会有很大的不同,错误的识别几乎可以确定找不到能满足用户需求的内容,导致产生非常差的用户体验;在对话过程中要准确理解对方所想表达的意思,这是具有很大挑战性的任务。

例如用户输入查询“仙剑奇侠传”时,我们知道“仙剑奇侠传”既有游戏又有电视剧还有新闻、图片等等,如果我们通过用户意图识别发现该用户是想看“仙剑奇侠传”电视剧的,那我们直接把电视剧作为结果返回给用户,就会节省用户的搜索点击次数,缩短搜索时间,大大提升使用体验。而在对话中如果对方说“我的苹果从不出现卡顿”,那么我们就能通过意图识别判断出此刻的苹果是一个电子设备,而非水果,这样对话就能顺利进行下去。

总之,意图识别的准确性能在很大程度上影响着搜索的准确性和对话系统的智能性。

本示例将展示如何使用ERNIE预训练模型完成任务型对话中的槽位填充和意图识别任务,这两个任务是一个pipeline型任务对话系统的基石。

本示例使用的数据集为CrossWOC中文对话数据集。该数据集包含多个领域,包括景点,餐馆,酒店,交通等。

快速实践

本项目基于飞桨PaddleNLP完成,记得给PaddleNLP点个小小的Star⭐

开源不易,希望大家多多支持~

GitHub地址:

https://github.com/PaddlePaddle/PaddleNLP
PaddleNLP文档:

https://paddlenlp.readthedocs.io

与大多数NLP任务相同,本次示例的展示流程分为以下四步:

2.1 数据准备

数据准备流程如下:


1.使用load_dataset()自定义数据集

使用官方脚本预处理过的数据集已经上传至AI Studio中此项目中(项目链接在文末),通过观察数据集格式,我们可以写出数据文件读取函数,传入load_dataset()。即可创建数据集。

2.加载 paddlenlp.transformers.ErnieTokenizer用于数据处理
文本数据在输入ERNIE预训练模型之前,需要经过数据处理转化为Feature。这一过程通常包括分词,token to id,add special token等步骤。

PaddleNLP对于各种预训练模型已经内置了相应的tokenizer,指定想要使用的模型名字即可加载对应的tokenizer。

可以通过调用tokenizer中的方法简单的完成上述数据处理。

3.调用map()方法批量处理数据

由于我们传入了lazy=False,所以我们使用load_dataset()自定义的数据集是MapDataset对象。

MapDataset是paddle.io.Dataset的功能增强版本。其内置的map()方法适合用来进行批量数据集处理。

map()方法传入的是一个用于数据处理的function。正好可以与tokenizer相配合。

4.Batchify和数据读入

使用paddle.io.BatchSampler和paddlenlp.data中提供的方法把数据组成batch。

然后使用paddle.io.DataLoader接口多线程异步加载数据。

Batchify功能详解:


到这里数据集准备就全部完成了,下一步我们需要组网并设计loss function。


2.2 模型结构

1.使用PaddleNLP一键加载预训练模型
以下项目以ERNIE为例,介绍如何将预训练模型多任务学习同时完成意图识别和槽位填充任务。

本例中的意图识别和槽位填充本质上是一个句子分类任务和一个序列标注任务。将两者的loss结合即可实现多任务学习。

from src.models import JointErnie
model = JointErnie.from_pretrained( 'ernie-1.0' , 
                                   intent_dim=len(intent2id), 
                                   slot_dim=len(slot2id), 
                                   dropout=0.1, 
                                   use_history=use_history)

2.设计loss function
JointErnie模型会取出ErnieModel的sequence_output接入一个输出维度为槽位类别数的线性层得到slot_logits,并将pooled_output接入一个输出维度为意图类别数的线性层得到intent_logit。

所以本示例中的loss由slot_loss和intent_loss两部分组成,我们需要自己定义loss function。

槽位填充相当于在每个token的位置进行一次多分类任务,意图识别相当于对整句话做一个多标签分类任务。所以设计的loss function如下:

#构造损失函数
class NLULoss(paddle.nn.Layer):
    def __init__(self, pos_weight):
        super(NLULoss, self).__init__()

        self.intent_loss_fn = paddle.nn.BCEWithLogitsLoss(pos_weight=paddle.to_tensor(pos_weight))
        self.slot_loss_fct = paddle.nn.CrossEntropyLoss()

    def forward(self, logits, slot_labels, intent_labels):
        slot_logits, intent_logits = logits

        slot_loss = self.slot_loss_fct(slot_logits, slot_labels)
        intent_loss = self.intent_loss_fn(intent_logits, intent_labels)

        return slot_loss + intent_loss

选择网络结构后,我们需要设置Fine-Tune优化策略。


2.3 设置Fine-Tune优化策略

适用于ERNIE/BERT这类Transformer模型的学习率为warmup的动态学习率。

动态学习率示意图

# 训练过程中的最大学习率
learning_rate = 3e-5 
# 训练轮次
epochs = 10
# 学习率预热比例
warmup_proportion = 0.0
# 权重衰减系数,类似模型正则项策略,避免模型过拟合
weight_decay = 0.0
max_grad_norm = 1.0
num_training_steps = len(train_data_loader) * epochs
# 学习率衰减策略
lr_scheduler = paddlenlp.transformers.LinearDecayWithWarmup(learning_rate, num_training_steps,warmup_proportion)

decay_params = [
    p.name for n, p in model.named_parameters()
    if not any(nd in n for nd in ["bias", "norm"])
]
# 定义优化器
optimizer = paddle.optimizer.AdamW(
    learning_rate=lr_scheduler,
    parameters=model.parameters(),
    weight_decay=weight_decay,
    apply_decay_param_fun=lambda x: x in decay_params,
    grad_clip=paddle.nn.ClipGradByGlobalNorm(max_grad_norm))


现在万事俱备,我们可以开始训练模型。

2.4 模型训练与评估

模型训练的过程通常有以下步骤:

  • 从dataloader中取出一个batch data;
  • 将batch data喂给model,做前向计算;
  • 将前向计算结果传给损失函数,计算loss;
  • loss反向回传,更新梯度。重复以上步骤。

每训练一个epoch后,程序对调用evaluation()方法分别计算两个任务的F1 score。

动手试一试

是不是觉得很有趣呀。小编强烈建议初学者参考上面的代码亲手敲一遍,因为只有这样,才能加深你对代码的理解呦。

本次项目对应的代码:

https://aistudio.baidu.com/aistudio/projectdetail/2017202

更多PaddleNLP信息,欢迎访问GitHub点star收藏后体验:

https://github.com/PaddlePaddle/PaddleNLP

百度AI开发者社区https://ai.baidu.com/forum ,为全国各地开发者提供一个交流、分享、答疑解惑的平台,让开发者在研发路上不再“孤军奋战”,通过不断地交流与探讨找出更好的技术解决方案。如果你想尝试各种人工智能技术、开拓应用场景,赶快加入百度AI社区,你对 AI 的所有畅想,在这里都可以实现!

扫描下方二维码,添加小助手微信「京东卡、小度定制周边、神秘礼盒、行李箱」等更多福利你来拿~

聊聊netty那些事儿之从内核角度看io模型(代码片段)

聊聊Netty那些事儿之从内核角度看IO模型网络包接收流程性能开销网络包发送流程性能开销再谈(阻塞,非阻塞)与(同步,异步)阻塞与非阻塞阻塞非阻塞同步与异步同步异步IO模型阻塞IO(BIO)阻塞读阻塞写阻塞IO模... 查看详情

nsthread那些事儿

NSThread哎呀,它面向对象,再去看看苹果提供的API,对比一下Pthreads,简单明了,人生仿佛又充满了阳光和希望,我们先来一看一下系统提供给我们的API自然就知道怎么用了,来来来,我给你注释一下啊:12345678910111213141516171819202... 查看详情

聊聊netty那些事儿之从内核角度看io模型(代码片段)

今天我们来聊聊Netty的那些事儿,我们都知道Netty是一个高性能异步事件驱动的网络框架。它的设计异常优雅简洁,扩展性高,稳定性强。拥有非常详细完整的用户文档。同时内置了很多非常有用的模块基本上做到了开箱即用,... 查看详情

聊聊netty那些事儿之从内核角度看io模型(代码片段)

今天我们来聊聊Netty的那些事儿,我们都知道Netty是一个高性能异步事件驱动的网络框架。它的设计异常优雅简洁,扩展性高,稳定性强。拥有非常详细完整的用户文档。同时内置了很多非常有用的模块基本上做到了开箱即用,... 查看详情

git使用那些事儿(代码片段)

本文来自网易云社区作者:孙有军工欲善其事,必先利其器,git是一个开源的分布式版本控制工具,很多文章都写的太长,或者资料太多,难以一时间看完。在此总结了git的一些使用方式,因此该文不是鸿篇巨著,但是如果看完... 查看详情

回忆四班的那些事儿~

...事儿吧~对于四班,回忆满满,根本忘却不了。和别的班一样,一个班内总有那么几个调皮捣蛋的孩子,只是四班的比较多罢了。记得之前也提到过,有些孩子,课堂上我和他们的关系犹如仇家似的&#x 查看详情

我的那些事儿

今天依旧是个大晴天,这几天已经迷上了看小说,明朝那些事儿,这本书的讲述风格很合胃口。早上到了教研室,又填了表格,不过,目测接下去的时间会有更多的表格。这些表格作为数据记录,不知道有大多用处,不过,在这... 查看详情

springboot开发的那些小趣事儿

...的错误。 平常的一些小项目根本就不能匹配到企业级别的开发经验尤其我也不是ACM得奖的大佬,更是觉得尤为不适应,还好经过4个月左右的实习时间,我渐渐学会了如何在工作中找到自己的节奏。并且学会了如何向自己的... 查看详情

行人属性识别的一个调研

行人属性识别的一个调研-知乎【前言】我感觉我掌握了财富密码,从知乎的后台数据来看,大家貌似更喜欢看综述多一点。因此这次给大家整个”行人属性识别(PAR)“的综述,同样的,这次的综述比较老,是19... 查看详情

算法零基础学习关于素数的那些事儿(代码片段)

...它本身两个因子的自然数。与之相对应的数称为合数。特别的,1既不是素数也不是合数用程序判定一个数是否是素数使用素数的定义因为素数只有1和它本身两个因 查看详情

聊聊flume和logstash的那些事儿

 转载:http://blog.csdn.net/jek123456/article/details/65658790在某个Logstash的场景下,我产生了为什么不能用Flume代替Logstash的疑问,因此查阅了不少材料在这里总结,大部分都是前人的工作经验下,加了一些我自己的思考在里面,希望... 查看详情

zz酷客:tcpde那些事儿

TCP的那些事儿(上)TCP的那些事儿(下) 查看详情

聊聊flume和logstash的那些事儿

本文适合有一定大数据基础的读者朋友们阅读,但如果你没有技术基础,照样可以继续看(这就好比你看《葵花宝典》第一页:欲练此功,必先自宫,然后翻到第二页:若不自宫,也可练功,没错就是这种感觉→_→)。大数据... 查看详情

关于跨域那些事儿(代码片段)

在工作中,难免会遇到跨域的问题,就像你高高兴兴的带着老婆吃着火锅,啊不对,是匆匆忙忙的在搬砖,突然浏览器告诉你跨域了,意不意外?既然遇到了,就只能解决他,平时一顿乱操作,也能解决问题,但一直没有好好的... 查看详情

go内存对齐的那些事儿(代码片段)

在讨论内存对齐前我们先看一个思考题,我们都知道Go的结构体在内存中是由一块连续的内存表示的,那么下面的结构体占用的内存大小是多少呢?type ST1 struct  A byte B int64 C byte在64位系统下byte类型就只占1字节&... 查看详情

string是一个很普通的类-java那些事儿

 上一篇我们讲了Java中的数组,其实是为本章的内容做准备的,String这个类是我们在写Java代码中用得最多的一个类,没有之一,今天我们就讲讲它,我们打开String这个类的源码:声明了一个char[]数组,变量名value,声明了一... 查看详情

《明朝那些事儿》全册

《明朝那些事儿(1-9)》  百度网盘链接:https://pan.baidu.com/s/1ngbXD9UUpV3Te67a9vsWzg提取码:gr7c?内容简介  · · · · · ·《明朝那些事儿》讲述从1344年到1 查看详情

git关于git那些事儿

 1、关于Git那些事儿https://github.com/FrankKai/FrankKai.github.io/issues/39 查看详情