[nlp]textcnn模型原理和实现(代码片段)

bymo bymo     2023-01-01     537

关键词:

1. 模型原理

1.1 论文

Yoon Kim在论文(2014 EMNLP) Convolutional Neural Networks for Sentence Classification提出TextCNN。

卷积神经网络CNN应用到文本分类任务,利用多个不同size的kernel来提取句子中的关键信息(类似于多窗口大小的ngram,从而能够更好地捕捉局部相关性。

 

1.2 网络结构

技术分享图片

 

 TextCNN的详细过程原理图如下:

技术分享图片

TextCNN详细过程:

  • Embedding:第一层是图中最左边的7乘5的句子矩阵,每行是词向量,维度=5,这个可以类比为图像中的原始像素点。
  • Convolution:然后经过 kernel_sizes=(2,3,4) 的一维卷积层,每个kernel_size 有两个输出 channel。
  • MaxPolling:第三层是一个1-max pooling层,这样不同长度句子经过pooling层之后都能变成定长的表示。
  • FullConnection and Softmax:最后接一层全连接的 softmax 层,输出每个类别的概率。

  

通道(Channels):

  • 图像中可以利用 (R, G, B) 作为不同channel;
  • 文本的输入的channel通常是不同方式的embedding方式(比如 word2vec或Glove),实践中也有利用静态词向量和fine-tunning词向量作为不同channel的做法。

 

一维卷积(conv-1d):

  • 图像是二维数据;
  • 文本是一维数据,因此在TextCNN卷积用的是一维卷积(在word-level上是一维卷积;虽然文本经过词向量表达后是二维数据,但是在embedding-level上的二维卷积没有意义)。一维卷积带来的问题是需要通过设计不同 kernel_size 的 filter 获取不同宽度的视野

 

Pooling层:

利用CNN解决文本分类问题的文章还是很多的,比如这篇 A Convolutional Neural Network for Modelling Sentences 最有意思的输入是在 pooling 改成 (dynamic) k-max pooling ,pooling阶段保留 k 个最大的信息,保留了全局的序列信息。

比如在情感分析场景,举个例子:

“我觉得这个地方景色还不错,但是人也实在太多了”

 虽然前半部分体现情感是正向的,全局文本表达的是偏负面的情感,利用 k-max pooling能够很好捕捉这类信息。

 

2. 实现

基于Keras深度学习框架的实现代码如下:

import logging

from keras import Input
from keras.layers import Conv1D, MaxPool1D, Dense, Flatten, concatenate, Embedding
from keras.models import Model
from keras.utils import plot_model


def textcnn(max_sequence_length, max_token_num, embedding_dim, output_dim, model_img_path=None, embedding_matrix=None):
    """ TextCNN: 1. embedding layers, 2.convolution layer, 3.max-pooling, 4.softmax layer. """
    x_input = Input(shape=(max_sequence_length,))
    logging.info("x_input.shape: %s" % str(x_input.shape))  # (?, 60)

    if embedding_matrix is None:
        x_emb = Embedding(input_dim=max_token_num, output_dim=embedding_dim, input_length=max_sequence_length)(x_input)
    else:
        x_emb = Embedding(input_dim=max_token_num, output_dim=embedding_dim, input_length=max_sequence_length,
                          weights=[embedding_matrix], trainable=True)(x_input)
    logging.info("x_emb.shape: %s" % str(x_emb.shape))  # (?, 60, 300)

    pool_output = []
    kernel_sizes = [2, 3, 4] 
    for kernel_size in kernel_sizes:
        c = Conv1D(filters=2, kernel_size=kernel_size, strides=1)(x_emb)
        p = MaxPool1D(pool_size=int(c.shape[1]))(c)
        pool_output.append(p)
        logging.info("kernel_size: %s 	 c.shape: %s 	 p.shape: %s" % (kernel_size, str(c.shape), str(p.shape)))
    pool_output = concatenate([p for p in pool_output])
    logging.info("pool_output.shape: %s" % str(pool_output.shape))  # (?, 1, 6)

    x_flatten = Flatten()(pool_output)  # (?, 6)
    y = Dense(output_dim, activation=softmax)(x_flatten)  # (?, 2)
    logging.info("y.shape: %s 
" % str(y.shape))

    model = Model([x_input], outputs=[y])
    if model_img_path:
        plot_model(model, to_file=model_img_path, show_shapes=True, show_layer_names=False)
    model.summary()
    return model

 

特征:这里用的是词向量表示方式

  • 数据量较大:可以直接随机初始化embeddings,然后基于语料通过训练模型网络来对embeddings进行更新和学习。
  • 数据量较小:可以利用外部语料来预训练(pre-train)词向量,然后输入到Embedding层,用预训练的词向量矩阵初始化embeddings。(通过设置weights=[embedding_matrix])。
    • 静态(static)方式训练过程中不再更新embeddings。实质上属于迁移学习,特别是在目标领域数据量比较小的情况下,采用静态的词向量效果也不错。(通过设置trainable=False)
    • 非静态(non-static)方式在训练过程中对embeddings进行更新和微调(fine tune),能加速收敛。(通过设置trainable=True)

 

plot_model()画出的TextCNN模型结构图如下:

技术分享图片

 

参考:https://zhuanlan.zhihu.com/p/25928551

【自然语言处理】cnn在nlp文本分类任务上的经典之作——textcnn

...深度学习和卷积神经网络成为图像任务明星之后,2014年TextCNN诞生于世,成为了CNN在NLP文本分类任务上的经典之作。TextCNN提出的目的在于,希望将CNN在图像领域中所取得的成就复制于自然语言处理NLP任务中。TextCNN是一种采用卷... 查看详情

nlp涉及技术原理和应用简单讲解:paddle(分布式训练amp自动混合精度训练模型量化模型性能分析)(代码片段)

参考链接:https://www.paddlepaddle.org.cn/documentation/docs/zh/guides/06_distributed_training/cluster_quick_start_cn.htmlhttps://www.paddlepaddle.org.cn/tutorials/projectdetail/3949129#anchor-191.分 查看详情

nlp循环神经网络实现情感分类(代码片段)

....5LSTM和GRU的使用注意点2.使用LSTM完成文本情感分类2.1修改模型2.2完成训练和测试代码2.3模型训练的最终输出2.4添加进度条1.Pytorch中LSTM和GRU模块使用学习目标知道LSTM和GRU的使用方法及输入输出的格式能够应 查看详情

文本分类-textcnn

参考技术ATextCNN模型是由YoonKim提出的ConvolutionalNauralNetworksforSentenceClassification一文中提出的使用卷积神经网络来处理NLP问题的模型.相比较nlp中传统的rnn/lstm等模型,cnn能更加高效的提取重要特征,这些特征在分类中占据着重要位置.... 查看详情

nlp新闻主题分类任务(代码片段)

...P】新闻主题分类任务前言1.构建带有Embedding层的文本分类模型2.对数据进行batch处理3.构建训练与验证函数4.进行模型训练和验证5.查看embedding层嵌入的词向量总结前言学习目标了解有关新闻主题分类和有关数据.掌握使用浅层网络... 查看详情

[nlp]文本分类-textcnn

...征进行组合和筛选,获得不同抽象层次的语义信息。二、textCNN  具体描述:1、第一层是输入层,输入层是一个n*d矩阵,其中n表示输入文本的长度,d表示每个词/字向量的维度。注:每个词向量既可以是预先在其他语料库 查看详情

自然语言处理(nlp)聊天机器人模块实现(代码片段)

...的生成式API的功能和用法,并使用PaddleNLP内置的plato-mini模型和配置的生成式API实现一个简单的闲聊机器人。(二)、环境配置本示例基于飞桨开源框架2.0版本。importpaddleimportpaddle.nn.functionalasFimportreimportnumpy 查看详情

pytorch学习笔记7.textcnn文本分类(代码片段)

PyTorch学习笔记7.TextCNN文本分类一、模型结构二、文本分词与编码1.分词与编码器2.数据加载器二、模型定义1.卷积层2.池化层3.全连接层三、训练过程四、测试过程五、预测过程一、模型结构2014年,YoonKim针对CNN的输入层做了一... 查看详情

pytorch学习笔记7.textcnn文本分类(代码片段)

PyTorch学习笔记7.TextCNN文本分类一、模型结构二、文本分词与编码1.分词与编码器2.数据加载器二、模型定义1.卷积层2.池化层3.全连接层三、训练过程四、测试过程五、预测过程一、模型结构2014年,YoonKim针对CNN的输入层做了一... 查看详情

nlp模型bert和经典数据集!(代码片段)

↑↑↑关注后"星标"Datawhale每日干货 & 每月组队学习,不错过 Datawhale干货 作者:陈安东,中央民族大学,Datawhale成员对于刚入门NLP的伙伴来说,看到NLP任务很容易觉得眼花缭乱,找不到切入点... 查看详情

基于文心大模型套件erniekit实现文本匹配算法,模块化方便应用落地(代码片段)

文心大模型,产业级知识增强大模型介绍官网:https://wenxin.baidu.com/文心大模型开发套件ERNIEKit,面向NLP工程师,提供全流程大模型开发与部署工具集,端到端、全方位发挥大模型效能。提供业界效果领先的ERNIE3.0系列开源模型和... 查看详情

nlp模型bert和经典数据集!(代码片段)

 Datawhale干货 作者:陈安东,中央民族大学,Datawhale成员对于刚入门NLP的伙伴来说,看到NLP任务很容易觉得眼花缭乱,找不到切入点。总的来说,NLP分为五大类无数小类,虽然种类繁多,却环环相... 查看详情

nlp⚠️学不会打我!半小时学会基本操作3⚠️词袋模型(代码片段)

【NLP】⚠️学不会打我!半小时学会基本操作3⚠️词袋模型概述词袋模型向量化概述从今天开始我们将开启一段自然语言处理(NLP)的旅程.自然语言处理可以让来处理,理解,以及运用人类的语言,实现机器语言和人类语言之间的沟通... 查看详情

nlp⚠️学不会打我!半小时学会基本操作3⚠️词袋模型(代码片段)

【NLP】⚠️学不会打我!半小时学会基本操作3⚠️词袋模型概述词袋模型向量化概述从今天开始我们将开启一段自然语言处理(NLP)的旅程.自然语言处理可以让来处理,理解,以及运用人类的语言,实现机器语言和人类语言之间的沟通... 查看详情

nlp⚠️学不会打我!半小时学会基本操作4⚠️词向量模型(代码片段)

【NLP】⚠️学不会打我!半小时学会基本操作4⚠️词向量模型概述词向量词向量维度Word2VecCBOW模型Skip-Gram模型负采样模型词向量的训练过程1.初始化词向量矩阵2.神经网络反向传播词向量模型实战训练模型使用模型概述从今天开始... 查看详情

nlp⚠️学不会打我!半小时学会基本操作4⚠️词向量模型(代码片段)

【NLP】⚠️学不会打我!半小时学会基本操作4⚠️词向量模型概述词向量词向量维度Word2VecCBOW模型Skip-Gram模型负采样模型词向量的训练过程1.初始化词向量矩阵2.神经网络反向传播词向量模型实战训练模型使用模型概述从今天开始... 查看详情

nlp带你认识经典的序列模型-hmm与crf(代码片段)

认识经典的序列模型HMM与CRF1.HMM模型1.1HMM模型的输入和输出1.2HMM模型的作用1.3HMM模型使用过程简述2.CRF模型2.1CRF模型的输入和输出2.2CRF模型的作用2.3CRF模型使用过程简述3.HMM与CRF模型之间差异4.HMM和CRF的发展现状5.总结1.HMM模型1.1HMM... 查看详情

nlp经典案例transformer构建语言模型(代码片段)

Transformer构建语言模型引言1.导入必备的工具包2.导入wikiText-2数据集并作基本处理3.构建用于模型输入的批次化数据4.构建训练和评估函数5.进行训练和评估(包括验证以及测试)引言什么是语言模型:以一个符合语言规律的序列为输... 查看详情