正文

论文解读系列ner方向：fgn(2020)

JasonLiu1919  JasonLiu1919  2022-12-03  563

关键词：

文章目录

**摘要**
**模型结构**

FGN(2020)

论文地址：
https://arxiv.org/abs/2001.05272

论文代码：FGN

摘要

汉字作为象形文字有其潜在的特殊字形信息，而这一点经常被忽视。FGN是一种将字形信息融入网络结构的中文NER方法。除了用一个新型CNN对字形信息进行编码外，该方法可以通过融合机制提取字符分布式表示和字形表示之间的交互信息。

FGN主要有2个创新点：

(1)FGN 提出一种新型的CNN结构，即CGS-CNN，以获取字形信息和相邻图之间的交互信息。
(2)提出一种滑动窗口和注意机制来融合每个字符的BERT表示和字形表示。这种方法可以捕获语境和字形之间潜在交互知识。

FGN在4个中文NER数据集上进行了实验。实验表明，FGN+LSTM-CRF在中文NER上刷新记录。

模型结构

FGN可以分为三个阶段：表示阶段、融合阶段和标记阶段。文章也遵循基于字符的序列标签的策略进行中文NER。

表示阶段

汉字表示主要包括来自BERT的字符表示和基于CGS-CNN的字形表示。这些代表的细节表示方法如下。

BERT：BERT是一个多层Transformer编码器，可以对单词或字符进行分布式表示。文章使用预先训练好的中文BERT来编码句子中的每个字符。与一般的fine-tuning策略不同，首先在train data上对BERT进行微调并使用CRF层作为序列标注器(即tagger)。再冻结BERT的参数并将其转移到FGN中。实验表明这一策略确实有效。

CGS-CNN: Figure 2描述了CGS-CNN的结构。

文章只选择简体中文字体来生成字形向量。这是因为之前的学者研究表明，只使用一种中文字体就能达到与七种字体相媲美的性能。CGS-CNN的输入格式是字符图序列。首先将句子转换为图序列，其中每个字符被替换成50×50的灰度图。非中文字符参数矩阵初始化为0到1之间。再使用2个3×3×3的3D卷积层来编码图序列，每个50×50的图输出8个通道，即8个filter。3D卷积可以从空间和时间两个维度上提取特征，这意味着每个字形向量可以从邻近的图形中获得额外的字形信息。使用填充(padding)对图序列的维度进行填充，以确保通过3D卷积后保持图序列的长度不变，这对基于字符的标注任务来说是必要的。3D卷积的输出再过几组2D卷积和2D最大池化，将每个图压缩成64个通道的2×2田字格结构。为了过滤噪音和空白像素，将2×2结构拉平，并使用1D最大池化来提取每个字符的字形向量。字形向量的向量的大小被设定为64，这比Tianzige-CNN输出1024维小得多。与Glyce模型不同，Glyce使用图像分类任务来学习字形表示，而CGS-CNN在领域数据集中训练整个NER模型时学习CGS-CNN的参数。

融合阶段

文章中使用一个滑动窗口来滑动BERT表示结果和字形表示结果。在滑动窗口中，对每个slice pair计算外积(outer product)以捕捉局部的交互特征。再用Slice-Attention来平衡每个slice pair的重要性，并将它们结合起来，输出一个融合表征。

不同步的滑动窗口(Out-of-sync Sliding Window)：

滑动窗口此前已被应用于多模态情感计算。使用滑动窗口的原因是，直接用外积融合向量将指数级地扩大向量大小。这会增加后续网络结构的空间复杂性和时间复杂性。同时，这种方法要求多模态表征具有相同的维度尺寸，这不适合同时滑动BERT向量和字形向量。因为BERT的字符表示比字形表示有更丰富的语义信息，需要更大的向量尺寸。文章使用一个不同步(out-of-sync)的滑动窗口以满足不同的向量大小，同时保持相同的slice数。

假设有一个汉字，其字符向量定义为 $c_- v \\in$ $\\mathbbR^d^c$ 其字形向量为 $g_- v \\in \\mathbbR^d^g$ ，其中 $d^c$ 和 $d^g$ 分别表示字符向量和字形向量的维度。为确保这两个向量在通过滑动窗口后保持相同数量的slice数，滑动窗口的设置需要满足以下限制：
$n=\\fracd^c-k^cs^c+1=\\fracd^g-k^gs^g+1, n \\in \\mathrmN^*$
其中 $n$ 是一个正整数，代表两个向量的slice数； $k^c$ 和 $s^c$ 分别表示字符向量的滑动窗口大小和stride的大小。 $k^g$ 和 $s^g$ 分别表示字形向量的滑动窗口大小和跨度stride的大小。为满足上述限制文章使用的策略是限制滑动窗口的超参数，使 $d^c$ ， $k^c$ ， $s^c$ 分别是 $d^g$ ， $k^g$ ， $s^g$ 的整数倍。为了得到slice pairs，首先计算每一步(即一个stride)滑动窗口的左边界索引位置:

其中 $p_(i)^c$ 和 $p_(i)^g$ 分别代表字符和字形向量在第 $i$ 步的滑动窗口的边界索引位置。可以通过以下公式获得每个slice：

其中为 $c_- s_(i)$ 和 $g_- s_(i)$ 分别表示两个向量中的第 $i$ 个slice。 $c_- v_(p_(i)^c+1)$ 表示 $c_- v$ 在第 $p_(i)^c+1)$ 个维度的值。为了从局部角度融合两个slice，采用外积法来生成一个交互式张量，如公式所示：

其中 $m_i$ 表示第 $i$ 个slice pair的融合张量， $c_- v_(p_(i)^c+1) g_- v_(p_(i)^g+1)$ 表示两者相乘。

再将 $m_i$ 拉平为 $m_i^\\prime \\in \\mathbbR^d^c d^g$ 。每个字符的 slices 表征可以表示为：

$m^\\prime=\\left\\m_1^\\prime, m_2^\\prime, \\ldots m_n-1^\\prime, m_n^\\prime\\right\\, m^\\prime \\in \\mathbbR^n \\times\\left(k^c c^g\\right)$

其中 $m^\\prime$ 包含 $n$ 个slice pairs的融合结果向量，每个向量的维度大小是 $k^c k^g$

论文解读系列ner方向：flat(acl2020)(代码片段)

...FLAT(2020)FLAT出自ACL2020FLAT:ChineseNERUsingFlat-LatticeTransformer。论文地址：https://arxiv.org/abs/2004.11795论文代码：FlatLattice中文NER通常以字符为单位进行序列标注建模，即一般使用c 查看详情

论文解读系列ner方向：softlexicon(acl2020)(代码片段)

文章目录背景模型结构字符表示层引入词汇信息序列建模层和标签预测层背景SoftLexicon出自ACL2020的SimplifytheUsageofLexiconinChineseNER官方代码：https://github.com/v-mipeng/LexiconAugmentedNER论文：https://arxiv.org/abs/1908.05969模型结构近年来查看详情

论文解读系列ner方向：softlexicon(acl2020)(代码片段)

论文解读系列ner方向：w2ner(aaai2022)(代码片段)

文章目录基本信息简介多类型NER抽取方法NER->词词关系分类W2NER模型框架小结基本信息论文标题：UnifiedNamedEntityRecognitionasWord-WordRelationClassification论文地址：https://arxiv.org/abs/2112.10070论文代码：https://github.com/lj 查看详情

论文解读系列ner方向：latticelstm(acl2018)

文章目录简介模型结构LSTM结构Character-BasedModelWord-BasedModelLatticeModelDecoding和Training缺点：简介LatticeLSTM出自于ACL2018中的ChineseNERUsingLatticeLSTM。论文地址：https://arxiv.org/abs/1805.02023有多个版本的代码࿱ 查看详情

论文解读系列ner方向：latticelstm(acl2018)

论文解读系列ner方向：markbert(2022)(代码片段)

文章目录简介模型结构实验结果讨论简介论文地址：https://arxiv.org/abs/2203.06378论文代码：https://github.com/daiyongya/markbertMarkBERT也是一种考虑如何将词信息引入到模型的方案。MarkBERT基于字的模型，但巧妙地将词的边界信... 查看详情

论文解读系列ner方向：markbert(2022)(代码片段)

论文解读系列ner方向：w2ner(aaai2022)(代码片段)

...容欢迎微信公众号围观：小窗幽记机器学习基本信息论文标题：UnifiedNamedEntityRecognitionasWord-WordRelationClassification论文地址：https://arxiv.org/abs/2112.10070论文代码：https://github.com/ljynlp/W2NER简介NER任务主要有三种类型ÿ... 查看详情

论文解读系列ner方向：markbert(2022)(代码片段)

...内容欢迎微信公众号：小窗幽记机器学习围观。简介论文地址：https://arxiv.org/abs/2203.06378论文代码：https://github.com/daiyongya/markbertMarkBERT也是一种考虑如何将词信息引入到模型的方案。MarkBERT基于字的模型，但巧妙地... 查看详情

cvpr2020论文分方向整理之检测篇（代码/论文解读/136篇打包下载）

zCVPR2020论文分方向整理之检测篇（代码/论文解读/136篇打包下载）极市平台（微信公众号ID：extrememart）：专注计算机视觉前沿资讯和技术干货。本文由极市平台首发，转载需获授权。本周三，CVPR... 查看详情

论文解读：acl2021ner|基于模板的bart命名实体识别

...：本文是对ACL2021NER基于模板的BART命名实体识别这一论文工作进行初步解读。本文分享自华为云社区《ACL2021NER|基于模板的BART命名实体识别》，作者：JuTzungKuei。论文：CuiLeyang,WuYu,LiuJian,YangSen,ZhangYue.TemplateBasedNamedEn... 查看详情

《autodl论文解读：基于强化学习的开创性工作》

...在ICLR上各自发表基于强化学习的NAS以来，已产出200多篇论文，仅2019年上半年就有100多篇论文。此系列文章将解读AutoDL领域的经典论文与方法，笔者也是刚接触这个领域，有理解错误的地方还请批评指正！此系列的文章列表：Auto... 查看详情

跟我读论文丨acl2021ner模块化交互网络用于命名实体识别

...a;本文是对ACL2021NER模块化交互网络用于命名实体识别这一论文工作进行初步解读。本文分享自华为云社区《ACL2021NER|模块化交互网络用于命名实体识别》，作者：JuTzungKuei。论文：LiFei,WangZheng,HuiSiuCheung,LiaoLejian,SongDandan... 查看详情

agv调度优化系列论文解读与汇总

这篇博文主要用于记录AGV调度优化的相关文章，包括机器与AGV联合调度及各类车间或其他场景的AGV调度，此处主要总结中文文献，英文文献可见专栏AGV。由于中文文献大多较为简单，所以以下文献皆为... 查看详情

vggnet论文解读/总结

... 为此文章为深度学习在计算机视觉领域的图片分类经典论文VGGNet（VERYDEEPCONVOLUTIONALNETWORKSFORLARGE-SCALEIMAGERECOGNITION）论文总结。此篇论文也是非常适合深度学习领域的小白观看的经典论文，本文为在学习论文期间... 查看详情

cvpr2022结果出炉，最全论文下载及分类汇总（更新中）

CVPR2022已经放榜啦，本次一共有2067篇论文被接收，接收论文数量相比去年增长了24%。由于每年的CVPR全部论文以及相关细节公布都需要等到六月会议正式召开，因此，在这之前，为了让大家更快地获取和学习到... 查看详情