论文解读系列ner方向:latticelstm(acl2018)

JasonLiu1919 JasonLiu1919     2022-10-23     753

关键词:

文章目录

简介

LatticeLSTM 出自于 ACL2018中的Chinese NER Using Lattice LSTM。

论文地址:
https://arxiv.org/abs/1805.02023

多个版本的代码
官方版:https://github.com/jiesutd/LatticeLSTM
其他人复现版:https://github.com/LeeSureman/Batch_Parallel_LatticeLSTM

LSTM-CRF模型在英文命名实体识别任务中具有显著效果,在中文NER任务中,基于字符的NER模型也明显优于基于词的NER模型(避免分词错误对NER任务的影响)。在基于字符的NER模型中引入词汇信息,确定实体边界,对中文NER任务有明显提升效果。

Lattice LSTM模型是基于词汇增强方法的中文NER的开篇之作。在该模型中,使用了字符信息和所有词序列信息,具体地,当我们通过词汇信息(词典)匹配一个句子时,可以获得一个类似Lattice的结构。这种方式可以避免因分词错误导致实体识别错误,在中文NER任务上有显著效果。

模型结构

LSTM结构

LSTM是RNN的一个变体,能够有效解决梯度消失和梯度爆炸的问题。主要引入了三个门,即输入门 i t i_t it,遗忘门 f t f_t ft,输出门 o t o_t ot 并用一个新的Cell State c t c_t ct进行信息的线性传输,同时非线性的输出信息到隐藏层的Hidden State h t h_t ht

公式如下:
[ i t o t f t c ~ t ] = [ σ σ σ tanh ⁡ ] ( W [ X t h t − 1 ] + b ) c t = f t ⊙ c t − 1 + i t ⊙ c ~ t h t = o t ⊙ tanh ⁡ ( c t ) \\beginaligned &\\left[\\beginarrayc i_t \\\\ o_t \\\\ f_t \\\\ \\tildec_t \\endarray\\right]=\\left[\\beginarrayc \\sigma \\\\ \\sigma \\\\ \\sigma \\\\ \\tanh \\endarray\\right]\\left(W\\left[\\beginarrayc X_t \\\\ h_t-1 \\endarray\\right]+b\\right) \\\\ &\\mathbfc_t=\\mathbff_t \\odot \\mathbfc_t-1+\\mathbfi_t \\odot \\tilde\\mathbfc_t \\\\ &\\mathbfh_t=\\mathbfo_t \\odot \\tanh \\left(\\mathbfc_t\\right) \\endaligned itotftc~t = σσσtanh (W[Xtht1]+b)ct=ftct1+itc~tht=ottanh(ct)

从上述公式可以看出:

  • 输入门 i t \\mathbfi_t it 用于控制当前候选状态 c ~ t \\tilde\\mathbfc_t c~t 有多少信息需要保存。

  • 遗忘门 f t \\mathbff_t ft 用于控制上一个状态 c t − 1 \\mathbfc_t-1 ct1 需要遗忘多少信息。

  • 输出门 o t \\mathbfo_t ot 用户控制当前时刻的状态 c t \\mathbfc_t ct 有多少信息需要输出给 h t \\mathbfh_t ht

文中介绍了3类模型方案,包括 Character-Based Model、Word-Based Model 和 Lattice Model,但是其主要网络结构都是LSTM-CRF。

Character-Based Model

对于Character-Based模型,输入为字符序列 c 1 , c 2 , … , c m c_1, c_2, \\ldots, c_m c1,c2,,cm ,直接输入到LSTM-CRF。其中每个字符 c j c_j cj 表征为 x j c = e c ( c j ) , e c \\mathbfx_j^c=\\mathbfe^c\\left(c_j\\right) ,\\mathbfe^c xjc=ec(cj)ec 是字符的嵌入矩阵,即字符表征的查找表。通常使用双向的LSTM对输入的字符表征序列 x 1 , x 2 , … , x m \\mathbfx_1, \\mathbfx_2, \\ldots, \\mathbfx_m x1,x2,,xm 进行处理,得到从左到右和从右到左 的Hidden State序列 h → 1 c , h → 2 c , … , h → m c \\overrightarrow\\mathbfh_1^c, \\overrightarrow\\mathbfh_2^c, \\ldots, \\overrightarrow\\mathbfh_m^c h 1c,h 2c,,h mc h ← 1 c , h ← 2 c , … , h ← m c \\overleftarrow\\mathbfh_1^c, \\overleftarrow\\mathbfh_2^c, \\ldots, \\overleftarrow\\mathbfh_m^c h 1c,h 2c,,论文解读系列ner方向:fgn(2020)

...型结构****表示阶段****融合阶段****序列标注阶段**FGN(2020)论文地址:https://arxiv.org/abs/2001.05272论文代码:FGN摘要汉字作为象形文字有其潜在的特殊字形信息,而这一点经常被忽视。FGN是一种将字形信息融入网络结构的... 查看详情

论文解读系列ner方向:w2ner(aaai2022)(代码片段)

文章目录基本信息简介多类型NER抽取方法NER->词词关系分类W2NER模型框架小结基本信息论文标题:UnifiedNamedEntityRecognitionasWord-WordRelationClassification论文地址:https://arxiv.org/abs/2112.10070论文代码:https://github.com/lj 查看详情

论文解读系列ner方向:flat(acl2020)(代码片段)

...FLAT(2020)FLAT出自ACL2020FLAT:ChineseNERUsingFlat-LatticeTransformer。论文地址:https://arxiv.org/abs/2004.11795论文代码:FlatLattice中文NER通常以字符为单位进行序列标注建模,即一般使用c 查看详情

论文解读系列ner方向:flat(acl2020)(代码片段)

...FLAT(2020)FLAT出自ACL2020FLAT:ChineseNERUsingFlat-LatticeTransformer。论文地址:https://arxiv.org/abs/2004.11795论文代码:FlatLattice中文NER通常以字符为单位进行序列标注建模,即一般使用c 查看详情

论文解读系列ner方向:softlexicon(acl2020)(代码片段)

文章目录背景模型结构字符表示层引入词汇信息序列建模层和标签预测层背景SoftLexicon出自ACL2020的SimplifytheUsageofLexiconinChineseNER官方代码:https://github.com/v-mipeng/LexiconAugmentedNER论文:https://arxiv.org/abs/1908.05969模型结构近年来 查看详情

论文解读系列ner方向:softlexicon(acl2020)(代码片段)

文章目录背景模型结构字符表示层引入词汇信息序列建模层和标签预测层背景SoftLexicon出自ACL2020的SimplifytheUsageofLexiconinChineseNER官方代码:https://github.com/v-mipeng/LexiconAugmentedNER论文:https://arxiv.org/abs/1908.05969模型结构近年来 查看详情

论文解读系列ner方向:markbert(2022)(代码片段)

文章目录简介模型结构实验结果讨论简介论文地址:https://arxiv.org/abs/2203.06378论文代码:https://github.com/daiyongya/markbertMarkBERT也是一种考虑如何将词信息引入到模型的方案。MarkBERT基于字的模型,但巧妙地将词的边界信... 查看详情

论文解读系列ner方向:markbert(2022)(代码片段)

文章目录简介模型结构实验结果讨论简介论文地址:https://arxiv.org/abs/2203.06378论文代码:https://github.com/daiyongya/markbertMarkBERT也是一种考虑如何将词信息引入到模型的方案。MarkBERT基于字的模型,但巧妙地将词的边界信... 查看详情

论文解读系列ner方向:w2ner(aaai2022)(代码片段)

...容欢迎微信公众号围观:小窗幽记机器学习基本信息论文标题:UnifiedNamedEntityRecognitionasWord-WordRelationClassification论文地址:https://arxiv.org/abs/2112.10070论文代码:https://github.com/ljynlp/W2NER简介NER任务主要有三种类型ÿ... 查看详情

论文解读系列ner方向:fgn(2020)

...型结构****表示阶段****融合阶段****序列标注阶段**FGN(2020)论文地址:https://arxiv.org/abs/2001.05272论文代码:FGN摘要汉字作为象形文字有其潜在的特殊字形信息,而这一点经常被忽视。FGN是一种将字形信息融入网络结构的... 查看详情

论文解读系列ner方向:markbert(2022)(代码片段)

...内容欢迎微信公众号:小窗幽记机器学习围观。简介论文地址:https://arxiv.org/abs/2203.06378论文代码:https://github.com/daiyongya/markbertMarkBERT也是一种考虑如何将词信息引入到模型的方案。MarkBERT基于字的模型,但巧妙地... 查看详情

论文解读:acl2021ner|基于模板的bart命名实体识别

...:本文是对ACL2021NER基于模板的BART命名实体识别这一论文工作进行初步解读。本文分享自华为云社区《ACL2021NER|基于模板的BART命名实体识别》,作者:JuTzungKuei。论文:CuiLeyang,WuYu,LiuJian,YangSen,ZhangYue.TemplateBasedNamedEn... 查看详情

《autodl论文解读:基于强化学习的开创性工作》

...在ICLR上各自发表基于强化学习的NAS以来,已产出200多篇论文,仅2019年上半年就有100多篇论文。此系列文章将解读AutoDL领域的经典论文与方法,笔者也是刚接触这个领域,有理解错误的地方还请批评指正!此系列的文章列表:Auto... 查看详情

cvpr2020论文分方向整理之检测篇(代码/论文解读/136篇打包下载)

zCVPR2020论文分方向整理之检测篇(代码/论文解读/136篇打包下载) 极市平台(微信公众号ID:extrememart):专注计算机视觉前沿资讯和技术干货。本文由极市平台首发,转载需获授权。本周三,CVPR... 查看详情

跟我读论文丨acl2021ner模块化交互网络用于命名实体识别

...a;本文是对ACL2021NER模块化交互网络用于命名实体识别这一论文工作进行初步解读。本文分享自华为云社区《ACL2021NER|模块化交互网络用于命名实体识别》,作者:JuTzungKuei。论文:LiFei,WangZheng,HuiSiuCheung,LiaoLejian,SongDandan... 查看详情

agv调度优化系列论文解读与汇总

        这篇博文主要用于记录AGV调度优化的相关文章,包括机器与AGV联合调度及各类车间或其他场景的AGV调度,此处主要总结中文文献,英文文献可见专栏AGV。由于中文文献大多较为简单,所以以下文献皆为... 查看详情

vggnet论文解读/总结

... 为此文章为深度学习在计算机视觉领域的图片分类经典论文VGGNet(VERYDEEPCONVOLUTIONALNETWORKSFORLARGE-SCALEIMAGERECOGNITION)论文总结。   此篇论文也是非常适合深度学习领域的小白观看的经典论文,本文为在学习论文期间... 查看详情

resnet论文解读/总结

此文章为深度学习在计算机视觉领域的图片分类经典论文ResNet(DeepResidualLearningforImageRecognition)论文总结。此系列文章是非常适合深度学习领域的小白观看的图像分类经典论文。系列文章如下: AlexNet:AlexNet论文... 查看详情