论文解读系列ner方向:markbert(2022)(代码片段)

JasonLiu1919 JasonLiu1919     2022-10-23     484

关键词:

文章目录

简介

论文地址:
https://arxiv.org/abs/2203.06378

论文代码:
https://github.com/daiyongya/markbert

MarkBERT 也是一种考虑如何将词信息引入到模型的方案。MarkBERT基于字的模型,但巧妙地将词的边界信息融入模型,具体操作是将词之间插入边界marker。出现边界marker意味着前一个字符是词的尾部字符,而紧接着的字符是另一个词的起始字符。如此可以统一处理所有词,不存在词的OOV问题。此外,MarkBERT 还有两个额外优点:

  • 便于在边界marker上添加单词级别的学习目标(文章使用replaced
    word detection这个学习任务),这可以作为传统字符(比如MLM任务)和句子级(比如NSP任务)预训练任务的补充
  • 便于引入丰富的语义信息,比如想要引入词的POS标签信息,可以用 POS 标签特定的标记替换marker。

MarkBERT在中文NER 任务上取得SOTA结果。在MSRA数据集上 95.4% -> 96.5%,在OntoNotes数据集上82.8%->84.2%。MarkBERT在文本分类、关键词识别、语义相似任务上也取得了更好的精度。

MarkBERT 预训练阶段有两个任务:

  • MLM:对边界标记 marker 也进行mask,以使模型能学习边界知识。
  • 替换词检测(replaced word detection): 人工替换一个词,然后让模型区分marker前面的词是不是正确的。

模型结构

MarkBERT Model:
首先分词,在词中间插入特殊标记(文章中使用[S]这个特殊marker),这些标记也会被当做普通的字符处理,有对应的位置编码,也会被 MASK。这样编码时就需要注意词的边界,而不是简单地根据上下文填充被mask掉的部分。这使得MASK预测任务变得更有挑战(预测需要更好地理解单词边界)。如此,character-based的MarkBERT模型通过单词边界信息融入词级别信息(词的信息是显式给出的)。

替换词检测:
具体而言,当一个词被替换成混淆词,marker 应该做出「被替换」的预测,label为 False,否则为 True。假设第 i i i个marker的表征记为 x i x^i xi,预测正确和错误对应的label记为 y t r u e y^true ytrue y f a l s e y^false yfalse,则替换词检测loss定义如下:

L = − ∑ i [ y true  ⋅ log ⁡ ( x y i ) + y false  ⋅ log ⁡ ( x y i ) ] \\mathcalL=-\\sum_i\\left[y^\\text true \\cdot \\log \\left(x_y^i\\right)+y^\\text false \\cdot \\log \\left(x_y^i\\right)\\right] L=i[ytrue log(xyi)+yfalse log(xyi)]

该损失函数和 MLM的损失函数加在一起作为最终训练的损失。混淆词来自同义词或读音相似的词,通过替换词检测这个任务,marker对上下文中的单词span更敏感。为进一步融入语义信息,可以将POS的结果作为边界marker,如Figure 1所示,使用 POS 词性标注信息 作为边界marker的模型称为 MarkBERT-POS。

预训练
MASK 的比例依然是 15%,30% 的时间不插入任何marker(原始的BERT);50% 的时间执行 WWM(whole-word-mask) 预测任务;其余时间执行 MLM 预测任务。

在插入marker中,30%的时间将词替换为基于读音的混淆词或基于同义词的混淆词,marker预测读音混淆标记或同义词混淆marker(即False);其他时间marker预测正常单词的marker(即True)。为了避免label不平衡,只计算正常marker上 15% 的损失。

实验结果

在 NER 任务上的效果如下表所示:

可以看到,效果提升还是很明显的。

在三个任务上做了消融实验:

  • MarkBERT-MLM:只有 MLM 任务
  • MarkBERT-rwd:在替换词检测时,分别移除近音词或同义词
  • MarkBERT-w/o:在下游任务微调时去掉 Marker(和原始 BERT 一样用法)

消融实验结果如下表所示:

从消融结果可以看出:

  • MarkBERT-MLM(没有使用替换词检测任务) 在 NER 任务中提升显著,说明单词边界信息在细粒度任务中很重要。
  • 不插入marker,MarkBERT-w/o 也达到了和 baseline 相近的效果,说明相对简单的在语言理解任务中 MarkBERT 可以像 BERT 一样使用。
  • 对 NER 任务来说,插入marker依然重要,实验结果表明 MarkBERT 在学习需要这种细粒度表示的任务的单词边界方面是有效的。

讨论

已有的中文 BERT 融入词信息有两个方面的策略:

  • 在预训练阶段使用词信息,但在下游任务上使用字符序列,如 Chinese-BERT-WWM,Lattice-BERT。
  • 在下游任务中使用预训练模型时使用单词信息,如 WoBERT,AmBERT,Lichee。

另外在与实体相关的 NLU 任务, 特别是关系分类中有探讨插入marker的想法。给定一个主语实体和宾语实体,现有工作注入非类型标记或实体特定marker,并对实体之间的关系做出更好的预测。

此外,在预测阶段,也是需要marker信息,而该信息可能存在错误,作者并没有针对这方面进一步做消融研究。

论文解读系列ner方向:markbert(2022)(代码片段)

...//arxiv.org/abs/2203.06378论文代码:https://github.com/daiyongya/markbertMarkBERT也是一种考虑如何将词信息引入到模型的方案。MarkBERT基于字的模型,但巧妙地将词的边界信息融入模型,具体操作是将词之间插入边界marker。出现边... 查看详情

论文解读系列ner方向:w2ner(aaai2022)(代码片段)

文章目录基本信息简介多类型NER抽取方法NER->词词关系分类W2NER模型框架小结基本信息论文标题:UnifiedNamedEntityRecognitionasWord-WordRelationClassification论文地址:https://arxiv.org/abs/2112.10070论文代码:https://github.com/lj 查看详情

论文解读系列ner方向:w2ner(aaai2022)(代码片段)

...容欢迎微信公众号围观:小窗幽记机器学习基本信息论文标题:UnifiedNamedEntityRecognitionasWord-WordRelationClassification论文地址:https://arxiv.org/abs/2112.10070论文代码:https://github.com/ljynlp/W2NER简介NER任务主要有三种类型ÿ... 查看详情

论文解读系列ner方向:fgn(2020)

...型结构****表示阶段****融合阶段****序列标注阶段**FGN(2020)论文地址:https://arxiv.org/abs/2001.05272论文代码:FGN摘要汉字作为象形文字有其潜在的特殊字形信息,而这一点经常被忽视。FGN是一种将字形信息融入网络结构的... 查看详情

论文解读系列ner方向:latticelstm(acl2018)

文章目录简介模型结构LSTM结构Character-BasedModelWord-BasedModelLatticeModelDecoding和Training缺点:简介LatticeLSTM出自于ACL2018中的ChineseNERUsingLatticeLSTM。论文地址:https://arxiv.org/abs/1805.02023有多个版本的代码࿱ 查看详情

论文解读系列ner方向:latticelstm(acl2018)

文章目录简介模型结构LSTM结构Character-BasedModelWord-BasedModelLatticeModelDecoding和Training缺点:简介LatticeLSTM出自于ACL2018中的ChineseNERUsingLatticeLSTM。论文地址:https://arxiv.org/abs/1805.02023有多个版本的代码࿱ 查看详情

论文解读系列ner方向:flat(acl2020)(代码片段)

...FLAT(2020)FLAT出自ACL2020FLAT:ChineseNERUsingFlat-LatticeTransformer。论文地址:https://arxiv.org/abs/2004.11795论文代码:FlatLattice中文NER通常以字符为单位进行序列标注建模,即一般使用c 查看详情

论文解读系列ner方向:flat(acl2020)(代码片段)

...FLAT(2020)FLAT出自ACL2020FLAT:ChineseNERUsingFlat-LatticeTransformer。论文地址:https://arxiv.org/abs/2004.11795论文代码:FlatLattice中文NER通常以字符为单位进行序列标注建模,即一般使用c 查看详情

论文解读系列ner方向:softlexicon(acl2020)(代码片段)

文章目录背景模型结构字符表示层引入词汇信息序列建模层和标签预测层背景SoftLexicon出自ACL2020的SimplifytheUsageofLexiconinChineseNER官方代码:https://github.com/v-mipeng/LexiconAugmentedNER论文:https://arxiv.org/abs/1908.05969模型结构近年来 查看详情

论文解读系列ner方向:softlexicon(acl2020)(代码片段)

文章目录背景模型结构字符表示层引入词汇信息序列建模层和标签预测层背景SoftLexicon出自ACL2020的SimplifytheUsageofLexiconinChineseNER官方代码:https://github.com/v-mipeng/LexiconAugmentedNER论文:https://arxiv.org/abs/1908.05969模型结构近年来 查看详情

论文解读系列ner方向:fgn(2020)

...型结构****表示阶段****融合阶段****序列标注阶段**FGN(2020)论文地址:https://arxiv.org/abs/2001.05272论文代码:FGN摘要汉字作为象形文字有其潜在的特殊字形信息,而这一点经常被忽视。FGN是一种将字形信息融入网络结构的... 查看详情

论文解读:acl2021ner|基于模板的bart命名实体识别

...:本文是对ACL2021NER基于模板的BART命名实体识别这一论文工作进行初步解读。本文分享自华为云社区《ACL2021NER|基于模板的BART命名实体识别》,作者:JuTzungKuei。论文:CuiLeyang,WuYu,LiuJian,YangSen,ZhangYue.TemplateBasedNamedEn... 查看详情

kdd2022|美团技术团队精选论文解读

总第529篇2022年第046篇今年,美团技术团队有多篇论文被KDD2022收录,这些论文涵盖了图谱预训练、选择算法、意图自动发现、效果建模、策略学习、概率预测、奖励框架等多个技术领域。本文精选了7篇论文做简要介绍ÿ... 查看详情

kdd2022|美团技术团队精选论文解读

今年,美团技术团队有多篇论文被KDD2022收录,这些论文涵盖了图谱预训练、选择算法、意图自动发现、效果建模、策略学习、概率预测、奖励框架等多个技术领域。本文精选了7篇论文做简要介绍(附下载链接,... 查看详情

acmsigir2022|美团技术团队精选论文解读

今年,美团技术团队有多篇论文被ACMSIGIR2022收录,这些论文涵盖了观点标签生成、跨域情感分类、对话摘要领域迁移、跨域检索、点击率预估、对话主题分割等多个技术领域。本文精选了10篇论文做简要介绍(附下载... 查看详情

cvpr2022最新350篇论文分方向汇总/代码

参考:CVPR2022全面盘点:最新350篇论文分方向汇总/代码/解读/直播/项目(更新中)-知乎资料:官网链接:http://CVPR2022.thecvf.com会议时间:2021年6月19日-6月24日相关问题:如何评价CVPR2022的论文接收结... 查看详情

cvpr2022结果出炉,最全论文下载及分类汇总(更新中)

CVPR2022已经放榜啦,本次一共有2067篇论文被接收,接收论文数量相比去年增长了24%。由于每年的CVPR全部论文以及相关细节公布都需要等到六月会议正式召开,因此,在这之前,为了让大家更快地获取和学习到... 查看详情

iclr2022最佳论文解读

...等获取各个领域干货算法笔记~今天给大家介绍ICLR2022最佳论文PICO:CONTRASTIVELABELDISAMBIGUATIONFORPAR 查看详情