条件随机场入门条件随机场的训练

ooon ooon     2022-08-02     592

关键词:

本节讨论给定训练数据集估计条件随机场模型参数的问题,即条件随机场的学习问题。条件随机场模型实际上是定义在时序数据上的对数线形模型,其学习方法包括极大似然估计和正则化的极大似然估计。具体的优化实现算法有改进的迭代尺度法IIS、梯度下降法以及 L-BFGS 算法。(crf++ 采用了 L-BFGS 优化的方式,所以着重看这种训练方法即可)

L-BFGS算法

对于条件随机场模型:

[P_w(y|x) = frac{exp left { sum_{k=1}^K w_kf_k(x,y) ight }}{ sum_y  left { exp sum_{i=1}^n w_if_i(x,y) ight }}]

已知训练数据集,由此可知经验概率分布 $widetilde{P}(X,Y)$ 可以通过极大化训练数据的对数似然函数来求模型参数,训练数据的对数似然函数为:

[L(w) = L_{widetilde{P}}(P_w) = log prod_{x,y}P_w(y|x)^{widetilde{P}(x,y)} = sum_{x,y}widetilde{P}(x,y) log P_w(y|x)]

其中 P_w(y|x) 与 Z_w(x) 分别为:

[P_w(y|x) = frac{exp left{ w cdot F(y,x) ight}}{Z_w(x)} , Z_w(x) = sum_y exp left{ w cdot F(y,x) ight}]

接下来给出对数似然函数为

egin{aligned}
L(w) &= sum_{x,y} widetilde{P}(x,y) log P_w(y|x) \
&= sum_{x,y} left { widetilde{P}(x,y)sum_{k=1}^Kw_kf_k(y,x)-widetilde{P}(x,y) log Z_w(x) ight } \
&= sum_{x,y} widetilde{P}(x,y) sum_{k=1}^K w_kf_k(x,y) - sum_xwidetilde{P}(x)logsum_yexpleft { sum_{i=1} ^nw_if_i(x,y) ight }
end{aligned}

对目标进行 MLE 等价于极小化以下优化目标函数:

[min_w f(w)  = sum_xwidetilde{P}(x) log sum_y exp left {  sum_{i=1}^n w_if_i(x,y) ight } -sum_{x,y}widetilde{P}(x,y)sum_{k=1}^Kw_kf_k(x,y)]

其梯度函数在 L-BFGS 的过程中有用到,形式如下:

[g(w) = sum_{x,y}widetilde{P}(x)P_w(y|x)f(x,y)-E_{widetilde{P}}(f)]

这里 $E_{widetilde{P}}$ 的计算已经在上一小节给出,总结一下变了得到求解 crf 的 L-BFGS 算法

输入:特征函数 $f_1,f_2,…,f_n$;经验分布 $widetilde{P}(X,Y)$;

输出:最优参数值 $hat{w}$;最优模型 $P_{hat{w}}(y|x)$。

(1)选定初始点 $w^{(0)}$,取 $B_0$ 为正定对称矩阵,置 $k = 0$;

(2)   计算 $g_k = g(w^{(k)})$。若 $g_k = 0$ ,则停止计算;否则转(3)

(3)由 $B_kp_k = –g_k$ 求出 $p_k$

(4)一维搜索:求 $lambda_k$ 使得:

[f(w^{(k)} + lambda_kp_k) = min_{lambda ge 0}f(w^{(k)} + lambda p_k)]

(5)置 $w^{(k+1)} = w^{(k)} + lambda_k p_k$

(6)计算 $g_{k+1} = g(w^{(k+1)})$,若 $g_k = 0$ ,则停止计算;否则,按下式求出 $B_{k+1}$:

[B_{k+1} = B_k + frac{y_ky_k^T}{y_k^T delta_k} – frac{B_k delta_k delta_k^TB_k}{delta_k^TB_kdelta_k}]

其中:[y_k = g_{k+1}-g_k ,delta_k = w^{(k+1)} - w^{(k)}]

(7)置 k = k+1,转(3)。

条件随机场入门条件随机场的概率计算问题

条件随机场的概率计算问题是给定条件随机场P(Y|X),输入序列x和输出序列y,计算条件概率$P(y_i|x)$,$P(y_{i-1},y_i|x)$以及相应的数学期望的问题。为了方便起见,像HMM那样,引进前向-后向向量,递归地计算以上概率及期望值。这样... 查看详情

条件随机场

...calT$上进行对数似然函数$mathcalL$的极大化。根据上一篇《条件随机场(三)》,我们知道线性链CRF的模型为egin{equation}p_{vec{lambda}}(vecy|vecx)=frac1{Z_{vec{lambda}}(vecx)}exp( 查看详情

条件随机场介绍——anintroductiontoconditionalrandomfields

4.推断高效的推断算法对条件随机场的训练和序列预测都非常重要。主要有两个推断问题:第一,模型训练之后,为新的输入(mathbf{x})确定最可能的标记(mathbf{y}^*=argmax_{mathbf{y}}p(mathbf{y}|mathbf{x}));第二,如第5部分所述,参数估计... 查看详情

nlp入门使用crf++实现命名实体识别(ner)(代码片段)

CRF与NER简介??CRF,英文全称为conditionalrandomfield,中文名为条件随机场,是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔可夫(Markov)随机场。??较为简单的条件随机场... 查看详情

条件随机场-应用

  今天介绍CRFs在中文分词中的应用  工具:CRF++,可以去 https://taku910.github.io/crfpp/下载,训练数据和测试数据可以考虑使用bakeoff2005,这是链接http://sighan.cs.uchicago.edu/bakeoff2005/  首先需要了解一些概念  字标记法——统... 查看详情

条件随机场介绍——anintroductiontoconditionalrandomfields

2.模型本部分从建模的角度讨论条件随机场,解释条件随机场如何将结构化输出上的概率分布表示为高维输入向量的函数。条件随机场即可以理解为逻辑回归在任意图结构上的扩展,也可以理解为结构化数据的生成模型(如隐马... 查看详情

条件随机场(crf)-基础

  条件随机场(conditionalrandomfields,简称CRF,或CRFs)下文简称CRF,是一种典型的判别模型,相比隐马尔可夫模型可以没有很强的假设存在,在分词、词性标注、命名实体识别等领域有较好的应用。CRF是在马尔可夫随机场的基础... 查看详情

ml-13-5条件随机场(crf-conditionalrandomfield)

目录知识串讲HMMVSMEMM从随机场到马尔科夫随机场条件随机场(CRF)MRF因子分解定理线性链条件随机场(Linear-CRF)一句话简介:条件随机场(ConditionalRandomFields,以下简称CRF)是给定一组输入序列条件下另一组输出序列的条件概率分布模型... 查看详情

条件随机场之crf++源码详解-训练(代码片段)

...CRF++的源码,并且本篇文章将是整个系列的重点,会介绍条件随机场中如何构造无向图、前向后向算法、如何计算条件概率、如何计算特征函数的期望以及如何求似然函数的梯度。本篇将结合条件随机场公式推导和CRF++源码实现... 查看详情

条件随机场之crf++源码详解-预测(代码片段)

...相对来说比较简单,所以这篇文章理解起来也会比上一篇条件随机场训练的内容要容易。预测  上一篇条件随机场训练的源码详解中,有一个地方并没有介绍。就是训练结束后,会把待优化权重alpha等变量保存到文件中,也就... 查看详情

理解条件随机场(转)

理解条件随机场最好的办法就是用一个现实的例子来说明它。但是目前中文的条件随机场文章鲜有这样干的,可能写文章的人都是大牛,不屑于举例子吧。于是乎,我翻译了这篇文章。希望对其他伙伴有所帮助。原文在这里[http:... 查看详情

ml-13-6条件随机场的三个问题(crf-conditionalrandomfield)

目录条件随机场CRF——前向后向算法评估标记序列概率条件随机场CRF——模型参数学习条件随机场CRF——维特比算法解码一、条件随机场CRF——前向后向算法评估标记序列概率  linear-CRF第一个问题是评... 查看详情

条件随机场

概述条件随机场(conditionalrandomfield,CRF)是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔可夫随机场。条件随机场可以用于不同的预测问题,本章主要讲述线性链(linearc... 查看详情

条件随机场介绍——anintroductiontoconditionalrandomfields

6.相关研究和未来方向本部分简要分析条件随机场的发展路线,特别是在结构化预测(structuredprediction)方面。除此之外,还将分析条件随机场与神经网络和最大熵马尔可夫模型(MEMMs)的关系。最后列出了几个未来研究的开放领... 查看详情

条件随机场

...有结点为O,对应随机变量组YO,那么给定随机变量组YO的条件下,Yu和Yv是 查看详情

条件随机场摘要

条件随机场(ConditionalRandomFields,以下简称CRF)是给定一组输入序列条件下另一组输出序列的条件概率分布模型,在自然语言处理中得到了广泛应用。HMM引入了马尔科夫假设,即当前时刻的状态只与其前一时刻的状态有关,HMM是一种... 查看详情

条件随机场介绍——anintroductiontoconditionalrandomfields

条件随机场介绍原文:AnIntroductiontoConditionalRandomFields作者:CharlesSutton(SchoolofInformatics,UniversityofEdinburgh,Edinburgh,EH89AB,UK)AndrewMcCallum(DepartmentofComputerScience,UniversityofMassachusetts,Amh 查看详情

nlp——图模型条件随机场(conditionalrandomfield,crf)

...rkovrandomfield,无向图模型)简单回顾   (二)条件随机场(Conditionalrandomfield,CRF)    这篇写的非常浅,基于[1]和[5]梳理。感觉[1]的讲解很 查看详情