条件随机场

cjt-blog cjt-blog     2023-02-16     464

关键词:

概述

条件随机场(conditional random field, CRF)是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔可夫随机场。

条件随机场可以用于不同的预测问题,本章主要讲述线性链(linear chain)条件随机场在标注问题的应用,这时问题变成了由输入序列对输出序列预测的判别模型,形式为对数线性模型,其学习方法通常是极大似然估计或正则化的极大似然估计。

 

概率无向图模型

概率无向图模型(probabilistic undireoted graphical model),又称为马尔可夫随机场(Markov random field),是一个可以由无向图表示的联合概率分布。

1、模型定义

概率图模型(probabilistic graphical model)是由图表示的概率分布。设有联合概率分布P(Y),Y是一组随机变量。由无向图G=(V,E)表示概率分布P(Y),即在图G中,每个结点 v 表示一个随机变量Yv;每条边e表示随机变量之间的概率依赖关系。

给定一个联合概率分布P(Y)和表示它的无向图G。首先定义无向图表示的随机变量之间存在的成对马尔可夫性(pairwise Markov property)、局部马尔可夫性(local Markov properly)和全局马尔可夫性(global Markov property)。

(1)成对马尔可夫性

设u和v是无向图G中任意两个没有边连接的结点,结点u和v分别对应随机变量Yu和Yv,其他所有结点为O,对应的随机变量组是YO。成对马尔可夫性是指给定随机变量组YO的条件下随机变量Yu和Yv是条件独立的,即

技术分享图片

(2)局部马尔可夫性

设v是无向图G中任意一个结点,W是与v有边连接的所有结点,O是v, W以外的其他所有结点。分别表示随机变量Yv,以及随机变量组YW和YO。局部马尔可夫性是指在给定随机变量组YW的条件下随机变量Yv与随机变量组YO是独立的,即

技术分享图片

(3)全局马尔可夫性

设结点集合A, B是在无向图G中被结点集合C分开的任意结点集合,如图11.2所示。结点集合A, B和C所对应的随机变量组分别是YA,YB和YC。全局马尔可夫性是指给定随机变量组YC条件下随机变量组YA,YB是条件独立的,即

技术分享图片

(4)模型定义如下:

设有联合概率分布P(Y)由无向图G=(V,E)表示,在图G中,结点表示随机变量,边表示随机变量之间的依赖关系。如果联合概率分布P(Y)满足成对、局部或全局马尔可夫性,就称此联合概率分布为概率无向图模型(probability undirected graphical model),或马尔可夫随机场C Markovrandom field )。

2、概率无向图模型的因子分解

(1)团与最大团

定义11.2  (团与最大团)  无向图G中任何两个结点均有边连接的结点子集称为团(clique)。若C是无向图G的一个团,井且不能再加进任何一个G的结点使其成为一个更大的团,则称此C为最大团(maximal clique)。

例:图11.3表示由4个结点组成的无向图。图中由2个结点组成的团有5个:Y1,Y2,Y3,Y4,Y2,Y3,Y3,Y4,Y4,Y2和Y1,Y3。有2个最大团Y1,Y2,Y3和Y2,Y3,Y4。而Y1,Y2,Y3,Y4不是一个团,因为Y1和Y4没有边连接.

技术分享图片

(2)概率无向图模型的因子分解
将概率无向图模型的联合概率分布表示为其最大团上的随机变量的函数的乘积形式的操作,称为概率无向图模型的因子分解(factorization)。
给定概率无向图模型,设其无向图为G,C为G上的最大团,YC表示C对应的随机变量。那么概率无向图模型的联合概率分布P(Y)可写作图中所有最大团C上的函数技术分享图片的乘积形式,即技术分享图片

其中,Z是规范化因子(normalization factor),规范化因子保证P(Y)构成一个概率分布,函数技术分享图片称为势函数(potenrial function),要求是严格正的,通常定义为指数函数。

技术分享图片技术分享图片

(3)Hammersley-CIifford定理

定理11.1 (Hammersley-CIifford定理)   概率无向图模型的联合概率分布P(Y)可以表示为如下形式:

技术分享图片

C是无向图的最大团,YC是C的结点对应的随机变量,技术分享图片是C上定义的严格正函数,乘积是在无向图所有的最大团上进行的。

 

 

条件随机场的定义与形式

1、条件随机场的定义

(1)条件随机场

条件随机场(conditional random field)是给定随机变量X条件下,随机变量Y的马尔可夫随机场。这里主要介绍定义在线性链上的特殊的条件随机场,称为线性链条件随机场(linear chain conditional random field )。
在条件概率模型P(Y|X)中,Y是输出变量,表示标记序列,也把标记序列称为状态序列,X是输入变量,表示需要标注的观测序列。
学习时,利用训练数据集通过极大似然估计或正则化的极大似然估计得到条件概率模型;预测时,对于给定的输入序列x,求出条件概率最大的输出序列。
 
技术分享图片
(2)线性链条件随机场
现实中,一般假设X和Y有相同的图结构。线性链条件随机场的情况为技术分享图片
在此情况下,最大团是相邻两个结点的集合。如下图所示。
 
技术分享图片
 
技术分享图片

2、条件随机场参数化形式

即因子分解式,各因子是定义在相邻两个结点上的函数。
定理11.2(线性链条件随机场的参数化形式) 设P(Y|X)为线性链条件随机场,则在随机变量X取值为x的条件下,随机变量Y取值为Y的条件概率具有如下形式:
技术分享图片

技术分享图片

式中,tk和sl是特征函数,技术分享图片和ul是对应的权值.Z(x)是规范化因子,求和是在所有可能的输出序列上进行的.
tk是定义在边上的特征函数,称为转移特征,依赖于当前和前一个位置,sl是定义在结点上的特征函数,称为状态特征,依赖于当前位置。两者都依赖于位置,是局部特征函数。通常,特征函数tk和sl取值为1或0;当满足特征条件时取值为1,否则为0。条件随机场完全由特征函数和对应的权值确定。
上式是线性链条件随机场模型的基本形式,表示给定输入序列x,对输出序列y预测的条件概率。
 
3、条件随机场的简化形式
可以对同一个特征在各个位置求和,将局部特征函数转化为一个全局特征函数,这样就可以将条件随机场写成权值向量和特征向量的内积形式,即条件随机场的简化形式。
首先将转移特征和状态特征及其权值用统一的符号表示。设有K1个转移特征,K2个状态特征,K=K+ K2,,记
技术分享图片
然后,对转移与状态特征在各个位置i求和,记作
技术分享图片
对应的权值为,
技术分享图片
条件随机场为,
技术分享图片
以向量形式表示为,
技术分享图片

技术分享图片

则条件随机场的向量形式为
技术分享图片

技术分享图片

4、条件随机场的矩阵形式

引进特殊的起点和终点状态标记y0 =start , yn+1=stop。对观测序列x的每一个位置i,定义一个m阶矩阵(m是标记yi取值的个数)

技术分享图片

技术分享图片 

技术分享图片

注意:修改:技术分享图片

 

技术分享图片

技术分享图片

 

条件随机场的概率计算问题

条件随机场的概率计算问题是给定条件随机场P(YIX),输入序列x和输出序列Y,计算条件概率P(Yi=yi | x ),P(Yi-1=yi-1,Yi=yi | x)以及相应的数学期望的问题。

1、前向-后向算法

对每个指标i = 0,1,...,n + 1,定义前向向量技术分享图片

递推公式为技术分享图片

又可以表示为技术分享图片

ai(y| x)表示在位置i的标记是yi并且到位置i的前部分标记序列的非规范化概率,yi可取的值有m个,所以ai是m维列向量。

定义后向向量技术分享图片

递推公式为技术分享图片

又可以表示为技术分享图片

其表示在位置i的标记是yi并且从i+1到n的后部分标记序列的非规范化概率。

可以得到技术分享图片

2、概率计算

按照前向-后向向量的定义,很容易计算标记序列在位置i是标记yi的条件概率和在位置i-1与i是标记yi-1和yi的条件概率:

技术分享图片

3、期望值的计算

技术分享图片

技术分享图片

技术分享图片

对于给定的观测序列x与标记序列Y,可以通过一次前向扫描和一次后向扫描计算所有的概率和特征的期望。

 

 条件随机场的学习算法

条件随机场模型实际上是定义在时序数据上的对数线形模型,其学习方法包括极大似然估计和正则化的极大似然估计。

1、改进的迭代尺度法

技术分享图片

技术分享图片

2、拟牛顿法

技术分享图片

技术分享图片

  

条件随机场的预测算法

1、问题描述

条件随机场的预测问题是给定条件随机场P(Y | X)和输入序列(观测序列)x,求条件概率最大的输出序列(标记序列) y*,即对观测序列进行标注。其预测算法是维特比算法。

根据条件随机场的向量形式,
技术分享图片
于是,条件随机场的预测问题成为求非规范化概率最大的最优路径问题
技术分享图片
技术分享图片

技术分享图片

2、维特比算法

技术分享图片

 

条件随机场入门条件随机场的概率计算问题

条件随机场的概率计算问题是给定条件随机场P(Y|X),输入序列x和输出序列y,计算条件概率$P(y_i|x)$,$P(y_{i-1},y_i|x)$以及相应的数学期望的问题。为了方便起见,像HMM那样,引进前向-后向向量,递归地计算以上概率及期望值。这样... 查看详情

条件随机场介绍——anintroductiontoconditionalrandomfields

2.模型本部分从建模的角度讨论条件随机场,解释条件随机场如何将结构化输出上的概率分布表示为高维输入向量的函数。条件随机场即可以理解为逻辑回归在任意图结构上的扩展,也可以理解为结构化数据的生成模型(如隐马... 查看详情

条件随机场(crf)-基础

  条件随机场(conditionalrandomfields,简称CRF,或CRFs)下文简称CRF,是一种典型的判别模型,相比隐马尔可夫模型可以没有很强的假设存在,在分词、词性标注、命名实体识别等领域有较好的应用。CRF是在马尔可夫随机场的基础... 查看详情

ml-13-5条件随机场(crf-conditionalrandomfield)

目录知识串讲HMMVSMEMM从随机场到马尔科夫随机场条件随机场(CRF)MRF因子分解定理线性链条件随机场(Linear-CRF)一句话简介:条件随机场(ConditionalRandomFields,以下简称CRF)是给定一组输入序列条件下另一组输出序列的条件概率分布模型... 查看详情

条件随机场介绍——anintroductiontoconditionalrandomfields

条件随机场介绍原文:AnIntroductiontoConditionalRandomFields作者:CharlesSutton(SchoolofInformatics,UniversityofEdinburgh,Edinburgh,EH89AB,UK)AndrewMcCallum(DepartmentofComputerScience,UniversityofMassachusetts,Amh 查看详情

理解条件随机场(转)

理解条件随机场最好的办法就是用一个现实的例子来说明它。但是目前中文的条件随机场文章鲜有这样干的,可能写文章的人都是大牛,不屑于举例子吧。于是乎,我翻译了这篇文章。希望对其他伙伴有所帮助。原文在这里[http:... 查看详情

条件随机场

...calT$上进行对数似然函数$mathcalL$的极大化。根据上一篇《条件随机场(三)》,我们知道线性链CRF的模型为egin{equation}p_{vec{lambda}}(vecy|vecx)=frac1{Z_{vec{lambda}}(vecx)}exp( 查看详情

ml-13-6条件随机场的三个问题(crf-conditionalrandomfield)

目录条件随机场CRF——前向后向算法评估标记序列概率条件随机场CRF——模型参数学习条件随机场CRF——维特比算法解码一、条件随机场CRF——前向后向算法评估标记序列概率  linear-CRF第一个问题是评... 查看详情

条件随机场

概述条件随机场(conditionalrandomfield,CRF)是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔可夫随机场。条件随机场可以用于不同的预测问题,本章主要讲述线性链(linearc... 查看详情

条件随机场

...有结点为O,对应随机变量组YO,那么给定随机变量组YO的条件下,Yu和Yv是 查看详情

nlp——图模型条件随机场(conditionalrandomfield,crf)

...rkovrandomfield,无向图模型)简单回顾   (二)条件随机场(Conditionalrandomfield,CRF)    这篇写的非常浅,基于[1]和[5]梳理。感觉[1]的讲解很 查看详情

条件随机场介绍——anintroductiontoconditionalrandomfields

6.相关研究和未来方向本部分简要分析条件随机场的发展路线,特别是在结构化预测(structuredprediction)方面。除此之外,还将分析条件随机场与神经网络和最大熵马尔可夫模型(MEMMs)的关系。最后列出了几个未来研究的开放领... 查看详情

条件随机场(crf)-1-简介(转载)

转载自:http://www.68idc.cn/help/jiabenmake/qita/20160530618222.html   首先我们先弄懂什么是“条件随机场”,然后再探索其详细内容。        于是,先介绍几个名词。马尔可夫链    & 查看详情

条件随机场摘要

条件随机场(ConditionalRandomFields,以下简称CRF)是给定一组输入序列条件下另一组输出序列的条件概率分布模型,在自然语言处理中得到了广泛应用。HMM引入了马尔科夫假设,即当前时刻的状态只与其前一时刻的状态有关,HMM是一种... 查看详情

条件随机场-应用

  今天介绍CRFs在中文分词中的应用  工具:CRF++,可以去 https://taku910.github.io/crfpp/下载,训练数据和测试数据可以考虑使用bakeoff2005,这是链接http://sighan.cs.uchicago.edu/bakeoff2005/  首先需要了解一些概念  字标记法——统... 查看详情

条件随机场(crf)占坑,待补充

CRF看了好久,一直感觉理解不太透彻,今天按照52自然语言处理运行了一下CRF++,先占坑,等忙完毕设,好好整理一下CRF与HMM(20181026)  查看详情

条件随机场(crf)-2-定义和形式(转载)

    转载自:http://www.68idc.cn/help/jiabenmake/qita/20160530618218.html     参考书本:《2012.李航.统计学习方法.pdf》     书上首先介绍概率无向图模型,然后叙述条件随机场的定义和 查看详情

条件随机场介绍——anintroductiontoconditionalrandomfields

参考文献[1]S.M.AjiandR.J.McEliece,“Thegeneralizeddistributivelaw,”IEEETrans-actionsonInformationTheory,vol.46,no.2,pp.325–343,2000.[2]Y.Altun,I.Tsochantaridis,andT.Hofmann,“HiddenMarkovsupportvectormachin 查看详情