如何用简单易懂的例子解释条件随机场模型?它和hmm有啥区别

author author     2023-03-15     624

关键词:

参考技术A

概率模型与条件随机场

1、概率模型 
机器学习中的很多模型可以根据概率分布形式分为生成模型和判别模型,其中生成模型以输入输出的联合分布P(X,Y)为基础建模,如朴素贝叶斯、隐马尔可夫模型;判别模型以条件概率分布P(Y|X)为基础建模,如最大熵模型、条件随机场等。这几个模型之间有一定的关系,它们的关系如下:

其中,NB表示朴素贝叶斯,ME表示最大熵,HMM表示隐马尔科夫,CRF表示条件随机场。joint联合分布,conditional条件分布。single class输出单一类别,sequence输出序列。例如,朴素贝叶斯将输出y扩展成序列(y1,y2,...,yn),就可以以此为基础构造HMM;在满足输入条件下的HMM可以扩展成CRF。

这里面,朴素贝叶斯假设最强 ,因为它要求所有输入特征之间条件独立,如P(y|x1,x2,...,xn)=∏i=1nP(y|xi);这是一种为计算方便而做的近似假设,然而现实中基本不会有模型符合输入特征间的独立,因此以朴素贝叶斯建模一般会有精度损失。 
隐马尔科夫模型进了一步,它考虑一定的变量相关性,如马尔科夫假设状态序列中,当前状态只与其前一个状态有关,如: 

P(X,Y)=∏i=0nP(yi|yi−1P(xi|yi)
但是HMM只考虑了状态之间的邻接关系,没有考虑观测序列间的关系,条件随机场刚好弥补了这个缺陷。所以条件随机场是一个相对比较完善的模型,但代价是计算复杂性的提高。


2、概率图模型 
上面讲到的概率模型可以用图的形式表示出来,称为概率图模型。概率图模型用图中结点表示随机变量,结点之间的边表示变量间的概率相关关系。

在概率图中,两结点没有边相连,说明两节点是条件独立的,比如P(a,b|c)=P(a|c)⋅P(b|c)。在概率图中,结点间全连接是不包含任何概率分布信息的,所以我们更关注的是哪些边是缺失的,这些缺失的边表示边连接的结点条件独立。

下图中的两个图是概率图的两种表示形式,一个是独立图,一个是因子图。通过条件独立的条件,可以将一个复杂的概率分布分解成简单的概率分布乘积,如下图中(a),联合概率分布P(x1,x2,y)=P(x1)⋅P(x2)⋅P(y|x1,x2)。
若定义因子,也称势函数Ψs为概率分布的分解因子,对任意概率图G=(V,E),有:

p(V)=∏sΨs(Vs)

其中,s表示随机变量构成的集合,Vs表示该集合中包含的变量。 
则可以将P(x1,x2,y)写成P(x1,x2,y)=Ψ1⋅Ψ2⋅Ψ3,这里的Ψi分别与独立图中的概率对应。 

概率图模型可大致分为两类:一类是有向图模型,表示变量间的依赖关系,也称为贝叶斯网;一类是无向图模型,表示变量间的相关关系,也称为马尔科夫网或马尔科夫随机场。 
2.1 有向图模型 
在有向图中,边表示了变量之间的一种依赖关系。联合分布概率可以写作是所有变量在在父节点条件下的概率乘积:

P(V)=∏i=1KP(vk|vnk)

如下图所示的隐马尔可夫有向图,联合概率可以写作:

P(x1,x2,x3,y1,y2,y3)=Ψ1(y1)⋅Ψ2(x1,y1)⋅Ψ3(x2,y2)⋅Ψ4(x3,y3)⋅Ψ5(y1,y2)⋅Ψ6(y2,y3)

2.2 无向图模型 
在无向图模型中,有个团和最大团的概念,表示了变量之间的关系。团的意思是一些随机变量结点构成的子集中,两两结点都有边相连,如下图中(1,2)、(1,2,5)等;最大团表示结点构成的团中再添加任何一个新结点后都不会构成团,如(1,4,5)。在一些线性链结构的无向图,如线性链条件随机场中,最大团只考虑(yj−1,yj,x)。 

像有向图的分解一样,无向图也可以分解,无向图是基于最大团进行分解,如下: 

P(V)=1Z∏C∈CΨC(VC)

其中每个最大团对应一个势函数ΨC。是不是跟最大熵模型的形式很相似?因为最大熵模型也是一个无向图模型。像在最大熵模型中一样,Z是一个归一化因子,如下: 

Z=∑V∏C∈CΨC(VC)

一般,势函数要求严格非负,所以在使用中会选择指数函数作为势函数。如下图的一个最大熵模型,可以写作: 

P(y|x)=1Zλ(x)eλ1f1⋅eλ2f2⋅eλ3f3


有向图与无向图的一个主要区别在于概率分布的分解不同,在概率有向图中,分解因子是条件概率分布;在无向图中,分解因子可以是任意函数,无向图不需要说明变量间是如何关联的,而是将在一个团中的变量作为一个整体来看。 
**3、条件随机场** 
在前面,我们说可以把隐马尔科夫模型看作是对贝叶斯模型的序列化;类似地,我们可以把条件随机场看作是对最大熵模型的序列化。条件随机场并不要求线性序列,即它可以是任意结构的,通常我们使用较多的是线性链随机场,它可以看作是有条件的HMM(即加入了观测序列x的条件)。 
条件随机场属于判别模型,即它要求出在观测序列x的条件下得到可能输出序列y的概率P(y|x)。 
由上面的无向图分解公式 

P(V)=1Z∏C∈CΨC(VC)

条件概率P(y|x)可以写作: 

p(y|x)=p(x,y)p(x) 
=p(x,y)∑y′p(y′,x) 
=1Z∏C∈CΨC(xC,yC)1Z∑y′∏C∈CΨC(xC,yC) 
=1Z(x)∏C∈CΨC(xC,yC) 

其中, 

Z(x)=∑y′∏C∈CΨC(xC,yC) 


下面介绍一下常用的线性链条件随机场, 
线性链CRFs是条件随机场中的一种特殊结构,与隐马尔科夫一样,输出形成一个线性序列,如下图: 

根据上面的公式,其条件概率可以写作, 


p(y|x)=1Z(x)∏j=1nΨj(x,y) 

其中,n+1表示输出状态序列长度,n为势函数个数。 
由图可知,状态yj与输入x和yj−1有关,特征函数可以写作: 
f(yj−1,yj,x,j)
势函数: 
Ψj(x,y)=exp(∑i=1mλifi(yj−1,yj,x,j))
进而,线性链CRFs的条件概率分布可以写作, 

pλ(y|x)=1Zλ(x)exp(∑nj=1∑i=1mλifi(yj−1,yj,x,j)) 

其中,Zλ(x)是归一化因子, 


浅谈分词算法基于字的分词方法(crf)

...onalrandomfieldCRF)为了说清楚CRF在分词上的应用,我们需要简单介绍下条件随机场CRF,我们不去长篇大论的展开论述,只讨论几个核心的点,并重点阐述下线性链条件随机场,也是我们在序列标注问题中经常遇到的,如分词、词性... 查看详情

条件随机场介绍——anintroductiontoconditionalrandomfields

...隐马尔可夫模型)的判别化。本部分首先对图模型做一个简单的介绍(2.1节),并对NLP中的生成模型和判别模型进行分析(2.2节)。然后给出条件随机场的正式定义,包括常用的线性链条件随机场(2.3节)和任意 查看详情

条件随机场摘要

条件随机场(ConditionalRandomFields,以下简称CRF)是给定一组输入序列条件下另一组输出序列的条件概率分布模型,在自然语言处理中得到了广泛应用。HMM引入了马尔科夫假设,即当前时刻的状态只与其前一时刻的状态有关,HMM是一种... 查看详情

条件随机场入门条件随机场的预测算法

...预测问题是给定模型参数和输入序列(观测序列)x,求条件概率最大的输出序列(标记序列)$y^*$,即对观测序列进行标注。条件随机场的预测算法同HMM还是维特比算法,根据CRF模型可得:egin{aligned}y^*&=argmax_yP_w(y|x)\&= ... 查看详情

ml-13-5条件随机场(crf-conditionalrandomfield)

目录知识串讲HMMVSMEMM从随机场到马尔科夫随机场条件随机场(CRF)MRF因子分解定理线性链条件随机场(Linear-CRF)一句话简介:条件随机场(ConditionalRandomFields,以下简称CRF)是给定一组输入序列条件下另一组输出序列的条件概率分布模型... 查看详情

crf条件随机场

CRF的进化https://flystarhe.github.io/2016/07/13/hmm-memm-crf/参考:http://blog.echen.me/2012/01/03/introduction-to-conditional-random-fields/ 标记偏置问题:MEMM最大熵马尔可夫模型  路径1-1-1-1的概率:0.4*0.45*0.5=0 查看详情

nlp——图模型条件随机场(conditionalrandomfield,crf)

    本文简单整理了以下内容:   (一)马尔可夫随机场(Markovrandomfield,无向图模型)简单回顾   (二)条件随机场(Conditionalrandomfield,CRF)    这篇写的非常浅,基于[1]和[5]... 查看详情

条件随机场入门条件随机场的训练

本节讨论给定训练数据集估计条件随机场模型参数的问题,即条件随机场的学习问题。条件随机场模型实际上是定义在时序数据上的对数线形模型,其学习方法包括极大似然估计和正则化的极大似然估计。具体的优化实现算法有... 查看详情

条件随机场(crf)-基础

  条件随机场(conditionalrandomfields,简称CRF,或CRFs)下文简称CRF,是一种典型的判别模型,相比隐马尔可夫模型可以没有很强的假设存在,在分词、词性标注、命名实体识别等领域有较好的应用。CRF是在马尔可夫随机场的基础... 查看详情

条件随机场入门条件随机场的概率计算问题

条件随机场的概率计算问题是给定条件随机场P(Y|X),输入序列x和输出序列y,计算条件概率$P(y_i|x)$,$P(y_{i-1},y_i|x)$以及相应的数学期望的问题。为了方便起见,像HMM那样,引进前向-后向向量,递归地计算以上概率及期望值。这样... 查看详情

理解crf

...联系作者获得授权,非商业转载请注明出处。题主说要用简单易懂的例子来说明,那我就来强答一发。理解条件随机场最好的办法就是用一个现实的例子来说明它。但是目前中文的条件随机场文章鲜有这样干的,可能写文章的人... 查看详情

自然语言处理系列-4条件随机场(crf)及其tensorlofw实现

...用比较多的一些机器学习模型,隐马尔科夫模型(HMM),条件随机场(CRF),朴素贝叶斯,支持向量机(SVM),EM算法等相继都会聊到,感兴趣的朋友可以订阅我的博客,或者关注我的微信公众号,会定期更新NLP相关的文章。 ... 查看详情

nlp学不会打我半小时学会基本操作12命名实例提取(代码片段)

...特定意义的实体,包括人名,地名,机构名,专有名词等.举个例子:LukeRawlence代表人物Aiimi和UniversityofLincoln代表组织MiltonKeynes代表地方HMM隐马可夫模型(HiddenMarkovModel)可以描述一个含有隐含未知参数的马尔可夫过程.如图:随机场随机场(Ra... 查看详情

条件随机场

概述条件随机场(conditionalrandomfield,CRF)是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔可夫随机场。条件随机场可以用于不同的预测问题,本章主要讲述线性链(linearc... 查看详情

条件随机场介绍——anintroductiontoconditionalrandomfields

6.相关研究和未来方向本部分简要分析条件随机场的发展路线,特别是在结构化预测(structuredprediction)方面。除此之外,还将分析条件随机场与神经网络和最大熵马尔可夫模型(MEMMs)的关系。最后列出了几个未来研究的开放领... 查看详情

概率图模型(马尔科夫与条件随机场)

再一次遇到了Markov模型与条件随机场的问题,学而时习之,又有了新的体会。所以我决定从头开始再重新整理一次马尔科夫模型与条件随机场。  马尔科夫模型是一种无向概率图模型,其与马尔科夫链并不是很一样。马尔科夫... 查看详情

条件随机场

...calT$上进行对数似然函数$mathcalL$的极大化。根据上一篇《条件随机场(三)》,我们知道线性链CRF的模型为egin{equation}p_{vec{lambda}}(vecy|vecx)=frac1{Z_{vec{lambda}}(vecx)}exp( 查看详情

条件随机场conditionalrandomfield

...示为一个无向图模型。今天早上看了一下这篇blog,针对例子感觉有些清楚了。http://blog.echen.me/2012/01/03/introduction-to 查看详情