《计算机视觉中马尔可夫场模型中潜在语法的相关线索》
作者:Luigi Burigana
《Applied Sciences》:Cues for a Grammar of Potentials in Markov Field Models of Computer Vision
Luigi Burigana
【字体:
大
中
小
】
时间:2026年04月22日
来源:Applied Sciences 2.5
编辑推荐:
摘要
当今计算机视觉中的一些知名模型采用马尔可夫随机场(Markov Random Fields,MRF)的形式。这类模型本质上是一个由软约束组成的网络,这些软约束被称为“势能”(potentials)。本研究正是针对这些势能展开的。首先,本文明确了任何计算机视觉推理任务中涉
摘要
当今计算机视觉中的一些知名模型采用马尔可夫随机场(Markov Random Fields,MRF)的形式。这类模型本质上是一个由软约束组成的网络,这些软约束被称为“势能”(potentials)。本研究正是针对这些势能展开的。首先,本文明确了任何计算机视觉推理任务中涉及的三种信息类型:证据信息(evidence)、目标信息(target)和原则性信息(principled information),并讨论了在这些背景下变量的概念。随后阐述了势能的一般含义,即一种旨在促进期望状态的局部软约束。接着重点介绍了势能的形式结构,包括一组参数和一个分析框架(analytic frame),该框架通过一系列操作来计算势能的值。文中还探讨了分析框架中可能存在的核心(core)问题,并通过文献中的示例区分了两种典型的核心类型:一种是基于距离函数的核心,另一种是基于概率条件式的核心。总之,本文揭示了马尔可夫随机场模型中势能的语义和语法方面的关键特性,并构建了一个框架,以便对这些特性进行系统地组织和解释。
1. 引言
自20世纪80年代中期以来,马尔可夫随机场(MRF)作为一种概率图模型,在与计算机视觉(CV)相关的研究和应用中占据了重要地位。所谓的“势能”(potentials)是这些模型的基本构建单元。更准确地说,MRF的概率核心是一个复合随机变量上的概率分布,通常由以下形式的方程定义:
\[P(X = v) = \sum_{i \in S} \phi_i(x_i, v_i)\]
其中 \(x_i\) 是变量 \(X\) 的部分状态,\(\phi_i\) 是定义在变量 \(X\) 的相应部分上的函数,\(K\) 是一个归一化常数。这些函数被称为势能,它们的总和称为能量函数(energy function),以这种方式定义的概率分布被称为吉布斯分布(Gibbs distribution)[1](第2节)。方程(1)表明,势能的选择是构建MRF概率模型的关键步骤。一旦势能确定,相应的能量函数和吉布斯分布也就随之确定。
MRF中各个势能与能量函数或吉布斯分布之间的关系,类似于组成复杂句子的各个从句与句子本身之间的关系。实际上,势能可以看作是MRF模型设计者用来表达约束、假设或期望的基本构建单元,这些因素共同指导着计算机视觉及其他应用场景中的推理任务。势能的语言具有灵活性:其数量、结构和含义会根据具体推理任务的不同而变化。尤其是与贝叶斯统计推断中的“先验”(prior)和“似然”(likelihood)势能相比,现代计算机视觉模型中的势能类型更加丰富和复杂。正是这种丰富的势能库激发了本文的研究动机。通过区分和讨论该领域中势能的典型组成部分、它们的表现形式以及它们之间的相互关系和合理性,本文旨在阐明这些潜在机制的逻辑顺序。
从广义上讲,本研究的目标类似于语言分析的目标。通过研究计算机视觉文献中的势能,我们可以揭示与其含义(语义,semantics)相关的类别和基本原则(语法,syntax),以及这两者之间的关系。同时,我们还能探讨实用和构建性的方面,即计算机视觉中MRF设计者是如何基于何种论据来选择和证明模型中所使用的势能的。因此,本研究的数据就是构成计算机视觉MRF模型的各种势能,正如语言学研究中使用的语言数据一样。为了说明或证明论点,需要参考那些包含合适势能特征的计算机视觉文献。本文兼具理论和综述性质:在概念定义和讨论的影响方面具有理论性,而在对计算机视觉文献的引用方面则具有综述性。
本文分为以下几个部分:第2节从计算机视觉中MRF模型作为推理任务指导工具的前提出发,强调这些任务通常涉及不同类型和角色的信息。第3节阐释了势能的一般含义,即定义在(有限)变量集合上的函数,并指出当该函数具有计算公式时所包含的基本组成部分,特别是分析框架(analytic frame)和参数(parameters)之间的区别。第4节重点讨论了计算机视觉文献中一些常见且反复出现的势能形式,包括它们的起源、要求及优势,特别是以距离函数和概率条件式为核心的势能形式。第5节对所发展的理论分析的实际意义及其中揭示的一些重要未解决问题进行了评论。附录A中提供了一个表格,作为本文的主题和符号索引。
2. 推理任务中的信息类型与变量
本节为讨论计算机视觉中推理任务的局部因素——势能——定义了总体背景。首先区分了此类任务中涉及的主要信息类型,随后介绍了变量的概念及其在推理任务中的表达形式。
2.1 证据信息、目标信息和原则性信息
在计算机视觉中,MRF模型被构建并用于指导多种推理任务,如图像分割(前景与背景)、噪声修复、图像类型识别、深度图构建、遮挡与透明度效应检测、双眼视觉中的立体匹配等。这意味着在MRF模型中至少涉及三种不同的信息类型:
- **证据信息**,作为推理过程输入的光学数据;
- **目标信息**,反映推理过程的输出结果;
- **原则性信息**,即指导推理过程的规则和内在约束。
值得注意的是,由MRF引导的推理属于比较-选择性质,而非演绎或确定性性质。这意味着在推理过程中,会比较不同目标信息的配置,以寻找在给定条件下的最优配置。这一特性对于理解MRF模型中势能的表现形式至关重要。
实际应用中,计算机视觉中的推理是在给定光学现实的场景中进行的(通过适当设备)。这种现实可以是单张静态图像、一对图像(如立体视觉),或者是一组或多组图像(如多相机空间视觉或运动视觉检测)。为简化理解,本文假设光学数据为单张静态图像(称为源图像),并将任何包含图像并进行推理的场景称为“视觉场景”(vision episode)。
在典型的MRF模型方法中,从源图像中提取两类证据信息:
- 一方面,图像被划分为相互连接的部分(或称为粒子),这些部分被表示为图的节点,图的邻接关系 \(E\) 描述了图像中各部分之间的拓扑关系。由此选出的光学信息构成了模型中的证据信息的拓扑结构。需要注意的是,某些模型还会考虑图像的其他空间特征,例如相邻部分中心之间的几何距离或边界线的方向[3](第1504页)[4](第109页)。
- 另一方面,为每个节点创建一个术语,记录与特定推理任务相关的图像部分的某些光学属性。这些术语共同构成了参与模型的证据信息的定量部分。我们将这样的术语称为位于节点 \(s\) 处的“证据变量”(evidence variable)的值。不同模型在如何从源图像获取这些术语方面存在差异。最简单的情况下,术语是通过基本的光学标准来确定的;例如,它可以表示标记为 \(s\) 的图像部分中红色、绿色和蓝色成分的强度值[5,6]。
图1的左上部分展示了一张被划分为方形像素的图像,这些像素被表示为图的节点,每个内部节点有四个邻居(4-邻域系统)。图1的右上部分展示了同一图像,但被划分为数量更少、内部相对均匀的区域(超像素,superpixels),这些区域被表示为平面图的节点。对于左图中的每个节点 \(s\),相关记录可能包含该像素的反射率测量值;对于右图中的每个节点 \(s\),相关记录可能包含超像素的光度属性及其大小和形状等信息。
值得注意的是,现有模型在获取术语的方式上存在差异。最简单的情况下,术语是通过基本光学标准来指定的;例如,它可以表示标记为 \(s\) 的图像部分中红、绿、蓝三种成分的强度值。相反,术语也可以通过复杂的机器学习程序从图像中提取[5,6]。
图1展示了将图像划分为像素(左图)或超像素(右图)的情况,相应的图表示了图像中各区域之间的拓扑关系。这些图和术语集合构成了图像中隐含的证据信息的基本组成部分。仅基于这些信息,还可以派生出其他度量指标(如距离函数),这些度量也被归类为证据信息。例如,可以根据图构建距离函数 \(d\),该函数为任意两个节点对关联它们之间的最短路径长度。这些度量同样属于证据信息范畴。
在本文中,“目标信息”(target information)是指推理过程所追求的结果。在大多数MRF模型中,这一基本类别被形式化为与模型图中节点相关联的变量集合。这些目标变量不是用于支持推理过程的光学数据,而是需要通过推理过程求解的未知量。例如,如果推理任务涉及将图像组织成一个包含前景和背景的场景,那么任何变量都可以是一个取值范围为[0, 1]的二进制变量,其中变量值0表示图像片段被分配到场景的前景,值1表示被分配到背景([7] 第2411页)。如果推理任务涉及将图像组织成一个包含透明效果的场景,那么任何变量都可以是一个三元组,其中前两个元素分别是透明层的反射率和透射率,第三个元素是背景的反射率。这三个度量与图中的元素相对应,这些元素共同对应于标记为节点s的图像块[8]。第三类称为原则性信息,它是一组规则或约束,用于指导从证据到目标信息的转换过程。马尔可夫随机场(MRF)中的各个势能、它们组成的能量函数、通过方程(1)由能量函数推导出的吉布斯分布,以及通过边缘化或条件化从这个分布中可能得到的任何其他分布,都是这一类的组成部分。一旦MRF模型被完全指定,其中隐含的原则性信息本身就是固定的;也就是说,它不会随着应用该模型的视觉场景的不同而变化。这与证据和目标信息不同,后者显然可能根据所考虑的源图像而变化。
2.2 MRF模型中的变量
在前面的小节中,我们遇到了变量的概念。实际上,这是表达推理任务中的证据和目标信息的主要方式,并且对于定义和分析任何势能都是必需的。在这一小节中,我们将重点介绍这一概念,概述其一般特征以及它在本研究中的使用方式。
变量是一个可以在不同时间点被观察到的实体,并且在这些时间点上可能取不同的值,尽管它仍然是“同一个”变量。这里,用大写字母(如Z)来表示变量,用相应的小写字母(如z)表示Z的一个可能的值,用符号表示Z所有可能的值的集合。这个集合也被称为Z的取值范围或空间。一个变量Z可以是一组更简单的变量的组合,即对于任何z,Z的值是这些组变量值的某种组合或“配置”。在这种情况下,通常假设Z的取值范围是这些组变量取值范围的笛卡尔积。大多数情况下,这样的构造更倾向于被称为“一个变量”(单数形式),而不是一组变量;例如,上述提到的总证据变量和总目标变量可以分别称为MRF模型的总证据变量和总目标变量。
变量的值通常是数字或数字的组合(数值向量)。然而,CV模型中也包括具有其他类型可能值的变量,如颜色名称、对象类别的符号等。任何具有数值范围的变量都有明确的经验意义;例如,它可以表示源图像中一个粒子的光强度、候选3D场景中一个点的深度、该场景中透明层的透射率等。此外,任何这样的变量在测量层次结构中都有一个明确的位置,这是由测量理论区分的;变量可以是分类型的、序数型的、区间型的、比率型的等[9]。另外,一个模型中可能包含两个在角色上不同但具有相同可能值范围和相同经验意义的变量。例如,一个变量可以记录源图像中一个粒子的光度属性,另一个变量可以指定如果通过推理得到的3D场景具有某些特征时该粒子应具备的光度属性。这两个变量在模型中的角色不同,但它们具有相同的可能值集合和相同的经验意义,因此它们是可以合法比较的。它们被认为是维度同质的[10] 第1261页。
关于变量的进一步区分在前面的小节中有提及。一方面,证据变量和目标变量之间存在区别,这标志着它们在推理中扮演的角色有实质性差异。这里的证据变量在CV文献中也被称为“观察变量”或“测量值”,而“隐藏变量”和“解释”是目标变量的其他名称[11] 第609页;[12] 第790页。另一方面,MRF模型中的任何变量都具有一个确定的位置,即与该变量相关联的节点(或节点集)。具体来说,任何基本证据变量(即家族中的成员)的位置是节点s,而任何派生证据变量(即从X的子集导出的量)的位置是节点集。同样的说法也适用于基本目标变量的位置,以及从它们派生的目标变量的位置。
3. 势能的意义和一般组成部分
本节介绍了一些关于任何势能的角色和结构的元素。这些元素涉及我们主题的语义方面和语法方面。关于语法方面(结构)的更详细考虑将在下一节中呈现。
3.1 势能作为软约束
MRF中的任何势能都是一个非负值函数,作用于场上可用的一组变量。这里,这组变量被称为势能的作用域,用Z表示,而势能本身用表示。因此,是一个函数,其中是变量Z的取值范围。此外,势能的位置是模型图中包含其作用域内变量的节点集合。例如,相对于图1的右侧部分,考虑由证据变量、与节点、、和目标变量、与节点、、相关联的变量组成的变量集合。作用域为Z的势能将是定义在域上的一个非负值函数。其位置将是图中节点的三元组。
为了将这样的函数视为合法的势能,还需要满足三个额外条件。第一个条件是它的位置必须是图中的一个团;也就是说,作用域Z中的变量所在的节点在图中应该是相互相邻的。正如关于MRF的一个基本定理所阐述的[13,14],这个条件确保图中节点集之间的分离能够忠实反映由方程(1)定义的吉布斯分布下成立的条件随机独立性。第二个条件是作用域Z至少应包含一个目标变量,尽管它可以不包含证据变量。这是因为任何势能都作为一种软约束,用于克服对目标变量的不确定性,这些目标是推理任务中需要解决的未知数。因此,不涉及任何目标变量的函数对推理来说是没有用的。第三个条件是函数应该是不可加约的,即不存在两个函数和,使得变量和是Z的子集。这是因为MRF的本质就是局部约束,这意味着希望函数的作用域尽可能小。实际上,如果允许可加约的势能,那么MRF的整个能量函数就可以被归类为单一的总体势能,这在实际应用中没有意义。(当然也有例外情况。例如,用于立体匹配的光照一致性势能[15] 第152页]涉及左右图像中相应粒子的光学特征。这些特征是证据变量,因此似乎违反了第二个条件。然而,即使这种势能也隐含了目标信息,即左右图像中粒子之间的候选对应关系)。
势能的作用域和位置为CV文献中使用的术语提供了基本标准。例如,作用域由位于同一节点s的证据变量和目标变量组成的势能被称为“节点势能”或“单项式”。相反,作用域由位于相邻节点r和s上的两个目标变量组成的势能被称为“边势能”或“成对项”[16] 第822页;[17] 第1411页。更一般地,在适当条件下,作用域仅包含目标变量的势能被称为“先验项”,而同时涉及目标变量和证据变量的势能被称为“似然项”[18] 第1481-1482页。“高阶势能”,即涉及多个变量(无论是证据变量还是目标变量)的势能,有时也在文献中讨论[19];[20] 第1614-1615页。然而,出于上述原因,通常更倾向于使用“低阶势能”,即少数拓扑相邻变量的函数。实际上,MRF的本质目的是用大量局部相互作用来解释复杂过程,而这些局部相互作用在计算上也更简单。
除了作用域和位置之外,任何势能都有一个期望的条件,这个条件赋予了势能的含义并表征了其在模型中的角色。任何势能作为软约束插入到MRF中,偏好其作用域Z的某些配置(即取值范围内的某些点),并排斥其他配置。更准确地说,势能被构造为使其在任何点上取得的(非负)值随着该点偏离某个明确期望条件的程度越大而增加。这种含义通过用于表示任何值的“成本”或“惩罚”术语,以及用于描述势能在推理过程中作用的“惩罚”或“抑制”动词来体现。此外,所陈述的含义与方程(1)中任何势能的代数角色一致。具体来说,方程表明势能作为加数贡献于能量,而能量则以负号参与生成吉布斯分布。因此,任何可能的解决方案的概率(或可取性)随着它所暗示的能量减小而增加,即对于各个势能而言,其值越小,或者它们与相应期望条件的匹配度越好。
关于MRF模型的文献中提到了各种期望条件,每个条件都有一个直观暗示其含义的名称。有些条件是通用性质的,出现在与不同推理任务相关的模型中,如平滑性、保真度和不连续性保持条件[21] 第1222页;[22] 第180页;[23] 第170页。其他的条件则更具专业性,仅出现在与特定推理任务相关的模型中。连通性、共线性、共面性、可积性、可视性和光真实性等条件都属于这一类别([15] 第149页;[24] 第838页;[25] 第1416页)。关于可能构成所需条件的原因,主要有两种解释,这两种解释都基于以下一般观点:在计算机视觉(CV)中的推理任务可以被视为从二维光学图像重建三维环境场景的任务,其中输入信息(关于图像)是模型的图和证据变量的集合,而输出信息(关于场景)是目标变量的集合。从这个角度来看,我们可以参考现实环境场景中物体和表面通常具有的视觉属性(所谓的“自然场景的统计属性”:[26,27,28]),并将这些普通属性设置为所需条件,以便推断出的场景本身也具备这些属性。这些是仅涉及目标变量的潜在函数的所需条件。同样地,我们可以认为在图像形成的光学过程中([29] 第2章),图像中的属性与产生该图像的真实场景中的属性之间存在确定的关联,并将这些关联设置为所需条件,以便从图像中推断出的假设场景也具备这些关联。这些是涉及证据变量(图像的属性)和目标变量(推断场景的属性)的潜在函数的所需条件。例如,最简单的平滑性条件假设如果 和 是具有相同含义的目标变量(例如,场景中两个表面补丁的纹理),并且位于图中相邻的节点r和s上(因此相应的补丁在场景中也是相邻的),那么对于 和 ,应该偏好彼此相等或非常相似的值。这一要求可以用生态学角度来证明,因为在普通场景中,物体表面的相邻部分通常在纹理上是一致的,这是由于物质的连贯性倾向。因此,平滑性条件可以通过上述两种论点中的第一种得到证明。第二个例子是忠实性条件。它要求在推断场景时,即目标变量Y的配置时,我们应该确保如果将推断出的场景视为真实场景,那么在假设的图像形成过程中它所蕴含的光度属性应该与实际可用的源图像所具有的光度属性一致,即记录在证据变量X中的属性。这种证明基于上述两种论点中的第二种。任何潜在函数作为变量集合上的实值函数,都可以经过简单的操作来突出其含义和作用方式。我举两个例子。第一个例子是提取潜在函数的零域,即完全满足潜在函数所表示的所需条件的配置集合。在考虑潜在函数值的一般含义时,其零域是其作用域中满足该条件的配置集合。例如,在构建一个促进平滑性的成对潜在函数时,其零域可以确定为集合,即两个涉及的目标变量在共享范围上的恒等关系。潜在函数的零域相当于对作用域变量的硬约束,并有助于突出整个潜在函数作为对该变量的软约束的含义。特别是对于任何点,函数在该点上的值可以解释为点z与潜在函数零域的距离。第二个例子是提取部分。具体来说,如果潜在函数的作用域是由一个证据变量和一个目标变量组成的对,那么对于任何,都可以提取出一个部分,这是一个在域上的非负值函数。它与任何相关联的值指定了在给定源图像中的光学证据时,选择 的程度偏离潜在函数的所需条件。这种解释潜在函数的方式是所谓的“条件MRF模型”([20] 第1615-1616页)的特征。注意,每个部分都赋予了一个特定的零域,该零域是范围的子集,并且与整个潜在函数的零域的部分相吻合。这个零域相当于对目标变量的条件硬约束。它是可能的配置集合,这些配置与光学证据结合在一起,完全满足潜在函数的所需条件。
3.2. 潜在函数的框架和参数
任何潜在函数都是一个函数。到目前为止,我们将其讨论为一个集合论构造,即其作用域中的点与非负实数范围内的点之间的配对集合。然而,潜在函数在MRF模型的描述中实际上是由一个操作表达式所特征的,这个表达式可能是一个代数公式、一个算法或一些更复杂的计算结构,如神经网络。潜在函数的操作表达式对于了解如何计算其值很重要,但该表达式还有其他意义。特别是,它可以揭示模型设计者是如何设计潜在函数的,以及它是如何根据其旨在促进的所需条件来证明的。此外,表达式涉及潜在函数的语法,因此构成了本研究的中心主题。本小节及后续部分的讨论都将围绕这一点展开。当潜在函数的操作表达式可用时,其中可以区分两个主要方面。一方面,通过数学符号,表达式指定了计算潜在函数任何值所需执行的操作或转换的层次结构。这种层次结构在这里被称为潜在函数的分析框架。另一方面,在表达式中可能出现一些既不是绝对常数(如三角学的 或自然对数的e)也不是所讨论的潜在函数中涉及的变量值的量。这些量被称为参数。符号 表示潜在函数中所有参数的集合,符号 用于表示作用域变量Z上的潜在函数还涉及一组参数。例如,以下公式是由[17] 第1411页定义的在图像/背景分割模型中的成对潜在函数的操作表达式:这里, 和 是二元目标变量,依赖于索引为i的超像素被分配给前景还是背景; 和 是与这两个超像素相关联的特征向量,充当证据变量; 和 是参数。该潜在函数被称为“衡量相邻区域节点 和 在给定测量值x的情况下应该如何相互作用的度量”。在这个例子中,加法和乘法等算术运算、内积等代数运算、以及由公式固定的特定层次顺序中的指数变换,构成了潜在函数的分析框架。列表 是其参数的集合。涉及一组参数 的潜在函数可以被视为函数家族的成员,其中 是向量 的可能配置集合。该家族中的函数具有相同的分析框架,仅在分配给某些参数的值上有所不同。因此,家族 是一种潜在函数的类型,而其中的每个成员都是该类型的实例。在构建模型时,一旦决定在某个变量Z上应放置某种类型的潜在函数,模型设计者就会从该家族中正式提取一个成员。通常,这种提取相当于对参数 的统计估计。
在表达式中出现的参数是促进该潜在函数所属类型灵活性和通用性的因素。实际上,通过保持表达式中的分析框架不变,并考虑要构建的模型总变量T的不同部分,可以在这部分上定义不同的潜在函数,这些函数在位置上可能有所不同,在参数 的估计上也可能有所不同,但在类型上是等价的。实际上,这通常是在构建MRF模型时所做的,作为局部软约束的网络。构建通常以根据标准统计标准和方法([30] 第17章)估计(或经验学习)MRF模型中涉及的参数而结束。此外,潜在函数表达式中的分析框架和参数集之间存在对比和互补性:表达式中的参数越多越自由,相应类型的潜在函数就越灵活;而分析框架越强定义越明确,类型就越僵化。这个原则可以通过以下论证来说明。假设在规划潜在函数时,定义了三个量U、V和W,它们应该在计算潜在函数时被考虑;也就是说,它们应该是分析框架图中的三个节点(参见图2)。同时假设W在功能上依赖于U和V,因此对于在这个规划阶段尚未指定的函数f,有 。一种可能的方法是按照某种原则来指定函数f,例如,可以假设它为 或 ,或其他形式。这样,潜在函数的分析框架就会得到加强。另一种方法是基于适当的数据集通过统计估计来构建函数f。这意味着对于任何,函数f应该与参数 关联的值被视为一个单独的参数,整个这样的独立参数系统是通过统计估计确定的。当然,这样潜在函数中的参数集将会扩大,从而削弱了分析框架的作用。图2. 一个具有两个证据变量、两个目标变量、三个参数组件和五个内部项的潜在函数的流程图。符号使用与原始论文([22] 第187页)中的相同。这个论证表明了潜在函数表达式中分析框架和参数集之间的平衡性。在一个极端,存在无参数的潜在函数;也就是说,它们的操作表达式是完全由分析框架决定的,意味着在建模方面没有剩余的灵活性。在另一个极端,存在完全参数化的潜在函数;也就是说,任何通过将值集合视为独立参数数组并通过统计估计来确定的潜在函数。这些极端的潜在函数有时在CV文献中也会遇到([8] 第221页;[31] 第6页)。
4. 潜在函数的语法视角
在前一小节中,介绍了潜在函数的参数和分析框架之间的区别。在本节中,重点关注分析框架,这是语法的基本方面。这也对于理解潜在函数的起源和合理性很有帮助,因为模型设计者在构建与所需条件相关的潜在函数时所做的选择都记录在其分析框架中。4.1.分析框架的形式与起源
潜在值的分析框架是一系列操作、转换或决策的层级或流程,这些操作、转换或决策必须被执行才能在任何实际应用中获取该潜在值的成果。无论潜在值是以何种形式设计或呈现的(代数公式、流程图、算法代码、神经网络等),其分析框架本质上都是一种计算程序,包括输入、输出以及一些中间变量。输入包括潜在值的证据变量集、目标变量集以及参数集。输出是一个取值范围为非负实数集的变量。任何中间变量V都依赖于在计算过程中先于它的某些其他变量,即V = f(X1, X2, …, Xm),其中f是框架中明确指定的函数。对于任何中间变量V,通过回溯操作流程,我们可以发现只有包含在X1, X2, …, Xm中的原始变量才会对其产生贡献。因此,V被称为证据变量。根据对称性,目标变量是一个仅依赖于这些原始变量的变量;否则,V就是混合中间变量。
图2展示了一个MRF模型中用于“检测人造结构”任务的“交互势”(interaction potential)的流程图,该任务的定义见于[22]第187页。节点X1, X2, …, Xm是目标变量(其取值范围为[0, 1]),Y1, Y2, …, Ym是从光学数据y中提取的(维度为d的)特征向量,θ是一个参数(取值范围为[0, 1]),K是实数。此外,f是一个变换函数,logit是标准的逻辑累积函数。在上述词汇表中,X1, X2, …, Xm是目标中间变量,Y1, Y2, …, Ym是证据中间变量,θ和K是混合中间变量。图中最底层的节点代表了潜在值的最终结果。
潜在值的分析框架可以由各种类型的运算符组成。这些运算符可以是数学运算(如对数字的算术运算、对向量和矩阵的代数运算或对二进制变量的布尔运算)、转换(如距离函数或概率函数),或者是决策规则(如“如果p,则q”、“除非q,则…”)。运算符的选择及其处理顺序显然取决于潜在值的含义(即它所促进的条件)以及所涉及的变量类型(二进制变量、分类变量、定量变量、向量值变量等)。实际上,计算机视觉(CV)文献中遇到的潜在值涉及各种类型的变量,它们的分析框架复杂度也各不相同。也有些潜在值没有分析框架,特别是第3.2节中定义的完全参数化的潜在值。这类潜在值最自然的形式是作为查找表来表达,对于任何输入x,查找表会直接指定相应的输出y ([31]第6页;[32]第42页)。图3给出了一个这样的例子。图3中的查找表涉及一个三元证据变量X1, X2和两个二元目标变量Y1, Y2,假设它们位于图的同一个节点s上。
潜在值的分析框架可能包含多种类型的运算符。这些运算符可以是操作(例如对数字的算术运算、对向量和矩阵的代数运算或对二进制变量的布尔运算)、转换(如距离函数或概率函数),或者是决策规则(如“如果p,则q”、“除非q”)。运算符的选择及其处理顺序取决于潜在值的含义(即其期望的条件)以及所涉及变量类型。在CV文献中遇到的潜在值涉及多种类型的变量,它们的分析框架复杂度也各不相同。有些潜在值甚至没有分析框架。特别是第3.2节中定义的完全参数化的潜在值就是这种情况。这类潜在值最自然的形式是作为查找表来表达,对于任何输入x,查找表会直接指定相应的输出y ([31]第6页;[32]第42页)。
关于潜在值的语义透明度,还有两个更具体的观察结果。首先是潜在值的各种语义透明度。这指的是从潜在值的分析框架中可以轻易推测出其含义,即该潜在值所促进的条件。以下示例说明了这一概念。假设X1, X2是两个位于相邻节点上的向量值目标变量,我们希望构建一个潜在值来评估它们之间的总体差异。一种选择是使用块城市(block-city)距离作为衡量标准:d = ∑∑|xic - yic|,其中xi和yi是输入变量,ci和yi'是对应的位置坐标。换句话说,对于这两个变量共享空间中的任意一对点(x1, y1)和(x2, y2),我们可以计算它们之间的距离。另一种选择是使用欧几里得(Euclidean)距离:d = √((x1 - x2)2 + (y1 - y2)2)。前者在语义上是透明的,因为直观上可以看出,通过计算差异并求和,可以得到一个衡量两个向量之间总体差异的数值。相比之下,后者在语义上是不透明的,因为变换本身可能有多种含义。为了确认其结果确实能够合理地衡量两个向量之间的不一致性,我们需要知道矩阵W中的数值。
这个例子表明,潜在值的语义透明度与其分析框架和参数集之间的平衡有关,这一平衡在第3.2节中有讨论。具体而言,如果潜在值的分析框架较弱(即包含的运算较少),而参数集较为丰富(即包含的调整或标准化步骤较多),那么该潜在值的语义透明度就越低。此外,潜在值的语义透明度还与其方法论来源有关,即建模者如何在模型中设计这些潜在值。在一种方法中,可以通过考虑一个明确的期望条件来构建潜在值,然后构建一个复合运算,通过该运算的数学形式来评估对条件的偏离。另一种方法是通过归纳方式构建潜在值,建模者采用一个通用且高度可定制的方案(包含许多参数),然后根据实证数据估计这些参数,使得由此确定的函数能够正确评估对期望条件的偏离。在CV文献中,通过前者方法构建的潜在值被称为“手工制作的模型”或“基于原则设计的模型” ([22]第183页;[34]第299页)。相比之下,后者方法用于构建包含多重线性回归或神经网络的潜在值 [17, 35, 36, 37]。
另一个更具体的观察结果是关于潜在值分析框架中运算符的不同作用和重要性。首先,框架中可能有一个运算符因其直接与潜在值所描述的条件相关而处于核心位置,或者它是证据信息和目标信息交汇的步骤。这样的运算符被称为分析框架的核心。在具有核心的框架中,其他运算符可以被视为辅助性的。有些运算符位于核心之前,生成框架中的中间变量;另一些则位于核心之后,用于调整或规范化。这些运算符共同构成了分析框架的“外壳”。例如,在图2所示的框架中,一个合理的核心是加法(+)运算,因为正是通过这个运算,潜在值的目标信息和证据信息被结合在一起。框架中还有五个其他运算符,其中三个位于核心之前,两个位于核心之后。这五个运算符共同构成了框架的外壳。
核心对于潜在值的分析框架至关重要,就像动词短语在日常语言句子中的作用一样。因此,识别框架中的核心(或多个核心)是理解潜在值含义及其辅助运算符作用的重要任务。接下来的两个小节将重点讨论两种显著的核心类型:一种基于距离函数构建的,另一种以概率条件表达的。本小节的其余部分将讨论潜在值外壳中运算符的可能作用。
在计算潜在值时,我们可能需要将表示“奖励”的变量U转换为表示“惩罚”的变量V(或反之亦然)。为此,通常会应用辅助转换(例如[38]第311页;[39]第1368页)。此外,还可以应用辅助转换以支持潜在框架中的后续比较。具体来说,在框架的某个步骤中,可能存在两个在含义和测量尺度上不同的变量U和V;它们的比较对于当前的推理任务至关重要;并且有一个比较标准d,要求要插入的变量在维度上是同质的(参见第2.2节)。为了实现这种比较,可以引入一个预备转换,使得新变量T保留U的相关信息并在维度上与V同质;然后就可以以T的形式进行比较。在下一小节中,将展示当潜在值的核心是距离函数时,通常会使用这样的辅助转换,因为这要求比较的变量位于同一空间中。
在计算潜在值的后续阶段,可能会有各种原因需要应用转换。例如,U可能是潜在值中的一个中间变量,在其基础上可以定义一个概率分布P,其含义为:对于任意输入x,概率P越高,相应的输出y就越符合潜在值的期望条件。在框架中,这个概率分布P将作为变换函数出现,其中V是一个取值范围为[0, 1]的变量。然后应该使用P来构建Gibbs分布。然而,需要注意的是,任何用于方程(1)的潜在值都是为了评估输入与期望条件的偏离程度,而不是输入符合条件的程度。因此,方程不应涉及变量V本身,而应涉及V的某种单调递减且非负值的变换函数。一个自然的选择是变换f(x) = 1 - e^(-P(x)),它满足这两个要求。这意味着框架的最终阶段将是以下的一系列转换:
本小节和下一小节的重点讨论潜在值的核心概念,以及两种典型的核心类型:一种基于距离函数的,另一种基于概率条件的。对于这两种类型,核心都涉及需要比较的两个变量。假设Z是待构建的潜在值的范围,U和V是在Z的配置确定后得到的变量值,我们需要评估U和V之间的差异,以判断Z的任何配置偏离期望条件的程度。U和V可以是Z的组成部分,或者是可以从Z中派生的量,即潜在值框架中的中间变量。为了实现这一目标,可以采用距离函数d作为评估U和V之间差异的标准。如果U和V在维度上是同质的(参见第2.2节),那么d可以是在它们共同空间上的距离函数,此时d就是我们正在构建的潜在值的核心。如果U和V在维度上不同质,那么有三种可能的选择:可以在它们的共同空间上采用距离函数d,并指定合适的变换,然后将该变换作为潜在值的核心;或者可以在另一个空间上定义距离函数d和变换函数θ,此时θ可以作为潜在值的核心。最后,可以采用两种转换方法将数据映射到第三个空间,并定义一个距离函数d,然后将运算符作为这些转换的核心。为了简化问题,假设需要比较的两个项属于同一个范围Z。如果它们是目标变量,并且分别位于不同的节点上,但在含义上是相同的,那么d可以是一个定义在它们共同值域上的距离函数,而这个目标变量项就可以构成潜在函数的核心。这就是构建成对平滑性潜能的方式。另一种情况是,如果这两个项一个是证据变量,另一个是目标变量,它们位于同一个节点上,但具有不同的值域和含义,那么核心可以是证据变量项,此时d是定义在证据变量项上的距离函数;或者也可以是目标变量项,此时d是定义在目标变量项上的距离函数。这就是构建一元保真度潜能的典型方法。值得注意的是,这种比较直接说明了为什么一元潜能通常比成对潜能更复杂:正是为了建立维度一致性而进行的转换g或h导致了这种差异。
表1通过展示来自计算机视觉(CV)文献中的五种潜能的公式和其他元素,进一步说明了这一点。第一种是针对图中相邻节点上的目标变量对构建的成对平滑性潜能,这些变量是定量值(差异值),距离函数是它们之间的平方差。这里涉及的唯一证据信息是这些变量所在位置(像素)的拓扑邻接关系。第二个例子是一种针对二元目标变量对构建的对比敏感平滑性潜能,其中应用的距离函数是一个布尔度量,根据变量值是否相等来返回1或0。除了目标变量之外,这种潜能还包括一个证据项,即光学向量之间的欧几里得平方距离,这样当位置i和j之间的光学差异增大时,对选择证据的惩罚就会降低。这种潜能是一个“对比敏感的伊辛模型”的例子。其余三种情况都是一元保真度潜能,其核心是衡量与同一位置相关联的目标项和证据项之间的不一致性。具体来说,在第三种情况下,尽管这两个项在证据变量或目标变量的角色上有所不同,但它们在维度上是一致的,因此不需要进行任何预处理转换。而在另外两种情况下,需要对证据变量或目标变量进行归一化转换:第四种情况是对证据变量I进行转换,第五种情况是对目标变量进行转换。在这三种情况下,使用的距离函数都是实数之间的平方差。
正如这些例子所示,用于评估两个项U和V之间差异的函数d取决于这两个项所代表的测量类型。具体来说,如果U和V是实数值的定量变量,那么d可以是某种距离函数。如果U和V是向量值变量,那么d可以是块城市距离、欧几里得距离或欧几里得平方距离。如果U和V的配置是布尔向量,那么d可以是汉明距离。如果U和V是具有相同值域的分类变量,那么d可以根据某个条件设置为1或0,这在这种情况下被称为布尔距离。或者,可以在某个范围内定义一个二元关系R,d可以表示图内从节点u到节点v的最短路径长度。需要注意的是,其中一些函数并不严格满足数学意义上的度量性质(例如,某些函数不满足三角不等式),但它们确实作为几种CV潜能的核心被使用。
一个关键问题在于,当需要比较的项U和V在维度上不一致时,进行转换的合理性如何解释。例如,假设U是证据变量,V是目标变量(如第4.1节所定义的)。为了进行比较,我们可以在某个空间上选择一个距离函数d,并应用某种转换,使得转换后的结果构成潜在函数的核心。这样得到的结果可以解释为在某个空间中对目标变量的估计。这只是一个基于部分证据信息的临时估计。更精确的估计将基于整个MRF模型的推理过程得出,该过程会考虑所有的证据信息及其对应的潜能。另一种方法是在某个空间上选择一个距离函数d,并应用另一种转换,使得转换后的结果构成潜在函数的核心。这种情况下,转换函数将把目标变量的配置转换为证据变量的配置,这种转换可以通过关于图像形成过程的论证来合理化。换句话说,如果u和v分别是证据变量U和目标变量V的配置,并且我们考虑了一个具有某种属性的假设场景,那么我们可以使用光学原理来确定该场景应产生的图像应具备的属性,然后将其与实际源图像所具备的属性进行比较。这种方法实际上在CV中的MRF模型潜能构建中被采用。这与第3.1节中关于如何证明“保真度”条件的评论相关。
表1列出了五种以距离函数为核心的潜能的特性(符号来自原始论文)。
表1. 五种以距离函数为核心的潜能的特性(符号来自原始论文):
[42] [第2165页的公式(2.2)]
推理任务:立体匹配
期望条件:平滑性
证据变量:左图像中像素i和j的差异值
参数:阈值和比例参数
公式:[第1366页的公式(39)和第1368页的公式(42)]
推理任务:二值图像分割
期望条件:对比度依赖的平滑性
证据变量:图像中像素i和j的3D颜色向量
目标变量:像素i和j被分配为前景(1)或背景(0)
参数:比例参数
公式:[第1232页第14行的公式(21)]
推理任务:图像修复
期望条件:保真度
证据变量:像素p处的观测强度
目标变量:像素p处的修复强度
参数:截断阈值
公式:[第549页的公式(10)]
推理任务:深度图估计
期望条件:保真度
证据变量:源图像
目标变量:像素i处的估计深度
参数:学习神经网络的参数系统
公式:结合神经网络的映射函数
[8] [第219页第42行和第221页第23行的公式]
推理任务:透明度检测
期望条件:保真度
证据变量:位置i处的观测亮度
目标变量:位置i处的推断反射率和透射率
参数:权重系数
4.3. 以概率条件形式为核心的潜能
在概率论中,条件概率是指两个随机变量U和V的函数,对于每个输入值x,该函数在U上的值域Y上定义了一个概率分布。因此,条件概率可以被视为一系列由条件变量U的值索引的条件变量V的概率函数。条件概率也可以被解释为两个变量之间的软关系:对于所有x和y,概率值越高,V的值v与U的值u之间的一致性就越强。对于相同的变量,也可以考虑另一种条件概率形式,其中U和V的角色互换。根据贝叶斯定理,这两种条件概率可以通过公式联系起来,其中P(Y|X)表示在给定X的条件下Y的概率分布,符号∞表示除以乘法常数后的相等关系。假设U和V是待构建潜能输入中的项,需要一个特定的期望条件,并且U和V的含义确保对于任何输入值x和相应的输出值y,当U和V之间的一致性增强时,配置z能更好地满足该条件。例如,当U和V是位于相邻节点上的目标变量且期望条件是平滑性时就是这种情况。同样,当U和V是与同一节点相关联的证据变量和目标变量且希望潜能促进保真度条件时也是如此。其他更复杂的情况也可以用这种方式表达。在这种情况下,可以构建一个涉及这两个变量的概率条件概率。如上所述,这样的条件概率表达的是U和V的值之间变化的一致性,因此它可以作为潜能的核心。然而,根据第(2)节中的理由,条件概率本身不能单独构成一个潜能。潜能可以是另一个转换函数,从而在分析框架中包含这个转换步骤。
表2列出了五种以概率条件为核心的潜能示例。为了展示这一范式的灵活性,这些示例的选择如下:在第一种示例中,条件作用和被条件作用都由目标变量扮演;在第二和第三种示例中,证据变量起条件作用,目标变量被条件化;在最后两种示例中,这两个角色互换了。以概率条件形式为核心的潜能特别适合用于条件MRF模型(如第3.1节所述)。此外,条件概率形式的另一个优点是其通用性,因为它不受待比较项之间维度一致性要求的限制。例如,U可以是一个布尔变量,而V可以是空间中的向量值变量。在这种情况下,条件概率可以是一组n维分布,构成潜能的核心。
表2. 五种以概率条件为核心的潜能的特性(符号来自原始论文)。五种潜在函数的特征,其核心均为概率条件语句(符号来自原始论文):
[18] [第1482页L栏第13-23行]:推理任务:结合立体匹配和图像分割;期望条件:通过视差脉冲实现内部一致性;证据变量:像素k处的视差可能性;目标变量:像素k是前景(F)、背景(B)还是被遮挡(O);参数:视差连续体上的区间端点;函数:在视差连续体上具有均匀分布的函数。
[35] [第697页R栏第2-7行]:推理任务:按对象类别对图像进行标注;期望条件:准确性;证据变量:像素i处的特征向量;目标变量:像素i的类别标签;参数:多层感知器的参数系统;函数:在变量范围内的条件分布族。
[24] [第827页L栏第12-36行]:推理任务:指定图像中边缘的作用;期望条件:准确性;证据变量:相邻超像素对的特征向量;目标变量:确定超像素i和j之间的边缘是(值1)还是不是(值0);参数:遮挡边界/折痕的参数向量;函数:点上的标准累积逻辑函数值。
[4] [第109页R栏第32-38行]:推理任务:交互式二值图像分割;期望条件:准确性;证据变量:像素p的图像强度;目标变量:像素p分配给对象(标签O)或背景(标签B);参数:从交互数据获得的全参数化潜在函数。
[44] [第358页第17-20行]:推理任务:交互式二值图像分割;期望条件:图像中像素p的3D颜色向量;目标变量:像素p分配给前景(值1)或背景(值0);参数:高斯分布的混合权重和参数;函数:在变量3D空间上定义为高斯分布的混合。
在特殊应用中,变量U和V可能是维度均匀的,它们的共同范围是一个度量空间。对于每个条件语句,其成员可能是上的单峰函数,u是其众数。例如,可以是实数轴,每个可能是均值为u的高斯密度。在这种情况下,可以将条件语句解释为空间上的距离函数:条件概率越小,点v距离点u的距离越大。因此,在这种情况下,基于概率条件语句构建的潜在函数也可以解释为以距离函数为核心的潜在函数;两种方法之间的区别消失。
关键的方法学问题是,如何构建涉及两个确定项U和V的概率条件语句。这里我们假设U是证据项,V是目标项,并讨论了以目标项作为条件项、以证据项作为条件结果的条件语句的构建(参见表2中的最后两种情况)。有时使用的方法具有归纳性质,基于实证数据。具体来说,对于任何条件语句,收集一组案例(图像),其中V取特定值(所谓的“真实数据”),并测量U的值,该值可能因案例而异。在此基础上,条件语句的组成部分将被确定为U测量值的相对频率分布(直方图)。
另一种方法是演绎性的,涉及关于图像形成过程的论证。具体来说,对于目标术语的任何配置(描述了可能的场景),确定一个函数作为证据术语U的分布(与场景产生的图像相关),该分布是在假设下并且根据投影光学原理得出的,同时考虑光学过程中的不确定性或扰动。因此,演绎方法遵循了前一小节中讨论的思路,即为了维度均匀性选择变换。主要区别在于,上述情况下的任务是构建变换,以便对于任何点,我们应该在变换中关联一个点;而现在任务是构建概率条件语句,以便对于任何点,我们应该在条件语句中关联一个概率函数。
值得注意的是,现在描述的方法在早期关于视觉推断任务的研究中已经隐含其中(例如,[2])。对于这样的推断任务,可能需要一个“后验分布”,其中证据术语U作为条件项,目标术语V作为条件结果。为了获得它,可以首先构建一个条件语句,其中U和V的角色互换,然后应用贝叶斯规则得到的分布。相应地,对应于右侧两个因子的潜在函数可以称为结果MRF模型中的“似然项”和“先验项”。这种概念框架及相关术语经常出现在计算机视觉文献中(例如,[22]第183页;[25]第1417页;[46]第165页)。
【5. 结论性评论】
本文的讨论从指出CV中的潜在函数类似于语言的从句开始,可以从语义、句法和构造方面进行研究。从历史角度来看,从20世纪80年代中期出现的早期表达式(例如,[2,47,48])开始,这种语言已经显示出进化能力,模型的复杂性和能力显著提高,这与更复杂的推断任务和更精细的期望条件相关。特别是在这一方面,这一科学传统与蓬勃发展的机器学习研究领域的结合产生了新的成果。这种结合不仅在构建潜在函数的方法上带来了创新——这些函数是从训练数据集学习的,而不是根据一般原则预先设计的——也在用于选择和表达cv中推断的光学信息(特征集)的方法上带来了创新([5,6])。我的研究旨在突出潜在函数语言的一些基本特征,这些特征既可以在演绎方式构建的潜在函数中看到(即,按照原则设计的),也可以在归纳方式确定的潜在函数中看到(即,从训练数据中学习的)。对这些特征的关键了解可能有助于解释和比较现有的MRF模型,并作为规划此类新模型的背景。
在理论研究的最后,人们可能会问其中阐述的概念有哪些实际用途。关于这个问题,我提出三个答案。首先,我们对潜在函数组成部分的系统区分——如其期望条件、分析框架的核心以及构成其外壳的辅助操作符——可以作为丰富潜在函数分类的基础,超越了传统的单变量、成对、平滑度、准确性等分类。实际上,识别复杂实体的组成部分,如语言的句子或生物学中的生物体,是开发这些实体全面分类的必要前提。其次,我们对潜在函数分析框架的讨论阐明了概率构造在参与构建总体Gibbs分布之前可能涉及的原因和方式。特别是,我指的是第4.3节中讨论的潜在函数核心作为概率条件语句的出现。第三,我们在第3.2节和第4.1节中关于潜在函数分析框架与参数集的互补性和平衡的讨论,以及相关的语义透明度概念,为评估潜在函数的形式优点提供了额外的标准。特别是,它可以在对比传统原则方式设计的潜在函数和通过机器学习程序构建的潜在函数时作为额外的标准。
在理论研究的最后,人们可能会问其中提出的概念有什么实际用途。针对这个问题,我提出三个答案。首先,我们对潜在函数组成部分的系统区分——如其期望条件、分析框架的核心以及构成其外壳的辅助操作符——可以作为丰富潜在函数分类的基础,超越了传统的单变量、成对、平滑度、准确性等分类。确实,识别复杂实体的组成部分,如语言的句子或生物学中的生物体,是开发这些实体全面分类的必要前提。其次,我们对潜在函数分析框架的讨论阐明了概率构造在参与构建整体Gibbs分布之前可能涉及的原因和方式。特别是,我指的是第4.3节中讨论的潜在函数核心作为概率条件语句的出现。第三,我们在第3.2节和第4.1节中关于潜在函数分析框架与参数集的互补性和平衡的讨论,以及相关的各类语义透明度的概念,为评估潜在函数的形式优点提供了额外的标准。特别是,它可以在对比传统原则方式设计的潜在函数和通过机器学习程序构建的潜在函数时作为额外的标准。
在研究结束时,还可以考虑一个需求,即它是否揭示了重要的未解决的问题,即与所进行研究相关的问题,这些问题可以根据其中定义的线索得到有益的解决。同样与此需求相关,我也提出了三个选定的答案。首先,从当前研究的角度来看,一个实质性的问题是关于可以用来证明潜在函数期望条件的论点。我们在第3.1节提到了这个问题,我们指出使用涉及自然场景的统计特性和图像形成过程的论点来证明平滑度和准确性等基本期望条件。同样的问题也可能涉及其他期望条件,并涉及其他类型的论点。另一个重要问题是关于在潜在函数分析框架中区分核心和外壳的发展,这突出了潜在函数的代数形式及其所促进的期望条件之间的关系。除了第4.2节和第4.3节中关注的距离函数和概率条件类型外,还可以发现其他类型的潜在核心;并且可以探索构成外壳的操作符的预备或补充作用。最后,可以研究根据其分析框架的代数复杂性对潜在函数进行排序的方法(如图2所示)。这样的研究可能会导致一种描述性复杂性的排序标准,这与计算复杂性的标准同时存在但又有所不同,后者是针对单个潜在函数或整个MRF模型的。