综述：神经符号自然语言处理：分类体系、评估与发展方向

《Frontiers in Artificial Intelligence》：Neuro-symbolic NLP: taxonomy, assessment, and directions

【字体：大中小】 时间：2026年05月22日 来源：Frontiers in Artificial Intelligence 4.7

编辑推荐：

　　神经符号（Neuro-symbolic，NeSy）方法有望克服纯神经与纯符号自然语言处理的局限性。研究人员在本文中调研了神经符号自然语言处理的最新进展，并提出了一套融合Kautz集成类型与Lappin单射-联邦区分的系统分类框架。研究人员将该分类体系应用于现有

神经符号（Neuro-symbolic，NeSy）方法有望克服纯神经与纯符号自然语言处理的局限性。研究人员在本文中调研了神经符号自然语言处理的最新进展，并提出了一套融合Kautz集成类型与Lappin单射-联邦区分的系统分类框架。研究人员将该分类体系应用于现有工作后发现：尽管联邦架构在性能上持续优于单射架构，但其研究仍显不足。研究人员在组合泛化、推理与鲁棒性等基准上对性能进行了评估，检视了现有语言学理论集成的尝试，并展示了该分类体系如何指导未来能够保留形式语言学框架优势的新型架构设计。研究人员最后提出了扩展联邦系统与探索更紧密集成的发展方向。

引言

纯神经语言模型在过去十年取得了显著进展，但仍依赖表层模式，在组合泛化与系统性推理方面存在局限；纯符号方法虽具备可解释性与强泛化能力，却缺乏可扩展性。神经符号自然语言处理旨在结合二者优势。现有分类体系各有侧重：功能导向的分类关注知识表示、学习与推理、可解释性等研究问题；架构导向的分类则以Kautz提出的六类集成深度与Lappin提出的单射-联邦区分最具代表性。研究人员提出融合二者的Chatzikyriakidis-Lappin（CL）分类体系，并以此为基础系统梳理神经符号自然语言处理的研究现状。

Kautz分类体系

Kautz将神经符号系统按神经与符号组件的集成深度分为六类：类型1为标准神经网络，符号输入转为向量表示处理后映射回符号输出；类型2将神经组件嵌入符号求解器，如AlphaGo中蒙特卡洛树搜索调用神经网络评估棋局位置；类型3由神经网络将感知数据解析为符号供符号推理器处理，如神经符号概念学习器与NS-VQA；类型4利用符号推理生成或标注训练数据，如物理信息神经网络；类型5实现双向交互，将符号操作表示为张量运算并通过梯度下降优化，如逻辑张量网络（Logic Tensor Networks，LTN）与神经定理证明器（Neural Theorem Provers，NTP）；类型6代表神经与符号处理的真正统一，目前仍属愿景阶段。

Lappin的单射与联邦区分

Lappin从架构层面将系统分为两类：单射架构将符号表示直接嵌入深度神经网络的处理流程，可通过修改架构引入符号偏置、利用符号系统生成偏置训练分布、或在训练中注入符号标记实现，如融入句法结构的LSTM、Transformer及结合手工知识特征的CNN；联邦架构则保持神经与符号模块的独立性，神经组件为特征提取接口打标签后传递给逻辑组件，二者计算完整性互不干扰。性能上存在不对称：单射模型相比无增强基线仅带来1%–2%的准确率提升，且随训练数据增加而衰减，透明度也因非线性激活函数受限；联邦模型则在困难任务上带来显著提升，所需训练数据更少，分布偏移下鲁棒性更强，并能生成可检查的基于规则的假设。这种不对称可能源于深度神经网络与符号系统在规律表示上的本质差异。

比较分析与CL分类体系

Kautz分类侧重组件间的交互机制，Lappin分类侧重符号内容的架构位置，二者形成互补。研究人员提出的CL分类体系为二维框架：第一维为架构位置（单射I/联邦F），第二维为交互模式（教学T、约束C、生成G、推理R、循环L）。该体系打破了Kautz类型的顺序，以架构位置为优先维度，更能反映系统性能差异。单射混合（I-）将符号嵌入神经架构内部，包括I-T（符号知识蒸馏至神经权重后丢弃）、I-C（符号规则编译进网络架构）、I-G（符号系统生成数据用于神经自训练）、I-R（内部神经表示转换为符号用于推理）、I-L（模型内符号-神经双向交互）；联邦混合（F-）将外部符号模块与神经组件对接，包括F-T（外部符号预处理创建神经训练数据）、F-C（外部符号约束引导神经处理）、F-G（外部符号系统生成训练数据）、F-R（神经前端对接外部符号推理器）、F-L（独立神经与符号模块间动态交互）。

神经符号自然语言处理系统的研究全景

单射系统：符号嵌入神经架构

单射-约束（I-C）：编译的符号结构

此类系统通过结构修改或可微分逻辑算子将符号约束直接嵌入神经网络。逻辑张量网络将一阶逻辑编码为可微分模糊逻辑，谓词表示为神经网络，常量表示为可学习嵌入，逻辑连接词表示为可微分模糊算子，使用实逻辑（Real Logic）完成多标签分类与关系学习任务。逻辑神经网络将神经元直接映射为加权实值逻辑，理论上支持双向推理，但在问答任务中，其推理器的独立贡献有限。DeepProbLog将神经谓词集成到概率逻辑编程框架中，将逻辑程序编译为算术电路以实现高效梯度计算，在小样本场景下表现出数量级的样本效率优势。Scallop基于Datalog构建可微分推理的神经符号编程语言，Tree-LSTMs通过融入句法分析树提升句法敏感任务的性能，语法感知Transformer也仅带来0.3%–2.2%的性能提升。总体而言，I-C系统在组合泛化任务中优势显著，但在通用自然语言理解任务中提升有限。

单射-教学（I-T）：蒸馏后丢弃的符号知识

此类系统在预训练阶段将符号知识注入神经权重，随后不再保留符号组件。句法感知的BERT与RoBERTa变体在GLUE基准上仅带来1%–2%的准确率提升，且随训练数据增加增益消失，说明符号结构仅在训练早期提供归纳偏置，最终会被分布式的统计模式替代。与I-C、I-R不同，I-T系统在部署阶段完全放弃符号组件。

单射-推理（I-R）：内部神经符号转换

此类系统中神经网络生成中间符号表示，通过推理机制进行端到端处理。PRover由Transformer同时预测答案与证明图，神经组件生成表示事实、规则与逻辑依赖的节点与边。ProofWriter使用T5迭代生成单步蕴含，在统一架构中收集符号证明链；RNNLogic将逻辑规则作为隐变量，由RNN生成候选规则并由推理模块评估。这类系统虽保留了可微分性，但缺乏真正的符号可解释性，其表示是潜在学习的，优先拟合训练标签的相关性而非严格遵循逻辑真值，处于高计算成本与低透明度的尴尬位置，常被F-R系统超越。

单射-循环（I-L）：内部双向交互

此类系统试图在统一可训练的架构中实现神经与符号组件的双向信息流。NeurASP将神经网络嵌入答案集编程，神经感知为符号规则提供信息，符号约束引导神经学习，形成统一优化循环。可微分神经计算机同时维护分布式与类符号的记忆表示，支持双向读写操作。但维持紧密双向耦合的计算挑战随数据与任务规模增长而急剧增加，因此大规神经符号自然语言处理实现极为罕见，难以扩展到基础模型级别。

联邦系统

联邦-推理（F-R）

此类系统将神经组件与外部符号推理器配对，二者界限清晰且各自保持计算独立性。NLProlog使用Sent2Vec嵌入知识库句子，由Prolog定理证明器通过弱合一搜索逻辑推导，在MedHop多跳推理数据集上取得29.3%的隐藏测试准确率，并生成完全可解释的推理轨迹。DSR-LM使用语言模型进行感知，结合加权基于规则的推理，在需要演绎推理的任务上比纯神经基线高出20%以上。Logic-LM将自然语言映射为一阶逻辑或SAT约束供求解器优化，性能提升39.2%；LINC将StarCoder-15B模型与一阶逻辑证明器集成，在ProofWriter上超过GPT-4达10%。这类系统的架构边界成为优势，每个组件可独立优化、验证与理解。

联邦-循环（F-L）：动态迭代精修

此类系统在推理过程中实现独立神经与符号模块的动态交互，形成神经输出指导符号推理、符号结果引导神经生成的闭环。符号工作记忆用于多步演绎推理，包含存储事实与规则的外部记忆模块，以自然语言和符号双格式保存，推理过程中神经组件解析问题并查询记忆，检索的事实转为符号形式后由符号推理器执行规则接地，结果反馈给神经组件以触发新一轮查询或生成中间结论，直至产出答案。程序辅助语言模型（Program-Aided Language models，PAL）将推理卸载到代码执行，在GSM8K上比PaLM-540B提升15%；满足性辅助语言模型（Satisfiability-Aided Language Models，SatLM）将约束满足问题转化为声明式约束供SAT/SMT求解器处理，在GSM算术推理子集上比程序辅助语言模型提升23%。现代希腊语诗歌韵律生成系统采用生成-验证-精修循环，将纯语言模型的韵律有效性从4%提升至73.1%，验证了迭代符号反馈的有效性。

联邦-生成（F-G）：外部符号系统生成训练数据

此类系统以符号模块作为神经组件的训练数据生成器，确保生成数据满足形式要求。神经符号数据生成（Neuro-Symbolic Data Generation，NSDG）系统将数学问题转换为SMT-LIB格式并系统性变异，在保持逻辑正确性的同时创造多样化的训练实例，适用于训练数据稀缺但形式规范可用的领域。与I-T不同，F-G在整个过程中保留生成器活性，支持按需合成新训练样本，相比依赖神经技术的现有数据扩充方法，优先保障正确性而非覆盖率。

联邦-约束（F-C）：外部引导

此类系统作为后验过滤器，使用符号约束控制推理过程而不影响训练。典型实现如神经逻辑解码（NeuroLogic Decoding），在完全不涉及训练阶段的情况下，使用谓词逻辑规范剪枝语言模型的输出空间。这种完全分离使得交互仅限于输出级过滤，优势是实现简单，可在不更新权重的情况下为冻结的预训练模型提供形式输出保证，但缺乏F-L的迭代精修能力，无反馈环指导神经生成，在约束满足率较低时需生成大量候选才能找到可接受结果，研究探索较少。

大语言模型时代的最新发展：混合模式

大语言模型的出现模糊了单射与联邦的界限。Logic-LM、LINC、PAL等系统由大语言模型起草形式规范，再由外部求解器执行，严格来说属于联邦架构，但推理过程中的耦合极为紧密，生成-执行-反馈的循环更接近F-L。DeepSeek-R1仅通过组相对策略优化（Group Relative Policy Optimization，GRPO）的纯强化学习训练，未使用人工标注的推理示例，便发展出自我验证、反思与长思维链推理能力，在美国数学邀请赛2024（American Invitational Mathematics Examination 2024，AIME）上取得79.8%的准确率，略高于OpenAI o1-1217；OpenAI的o1与o3模型也表现出类似的结构化多步推理，均来自测试时计算缩放而非显式符号模块。这些系统缺乏显式符号组件，属于通过神经优化模拟符号行为的边界案例，当前分类体系尚未充分覆盖。大型概念模型（Large Concept Models，LCM）在句子级多模态与语言无关表示（Sentence-Level multimOdal and Language-Agnostic Representations，SONAR）嵌入上运作，处理概念层面的信息，虽无形式符号集成，但展现了分层抽象的设计空间。工具增强的大语言模型如Toolformer、ReAct、Reflexion虽调用外部模块，但若外部组件非形式推理器，则不纳入CL分类体系。

组合泛化

组合泛化指利用基本词汇的组合产生新颖表达的能力。SCAN基准测试显示，Transformer在该任务上准确率仅为20%左右，部分配置接近0%；而组合程序生成器仅需14个训练样本即在所有SCAN测试划分上达到100%准确率，相比神经基线所需的近17000个样本，实现了三个数量级的样本效率提升。组合泛化挑战（Compositional Generalization Challenge，COGS）呈现相同模式：序列到序列模型在分布内准确率达96%–99%，但泛化准确率仅为16%–35%；AM解析器作为I-C架构的神经符号组合语义解析器，泛化准确率达98%以上。组合Freebase问题（Compositional Freebase Questions，CFQ）的结果更为复杂：标准Transformer在最大复合发散划分上平均准确率为18%，T5-11B达40.9%，层级偏序集解码（Hierarchical Poset Decoding）达67%，准确率与训练测试分布的复合模式重叠度呈强负相关。总体而言，具备显式组合结构的I-C架构在命令、语义解析、查询生成等领域优势显著，但当任务缺乏显式组合结构时，优势会消失。

推理与验证

逻辑推理基准揭示出混合结果。PRover在基于规则的推理上准确率达87%，但在五步推理链上降至65%，显示错误累积对深层推理的破坏。LogiQA 2.0包含35000个前提-假设对，测试范畴与条件逻辑，最优模型准确率在48%–59%之间，远低于人类水平。FraCaS数据集包含346个逻辑自然语言推理案例，类型论系统准确率达81%，GPT-4为75%，BERT类模型在单调性推理上低于55%，但数据集规模极小限制了评估效力。对抗压力下脆弱性更为明显：RoBERTa在对抗自然语言推理（Adversarial NLI，ANLI）数据集上的准确率从第1轮的73.8%降至第3轮的44.4%；对比测试集显示，在标准基准上保持85%–95%准确率的系统，经微小扰动后性能下降5%–25%。当前无论单射还是联邦架构，均未在对抗或对比挑战中表现出明显优势，训练目标比架构选择更为关键，说明单射-联邦划分对分布偏移下的鲁棒性问题解释力有限。

分类体系揭示的模式

I-C系统在研究体量上占主导，但在多数任务上仅带来1%–2%的小幅性能提升，仅在组合泛化基准上例外，凭借显式结构获得决定性优势。F-R系统在感知与逻辑推理可分离的任务上表现优异，DSR-LM在演绎推理上提升20%以上，Logic-LM提升39.2%，LINC在定理证明上超过GPT-4达10%。F-L系统结合大语言模型与外部验证器，是极具潜力的方向，但尚未有基础模型级别的产物。I-T系统的优势随训练推进而消失，无持续收益；I-R系统计算成本高，且被F-R系统超越；F-G系统作为符号数据生成器前景广阔，但相比神经增强策略仍未被充分利用。分类体系同时揭示了研究失衡：性能更强的联邦系统研究占比更低，领域资源过度投入于增益有限的单射方法。需注意，这种性能差异部分源于评估领域的不同：单射系统多在通用自然语言理解基准上测试，小幅提升属常态；联邦系统多在感知与推理可清晰分离的任务上评估，符号组件优势得以凸显。更公平的比较需控制任务特征，当前观察仅指向模式而非定论。

神经符号自然语言处理与语言学理论

当前神经符号系统对语言学理论的整合极为有限。优化压力常促使神经网络绕过句法掩码、依存属性等结构特征，转而依赖统计捷径与伪相关，导致组合机制缺乏原则性。探针研究虽能识别量词辖域、单调性等行为，但多为事后分析，既不约束模型设计，也无助于理论语言学发展，形成神经进展与理论理解的脱节。现有系统多为针对视觉推理、知识图谱补全的定制设计，未能像BERT、GPT那样承担基础预训练核心的角色，适配多样任务。语言学理论也从未在大尺度条件下相互竞争，理论家仅在精心构造的句子上验证规则，缺乏根据大规模证据重构的机制，神经系也统未系统整合理论洞见。

现有语言学理论集成尝试

相关工作十分稀疏。最具实质进展的是Kogkalidis等人的神经证明网，实现了类型逻辑语法的可微分证明网，使用Sinkhorn网络从原始文本端到端解析为λ演算项，保留线性逻辑的证明论结构，属于F-R架构。其他工作集成深度较浅：神经组合范畴语法解析结合Transformer超标注器与符号CCG组合子，保持了CCG透明的句法-语义接口；HPSG神经解析器将中心语驱动短语结构融入联合成分-依存解析，属于I-C架构，语言学形式仅指导架构设计而不参与推理；贝叶斯语用推理与神经模型结合的理性言语行为（Rational Speech Acts，RSA）层属于I-L架构；神经语义解析生成蒙塔古式逻辑形式，但仅将逻辑形式作为输出目标，未将组合语义整合进推理过程。自然逻辑提供了另一条路径，如NeuralLog使用神经依存解析器生成依存树，经确定性Udep2Mono例程标注单调性极性后由符号模块执行推理；ProoFVer扩展该方法至事实验证，由序列到序列模型生成自然逻辑证明序列，由确定性有限自动机评估证明正确性。

CL分类体系作为语言学知情架构的指导

主流语言学框架的神经集成几乎不存在。研究人员认为CL分类体系可为未来工作提供指引，将理论框架匹配到合适的神经符号架构。例如，类型论语义基于类型检查与证明构造，适合F-R架构：神经组件解析并提取语义角色，类型检查器验证良构性；F-L变体可让类型检查失败触发神经重分析。动态句法（Dynamic Syntax）等增量框架适合F-L架构：神经部分处理下一个词，符号部分执行树生长步骤，树约束反过来塑造神经对后续词的预测。构式语法（Construction Grammar）等非组合框架强调形义配对，更适合F-G架构：用符号构式生成具备保证语法属性的训练数据。研究者应首先识别框架的核心贡献（验证、增量性、能产性），再选择能保留该贡献的CL类别，以此将语言学理论嵌入神经符号系统的符号模块。

迈向基础神经符号自然语言处理

分类分析显示联邦架构性能持续优于单射架构，但领域资源仍更多投向单射设计，后者仅带来1%–2%的提升且随训练数据增加而衰减，且各类方法对语言学理论的集成几乎缺失。研究人员提出两项研究优先级：第一，将联邦架构扩展到基础模型级别。当前成功的联邦系统均为小规模实现，尚不清楚在十亿参数模型中保持组件分离是否仍有意义，模块化透明度、已验证推理等优势能否延续，接口开销是否会膨胀，符号推理器是否能适应神经表示，均需通过实验探索。第二，即便扩展后的联邦方法有效，定义联邦的架构边界本身也可能限制神经符号集成的潜力。现有分类体系均在神经与符号侧之间划出清晰界限，但部分系统已开始突破该界限，如内置类型的注意力机制、通过梯度下降传递的证明义务、从初始阶段就混合分布与逻辑属性的统一基质。这类紧密耦合设计在实践中是否超越联邦架构尚无证据。纯神经系统在幻觉、组合性随复杂度上升而丧失等方面的失败，仅靠小修小补无法解决，更深度的集成能否应对这些失败，或引入新问题，必须通过系统实验检验。领域需要构建基础规模的联邦系统，实证检验其优势能否存续，并坦诚评估架构边界在何处有益、在何处构成干扰。

结论

研究人员提出了Chatzikyriakidis-Lappin（CL）分类体系，融合Lappin的架构维度与五种信息流交互模式（教学、约束、生成、推理、循环），对神经符号系统进行了系统分类。该框架印证了Lappin分类中已显现的模式：联邦系统性能持续优于单射方法，但单射系统占据了已发表研究的主体。CL分类体系同时揭示了未被充分探索的组合，如F-C类别几乎空白，I-L缺乏大规模实现。分类体系存在局限：神经-符号边界完全消融的深度集成系统难以归类，这类系统虽有提案，但是否优于联邦架构仍是开放问题。两项研究优先级由此浮现：第一，系统地将联邦架构扩展到基础模型级别，检验小规模观测到的优势能否存续；第二，当前分类体系所定义的架构边界本身可能制约神经符号集成的潜力，需通过系统研究判断更紧密的集成是有助还是有弊。未来工作需确定哪些方法在大规模下可行，领域需要实际实现、实证检验，以及对架构选择在何处重要、何处无关进行诚实评估。

引言