离散Hopfield神经网络与帝国竞争算法混合用于逻辑挖掘:面向生育分类的神经-符号框架

《Franklin Open》:Hybridizing the Discrete Hopfield Neural Network with the Imperialist Competitive Algorithm for Logic Mining: A Neuro-Symbolic Framework for Fertility Classification

【字体: 时间:2026年05月27日 来源:Franklin Open CS1.4

编辑推荐:

  布尔可满足性问题(Boolean Satisfiability Problem, SAT)在计算理论中仍是一项根本性挑战,尤其针对大规模复杂实例的高效求解。Hopfield神经网络(Hopfield Neural Network, HNN)已被用作SAT求解器

  
布尔可满足性问题(Boolean Satisfiability Problem, SAT)在计算理论中仍是一项根本性挑战,尤其针对大规模复杂实例的高效求解。Hopfield神经网络(Hopfield Neural Network, HNN)已被用作SAT求解器,然而传统实现常因局部极小值而陷入过早收敛。为克服此局限,研究人员将帝国竞争算法(Imperialist Competitive Algorithm, ICA)整合入HNN动力学,开发了面向随机k可满足性(Random k-Satisfiability, RANDkSAT)逻辑表示的混合神经-符号模型——HNN-ICA-RANDkSATRA。该混合模型首先在包含10至200个神经元的模拟数据集上进行验证,在所有网络配置下达到90.4%的平均分类准确率、0.073的平均汉明损失(Hamming Loss)、0.259的平均对数损失(Log Loss)及0.876的平均平均精度均值(Average Precision)。峰值模拟性能在低网络复杂度下达到92.5%的准确率。基于模拟验证后,该混合模型被应用于两个真实世界生育分类基准数据集:医学生育数据集(Medical Fertility Dataset, MFDS)和农业土壤肥力数据集(Agricultural Soil Fertility Dataset, ASFDS)。在MFDS上,HNN-ICA-RANDkSATRA达到88%准确率、86%精确率、90%召回率及88%的F1分数。在ASFDS上,该混合模型达到84%准确率、83%精确率、84%召回率及84%的F1分数。研究人员将HNN-ICA-RANDkSATRA与另外两种混合模型——HNN-ACO-RANDkSATRA(Hopfield神经网络-蚁群优化-随机k可满足性逆向分析)和HNN-ES-RANDkSATRA(Hopfield神经网络-穷举搜索-随机k可满足性逆向分析)进行了对比分析。运行时间分析表明其计算效率有所提升,MFDS和ASFDS分别耗时45.3秒和40.7秒,优于HNN-ACO-RANDkSATRA混合模型(47.8秒、42.2秒),并较HNN-ES-RANDkSATRA混合模型(102.5秒、98.6秒)提速逾120%。通过Wilcoxon符号秩检验和Friedman检验进行的统计验证确认了这些发现的显著性。Wilcoxon检验显示,与HNN-ES-RANDkSATRA相比,HNN-ICA-RANDkSATRA混合模型实现了显著更高的准确率(p = 0.031)、更低的汉明损失、更高的平均精度均值和更低的对数损失;与HNN-ACO-RANDkSATRA的差异虽小但始终有利。Friedman检验在所有指标上产生卡方值14(p < 0.05),将HNN-ICA-RANDkSATRA位列第一,HNN-ACO-RANDkSATRA第二,HNN-ES-RANDkSATRA第三。这些发现表明,HNN-ICA-RANDkSATRA混合模型在预测性能与计算效率之间实现了最优平衡,确立其作为可扩展且适应性强的基于SAT的逻辑挖掘方法的地位,并在包括医疗分析和农业决策在内的高风险领域证明了其适用性。
生育问题既是农业生产力的关键决定因素,也关乎人类生殖健康,因此其准确评估对于保障全球粮食安全和支持可持续人口增长至关重要。可靠的生育评估对于临床医疗、畜牧业管理和作物生产系统中的知情决策具有重要价值。然而,传统生育评估方法常依赖侵入性操作、实验室密集型分析和昂贵的诊断设备,这些因素共同限制了其可扩展性和实际应用,尤其在大型或资源受限环境中。从计算角度看,生育相关数据集固有的复杂性通常表现为高维度、非线性交互和显著噪声,对传统统计方法和标准人工神经网络(Artificial Neural Network, ANN)构成重大挑战。尽管ANN具备建模非线性模式的能力,但常遭受过拟合、收敛缓慢和局部极小值敏感等问题,最终损害预测可靠性和泛化性能。近年来,人工智能(Artificial Intelligence, AI)和机器学习(Machine Learning, ML)的进步使得研究人员能够开发以最小人工干预解决大规模优化问题的复杂工具。其中,ANN因通过模拟互联生物神经元行为来建模复杂非线性关系而被广泛采用。

对于优化任务,基于反馈的ANN架构通常更受青睐,因为其递归连接能够有效捕获复杂的输入-输出关系。在此类模型中,离散Hopfield神经网络(Discrete Hopfield Neural Network, DHNN)已成为一种突出的优化工具。DHNN最初由Hopfield和Tank提出以解决旅行商问题,其采用Lyapunov能量函数引导系统趋向稳定解。该网络将突触权重存储于内容可寻址存储器(Content Addressable Memory, CAM)中,能够从部分或受损输入中检索完整模式。尽管DHNN具有实用价值,但其面临与透明度相关的重大挑战。该模型作为黑箱运行,其中支配突触权重调整和能量转换的内部过程不透明。为应对这一局限,在DHNN框架内引入最优逻辑表示被提出作为一种解决方案,此途径可使网络的决策过程通过逻辑规则得以解释。

逻辑挖掘是指通过将数据表述为逻辑规则以从中提取有意义知识的过程,支持符号表示并使提取信息更加透明和可解释。逻辑挖掘的基础由Sathasivam和Wan Abdullah奠定,他们开发了逆向分析(Reverse Analysis, RA)技术以从教育数据集中推导逻辑规则。后续研究通过多种修改增强RA方法学,包括基于智能体的建模方法,以及将蚁群优化应用于农业土壤肥力逆向分析等。近期研究还涉及将饱和布尔k可满足性用于新冠肺炎监测数据集,展示了RA技术在公共卫生背景下的效用。

尽管有这些渐进式改进,现有RA方法仍缺乏确定通向最有效诱导逻辑的最优逻辑规则组合的系统方法,这促使研究人员探索能够系统识别数据中优化逻辑结构的替代范式。在此背景下,将布尔可满足性(Boolean Satisfiability, SAT)公式嵌入神经架构以提升可解释性和推理能力成为一种突出策略。随机k可满足性(Random k-Satisfiability, RANkSAT)已确立为评估神经-符号推理系统的标准基准,其NP完全本质和相变行为使其成为评估计算复杂性和算法效率的理想选择。HNN模型已被证明能有效编码RANkSAT子句于其突触权重矩阵中,通过迭代能量最小化实现逻辑推理。

帝国竞争算法(ICA)作为一种特别有效的元启发式方法应运而生,其受社会政治竞争过程启发。ICA将候选解表示为国家,最强大的国家被指定为帝国主义国家,通过同化和竞争机制逐渐主导解空间,创建探索与开发之间的动态平衡。近期研究表明,将元启发式嵌入HNN显著改善逻辑可满足性问题的学习和收敛。研究人员指出,将ICA与HNN结合用于RANDkSAT逻辑表示具有独特优势。然而,将神经-符号系统应用于生物数据仍面临挑战:生育数据集常存在噪声、不完整和不平衡问题,限制了预测准确率和模型稳定性。解决这些问题需要整合逻辑推理、统计学习和高级元启发式优化的混合计算框架,这一研究方向在生育评估背景下仍有待深入探索。

本研究旨在提出一种整合DHNN、RANDkSAT逻辑结构和ICA的混合神经-符号框架。该框架将生育相关变量导出的逻辑子句嵌入HNN能量函数,同时利用ICA的基于种群的优化策略增强全局搜索效率和收敛稳定性。主要贡献包括:设计DHNN计算框架内的高效逻辑挖掘方法,嵌入RANDkSAT逻辑以实现同步逻辑推理和基于能量的优化;整合ICA以动态优化HNN训练参数和逻辑子句结构;以及验证所提神经-逻辑挖掘方法在生育评估数据集上的有效性。

研究所用关键技术方法包括以下方面。在逻辑表示层面,采用RANDkSAT形式体系构建随机布尔可满足性子句,其中子句内字面量及其补随机分配,涵盖一阶、二阶和三阶子句结构。DHNN架构方面,使用具有对称突触权重矩阵的全连接循环神经网络,神经元状态取 bipolar 值{-1, +1},采用异步更新机制和Lyapunov能量函数确保收敛稳定性,权重计算采用Wan Abdullah方法。逆向分析框架RANDkSATRA将数据集属性映射至HNN神经元,通过能量最小化进行模式重构和分类,包括数据准备、神经参数初始化、子句构建、最优子句识别、突触权重计算、神经元状态同步更新、规则提取和测试诱导等步骤。优化算法ICA作为核心元启发式,其求解空间映射至HNN权重配置,通过帝国形成、同化移动、革命变异和帝国竞争等机制优化能量景观,算法流程包括初始化阶段生成随机国家、能量计算、HNN优化迭代和ICA阶段的多代竞争进化。

模拟实验结果显示模型性能随网络规模变化的趋势。在10至200神经元范围内,HNN-ICA-RANDkSATRA准确率从92.5%降至82.9%,HNN-ACO-RANDkSATRA始终落后约2个百分点,HNN-ES-RANDkSATRA在80神经元处仅达79.1%后变得计算不可行。汉明损失方面,HNN-ICA-RANDkSATRA从0.05增至0.22,优于HNN-ACO-RANDkSATRA的0.07至0.24和HNN-ES-RANDkSATRA的0.10至0.27。平均精度均值从0.94降至0.79,对数损失从0.15增至0.45,均优于对比模型。计算时间方面,HNN-ICA-RANDkSATRA从0.22秒增至52.0秒,HNN-ACO-RANDkSATRA同等规模达64.8秒,HNN-ES-RANDkSATRA仅80神经元即需29.6秒,推测同等规模下为HNN-ICA-RANDkSATRA的5至7倍。研究人员指出ICA的优势源于其同化竞争机制、多种群结构维持多样性、革命算子引入受控随机性以及精英保留策略。

统计验证部分,Wilcoxon符号秩检验表明HNN-ICA-RANDkSATRA以90.4%准确率、0.073汉明损失、0.876平均精度均值和0.259对数损失领先,HNN-ACO-RANDkSATRA次之(87.9%、0.128、0.831、0.323),HNN-ES-RANDkSATRA最低(83.0%、0.175、0.780、0.364),计算时间则呈现相反趋势。Friedman检验卡方值为14(p < 0.05),平均排名HNN-ICA-RANDkSATRA第一、HNN-ACO-RANDkSATRA第二、HNN-ES-RANDkSATRA第三。Nemenyi后续检验关键差异值约为1.104,HNN-ICA-RANDkSATRA与HNN-ES-RANDkSATRA差异显著,与HNN-ACO-RANDkSATRA差异不显著。效应量分析显示HNN-ICA-RANDkSATRA较HNN-ES-RANDkSATRA具有大效应量优势,Cohen's d在准确率上达0.85、平均精度均值达1.40,较HNN-ACO-RANDkSATRA也保持中到大效应量且运行更快。

真实世界应用采用UCI机器学习库中的医学生育数据集(MFDS)和ResearchGate获取的农业土壤肥力数据集(ASFDS)。MFDS含100个样本、9个属性(经特征选择后实验采用8个),区分可生育与不可生育;ASFDS含1988个土壤样本实例、9个属性,区分高肥力与低肥力土壤。各属性被编码为RANDkSAT框架中的二元变量,通过子句满足性确定生育状态。HNN-ICA-RANDkSATRA在MFDS上达到88%准确率、86%精确率、90%召回率和88% F1分数,在ASFDS上达到84%准确率、83%精确率、86%召回率和84% F1分数,均优于HNN-ACO-RANDkSATRA和HNN-ES-RANDkSATRA。

扩展指标评估中,HNN-ICA-RANDkSATRA在MFDS上汉明损失0.12、平均精度均值0.91、对数损失0.23、计算时间45.3秒;在ASFDS上分别为0.16、0.85、0.32、40.7秒,全面领先于对比模型。研究人员将ICA的优越性归因于其全局优化能力、防止局部最优的特性和改进的泛化性能。HNN-ACO-RANDkSATRA虽在模式发现方面有效但产生更多假阳性,HNN-ES-RANDkSATRA虽更快但缺乏复杂或高风险分类任务的鲁棒性。

讨论部分,研究人员指出ICA的独特机制包括:同化与竞争机制通过帝国主义竞争动态重新分配计算资源;多种群结构通过并行帝国维持更大多样性;革命算子引入受控随机性帮助逃离局部最优;以及通过帝国主义继承实现精英保留。这些机制共同解释了观察到的性能层级。对于小规模网络(小于50神经元),HNN-ES-RANDkSATRA可能足以应对低风险应用;对于中到大型网络(50至200神经元),推荐使用HNN-ICA-RANDkSATRA以获得预测性能与计算效率的最优平衡。

研究结论部分总结如下:该研究成功开发并验证了HNN-ICA-RANDkSATRA混合模型,这是一种将ICA与HNN整合用于RANDkSAT逻辑表示的新型神经-符号框架。主要目标是克服传统HNN的局限,特别是其对局部极小值的敏感性,从而增强复杂分类任务的性能。源自模拟数据和真实生育基准(MFDS和ASFDS)的实验结果确凿证明了所提混合模型的优越性。在模拟中,HNN-ICA-RANDkSATRA达到最高分类准确率(92.5%)、最低汉明损失(0.073)和优越的平均精度均值(0.876),展示了在10至200神经元网络规模上的强健可扩展性。其计算效率显著更好,完成任务约需HNN-ES-RANDkSATRA基准用时的一半。通过Wilcoxon符号秩检验和Friedman检验进行的统计验证确认了HNN-ICA-RANDkSATRA混合模型性能优势的统计显著性(p < 0.05),在所有评估指标上始终排名第一。应用于真实世界生育分类时,该混合模型保持领先性能,达到最优准确率(MFDS为88%,ASFDS为84%)以及精确率与召回率之间的关键平衡。这一平衡在相应领域至关重要,因其可减少医疗诊断中的假阴性和农业资源规划中的误分配。关键创新在于将ICA的全局搜索和竞争同化机制整合于HNN架构内,这在导航网络复杂能量景观方面证明极为有效。这种协同作用可防止过早收敛,并促进比基于ACO或ES的混合模型更有效的探索-开发动态。HNN-ICA-RANDkSATRA混合框架为基于SAT的逻辑挖掘和分类建立了强健、可扩展且高效的方法学,对混合智能系统做出重大贡献,并在医疗保健和农业等高风险领域证明了其适用性。未来工作将探索其他元启发式的整合以及该混合模型对动态流数据环境的适应。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号