《Neurocomputing》:Ask the Right Question: Bayesian-Optimized Prompting for Cross-Level Knowledge Distillation in Traffic HOI Detection
编辑推荐:
研究人员指出,将多模态大语言模型(Multimodal Large Language Models, MLLMs)的图像级场景理解有效迁移至实例级的人机交互(Human-Object Interaction, HOI)检测,仍是安全关键型交通应用的核心瓶颈。现
研究人员指出,将多模态大语言模型(Multimodal Large Language Models, MLLMs)的图像级场景理解有效迁移至实例级的人机交互(Human-Object Interaction, HOI)检测,仍是安全关键型交通应用的核心瓶颈。现有知识蒸馏方法依赖固定的人工设计提示,无法保证生成训练数据的质量。为此,研究人员提出了T-HOI-BPO框架(Traffic HOI Detection with Bayesian Prompt Optimization and Cross-level Distillation),将提示工程形式化为贝叶斯优化问题,建立了教师MLLM的提示基于学生模型反馈进行迭代优化的闭环流程。研究人员进一步设计了交通感知视觉-语言转换器(Traffic-aware Visual-Linguistic Translator, T-VLT)与交通交互认知网络(Traffic Interaction Cognition Network, T-ICN)等域特定组件,结合面向交通安全蒸馏损失,有效弥合图像级理解与实例级交互检测之间的表征鸿沟。蒸馏所得知识被迁移至基于YOLOv9构建的轻量级学生模型T-CarGPT,以适应实时车载部署。大量实验表明,仅使用贝叶斯优化生成的合成数据训练的T-CarGPT,取得了24.8%的mAP、89.2%的安全准确率及91.7%的规则遵从准确率,在保持约25 ms推理延迟的同时,性能优于全监督基线及固定提示方案。该研究为释放MLLM知识用于实用交通HOI检测提供了系统化方法论,并验证了其在智能交通领域的有效性。
该研究针对智能交通系统中交通人机交互(Traffic Human-Object Interaction, Traffic HOI)检测面临的挑战展开。随着自动驾驶与智能交通系统的发展,理解人与交通对象的交互行为对保障安全至关重要。传统计算机视觉方法虽在车辆检测与轨迹预测等任务上取得进展,但受限于实例级操作模式,缺乏对交通场景整体语义的深度理解,难以识别“行人横穿马路”等复杂交互行为,制约了系统的安全性与可靠性。近年来,多模态大语言模型(Multimodal Large Language Models, MLLMs)展现出强大的图像级场景理解与语义推理能力,但如何将其高层的图像级理解转化为实例级的、结构化的HOI检测能力仍面临巨大挑战。现有方法要么仅将MLLMs作为工具解析指令,要么依赖固定人工提示生成数据,存在跨层级知识迁移困难、缺乏交通场景特异性以及静态提示无法自适应优化等关键问题。此外,传统方法依赖计算复杂的Transformer检测器,难以直接部署于资源受限的车载设备。为解决上述问题,研究人员提出了T-HOI-BPO框架,旨在建立一套自动化的闭环流程,将MLLMs的知识高效蒸馏至轻量级车载模型中。
研究人员主要采用贝叶斯优化(Bayesian Optimization, BO)技术解决提示词这一黑盒优化问题,替代低效的人工调优。同时,设计了交通感知视觉-语言转换器(T-VLT)与交通交互认知网络(T-ICN)两个专用模块,以建模交通特有的空间关系与安全规则。在模型架构上,选用YOLOv9作为学生模型的检测主干,以满足实时性需求。实验基于公开数据集与合成数据展开,验证了该方法的有效性。
研究背景
研究人员首先阐述了智能交通与自动驾驶的发展现状,指出传统实例级检测方法在理解复杂交通交互行为时的局限性。尽管MLLMs为场景理解提供了新途径,但现有的应用未能充分挖掘其内在理解能力,且存在跨层级迁移难、场景适配差及提示词固化三大技术痛点。研究人员特别指出,将MLLMs知识迁移至车载端需要解决效率与性能的双重矛盾。
方法论
研究人员提出了T-HOI-BPO框架。核心在于将提示工程定义为贝叶斯优化问题,通过构建“指令参数”与“学生模型性能”之间的目标函数,以极少的评估次数寻找全局最优提示。该框架包含闭环优化流程:由教师模型Qwen-VL-Max生成数据,训练学生模型T-CarGPT,并根据反馈迭代优化提示。在架构层面,研究人员设计了T-VLT模块,用于将图像级语义精准映射至实例级特征;设计了T-ICN模块,专门用于建模交通环境中的运动模式与路权规则。此外,引入了面向交通安全的蒸馏损失函数,进一步强化对安全关键行为的识别能力。
实验结果
研究人员进行了广泛的实验验证。结果表明,仅使用贝叶斯优化生成的合成数据训练的T-CarGPT模型表现卓越。在精度方面,模型达到了24.8%的mAP(平均精度均值),在交通安全关键指标上,安全准确率达到89.2%,交通规则遵从准确率达到91.7%。在效率方面,模型保持了约25 ms的推理延迟,完全满足车载实时处理要求。对比实验证明,T-HOI-BPO显著优于全监督基线方法及使用固定提示的替代方案,证实了自动化提示优化与域特定设计的有效性。
结论
研究人员总结道,T-HOI-BPO框架成功解决了将大规模MLLMs的图像级理解迁移至轻量级实例级检测器这一关键挑战。该研究通过概念创新与闭环实现,证明了贝叶斯优化在提示工程中的巨大潜力,为智能交通领域提供了一种从自动化提示优化到高效知识迁移的端到端解决方案。这项工作不仅提升了交通HOI检测的性能,也为未来在资源受限设备上部署先进AI模型提供了重要的理论与实践参考。