《International Journal of Cognitive Computing in Engineering》:ThinkRiver: Semantic verification for water surface object detection
编辑推荐:
水面漂浮垃圾自动化清理是赋能可持续智慧城市环境感知的核心环节,以无人水面艇(Unmanned Surface Vehicles, USVs)为代表的智能移动感知平台是水生生态系统维护的关键物联网节点。然而现有检测器在复杂水面条件下常将自然杂物误判为垃圾,这一挑
水面漂浮垃圾自动化清理是赋能可持续智慧城市环境感知的核心环节,以无人水面艇(Unmanned Surface Vehicles, USVs)为代表的智能移动感知平台是水生生态系统维护的关键物联网节点。然而现有检测器在复杂水面条件下常将自然杂物误判为垃圾,这一挑战被称为视觉拟态(Visual Mimicry)。本研究提出ThinkRiver粗细粒度语义验证框架,通过融合高召回率YOLOv8s候选生成器与轻量多模态系统Qwen3-VL,增强物联网设备的感知可靠性。框架通过显式属性推理(Explicit Attribute Reasoning)实现语义验证,为感知网络提供更智能的决策支持。在分布外挑战集上的实验表明,ThinkRiver将假阳性从261降至82(降幅68.6%),并将精确率提升23.76%。结果表明,经语义推理增强的传感器可显著提升动态视觉模糊环境下检测系统的可靠性,支撑可扩展的人工智能-物联网(AI-IoT)解决方案部署。
该研究针对智慧城市水环境监测中无人水面艇(USVs)的水面垃圾检测痛点展开。当前基于卷积神经网络的传统检测器依赖封闭集视觉模式匹配,在光照变化、水面反射及漂浮物形态多变的开放场景中,易因视觉拟态(Visual Mimicry)将荷叶、枯枝等自然杂物误判为垃圾,导致假阳性率高、清理机器人误动作。为此研究人员提出ThinkRiver粗细粒度语义验证框架,结合高召回率候选生成与多模态语义校验,解决自然目标与人造垃圾的区分难题。
研究采用三个关键技术方法:一是构建包含2400张训练图像、600张验证图像的分布内数据集与300张高分辨率图像的Out-of-Distribution(OOD)挑战集,后者含454个真实垃圾实例与200余个水生植被、枯叶等硬负样本;二是设计级联架构,第一阶段采用置信度阈值降至0.25的YOLOv8s作为高召回候选生成器,优先覆盖潜在目标;三是引入Qwen3-VL多模态大语言模型(Multimodal Large Language Model, MLLM)作为语义验证器,通过显式属性推理(Explicit Attribute Reasoning, EAR)强制模型先描述纹理、材质等可观测属性,再基于预构建的“垃圾”“非垃圾”文本锚点库计算语义异常分数(Semantic Anomaly Score, α),以0.43为最优阈值过滤假阳性。
研究结果如下:
4.1 数据集部分明确OOD挑战集的设计逻辑,其高密度的自然干扰项精准模拟了真实场景的视觉拟态,解释了传统模型召回率保守的原因。
4.2 实验设置部分对比三类基线:YOLOv8s、ResNet-50、ViT-Base均在0.25低置信度阈值下运行以保障高召回,但假阳性分别达261、254、302例。
4.3 多架构范式性能对比显示,ThinkRiver将假阳性降至82例,较YOLOv8s下降68.6%,精确率达65.11%(提升23.76个百分点),F1分数为44.41%,虽召回率低于Transformer基线,但契合清理任务中“降低误动作优先级高于全覆盖”的实际需求。
4.4 提示策略对比表明,直接询问、角色扮演等策略难以平衡精度与召回,视觉思维链(Visual Chain-of-Thought, Visual CoT)虽将假阳性压至6例但召回率仅10.79%;ThinkRiver通过属性约束实现最优权衡,F1分数领先所有单一策略。
4.5 超参数优化通过网格搜索确定语义异常阈值τ*为0.43,该点处真阳性恢复最多且假阳性抑制稳定,散射分布进一步验证0.40~0.45区间为模糊样本的集中区域。
讨论部分指出,定性案例中框架可正确剔除树枝等拟态目标、保留塑料瓶等真实垃圾,失败案例源于块状物体的语义模糊与反光导致的幻觉描述。部署层面采用云边协同策略:边缘端运行YOLOv8s实时生成候选,仅将不确定样本传至云端MLLM校验,兼顾实时性与可靠性。有效性威胁分析表明,显式属性推理与阈值优化可有效抑制MLLM幻觉,OOD数据集的偏置不影响结论普适性。
研究结论表明,ThinkRiver通过将决策从外观匹配转向可解释的语义验证,在OOD场景下实现假阳性降低68.6%、精确率提升至65.11%的突破,证实语义推理可增强开放世界水面检测的鲁棒性。未来研究将优化语义嵌入空间以减少几何描述歧义,并探索MLLM蒸馏的轻量推理模块,支撑边缘侧实时部署。该研究发表于《International Journal of Cognitive Computing in Engineering》。