FDSRM:一种基于特征驱动、风格无关的基础模型,用于无需草图的脸部图像检索

《IEEE Transactions on Neural Systems and Rehabilitation Engineering》:FDSRM: A Feature-Driven Style-Agnostic Foundation Model for Sketch-Less Facial Image Retrieval

【字体: 时间:2026年06月08日 来源:IEEE Transactions on Neural Systems and Rehabilitation Engineering 5.2

编辑推荐:

   摘要: 无草图面部图像检索(SLFIR)框架通过人机交互高效地检索目标图像,且所需的笔触最少,从而克服了传统模型对高质量草图图像的依赖。然而,草图风格的多样性和绘制过程中笔触位置的随机性给目标图像的匹配带来了挑战。为了解

  

摘要:

无草图面部图像检索(SLFIR)框架通过人机交互高效地检索目标图像,且所需的笔触最少,从而克服了传统模型对高质量草图图像的依赖。然而,草图风格的多样性和绘制过程中笔触位置的随机性给目标图像的匹配带来了挑战。为了解决这个问题,我们提出了一种基于特征的无草图面部图像检索基础模型(FDSRM),该模型不依赖于草图风格,包含两个核心组件:特征观察器(Feature Observer)和自适应融合适配器(Adaptive Fusion Adapter,AFA)。首先,为了解决草图风格的多样性,我们设计了特征观察器模块(FOM),该模块利用多个专家提取各种草图风格和目标图像共有的关键特征和语义信息,帮助模型在风格多样的草图中准确识别关键特征。其次,为了解决笔触位置的随机性问题,我们引入了草图绘制的相关先验知识,并结合AFA组件,根据当前草图笔触的状态动态学习和调整草图与文本的融合策略,从而在整个绘制过程中实现更准确和有针对性的特征融合。此外,我们在大规模面部数据集上训练了一个面部图像-文本对齐预训练(FAIP)模型,并将其作为FDSRM的骨干,显著提高了模型对未知面部特征的鲁棒性。大量实验表明,我们的方法在早期检索的准确性和系统泛化能力方面具有显著优势。即使没有额外的辅助信息,它在多风格应用场景中的定性和定量指标上也优于现有的最先进方法。

引言

近年来,基于草图的跨模态面部识别已在多个领域得到广泛应用[1]、[2]、[3]、[4]、[5]、[6]、[7]、[8]。例如,在执法过程中,根据目击者描述创建的面部草图常用于协助识别嫌疑人。然而,基于草图的面部图像检索需要完整且高质量的草图来完成检索和识别任务。这要求艺术家具备较高的技能,而且整个过程复杂且耗时,限制了其在更广泛用户群体中的应用。为了克服这些限制,Dai等人[9]提出了无草图面部图像检索(SLFIR)框架。该框架动态整合了绘制和检索过程,在绘制过程中实时进行图像检索,并向艺术家提供反馈以激发创造力。其目标是在使用尽可能少的笔触的情况下,依靠不完整和低质量的查询草图来检索目标图像,从而简化操作流程,提高检索效率,并增强其在各种应用场景中的实用性。

相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号