重新审视视觉领域的模型去学习生态系统:从事后考量到全生命周期视角

《Image and Vision Computing》:Revisiting the machine unlearning ecosystem in vision: From afterthought to a lifecycle perspective

【字体: 时间:2026年06月13日 来源:Image and Vision Computing 4.2

编辑推荐:

  埃马努埃拉·马拉斯科|马修·希克斯|巴特·斯洛维克|蒂里马科斯·布尔莱|阿伦·罗斯 美国弗吉尼亚联邦大学计算机科学系 摘要 诸如生物特征识别、医学成像平台、监控摄像头以及自动驾驶感知系统之类的视觉系统,会将敏感的身份属性和上下文信息编码到高维表示中,从而带来隐私和合

  埃马努埃拉·马拉斯科|马修·希克斯|巴特·斯洛维克|蒂里马科斯·布尔莱|阿伦·罗斯
美国弗吉尼亚联邦大学计算机科学系

摘要
诸如生物特征识别、医学成像平台、监控摄像头以及自动驾驶感知系统之类的视觉系统,会将敏感的身份属性和上下文信息编码到高维表示中,从而带来隐私和合规风险。由于这些系统在动态的现实环境中运行,因此保障隐私和符合监管要求变得愈发重要。机器去学习为减少训练有素模型中特定信息的影响同时保持良好性能提供了一种有前景的方法。在以安全为重的视觉应用领域,机器去学习有助于:(1)通过更新模型权重,消除生物特征识别系统中与身份相关的知识影响;(2)解决因使用专有视觉数据而引发的版权及知识产权问题;(3)减少视觉模型从视觉输入中可能隐含编码的敏感信息,如个人身份信息、生物特征标识符以及图像或视频数据中的上下文线索。然而,现代视觉系统一直在不断发展变化——采用渐进式学习或更新,属于迭代式且以实际部署为导向,而非静态流程——而机器去学习目前仍大多被视为一种独立的算法工具。本文认为,应将机器去学习视为视觉人工智能生命周期中的一个重要组成部分;尽管实现这种整合所需的方法仍需研究界进一步探索。

引言
随着基于深度神经网络和变换器的视觉人工智能系统越来越多地应用于医疗、金融、国家安全和教育等敏感领域,确保合规性并保护视觉数据已成为亟需解决的难题[1]。这些系统被广泛用于自动化复杂任务、辅助决策制定,并提升国防、娱乐等多个领域的效率[2]。然而,它们依赖大规模视觉数据集,而这些数据集往往是在未经明确同意的情况下收集的,这就引发了重大的隐私、伦理和安全问题[3]。为此,经合组织的人工智能原则强调要开发既可靠又能保护用户权益、同时推动负责任创新的人工智能系统[4][5]。

人工智能视觉系统的生命周期指的是规划、训练、部署和维护人工智能模型的迭代过程。它包括数据收集与整理、模型训练、评估与性能优化,直至实际部署和持续更新[6]。在面部识别、生物特征认证、卫星图像分析以及医学图像分类等关键安全应用中,视觉人工智能系统常常处理包含加密材料和个人身份信息的数据,这进一步加剧了相关风险[7]。训练过程中产生的API密钥或凭证等元素可能会无意间出现在原始数据或元数据中,若被纳入训练,就会编码到模型参数中。例如,如果用于训练视觉或多模态系统的代码仓库或日志中出现了暴露的密钥,模型就可能会部分保留并重现这些密钥。即便原始数据已被从存储中删除,这类信息仍有可能被提取,从而带来安全与隐私风险。

在能够同时处理图像和文本输入的视觉语言模型等多模态架构中,这种风险更为严重,因为一种模态中的敏感信息可能会与另一种模态所学到的表示形式相互关联[8][9][10]。例如,针对医学图像并结合临床记录经过微调的视觉语言模型,可能会无意中记住与患者相关的加密标识符或诊断类个人身份信息。这为攻击者通过模型反演或成员推断攻击等方式重建敏感关联提供了可能[11]。技术、运营和法律层面的安全框架都强调了必须从已部署的模型中永久删除此类信息。美国国家标准与技术研究院的第800-57号特别出版物阐述了密钥管理生命周期,强调一旦密钥遭到泄露或过期,就必须立即销毁,以防止其被重复使用或非法获取[12]。这一原则不仅适用于存储在文件或数据库中的密钥,还包括那些在基于加密图像数据集进行模型训练时被吸收进模型结构的密钥,这就需要在模型内部找到安全的密钥销毁方法。

如果没有适当的防护措施,使用人工智能可能会导致违反《健康保险可移植性与责任法案》(HIPAA)等联邦法律、加利福尼亚州《消费者隐私法》(CCPA)等州级法律,以及欧盟的《通用数据保护条例》(GDPR)[13]。鉴于各种挑战日益相互关联,将以隐私为中心的做法融入网络安全体系对于增强信任并保障个人对数字身份的控制权至关重要。根据《通用数据保护条例》和《消费者隐私法》的规定,数据隐私既是法律要求也是道德准则,这些法规要求合法处理数据、确保透明度并获得用户同意,否则将会面临严厉处罚[14]。这些法规通过促进知情同意并允许用户请求删除或修改数据,使个人能够掌控自己的数据。而开发强大的视觉人工智能系统则需要在往往包含个人、专有或机密信息的大型数据集上进行训练。在训练过程中,数据模式和知识会被嵌入模型参数中,这可能导致敏感内容意外泄露,进而引发未经授权的访问或滥用风险[15][16]。

本文结构如下:第2节探讨人工智能治理和政策对视觉系统生命周期的影响;第3节介绍机器去学习的基本概念;第4节提出一种与将机器去学习整合到人工智能生命周期相关的新分类体系,以及由此产生的挑战和尚未解决的研究问题;第5节分析机器去学习与现有隐私保护机制之间的关系;第6节探讨其在不同安全场景下的优势;第7节讨论实施过程中的挑战;第8节阐述其他观点;第9节对全文进行总结。

片段摘录
视觉人工智能生命周期中隐私法规的影响
隐私在人工智能视觉系统的设计、开发和实施过程中起着重要作用。一个重大挑战是,这类系统为有效运行往往需要处理大量敏感和个人数据,其中包括姓名、地址、社会安全号码、生物特征数据、财务信息以及医疗记录等个人身份信息。使用这类数据会引发严重的隐私和数据安全问题,因为它可能会暴露人们生活中的私密细节。

机器去学习的不断发展
机器去学习的目的是防止模型保留敏感信息,确保所有曾用于训练的数据都与模型输出完全分离,从而降低隐私泄露或数据被滥用的可能性[21]。传统机器学习模型是通过不断添加数据来提升性能的,且假定这些数据会被永久保留,这就带来了涉及敏感信息的隐私风险[22]。虽然传统机器学习侧重于通过更多数据来提升模型性能,但机器去学习则着眼于……

将机器去学习作为生命周期组件加以应用
目前,关于如何在整个生命周期内管理人工智能视觉系统的相关概念、方法和最佳实践仍在发展中,尚未完全标准化。尤其是,目前还不清楚如何系统地将机器去学习整合到这一生命周期中,或者如何使其作为一种贯穿整个生命周期的能力而非事后补救措施。现有的方法往往将机器去学习视为部署后的一个独立纠正步骤[28][29]。这种视角忽视了数据之间的动态相互作用。

机器去学习与现有隐私保护方法的比较
敏感信息指的是任何一旦丢失、被滥用、遭未经授权的访问或修改,就可能对个人造成严重伤害或危及系统安全的资料[45]。敏感信息可分为以下几类:(i)个人身份信息,如姓名、地址以及生物特征标识符,比如面部扫描图像、指纹等[46];(ii)敏感个人信息,包括财务记录,如信用报告、税务文件等[47];(iii)安全……

机器去学习在关键领域的应用场景
随着人工智能视觉系统在敏感且高风险的环境中越来越重要,从训练有素的模型中选择性删除数据的需求也愈发迫切。人工智能模型容易无意中保留机密信息,而攻击者可能会利用这些信息,从而导致隐私泄露,甚至破坏加密系统。此外,那些在大规模数据集上训练的模型往往会吸收受版权保护的内容,当人工智能生成的输出与受保护的作品极为相似时,就会引发知识产权方面的风险。

机器去学习与视觉系统安全
随着视觉人工智能系统越来越多地应用于医疗、监控、金融以及身份验证等敏感领域,机器去学习对于保障系统安全、保护隐私以及实现可靠运行至关重要。目前的视觉模型缺乏选择性遗忘的机制,这使得在部署后很难删除敏感或过时的数据。要提升视觉系统中的机器去学习能力,就需要在技术和政策层面取得进展,比如采用模块化且易于理解的架构。

机器去学习后的局限与挑战
在完成机器去学习之后,仍然存在诸多技术、运营和安全方面的挑战,尤其是在那些会通过更新、重新训练以及新数据的输入而持续发展的已部署视觉人工智能系统中。完成机器去学习后,最大的挑战就是确保被删除的信息不会再次出现、持续存在,也不会继续影响模型的行为。持续学习、模型补丁更新以及领域自适应等功能可能会无意间重新引入之前已被删除的数据,从而削弱隐私保护效果。

其他观点
人们仍然对基础模型的可解释性不足感到担忧,因为这可能会妨碍对所学信息的精准定位和删除。如果在数据点与模型行为之间不存在明确的因果关联,那么机器去学习过程可能会不可靠或效果不佳,尤其是在那些属于黑盒结构或仅有解码器的变换器架构中。此外,还有人认为机器去学习与模型核心性能之间可能存在权衡关系。诸如权重调整之类的机器去学习干预措施……

结论
本文认为,要在安全领域推进负责任的人工智能发展,就需要制定并采用有依据、严谨且符合原则的机器去学习方法。本文强调,机器去学习在安全场景下的负责任人工智能部署中具有实用价值,也是其中的重要组成部分。随着机器学习模型越来越依赖大规模数据集进行训练,关于数据合法性、版权以及知识产权的问题也愈发突出。许多模型都是在从……中爬取的数据上训练而成的。

CRediT作者贡献说明
埃马努埃拉·马拉斯科:撰写——审阅与编辑、撰写——初稿、指导、研究、正式分析、概念构建。马修·希克斯:撰写——审阅与编辑、指导、正式分析、概念构建。巴特·斯洛维克:撰写——审阅与编辑、研究。蒂里马科斯·布尔莱:撰写——审阅与编辑、指导、方法论设计。阿伦·罗斯:撰写——审阅与编辑、指导、研究。

利益冲突声明
作者声明,他们不存在任何可能影响本文研究成果的已知财务利益或个人关系。

致谢
本手稿的部分内容在语法润色、用词建议以及文本组织方面得到了人工智能语言模型的帮助。所有内容和解读均由作者负责。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号