在了解到可去噪的学生逻辑值(student logits)后
《Pattern Recognition》:On learning denoisable student logits
【字体:
大
中
小
】
时间:2026年04月12日
来源:Pattern Recognition 7.6
编辑推荐:
知识蒸馏(KD)通过降低学生模型与教师模型之间的噪声水平实现性能提升。本文基于扩散过程视角,提出将KD与去噪扩散隐式模型(DDIM)结合的框架,实现分布式两步推理:学生模型在边缘设备生成可去噪的logits,服务器端通过反向扩散恢复接近教师模型的logits。实验表明,该框架在CIFAR-100和ImageNet上达到或超越传统KD的性能,同时支持logits压缩传输,带宽需求降低约50%。主要贡献包括:1)揭示师生logits的统计关系(残差信号近似高斯分布);2)构建端到端KD-扩散联合训练框架;3)设计轻量级logits压缩模块。
陈迪琪|李阳|刘嘉俊|布兰诺·库西|周俊|高永生
澳大利亚格里菲斯大学信息与通信技术学院
摘要
知识蒸馏(KD)旨在训练学生模型以模仿更强大的教师模型的行为。在本文中,我们通过扩散过程的视角发现,学生模型的对数概率(logits)在统计上可以被视为教师模型对数概率的噪声版本,而KD有助于降低学生模型对数概率的噪声水平。这一发现促使我们设计了一个框架,利用KD生成可去噪的学生模型对数概率,然后通过反向扩散过程进一步恢复为教师模型对数概率。这种方法的一个关键优势是,推理-扩散过程可以在两个物理位置和不同的设备上进行,从而实现两步式和分布式的推理过程。实验结果表明,生成的可去噪学生模型对数概率的性能与标准KD方法相当甚至更优,并且反向扩散过程在不需要原始图像的情况下显著提高了准确性,从而保护了原始数据的隐私和安全。此外,在传输之前可以对对数概率进行进一步压缩,减少所需的带宽,同时保持总体性能。
引言
深度神经网络的成功往往伴随着对计算能力和存储空间的巨大需求[1],[2],[3],这限制了它们在资源受限设备上的部署。一个常见但有效的解决方案是知识蒸馏(KD)[6],其中通过最小化教师模型和对数概率之间的KL散度来训练一个轻量级的学生模型以模仿更强大的教师模型的行为。通过将知识从重量大但强大的教师模型转移到轻量级的学生模型中,可以在不增加额外成本的情况下提高学生模型的性能。
最近的研究集中在通过引入有效的正则化技术[7],[8]或优化策略[9],[10],[11]来最小化教师模型和对数概率之间的差异。例如,Tf-KD [7]使用标签平滑来正则化教师模型的软目标,而TAKD [11]采用了一个中间教师助手来弥合教师模型和学生模型之间的能力差距。除了这些方法之外,最近的研究还探索了更复杂的知识转移机制。例如,FFKD [12]引入了一种结合前向蒸馏和反馈机制的互惠学习范式,允许教师模型根据学生的学习进度调整其教学策略。另一个方向是IPASD [13]提出了一个跨训练时期的类内渐进式和自适应自我蒸馏框架,利用特征级和对数概率级的知识来提高表示的紧凑性和模型效率。虽然这些方法通过精细的训练方案或更丰富的监督信号提高了知识转移的有效性,但它们主要集中在改进蒸馏过程本身。相比之下,这些研究都没有系统地探讨教师模型和对数概率之间的统计关系,而这正是我们工作的核心视角。
在本文中,我们首先分析了不同场景下教师模型和对数概率之间的关系,包括不同的KD方法、模型架构和数据集,如表1所示。我们对每个对数概率维度的分析表明,残差信号大致遵循高斯分布,因此学生模型对数概率在统计上可以被视为教师模型对数概率的噪声版本。更重要的是,KD通过减少残差信号的标准差和降低这些信号不同维度之间的相关性来减轻教师模型和对数概率之间的差异,从而降低噪声水平。这些观察结果启发我们采用扩散过程,将噪声建模为添加到原始数据中的各向同性高斯噪声,作为在KD框架内从学生模型对数概率恢复教师模型对数概率的有效方法。
基于上述见解,我们提出了一个新颖的两阶段框架,该框架结合了学生模型和一个额外的去噪扩散组件来恢复教师模型对数概率。为了实现组件之间的协同优势,我们从理论上将KD过程与去噪扩散隐式模型(DDIM)[14](一种加速的反向扩散模型)统一在一个端到端的可微框架中。这种统一的学习流程使学生模型生成的可去噪对数概率不仅能够达到与标准KD相当或更高的准确性,还能显著受益于学到的DDIM组件。
从应用的角度来看,我们提出的框架的一个关键优势是学生模型和恢复组件可以部署在不同的物理位置的独立设备上。例如,在集中式部署架构中,学生模型可以安装在连接到传感器的边缘设备上,而恢复组件可以托管在中央服务器上。这种方法在现实世界的低功耗无线网络应用(如LoRaWAN [15],[16],[17])中特别有益,其中边缘设备执行有限的计算处理,并通过低带宽无线链接将对数概率传输到服务器。随后在服务器上对学生模型对数概率进行去噪处理,从而在平衡数据传输带宽和功耗约束的同时实现更高的准确性。在这种配置中,边缘上的学生模型保持核心功能,确保最小的延迟并保持高隐私性和安全性,而输出的对数概率则选择性地传输到中央服务器进行进一步处理。
基于讨论的应用场景,我们进一步通过集成对数概率选择模块和可学习的量化模块来探索传输对数概率的压缩。这个轻量级的压缩组件被纳入我们的框架中进行端到端训练。实验结果表明,截断后的对数概率保持了相当的总体性能,使我们的框架既有效又高效。
本工作的主要贡献如下:
- •
我们从统计上分析了不同场景下教师模型和对数概率之间的关系,并证明了学生模型对数概率可以被视为噪声版本且可恢复的教师模型对数概率,并且KD从扩散过程的角度增强了学生模型对数概率的恢复能力。
- •
我们提出了一个端到端的训练框架,将KD与扩散模型结合,展示了在不同设置下的性能提升。我们在实际部署场景中证明了其适用性和有效性。
- •
我们设计了一个使用可学习轻量级模块的对数概率压缩/解压缩模块,以进一步减少边缘设备与服务器之间的数据传输带宽需求。
本文的其余部分组织如下:第2节从扩散过程的角度分析KD并解释了学生模型对数概率的恢复能力;第3节介绍了基于观察的概念框架,包括对预期结果的分析;第4节介绍了所提出的方法;第5节报告了实验结果,回应了第3节提出的目标;最后,第6节回顾了相关工作,第7节总结了本文的局限性和未来方向。
章节片段
从扩散过程的角度看KD提高了恢复能力
为了研究教师模型和对数概率之间的关系,从CIFAR-100样本中随机收集了对教师模型和对数概率对:,其中表示神经网络最后一层(在softmax层之前)的输出对数概率,表示类别的数量。从扩散过程的角度来看,学生模型对数概率被视为教师模型对数概率的噪声版本,我们研究了残差信号的特征:,其中
基于观察的部署框架
上一节中的分析提供了一个构建两步推理-扩散过程的机会:学生模型在推理步骤中提取学生模型对数概率,扩散模型在扩散步骤中去噪这些对数概率。这种两步过程使得框架可以在物理上分离的地点进行部署。例如,学生模型可以部署在边缘设备上,而扩散模型可以部署在中央服务器上,消息传输依赖于
方法论
整个框架如图2所示。给定一个教师网络,借助KD,我们的框架旨在学习一个学生网络来生成可去噪的学生模型对数概率,然后可以通过对数概率压缩模块进行压缩,再通过对数概率恢复模块进行恢复。所有模块都在一个集成的端到端框架中学习。
实验设置
实验采用了两个广泛使用的数据集。
CIFAR-100 [27]包含50K训练图像和10K测试图像,均匀分布在100个类别中。
ImageNet [4]包含1.2M训练图像和50K验证图像,分为1K个类别。
采用top-1准确率作为评估指标。
我们使用了多种网络架构:ResNet50 [1]、ResNet101 [1]、TinyViT-21M [28]作为教师模型,以及ResNet8 × 4 [1]、ShuffleNetV1 [29]、MobileNetV2 [30]、TinyViT-5M [28]作为学生模型。
相关工作
KD [6]旨在让学生模型模仿教师模型的行为。一般来说,KD方法可以根据教师知识的来源分为三类:基于响应的[6]、[33]、基于特征的[34]和基于关系的[35]方法[36]。还有一些通用的KD框架[11]、[37]、[38],旨在通过优化训练流程来改进多样化的KD方法。之前的尝试已经探索了KD方法在多样化任务中的应用
结论、局限性和未来工作
在本文中,基于对教师模型和对数概率之间关系的分析,我们提出了一个端到端的训练框架,该框架结合了知识蒸馏和扩散模型。所提出的框架生成的可去噪学生模型对数概率可以通过反向扩散过程进一步恢复为教师模型对数概率。我们在传输带宽有限的部署环境中展示了该框架的适用性和优势
关于AI辅助的声明
本文是在OpenAI开发的AI语言模型ChatGPT的帮助下完成的。该工具仅用于语法校正、句子润色以及提高手稿的清晰度和可读性。它没有被用来修改原始想法、研究结果或科学内容。所有智力贡献、实验设计、结果和结论完全属于作者。ChatGPT的使用仅限于语言改进
CRediT作者贡献声明
陈迪琪:写作——审稿与编辑、撰写——初稿、可视化、验证、软件、方法论、调查、形式分析、数据管理、概念化。李阳:写作——审稿与编辑、方法论、形式分析、数据管理、概念化。刘嘉俊:写作——审稿与编辑、验证、监督、资源管理、方法论、概念化。布兰诺·库西:写作——审稿与编辑、监督。周俊:写作——审稿与编辑、验证
利益冲突声明
作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:
作者声明他们没有已知的财务利益或个人关系可能会影响本文报告的工作。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号