《Neurocomputing》:Towards a validation-less approach for small data: training with neural velocity
编辑推荐:
吉安卢卡·达尔马索(Gianluca Dalmasso)| 安德烈亚·布拉加尼奥洛(Andrea Bragagnolo)| 恩佐·塔尔塔格利奥内(Enzo Tartaglione)| 阿蒂利奥·菲安德罗蒂(Attilio Fiandrotti)| 马可·格兰杰托(Marco Gr
吉安卢卡·达尔马索(Gianluca Dalmasso)| 安德烈亚·布拉加尼奥洛(Andrea Bragagnolo)| 恩佐·塔尔塔格利奥内(Enzo Tartaglione)| 阿蒂利奥·菲安德罗蒂(Attilio Fiandrotti)| 马可·格兰杰托(Marco Grangetto)
意大利都灵大学
摘要
通常通过评估保留的验证集上的损失来调整超参数,如学习率衰减和停止条件。本文引入了“神经速度”(NeVe)这一概念,即神经元传递函数的变化率,作为模型收敛的新指标。我们利用NeVe创建了一种动态训练方法,根据从噪声采样生成的辅助数据集计算出的神经速度来调整学习率和停止条件。我们在多种任务和架构上的实验表明,我们的方法与传统基于验证的方法表现相当,在某些任务中甚至更胜一筹。该方法不需要保留数据用于验证,因此在数据有限的场景中特别有利。这项工作突显了神经速度作为优化神经网络训练的关键指标的潜力。
引言
近年来,人工智能取得了前所未有的进展,这得益于可用数据的激增和强大的深度学习技术。然而,尽管取得了这些显著成就,但训练数据有限所带来的挑战仍然是开发稳健且泛化能力强的模型的关键瓶颈。在处理小数据时,这一问题尤为突出,因为获取标记数据的成本过高或不切实际[22],[40]。这导致了使用小数据集训练的多方面问题,影响了模型性能、泛化能力以及计算机视觉系统的整体效果。由于实例的稀缺性,模型往往只能记住特定特征而非潜在模式,从而缺乏多样化的表示,阻碍了它们对现实世界变化的适应能力。因此,在多样化和动态环境中部署此类模型变得非常危险,这凸显了解决小数据问题的紧迫性。超参数调整在缓解数据有限带来的影响方面起着关键作用。
章节片段
相关工作
在本节中,我们简要介绍了超参数调整策略,这些策略对于优化和泛化机器学习模型至关重要。我们涵盖了经典方法和最新进展。然后,我们重点讨论了与本研究相关的两个方面:调整学习率衰减策略(影响收敛速度和整体性能)以及设计停止标准(防止过拟合并确保高效训练)。
提出的方法
在本节中,我们首先初步介绍了神经元输入输出函数如何随权重变化而演变(第3.1节)。受此启发,并为了克服分析解的局限性,我们提出了一种实用的方法来测量这种演变,该方法对任意网络拓扑和输入数据分布都具有鲁棒性。为此,我们引入了“神经速度”这一关键概念作为变化率的估计器。
实验结果
在本节中,我们在不同的计算机视觉任务上对NeVe进行了实验,包括图像分类和语义分割。对于每个任务,我们将NeVe与最先进的训练程序进行了比较。此外,我们还测试了一种使用实际验证集上的损失度量来模拟我们程序简单版本的变体。所有实验均使用NVIDIA A40 GPU和PyTorch 1.13.1进行。
消融研究
本节介绍了一系列消融研究,旨在分析NeVe的不同方面及其各个组件的贡献。通过这些实验,我们系统地研究了关键设计选择、超参数设置和替代评估策略对模型性能的影响。所有实验都在CIFAR100数据集上使用ResNet32模型进行,超参数设置与第4.2节中描述的一致,除非另有说明。
结论
本文提出了“神经速度”作为训练动态的原理性度量,并展示了将这一信息整合到学习过程中的有效策略。通过使用神经速度来指导学习率调度和提前停止,NeVe消除了对验证数据的需求,并大幅减少了通常所需的超参数调整工作量。在所有评估的任务中,NeVe的准确性与标准训练流程相当,同时
CRediT作者贡献声明
吉安卢卡·达尔马索(Gianluca Dalmasso):撰写——审稿与编辑、原始草稿撰写、软件开发、方法论设计、调查实施、形式分析。安德烈亚·布拉加尼奥洛(Andrea Bragagnolo):撰写——审稿与编辑、软件开发、方法论设计。恩佐·塔尔塔格利奥内(Enzo Tartaglione):撰写——审稿与编辑、监督指导、方法论设计。阿蒂利奥·菲安德罗蒂(Attilio Fiandrotti):撰写——审稿与编辑、监督指导、方法论设计。马可·格兰杰托(Marco Grangetto):撰写——审稿与编辑、监督指导、方法论设计。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文的研究结果。
致谢
本文得到了法国国家研究机构(ANR)在JCJC项目“BANERA”(ANR-24-CE23-4369)框架下的支持,以及Hi!PARIS数据分析和人工智能中心的支持。
吉安卢卡·达尔马索(Gianluca Dalmasso)是Synesthesia Srl公司的机器学习开发者,致力于开发多个领域的对象检测应用程序。他于2022年在意大利都灵大学获得计算机工程硕士学位,目前在同一机构攻读博士学位。他的主要研究兴趣包括3D建模、合成数据生成和计算机视觉。