基于冻结预训练ResNet-50特征提取的小样本风格化图像分类：固定划分与交叉验证的性能评估

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Future Internet》：Transfer Learning Strategies for Comic Character Recognition in Low-Data Regimes: A Comparative Study Marco Parrillo, Luigi Laura and Alessandro Manna

【字体：大中小】 时间：2026年04月06日 来源：Future Internet 3.6

编辑推荐：

　　本研究针对小样本风格化图像分类任务中存在的过拟合与评估偏差问题，研究人员采用四种卷积神经网络架构开展系统性对比实验。实验基于Dilbert漫画角色数据集（含Boss、Dilbert、Dogbert及Unknown四类），通过固定70/20/10数据划分与5折交

本研究针对小样本风格化图像分类任务中存在的过拟合与评估偏差问题，研究人员采用四种卷积神经网络架构开展系统性对比实验。实验基于Dilbert漫画角色数据集（含Boss、Dilbert、Dogbert及Unknown四类），通过固定70/20/10数据划分与5折交叉验证（k-fold cross-validation）的双重评估框架，量化分析正则化、数据增强及迁移学习策略对模型性能的影响。结果表明：自定义CNN架构在固定划分下易出现验证损失发散（divergence）与未知类（Unknown）识别率低下的问题；引入预训练ResNet-50的特征提取（feature extraction）方法可实现95.0%的交叉验证准确率（SD=±0.4%），其泛化稳定性显著优于微调（fine-tuning）策略（方差降低76%）。研究证实在小样本场景下，冻结（freezing）预训练权重的特征提取方案能以更低的计算成本获得与微调相当的性能，且该结论通过配对t检验（paired t-test）验证（t=0.00, p=1.000）。实验结果同时揭示固定数据划分会高估模型性能（微调组固定划分准确率达98.5%，但交叉验证仅95.0%），强调交叉验证在低数据量场景下的必要性。

研究背景与问题

当前小样本视觉识别研究普遍面临两个核心挑战：一是有限训练数据导致自定义卷积神经网络（Convolutional Neural Network, CNN）易出现过拟合，尤其在处理风格化图像（如漫画、插画）时泛化能力不足；二是单一固定数据划分（fixed data split）会产生评估偏差，掩盖模型真实的泛化缺陷。现有研究多采用单一测试集评估，缺乏对统计显著性（statistical significance）的验证，导致结论可靠性存疑。本研究以Dilbert漫画角色分类为对象，旨在解决三个具体问题：（1）如何平衡模型复杂度与数据规模以避免过拟合；（2）如何量化评估不同训练策略在未知类（out-of-distribution samples）识别上的差异；（3）如何通过严谨的统计方法验证架构改进的实际增益。

技术方法

研究人员构建了四阶段对比实验体系：第一阶段采用基础CNN（CNN Baseline）与正则化CNN（CNN+Regularization，含Dropout与数据增强）作为基线模型；第二阶段引入预训练ResNet-50的两种迁移学习策略——特征提取（冻结backbone，仅训练全连接层）与微调（解冻conv5_x块进行端到端训练）；第三阶段通过固定70/20/10划分计算加权（weighted-average）与宏平均（macro-average）指标，并结合95%威尔逊置信区间（Wilson score confidence interval）评估不确定性；第四阶段采用5折交叉验证（5-fold cross-validation）计算折叠间方差（variance），并通过配对t检验（paired t-test）验证性能差异的显著性。数据集包含69个测试样本（每类约20个命名类样本，Unknown类9个），所有实验均基于相同的数据预处理流程。

研究结果

3.7.1 基础CNN：加权F1分数（weighted F1-score）达0.710，但宏平均F1（macro F1-score）仅0.677，差距源于Unknown类F1（0.471）显著低于命名类（0.811-0.857）。95%置信区间显示各类别召回率重叠度高（如Boss召回率[0.531, 0.888]），证实单划分评估不可靠。

3.7.2 带正则化的CNN：命名类召回率提升至85%（置信区间[0.640, 0.948]），但Unknown类召回率降至33%（[0.121, 0.646]），表明正则化以牺牲少数类性能为代价提升整体平衡性。

3.7.3 预训练ResNet-50特征提取：加权F1提升至0.817，宏平均F1差距缩小至0.028，Unknown类精确率达1.000（4/4预测正确），但置信区间仍宽（[0.510, 1.000]）。

3.7.4 预训练ResNet-50微调：固定划分准确率达98.5%，但交叉验证显示其与特征提取无显著差异（t=0.00, p=1.000），且方差更高（0.58 vs. 0.14）。

4.4 K折交叉验证：特征提取模型实现最低方差（0.14）与最高稳定性，微调虽增加15倍可训练参数（16,029,188 vs. 1,051,140），但未带来泛化增益。

讨论与结论

研究通过统计验证推翻了“微调必然优于特征提取”的传统认知，证实在小样本风格化图像分类中，冻结预训练ResNet-50的特征提取方案是更优选择：其一，两者交叉验证准确率均为95.0%，无统计差异（p=1.000）；其二，特征提取训练成本降低15倍，收敛更快且方差更小；其三，固定划分下的98.5%准确率被证实为分区敏感性（partition sensitivity）导致的评估伪影（evaluation artifact）。这一结论对低资源场景下的迁移学习应用具有重要指导意义，研究人员建议优先采用冻结特征提取而非微调。未来工作需在更大规模跨风格漫画数据集（如Graphic Narrative Corpus）上验证该结论的普适性，并探索开放集识别（Open-Set Recognition, OSR）方法以提升Unknown类的检测能力。

联系信箱：

粤ICP备09063491号

热点排行