《AI》:An Overview of Machine Learning and Deep Learning Methods for Style Classification in Paintings
编辑推荐:
本综述旨在概述将绘画分类到其所属艺术运动(Artistic Movement)的人工智能(Artificial Intelligence, AI)方法。为实现此目标,研究人员对2014–2024年期间的研究文章进行了文献综述。科学文章的检索在Scopus数据库
本综述旨在概述将绘画分类到其所属艺术运动(Artistic Movement)的人工智能(Artificial Intelligence, AI)方法。为实现此目标,研究人员对2014–2024年期间的研究文章进行了文献综述。科学文章的检索在Scopus数据库中进行。初始检索产生492篇出版物,经过连续的筛选和全文评估阶段,最终选出39篇文章进行详细分析。综述呈现了:(a) 研究中使用的数据集(Datasets),(b) 所考察的艺术运动(Artistic Movement)范围,以及(c) 从机器学习(Machine Learning, ML)到深度神经网络(Deep Neural Networks, DNNs)和迁移学习(Transfer Learning, TL)的计算方法。强调了方法学问题,如样本的类别不平衡(Class Imbalance)、数据集偏差(Dataset Bias)以及常用评估指标(Evaluation Metrics)的局限性。总体发现是应用了多种方法论,深度学习和迁移学习模型的使用日益增多,据报告这些模型在特定数据集和实验协议内常常是有效的。最后,综述提供了一个方法论分类法(Taxonomy of Methodologies),并描绘了过去十年绘画风格分类研究的趋势和研究空白,同时为未来研究提出了建议。
在“2. 综述方法”部分,该综述在Scopus数据库中检索了2014–2024年间关于绘画风格分类的文献,采用布尔查询结合风格检测/分类/识别与绘画/艺术品等关键词,经过PRISMA原则指导的筛选与全文评估,最终纳入39篇论文。筛选排除标准包括未使用机器学习或深度学习、未聚焦于绘画风格分类,以及非英文文献。记录的信息涵盖标题、年份、任务、数据集、预处理方法、学习模型及性能指标,并基于数据集、艺术运动、计算方法和结果评估四个轴线进行结构化分析。
在“3. 数据集和艺术运动”部分,该综述将数据集分为两大类:用于艺术风格和创作者分类的专业数据集,以及用于审美和情感分析的数据集。专业数据集包括WikiArt(约250,000幅图像,218种风格)、Painting-91(4,266图像,91位艺术家,13种运动)、Pandora18k(18,040图像,18种运动)、MultitaskPainting100k(约100,000图像)、OilPainting(19,787图像,17种风格)、Web Gallery of Art (WGA)(32,438图像)、Oxford VGG(8,629图像)、Painter by Numbers(103,250图像)和TICC(58,630图像)。用于审美分析的数据集包括AVA(超过250,000幅摄影作品)和FLICKR-Style(80,000张照片)。研究发现,WikiArt因规模大、风格覆盖广而被广泛使用,但其元数据由用户定义而非专家,存在类别不平衡、异质性和潜在重复等问题。Pandora18k的元数据由艺术专家标注,可靠性更高。Painting-91被报告为类别分布平衡。综述还指出,大多数研究聚焦于西方艺术运动,如印象派、立体主义、现实主义、巴洛克、浪漫主义、后印象派、表现主义和超现实主义,而澳大利亚土著艺术、拜占庭艺术和日本浮世绘等非西方运动代表性不足,导致文化覆盖偏差。
在“4. 计算方法”部分,该综述对方法进行了分类。在“4.1 机器学习”中,传统方法依赖手工特征描述子,如局部特征(尺度不变特征变换SIFT、DAISY、方向梯度直方图HOG)和全局特征(GIST、灰度共生矩阵GLCM),以及将局部特征转化为全局特征的费舍尔向量FV。相似性与复杂性指标包括归一化压缩距离NCD、结构相似性指数SSIM和块分解方法BDM。监督学习方法常用支持向量机SVM和随机森林RF,结合颜色与纹理描述子,在风格分类上报告了50%–93%的准确率(因数据集和协议而异)。无监督学习方法采用K-means、自组织映射SOM等,在风格分类上报告了65%–91%的准确率,但结果受限于数据集和任务设置。综述强调,特征描述子与SVM的组合在优化设置下表现良好,但类别不平衡问题普遍被忽略。
在“4.2 深度学习”中,卷积神经网络(CNN)被广泛应用,包括VGG-16/19、残差网络ResNet、InceptionV2/V3、EfficientNet等。这些模型在艺术家、风格和体裁分类任务中报告了不同准确率:艺术家分类57%–80%,风格分类51.5%–99.7%,体裁分类58%–79%。综述指出,VGG架构因其深度和层次特征学习能力而常见,ResNet通过残差连接缓解梯度消失,Inception和EfficientNet在更深的架构中表现更优。迁移学习(Transfer Learning, TL)方法利用在大型数据集(如ImageNet)上预训练的模型进行微调或特征提取,在风格分类上达到约80%的准确率(特定设置下),且深层模型(如InceptionV3、EfficientNet)优于浅层模型(如AlexNet)。集成方法包括Boosted Ensemble SVM(约83%)和Stacking Ensemble(基于八种CNN架构),报告了约73%的准确率。混合方法结合深度学习特征提取与传统分类器,如OverFeat+SVM(约65%)或K-means+神经网络(NN)并采用合成少数类过采样技术SMOTE和PPReLU激活函数,报告了约92%的准确率。基于Transformer的模型采用视觉Transformer ViT和多层感知机混合器MLP-Mixer,在WiKiArt上仅报告39%的准确率,归因于未进行大规模预训练和不平衡数据。
在“5. 讨论”部分,该综述针对研究问题进行了分析。在“5.1 数据集与艺术运动(RQ1–RQ2)”中,强调数据集特性(如标签质量、类别平衡、文化覆盖)对模型性能的关键影响,并指出WiKiArt的主导地位和西方中心覆盖导致泛化局限性。在“5.2 计算方法(RQ3)”中,指出深度学习与迁移学习已成为主流方法,但不同研究因数据集和实验协议差异难以直接比较性能。传统方法在优化设置下可达较高准确率,而深度学习方法在更大量数据下表现更优。集成和混合方法通过组合模型提升鲁棒性,Transformer方法虽有潜力但当前报告性能较低。在“5.3 局限与挑战(RQ4)”中,识别出多个问题:数据集偏差(WiKiArt主导、类别不平衡、西方中心覆盖)导致夸大准确率;评估指标单一(约84.6%的研究仅使用准确率),忽略宏F
1、精确率、召回率等更鲁棒指标;缺乏跨数据集泛化验证和模型可解释性评估;实际部署证据不足。建议采用固定训练/验证/测试划分、重复数据移除、艺术家无关分割、跨数据集测试以及可解释AI方法(如Grad-CAM和显著性图)。在“5.4 研究局限”中,承认仅依赖Scopus数据库、关键词选择限制、时间范围2014–2024、缺乏定量元分析以及方法论分布不平衡(CNN占22篇)等局限性。最后,在“5.5 未来研究”中,建议构建文化覆盖均衡、元数据可靠的数据集,使用鲁棒指标(宏F
1、精确率、召回率),进行跨数据集评估,并纳入可解释性。作者计划以希腊画家绘画为起点建立平衡数据库,并结合物谱分析、傅里叶变换和分形理论等物理科学方法进行预处理与分析。