综述：机器学习与深度学习方法在绘画风格分类中的综述

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《AI》：An Overview of Machine Learning and Deep Learning Methods for Style Classification in Paintings

【字体：大中小】 时间：2026年06月10日 来源：AI 5

编辑推荐：

　　本综述旨在概述将绘画分类到其所属艺术运动（Artistic Movement）的人工智能（Artificial Intelligence, AI）方法。为实现此目标，研究人员对2014–2024年期间的研究文章进行了文献综述。科学文章的检索在Scopus数据库

本综述旨在概述将绘画分类到其所属艺术运动（Artistic Movement）的人工智能（Artificial Intelligence, AI）方法。为实现此目标，研究人员对2014–2024年期间的研究文章进行了文献综述。科学文章的检索在Scopus数据库中进行。初始检索产生492篇出版物，经过连续的筛选和全文评估阶段，最终选出39篇文章进行详细分析。综述呈现了：(a) 研究中使用的数据集（Datasets），(b) 所考察的艺术运动（Artistic Movement）范围，以及(c) 从机器学习（Machine Learning, ML）到深度神经网络（Deep Neural Networks, DNNs）和迁移学习（Transfer Learning, TL）的计算方法。强调了方法学问题，如样本的类别不平衡（Class Imbalance）、数据集偏差（Dataset Bias）以及常用评估指标（Evaluation Metrics）的局限性。总体发现是应用了多种方法论，深度学习和迁移学习模型的使用日益增多，据报告这些模型在特定数据集和实验协议内常常是有效的。最后，综述提供了一个方法论分类法（Taxonomy of Methodologies），并描绘了过去十年绘画风格分类研究的趋势和研究空白，同时为未来研究提出了建议。

在“2. 综述方法”部分，该综述在Scopus数据库中检索了2014–2024年间关于绘画风格分类的文献，采用布尔查询结合风格检测/分类/识别与绘画/艺术品等关键词，经过PRISMA原则指导的筛选与全文评估，最终纳入39篇论文。筛选排除标准包括未使用机器学习或深度学习、未聚焦于绘画风格分类，以及非英文文献。记录的信息涵盖标题、年份、任务、数据集、预处理方法、学习模型及性能指标，并基于数据集、艺术运动、计算方法和结果评估四个轴线进行结构化分析。

在“3. 数据集和艺术运动”部分，该综述将数据集分为两大类：用于艺术风格和创作者分类的专业数据集，以及用于审美和情感分析的数据集。专业数据集包括WikiArt（约250,000幅图像，218种风格）、Painting-91（4,266图像，91位艺术家，13种运动）、Pandora18k（18,040图像，18种运动）、MultitaskPainting100k（约100,000图像）、OilPainting（19,787图像，17种风格）、Web Gallery of Art (WGA)（32,438图像）、Oxford VGG（8,629图像）、Painter by Numbers（103,250图像）和TICC（58,630图像）。用于审美分析的数据集包括AVA（超过250,000幅摄影作品）和FLICKR-Style（80,000张照片）。研究发现，WikiArt因规模大、风格覆盖广而被广泛使用，但其元数据由用户定义而非专家，存在类别不平衡、异质性和潜在重复等问题。Pandora18k的元数据由艺术专家标注，可靠性更高。Painting-91被报告为类别分布平衡。综述还指出，大多数研究聚焦于西方艺术运动，如印象派、立体主义、现实主义、巴洛克、浪漫主义、后印象派、表现主义和超现实主义，而澳大利亚土著艺术、拜占庭艺术和日本浮世绘等非西方运动代表性不足，导致文化覆盖偏差。

在“4. 计算方法”部分，该综述对方法进行了分类。在“4.1 机器学习”中，传统方法依赖手工特征描述子，如局部特征（尺度不变特征变换SIFT、DAISY、方向梯度直方图HOG）和全局特征（GIST、灰度共生矩阵GLCM），以及将局部特征转化为全局特征的费舍尔向量FV。相似性与复杂性指标包括归一化压缩距离NCD、结构相似性指数SSIM和块分解方法BDM。监督学习方法常用支持向量机SVM和随机森林RF，结合颜色与纹理描述子，在风格分类上报告了50%–93%的准确率（因数据集和协议而异）。无监督学习方法采用K-means、自组织映射SOM等，在风格分类上报告了65%–91%的准确率，但结果受限于数据集和任务设置。综述强调，特征描述子与SVM的组合在优化设置下表现良好，但类别不平衡问题普遍被忽略。

在“4.2 深度学习”中，卷积神经网络（CNN）被广泛应用，包括VGG-16/19、残差网络ResNet、InceptionV2/V3、EfficientNet等。这些模型在艺术家、风格和体裁分类任务中报告了不同准确率：艺术家分类57%–80%，风格分类51.5%–99.7%，体裁分类58%–79%。综述指出，VGG架构因其深度和层次特征学习能力而常见，ResNet通过残差连接缓解梯度消失，Inception和EfficientNet在更深的架构中表现更优。迁移学习（Transfer Learning, TL）方法利用在大型数据集（如ImageNet）上预训练的模型进行微调或特征提取，在风格分类上达到约80%的准确率（特定设置下），且深层模型（如InceptionV3、EfficientNet）优于浅层模型（如AlexNet）。集成方法包括Boosted Ensemble SVM（约83%）和Stacking Ensemble（基于八种CNN架构），报告了约73%的准确率。混合方法结合深度学习特征提取与传统分类器，如OverFeat+SVM（约65%）或K-means+神经网络（NN）并采用合成少数类过采样技术SMOTE和PPReLU激活函数，报告了约92%的准确率。基于Transformer的模型采用视觉Transformer ViT和多层感知机混合器MLP-Mixer，在WiKiArt上仅报告39%的准确率，归因于未进行大规模预训练和不平衡数据。

在“5. 讨论”部分，该综述针对研究问题进行了分析。在“5.1 数据集与艺术运动（RQ1–RQ2）”中，强调数据集特性（如标签质量、类别平衡、文化覆盖）对模型性能的关键影响，并指出WiKiArt的主导地位和西方中心覆盖导致泛化局限性。在“5.2 计算方法（RQ3）”中，指出深度学习与迁移学习已成为主流方法，但不同研究因数据集和实验协议差异难以直接比较性能。传统方法在优化设置下可达较高准确率，而深度学习方法在更大量数据下表现更优。集成和混合方法通过组合模型提升鲁棒性，Transformer方法虽有潜力但当前报告性能较低。在“5.3 局限与挑战（RQ4）”中，识别出多个问题：数据集偏差（WiKiArt主导、类别不平衡、西方中心覆盖）导致夸大准确率；评估指标单一（约84.6%的研究仅使用准确率），忽略宏F₁、精确率、召回率等更鲁棒指标；缺乏跨数据集泛化验证和模型可解释性评估；实际部署证据不足。建议采用固定训练/验证/测试划分、重复数据移除、艺术家无关分割、跨数据集测试以及可解释AI方法（如Grad-CAM和显著性图）。在“5.4 研究局限”中，承认仅依赖Scopus数据库、关键词选择限制、时间范围2014–2024、缺乏定量元分析以及方法论分布不平衡（CNN占22篇）等局限性。最后，在“5.5 未来研究”中，建议构建文化覆盖均衡、元数据可靠的数据集，使用鲁棒指标（宏F₁、精确率、召回率），进行跨数据集评估，并纳入可解释性。作者计划以希腊画家绘画为起点建立平衡数据库，并结合物谱分析、傅里叶变换和分形理论等物理科学方法进行预处理与分析。

联系信箱：

粤ICP备09063491号

热点排行