一种结合深度学习与视觉Transformer的可解释人工智能框架（XAI-CoffeeNet），用于沙特咖啡病害识别与严重度评估

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Smart Agricultural Technology》：An Explainable AI Framework (XAI-CoffeeNet) with Deep Learning and Vision Transformers for Saudi Coffee Disease Recognition and Severity Assessment

【字体：大中小】 时间：2026年06月01日 来源：Smart Agricultural Technology 5.7

编辑推荐：

　　本文提出了XAI-CoffeeNet，这是一种面向沙特阿拉伯Jazan高海拔咖啡种植园（1300–1400 m）自动化咖啡病害管理的可解释人工智能框架，具有三项核心创新：（i）一种混合卷积神经网络（CNN）–视觉Transformer（Vision Trans

本文提出了XAI-CoffeeNet，这是一种面向沙特阿拉伯Jazan高海拔咖啡种植园（1300–1400 m）自动化咖啡病害管理的可解释人工智能框架，具有三项核心创新：（i）一种混合卷积神经网络（CNN）–视觉Transformer（Vision Transformer, ViT）架构，并结合基于置信度的自适应特征融合机制，可动态平衡局部病斑特征与全局病害模式识别，从而解决单一架构方法仅能独立捕获局部或全局特征的局限性；（ii）一种双重局部可解释模型无关解释（Local Interpretable Model-agnostic Explanations, LIME）–SHapley加性解释（SHapley Additive exPlanations, SHAP）可解释性框架，提供互补的局部实例级与全局特征级可解释性，并通过专家标注病害区域进行验证（定位交并比（IoU）= 0.912），从而弥补单一方法XAI系统模型透明性不完整的不足；（iii）一个集成的定量严重度评估模块，可输出连续病害进展评分，且与受训农学标注之间呈高度相关（r = 0.924），从而实现超越二元病害分类的精准处理决策。Jazan地区的咖啡种植正面临植物病害带来的严峻挑战，这些病害会严重破坏偏远高海拔种植园的作物产量，而受训植物病理专家匮乏以及山地地形难以到达，使得传统专家监测方式既不切实际，也难以在经济上持续。该框架集成了LIME与SHAP双重可解释机制，并在Jazan地区18个农场、不同海拔与环境条件下完成验证。XAI-CoffeeNet在4类病害（健康、咖啡叶锈病、咖啡浆果病和细菌性枯萎病）的多类别检测中取得了96.7%的准确率、95.1%的F1值和0.989的AUC。严重度评估模块与受训农学标注的相关性达到0.924。数据集采用图像级而非农场级划分，因此所报告指标应被理解为性能上界估计。在观察性前后对照田间试验中，系统应用与杀虫剂/农药使用量降低37%以及作物产量提高19%相关，具体表现为在18个农场、8个月观察期内，农药使用量由48.3降至30.4 L/ha/season，产量由612增至728 kg/ha。

该文发表于《Smart Agricultural Technology》，围绕沙特阿拉伯Jazan省高海拔咖啡种植区病害智能监测难题，提出了一套兼顾识别性能、可解释性与田间应用价值的可解释人工智能框架XAI-CoffeeNet。研究背景在于，沙特“Vision 2030”推动农业多样化发展，Jazan山区1300–1400 m海拔条件适宜精品阿拉比卡咖啡种植，但这一高海拔生态位同时伴随复杂气候、昼夜温差、湿度梯度和山地阴影等环境因素，使咖啡病害的发生表现具有明显地域特异性。传统病害监测依赖人工巡检和专家经验，受限于山地交通不便、种植园分散以及专业植物病理人员短缺，不仅监测效率低，而且难以持续支撑病害早诊早治。与此同时，由于病害识别不确定，农户往往倾向于广谱、预防性施药，带来环境负担和经济成本。因此，开发一种能够在真实田间条件下稳定运行、并能向非专业用户清晰解释判断依据的智能病害识别系统，具有显著的农业生产和可持续发展意义。

针对上述问题，研究人员构建了一个融合卷积神经网络（CNN）与视觉Transformer（ViT）的混合识别框架，通过同时提取局部病斑纹理与全局病害分布模式，提高对高海拔咖啡叶片病害的判别能力；进一步引入双重可解释人工智能（XAI）机制，将LIME用于局部实例级可视化解释，将SHAP用于全局特征归因分析，并通过专家病斑标注区域验证解释结果的空间一致性；此外，系统还包含严重度回归分支，以连续分值形式量化病害发展程度，从而为精准施药和分级管理提供依据。研究结果表明，该框架在多类别咖啡病害识别中取得了较高性能，并在解释定位、严重度评估和观察性田间应用指标方面显示出良好效果。论文的核心结论是：XAI-CoffeeNet不仅能够较准确地识别沙特高海拔咖啡主要病害，还能通过双重解释机制提升模型透明度，并通过连续严重度评分增强其在精准农业决策中的实用价值。其重要意义在于，研究将混合深度学习架构、双XAI机制、严重度定量分析和田间观察性验证整合于统一框架，为高海拔特色咖啡种植区的智能病害管理提供了具有现实部署潜力的技术路线。

在技术方法上，研究以Saudi Specialty Coffee Leaf Dataset为基础，样本来源于Jazan地区18个咖啡农场，使用手机与相机设备在12个月、两个生长季内采集叶片图像，共形成11,000幅图像。方法上主要包括：其一，针对1300–1400 m高海拔成像条件设计海拔适应性预处理与标准化；其二，采用ResNet-50与ViT-Base双分支并行提取局部与全局特征，并通过可学习权重α实施自适应融合；其三，构建分类头与严重度回归头联合训练；其四，使用LIME与SHAP生成局部和全局解释，并以交并比（IoU）评价解释与专家标注病区的一致性；其五，通过18个农场的观察性前后对照部署评估系统与农药投入、产量和诊断效率变化之间的关联。

在研究结果部分，论文首先在“Classification Performance Results”中表明，XAI-CoffeeNet在图像级划分下实现了96.7%的准确率、95.1%的F1值和0.989的AUC，而在更严格的农场级留出协议下，准确率为93.4%，F1值为92.1%，AUC为0.976。该结果说明模型在不同评估协议下均表现稳健，同时图像级与农场级之间3.3个百分点的性能差距量化了同农场视觉相关性对结果上界的影响。与ResNet-50、DenseNet-121、EfficientNet-B4、ViT-Base、Swin-T、ConvNeXt-T、DeiT-Base及一般Hybrid CNN-ViT等基线相比，该框架在主要指标上具有竞争优势，并且多次独立运行结果显示性能波动较小，统计学检验支持其优于多个基线模型。

在“Per-Class Performance Analysis”中，研究进一步按类别报告了健康叶片、咖啡叶锈病（Coffee Leaf Rust, CLR）、咖啡浆果病（Coffee Berry Disease, CBD）和细菌性枯萎病（Bacterial Blight, BB）的精确率、召回率和F1值。结果显示，各类别识别性能整体较高，但在农场级协议下，病害类别相较健康类别出现更明显的性能下降，提示病害相关视觉模式具有更强的农场内相关性。该分析说明，严格的农场级划分对于评估真实部署场景下的泛化性能更为保守和可靠。

在“Architecture Ablation Study”中，研究通过消融实验分析各模块贡献。结果表明，ViT分支相对ResNet-50单独分支带来了最显著的准确率增益，说明全局上下文建模对于识别跨叶片扩展的病害模式十分关键；在此基础上，自适应融合优于简单拼接，证明动态平衡CNN与ViT分支信息更有效；焦点损失（focal loss）、融合一致性损失以及解释对齐损失分别带来小幅但稳定的性能提升。这一结果支持所提出体系并非仅依赖参数规模提升，而是得益于结构与训练目标的协同设计。

在“Computational Efficiency Analysis”中，研究报告了系统在NVIDIA RTX 3090环境下的推理和解释开销。XAI-CoffeeNet分类推理时间为58.3 ms，显存占用697 MB，参数量112.4 M，表明其在高性能硬件上具有可接受的推理效率。与此同时，双重LIME–SHAP解释平均每幅图像需要15.2 s，说明解释模块更适用于按需触发或批量决策支持，而非持续实时运行。论文据此提出实际部署中可将分类持续运行，而在低置信度、高严重度或用户主动请求时再启动解释计算。

在“Disease Severity Assessment Results”中，研究验证了严重度评估模块对病情连续量化的有效性。该模块与受训农学标注的平均相关系数达到0.924，R²为0.854，平均绝对误差（MAE）为0.086，均方根误差（RMSE）为0.127。分病种看，咖啡叶锈病的相关性最高，而细菌性枯萎病相对更具挑战。结果表明，该模块能够较可靠地反映病害发展程度，为区别轻、中、重度病情和制定差异化管理策略提供量化支持。

在“Cross-Validation and Generalization”中，研究考察了不同海拔区间之间的迁移表现。结果显示，当在1300–1350 m与1350–1400 m海拔带之间交叉训练和测试时，准确率下降幅度仅为2.5–2.9个百分点；采用混合海拔训练时，性能下降进一步缩小至0.4个百分点。5折交叉验证同样给出了较稳定结果，说明模型在目标部署区域内具备较好的跨海拔泛化能力。

在“External Validation”中，研究将模型零样本应用于两个公开咖啡病害数据集RoCoLe与BRACOL。结果分别达到89.3%和87.6%的准确率，AUC分别为0.951和0.943。虽然相较域内测试有所下降，但论文将其归因于地理区域、成像条件、叶片形态和病害表现差异带来的域偏移。这说明XAI-CoffeeNet在外部数据上仍保有有意义的判别能力，同时也提示跨区域部署仍需进一步微调与验证。

在“Explainability and User Study Evaluation”相关结果中，研究通过专家逐像素病区标注，对LIME、SHAP及其组合的定位效果进行了量化评估。组合LIME–SHAP的IoU达到0.912，优于单独LIME和单独SHAP；当模型权重随机化后，IoU降至0.213，支持解释结果具有模型依赖性而非视觉伪影。专家用户对解释定位质量和实用性评分均为8.9/10，农户满意度为9.1/10，说明双重解释机制在技术和使用层面都具有较高可接受性。

在“Field Trial Design and Impact Measurement”及相关结果中，研究开展了18个农场、8个月的观察性前后对照部署评估。结果显示，系统应用与农药使用量从48.3降至30.4 L/ha/season相关，降幅37%；产量从612升至728 kg/ha，增幅19%；单次田间病害检测时间从4.2 h降至约31 min，减少87.5%；漏检导致进展至重症阶段的事件数由每农场每季3.1次降至0.8次。论文明确指出，这些结果反映的是“与系统采用相关”的关联性观察，而非因果推断，但仍为其实际应用可行性提供了初步证据。

在讨论部分，研究人员认为，XAI-CoffeeNet优于各类基线的根本原因在于CNN与ViT的互补性：前者擅长提取病斑边界、纹理和颜色变化等局部信息，后者更适于建模跨叶片范围的空间依赖和全局病害格局。双重LIME–SHAP框架则弥补了单一解释方法在局部或全局层面的不足，提高了模型透明度与使用信任。结合田间观察性结果，研究认为该系统可支持更具选择性的干预策略，减少不必要施药，提高生产效率，并契合沙特“Vision 2030”关于农业可持续化、资源高效利用与环境影响降低的政策方向。论文同时严格指出其局限性，包括：图像级划分结果属于性能上界，农场级测试更能反映泛化能力；严重度标注主要依赖单一标注者，存在主观性；田间研究为非随机、无对照的观察性设计，不能据此得出因果结论；验证区域限于Jazan；仅覆盖4类病害；解释计算开销较大；边缘设备部署尚未完成实测。未来工作将围绕农场级分组交叉验证、多标注者严重度标注、随机对照田间试验、模型压缩、联邦学习及多作物扩展展开。

论文结论部分可译为：本文提出了XAI-CoffeeNet，这是一种专门用于识别和量化沙特高海拔咖啡病害及其严重度的可解释人工智能框架，结合了混合深度学习架构和双重可解释机制。通过融合卷积神经网络与视觉Transformer，该框架能够同时捕获叶片表面的精细局部病斑特征和全局病害模式，而LIME与SHAP的集成则提供了多层次、可解释的模型决策说明。XAI-CoffeeNet在Saudi Specialty Coffee Leaf Dataset上取得了96.7%的准确率、95.1%的宏平均F1值和0.989的AUC；严重度评估模块与受训农学标注之间的相关性达到0.924；双重LIME–SHAP框架实现了0.912的定位IoU。在观察性田间试验中，系统采用与18个农场农药使用量降低37%、作物产量提高19%相关。总体而言，该研究推动了智慧农业中可解释计算机视觉的发展，并通过促进更高效、更透明、更可持续的农业实践，直接服务于沙特“Vision 2030”。

联系信箱：

粤ICP备09063491号

热点排行