FragSAM：面向多工程场景的近实时岩石碎屑分割与粒径分布分析框架

《International Journal of Mining Science and Technology》：FragSAM: Near real-time rock fragment segmentation for size distribution analysis across diverse engineering domains

【字体：大中小】 时间：2026年04月11日 来源：International Journal of Mining Science and Technology 13.7

编辑推荐：

　　为解决岩石碎屑尺寸分布（FSD）传统筛分法耗时费力、现有深度学习方法跨场景泛化差等问题，本研究提出FragSAM框架，集成增强SAM自动标注与轻量化EdgeSAM，实现近实时高精度碎屑分割，在爆破、TBM渣土等多场景验证了强鲁棒性与工程实用性。

在采矿、隧道掘进等地下工程中，岩石破碎后的碎屑尺寸分布（Fragment Size Distribution, FSD）直接影响爆破设计优化、机械开挖效率及填筑材料选择，是工程精细化管控的核心参数。传统依赖人工筛分的FSD分析方法虽精度高，却存在耗时长、无法实时反馈、难以大规模应用的痛点。近年来，随着高清成像设备的普及，基于图像的FSD分析成为热门替代方案——早期依靠边缘检测、阈值分割等传统图像处理算法，虽在受控环境下表现尚可，但在现场复杂光照、碎屑重叠、噪声干扰下性能骤降，且需针对不同场景反复调参，泛化能力堪忧。

深度学习方法的兴起为这一问题带来转机：语义分割与实例分割模型在特定场景数据集上展现出高精度，却陷入“案例依赖”困境——面对新工点的碎屑形态、光照条件变化，往往需重新采集数据、人工标注、训练模型，成本高昂且时效性差。更棘手的是，密集碎屑场景下的复杂后处理步骤会引发计算瓶颈，难以满足现场实时监测需求。如何突破“精度-泛化-效率”的三重矛盾，开发一种无需人工干预、跨场景通用、近实时的岩石碎屑分割框架，成为工程视觉领域的迫切课题。

在此背景下，由Yudi Tang、Yulin Wang、Jixiong Zhang等学者组成的研究团队，在《International Journal of Mining Science and Technology》发表了题为“FragSAM: Near real-time rock fragment segmentation for size distribution analysis across diverse engineering domains”的研究论文，提出全新框架FragSAM。该工作巧妙融合了分割基础模型Segment Anything Model（SAM）的泛化能力与轻量化架构的效率优势，通过两阶段设计化解密集碎屑分割难题：第一阶段用增强SAM自动生成高质量标注，训练改进的CenterNet精准预测碎屑质心；第二阶段以质心为提示驱动轻量EdgeSAM完成分割，摆脱对密集网格提示与繁重后处理的依赖，最终实现无需人工标注、跨场景适配、近实时的FSD分析。

为验证框架有效性，研究团队构建了涵盖爆破碎屑、隧道掘进机（Tunnel Boring Machine, TBM）渣土、海岸卵石的多场景数据集，并与主流SAM变体及监督学习模型对比。结果表明，FragSAM在分割精度（mAP₅₀达0.687）、推理速度（4.04 FPS）与模型复杂度（21.3 M参数）间取得最佳平衡，尤其在低光照、碎屑粘连等挑战场景下，其边界识别完整度显著优于Mask R-CNN等传统方法，且无需针对新场景微调，展现出极强的工程落地潜力。

本研究的核心技术方法包括：①多尺度裁剪与自适应参数调整的增强SAM自动标注，提升不同尺寸碎屑的分割质量；②基于改进CenterNet的上下文感知提示生成模块，精准预测碎屑质心替代密集网格提示；③轻量化EdgeSAM（RepViT编码器）的集成，实现高效分割；④多场景数据集（爆破/TBM渣土/海岸卵石）构建与COCO格式评估体系，确保验证全面性。

4.1 增强SAM的标注准确性评估

通过对比原生SAM不同参数配置（如point_per_side=32/64、crop_n_layer=0/1）与增强SAM的性能，发现增强SAM通过ResNet18预分类碎屑密度（稀疏/中等/密集），动态调整多尺度开关与参数，在保证精度的同时大幅提升效率：密集小碎屑场景下mAP达0.632（同最优原生配置），稀疏场景仅需2.05秒/图，实现“精度-速度”的自适应平衡。

4.2 提示生成模块的性能

改进的CenterNet以掩码质心为回归目标，简化原有多姿态分支，专注单关键点（碎屑质心）预测。验证集上，模型在Object Keypoint Similarity（OKS）阈值σ=0.1时mAP达0.721，σ=0.15时升至0.825，即使在碎片超1100个的极密集图像中，仍能稳定定位超1000个质心，证明其对密集重叠场景的强适应性。

4.3 FragSAM与现有模型的对比分析

4.3.1 SAM类方法对比

相比Grid_SAM（密集网格提示）、Grid_EdgeSAM等，FragSAM以质心提示取代网格提示，在保持相近精度（mAP=0.470）的同时，推理速度提升至4.04 FPS（约为Grid_SAM的8倍），模型参数量降至21.3 M，有效解决密集提示的计算冗余问题。

4.3.2 监督学习方法对比

与Mask R-CNN、Solov2、RTMDet对比，FragSAM的mAP₅₀（0.687）最高，尤其在密集碎屑场景下，其边界分割完整度优于易漏检小碎屑的监督模型，且模型更轻量，更适合资源受限的边缘设备部署。

5.1 案例A：爆破碎屑场景

面对粉尘、阴影、碎屑高度重叠的挑战，FragSAM成功分离接触碎屑，边界清晰；而Mask R-CNN常出现欠分割与漏检。定量统计显示，其碎片面积与尺寸累积分布函数（Cumulative Distribution Function, CDF）与人工标注高度一致，仅对大碎屑的估计略保守。

5.2 案例B：TBM渣土场景

低照度、低对比度条件下，FragSAM仍能保持边界辨识能力，仅在与泥土混合的弱边界区域偶现合并错误；统计上中值尺寸d₅₀与标注吻合，再证其在恶劣环境中的稳定性。

5.3 案例C：海岸卵石场景

非工程自然场景测试中，FragSAM对圆滑卵石的边界分割效果显著优于Mask R-CNN，其d₁₀、d₅₀、d₉₀特征尺寸与人工测量偏差极小，凸显跨域泛化能力。

5.4 讨论

研究从学习复杂性角度指出：FragSAM将密集掩码预测简化为稀疏提示生成，比Mask R-CNN的端到端掩码学习更易泛化；尺寸统计显示其中等碎屑（d₅₀）预测最准，小碎屑稍敏感，大碎屑略保守；计算效率上，稀疏场景达18.3 FPS（接近实时），高密场景（>500碎屑）约0.9 FPS，满足多数工程监测需求。

综上所述，FragSAM的创新在于：一是通过增强SAM与改进CenterNet的级联，解决了无标注数据的自动生成与精准提示难题；二是轻量化EdgeSAM的引入，打破原始SAM的算力瓶颈；三是多场景验证证明了“一次开发、多处适用”的泛化优势。未来若结合立体视觉或LiDAR获取真实尺度，将进一步推动全自动物理尺寸FSD分析的实现。这项工作不仅为工程岩体破碎评估提供了高效工具，也为基础模型在工业视觉中的轻量化落地提供了可复用的技术范式。