槟榔江 buffalo（Binglangjiang buffalo）体型测量关键点数据集构建及基于DINOv2的单视角非接触式体长测量方法

《AgriEngineering》：Pre-Sowing Treatment of Soybean Seeds in a High-Voltage DC and AC Electric Field

【字体：大中小】 时间：2026年06月11日 来源：AgriEngineering 3

编辑推荐：

　　摘要：槟榔江buffalo（Bubalus bubalis）是中国唯一的本土河流型buffalo品种，因其全身黑色、低纹理被毛、前景–背景对比度差以及标注训练样本稀缺，给自动化关键点检测带来显著挑战。为解决这些挑战，研究人员构建了一个包含10?834张侧视图图

摘要：槟榔江buffalo（Bubalus bubalis）是中国唯一的本土河流型buffalo品种，因其全身黑色、低纹理被毛、前景–背景对比度差以及标注训练样本稀缺，给自动化关键点检测带来显著挑战。为解决这些挑战，研究人员构建了一个包含10?834张侧视图图像的基准数据集，涵盖424个个体，按照标准化buffalo测量协议标注了10个体型测量关键点。研究人员通过在单视角成像设置下将DINOv2适配带有自顶向下热力图回归头（top-down heatmap regression head）的模型，开发了关键点检测流程，降低了实际农场部署的硬件复杂度。与YOLOv8系列及标准ViT（Vision Transformer）基线对比显示，DINOv2-Base达到96.51%的mAP（mean Average Precision，均值平均精度），超过YOLOv8m 5.6个百分点。相比标准ViT，DINOv2在模型规模缩放时表现出更稳定的跨关键点定位能力；特别是在低纹理区域肩胛前缘点（P8）上，DINOv2的mAP波动仅为0.28%，而标准ViT为0.82%，表明其对有限训练数据和低对比度成像具有更强鲁棒性。对20个个体的体型测量验证得到五项测量指标的MAPE（Mean Absolute Percentage Error，平均绝对百分比误差）值为1.76–5.69%，证实了可靠的非接触测量性能。该数据集与流程为濒危品种精准畜牧管理提供了实际支持。

研究背景方面，槟榔江buffalo（Binglangjiang buffalo，Bubalus bubalis）是中国唯一的本土河流型水牛品种，主要分布于云南省腾冲市槟榔江流域，已被列入《国家级畜禽遗传资源保护名录》，具有比 domestic swamp-type buffaloes 更高的产奶量（峰值超过3000?kg）、耐粗饲、抗病性强等重要种质价值。在保种与选育工作中，体尺指标（如鬐甲高、体长、胸围等）是评估个体生长发育和生产性能的核心依据，但传统接触式人工测量存在通量低、操作间一致性差、易引发动物应激等问题，难以满足规模化、周期性数据采集需求。随着精准畜牧（precision livestock farming）发展，基于图像的非接触式体尺估算成为研究热点，三维点云方法亦有探索，而图像方案的关键前提是准确局部化动物体表解剖关键点，再通过几何计算推导体尺。现有关键点检测方法应用于槟榔江buffalo时面临两个领域特有难题：一是数据稀缺，该濒危品种现存群体小，可用标注图像远少于常规家畜研究，对样本效率要求更高；二是目标对比度低，uniformly black coat 与半开放畜舍暗背景像素级相似度高，依赖局部梯度特征的方法易出现关键点定位漂移。因此研究人员开展了本研究，旨在构建标准化槟榔江水牛体尺关键点数据集，并开发适用于低纹理、小样本条件的单视角关键点检测与体尺测量流程，最终得出 DINOv2-Base 架构配合 top-down heatmap regression head 在单视角设置下可实现高精度关键点定位与可靠体尺测量，且对噪声、适中光照变化具更强鲁棒性，但极端光照与单视角围度估算仍受限。该研究发表于《AgriEngineering》，其意义在于填补了该品种标准化视觉数据空白，为濒危家畜数字化育种与精准管理提供了可部署的技术方案。

主要关键技术方法包括：研究采用 ZED?2 立体相机与 ZED?Box 边缘计算模块在云南腾冲市荷花镇巴福乐槟榔江buffalo养殖场采集424个个体共13?423张原始侧视图图像（主要来自左相机单目流，分辨率多为1920×1080像素，少量为1280×720像素），经质量过滤（剔除运动模糊、身体出界、多只重叠、非侧视）保留10?834张有效样本；按兽医形态测量标准定义10个关键点（P1–P10）并精细标注，数据集按7:3随机划分为训练集7588张、测试集3246张；输入统一resize与pad至512×512像素，训练中使用MMPose框架在线数据增强（随机水平翻转概率0.5、随机旋转±40°、随机缩放0.5–1.5×、Half-body变换概率0.3、UDP（Unbiased Data Processing）坐标量化误差校正）；网络为 encoder–decoder 架构，encoder采用 DINOv2-Base（ViT，12层Transformer，patch?16×16，输出特征图16×16×768）与 DINOv2-Large、标准 ViT-Base/Large 作对照，decoder为轻量 top-down heatmap regression head（反卷积上采样＋3×3卷积输出10通道高斯热力图），损失为预测热力图与GT高斯目标的MSE（Mean Squared Error）；三维坐标通过左相机内参（焦距f_x, f_y，主点(c_x, c_y)）与深度值反投影获得；体尺计算：鬐甲高（WH）为P1与P2三维欧氏距离，臀高（HH）为P9与P10三维欧氏距离，斜体长（OBL）为P8与P7三维欧氏距离，胸围（CG）与腹围（AG）采用P5–P6、P3–P4线段图像空间均匀采样100点反投影三维坐标后路径积分乘2近似全周长再乘标定系数（LOOCV（leave-one-out cross-validation）得出α_CG=1.12, α_AG=1.18等）；实验对比 YOLOv8-pose系列（YOLOv8m-pose, YOLOv8l-pose），评估指标为OKS（Object Keypoint Similarity）基mAP（OKS阈值0.5:0.05:0.95）、AP@0.5、AP@0.75，mAP的95% CI用bootstrap重采样估计，体尺误差用MAPE与95% CI；鲁棒性测试：对测试集加高斯噪声（σ=0–0.15）、椒盐噪声（密度0–0.15）、斑点噪声（方差0–0.15）及Gamma变换（γ=0.5,0.8,1.0,1.4,2.0）；硬件为双Intel Xeon Silver?4210R CPU＋NVIDIA RTX?3090?24?GB，软件AlmaLinux?9.7、CUDA?11.3、PyTorch?1.11.0、Python?3.9，优化器AdamW（lr=5×10^-5，weight?decay=0.1，layer-wise?lr?decay=0.75，step?decay，线性warmup前500迭代ratio?0.001，batch?size每GPU?8）。

研究结果如下：

4.1. Training Performance：所有模型损失单调收敛无发散；YOLO变种因CNN backbone轻量早期收敛更快，DINOv2因参数大、batch较小收敛较缓；DINOv2-Large最终归一化训练损失低于DINOv2-Base（约0.20 vs 0.25），但测试集mAP（96.23% vs 96.51%）反而更低，表明更大参数超出当前数据集规模正则化能力，出现过拟合。

4.2. Comparative Experiment：DINOv2-Base mAP?96.51%（95%?CI?[95.67%,96.76%]）显著高于YOLOv8m-pose?90.95%（CI?[90.03%,91.80%]）和YOLOv8l-pose?89.95%（CI?[88.88%,90.96%]），置信区间不重叠说明优势稳定；推理速度YOLOv8m达327.2?FPS远快于DINOv2-Base?47.00?FPS，后者对非实时批处理足够但嵌入式实时部署受限。

4.3. Backbone Architecture Ablation Study：Base规模下ViT-Base与DINOv2-Base mAP分别为96.53%（CI?[95.72%,96.82%]）和96.51%（CI?[95.67%,96.76%]），聚合指标相当，但每关键点分析显示低纹理肩胛前缘点P8上DINOv2更稳定（Large规模下ViT-Large的P8?AP降至83.95%，DINOv2-Large维持>86.11%）；ViT从Base到Large mAP降0.82%，DINOv2仅降0.28%，说明DINO架构参数缩放时特征泛化更稳定，适合本数据规模；DINOv2-Base兼顾精度与效率（90?M参数，47?FPS）为最优。

4.4. Per-Keypoint Detection Accuracy Analysis：DINOv2-Base各关键点AP为88.38%–97.64%；P1（鬐甲最高点）、P4（腹底线最低点）、P6（胸骨基点）、P9（腰荐结合最高点）>96%，对应明确骨性突起或轮廓极值；最低为P8?88.38%（肩胛前缘肌覆盖平滑无鲜明特征），次低P7?92.46%（坐骨结节后缘渐变轮廓被臀肌遮蔽），但均>88%可接受。

4.5. Failure Case Analysis：错误主要集中于两类：多只干扰（图像边界出现第二只个体导致预测偏向其）和肢体误识（2D侧视远近后肢重叠缺深度线索致关键点落错肢）；未来可引入深度或多视融合缓解。

4.6. Body Measurement Results：对独立于关键点数据集且个体身份明确的20只buffalo做LOOCV体尺验证，WH?MAPE?1.76%（CI?[1.24%,2.29%]），HH?2.01%（CI?[1.55%,2.49%]），OBL?5.30%（CI?[3.70%,7.18%]），CG?4.44%（CI?[3.25%,5.82%]），AG?5.69%（CI?[4.27%,7.31%]）；高度向测量最优，优于已有单视关键点方法（Yang等WH?6.7%, HH?4.1%）；围度误差较高因黑色被毛削弱高曲率区立体匹配质量且单侧视只能估可见弧乘2近似周长引入几何不确定；OBL误差较大与P8最低AP放大距离计算误差有关；五项均在实用可接受范围。

讨论部分总结：研究人员通过合成扰动实验评估鲁棒性，5.1节噪声干扰下，DINOv2-Base在斑点噪声全范围mAP>0.96，高斯噪声σ=0.1时仍0.9358（YOLOv8m跌至0.3233），椒盐噪声密度0.15时DINOv2-Base?0.7543（YOLOv8m近0），归因于CNN局部卷积核易被破坏、ViT（Vision Transformer）全局自注意力联合处理空间位置更抗局部腐蚀。5.2节光照适应性用Gamma变换，γ=0.8,1.0,1.4时mAP分别0.965,0.935,0.909，表明中度光照变化（γ?0.5–1.4）性能稳定；极端低照γ=0.5时mAP降至0.391（黑被毛与暗背景对比极低致边界与弱纹理地标难辨），极端过曝γ=2.0时mAP?0.076（高亮饱和丢失轮廓细节），说明实际采集需保持合理光照。讨论还指出当前用COCO默认σ_i（每关键点归一化常数）未针对buffalo校准限制高OKS阈值区分度，未来应建立物种特定σ_i；可通过量化、知识蒸馏优化边缘实时性；低纹理关键点（如P8）可探索直觉模糊池化（intuitionistic fuzzy pooling, INT-FUP）建模位置不确定性；数据集虽覆盖大样本内品种内单农场，跨品种跨农场需统一关键点定义后验证；五项体尺可直接支持农场管理：鬐甲高与臀高对照品种标准曲线追踪生长，胸围代理体重估算，腹围辅助营养与妊娠监测，斜体长支撑育种选型；未来可将周期测量与个体记录结合构建决策支持接口。

结论部分翻译：本研究针对槟榔江buffalo体尺关键点检测固有的小样本与低对比度目标双重挑战，通过聚焦高性能视觉backbone，在实际农场条件下实现了精确定位与可靠体尺测量。主要结论如下：第一，数据层面构建了从零开始的槟榔江buffalo标准化体尺关键点数据集，填补了该品种标准化视觉数据空白，超过10?000张侧视图图像配10关键点标注协议，为自动化表型研究提供基准资源。第二，所提流程表明将DINOv2迁移至家畜领域可有效克服buffalo体表判别性纹理缺失问题；DINOv2-Base定位精度达96.51%?mAP，显著优于YOLOv8模型且在标准ViT基线上表现出更鲁棒的定位稳定性，说明其架构先验在局部特征不可靠条件下具先天优势。第三，实验表明DINOv2-Base（90.0?M参数）在精度与推理吞吐（47.00?FPS）间最优，该效率配合简易单视角配置显著降低硬件复杂度，减少现有农场基础设施大规模系统集成门槛。第四，体尺验证证实检测关键点为非接触测量提供可靠几何基础，高度向指标MAPE低至1.76%；虽然单视角固有几何约束影响围度估算精度，整体性能足够稳健以支撑常规数字化管理。第五，流程输出的五项体尺可直接支持农场日常管理决策：鬐甲高与臀高对照品种标准曲线追踪个体生长，胸围为体重估算代理，腹围助营养与妊娠监测，斜体长支撑育种选型选配；未来工作将周期测量输出与个体记录耦合构建结构化决策支持界面。尽管有贡献，本研究局限包括：采用COCO默认σ_i未重新校准buffalo特定值，未来应建立物种特定σ_i提升评价区分力；虽效率可行，将通过量化或知识蒸馏进一步优化资源受限边缘设备实时性；低纹理关键点（如P8）定位不确定性反映无表面特征时解剖地标定义固有模糊性，未来可探索直觉模糊池化（INT-FUP）显式建模位置不确定性并提供置信度感知下游输出；当前数据集虽覆盖大量槟榔江buffalo个体与实际农场条件，评价主要反映品种内单农场性能，所提DINOv2流程因捕捉全局形态结构依赖而非仅局部纹理可能适用其他大型家畜体尺场景，但品种形态、视角、光照、背景、标注协议差异影响跨域性能，未来将在统一关键点定义下用独立或公共家畜数据集做跨品种跨农场验证。

热点排行