《Machine Learning and Knowledge Extraction》:Document Image Binarization Using Various Machine Learning Models and Ensembles Trained on Classic Local and Global Binarization Algorithms and Image Statistics
编辑推荐:
图像二值化是一种预处理技术,它将图像的像素值映射为黑色或白色,在计算机视觉的许多领域(如文档数字化和医学成像)中至关重要。阈值化(thresholding)是一种流行的灰度图像二值化技术,因为它将像素值分割为大于或小于特定阈值。全局阈值化(global thr
图像二值化是一种预处理技术,它将图像的像素值映射为黑色或白色,在计算机视觉的许多领域(如文档数字化和医学成像)中至关重要。阈值化(thresholding)是一种流行的灰度图像二值化技术,因为它将像素值分割为大于或小于特定阈值。全局阈值化(global thresholding)速度快,因为它仅为整个图像计算一个阈值,但无法处理文档图像特有的多种噪声。局部阈值化(local thresholding)计算复杂度更高,因为它根据周围像素调整每个像素的阈值,但能处理此类噪声,尽管存在在图像均匀区域引入噪声的风险。混合全局-局部方法可以减轻这种风险,同时仍能处理大多数类型的噪声。本文提出了一种混合全局-局部阈值化方法,该方法利用两种流行的自动机器学习(AutoML)框架,使用若干阈值化算法的结果和其他图像统计信息来训练机器学习模型。研究人员进行了交叉验证(cross-validation),以确保所选模型具有鲁棒性,并能很好地处理新数据。研究人员在流行的文档图像二值化数据集上获得了与其他现有方法(state-of-the-art methods)相当的结果。
文档图像二值化(binarization)是计算机视觉中的关键预处理步骤,它将像素映射为黑白两色,广泛应用于文档数字化和光学字符识别(OCR)。现有阈值化方法存在显著问题:全局阈值化(global thresholding)计算快速,但无法应对文档图像中复杂的噪声类型,如污渍、光照不均、墨迹渗透、折痕等;局部阈值化(local thresholding)虽能处理这些噪声,但计算复杂度高,且可能在均匀区域引入噪声。混合全局-局部方法可在一定程度上缓解矛盾,但如何有效融合两者并自动化选择最优策略仍是挑战。为此,研究人员开展了本研究,旨在通过结合多种经典阈值算法和图像统计特征的机器学习模型,构建一种鲁棒且通用的文档图像二值化方案。论文发表在《Machine Learning and Knowledge Extraction》。
研究人员采用两个自动机器学习(AutoML)框架——ML.NET AutoML和H2O AutoML——进行模型选择与超参数调优。关键特征集包括:15种全局阈值算法(Otsu、Kittler、Lloyd、Ridler、Huang、Ramesh、Li与Lee、Brink与Pendock、Kapur、Sahoo、Shanbhag、Yen、Tsai等)的阈值及部分优化函数值(如类间方差);10种局部阈值算法(平均强度、中值、高斯模糊、Bernsen、White与Rohrer、Niblack、NICK、Sauvola、Wolf与Jolion、Phansalkar等)的输出;局部与全局图像统计特征(均值、标准差、3至8阶标准化矩、Sarle双峰系数及2至3阶广义双峰系数、5柱归一化直方图),以及原始像素值。所有局部特征在63×63滑动窗口上计算,利用积分图实现常数时间性能。训练数据来自DIBCO数据集(2009至2019年共10个标准文档图像子集),采用十折交叉验证(cross-validation)评估模型泛化能力。模型类型包括LightGBM、多层感知器(MLP)、分布式随机森林(DRF)、梯度提升机(GBM)、广义线性模型(GLM)、极端随机树(XRT)和堆叠集成(Stacked Ensemble)。
在结果部分,研究人员比较了各模型在DIBCO数据集上的F-Measure(FM)性能。实验发现,LightGBM在交叉验证中取得平均FM约92.7%,但低于先前仅使用局部特征的TL方法(95.8%)。通过置换特征重要性(Permutation Feature Importance,PFI)分析发现,像素值、低阶局部矩、局部双峰系数以及Niblack、Nick、Kapur等局部阈值算法是贡献最大的特征,而多数全局阈值特征带有噪声,反而损害性能。基于PFI结果,研究人员减少了特征集(保留像素值、所有局部特征、部分全局阈值,如Kapur、Brink、Sahoo等,以及部分全局统计特征),重新训练后的LightGBM模型交叉验证FM提升至约95.35%,仍略低于TL的95.8%。与现有方法对比,所提方法在任务最复杂的DIBCO 2019数据集上取得了最佳平均FM(约88.63%),显著优于其他方法;但在较简单的其余DIBCO数据集上,其表现略逊于部分专用模型。视觉比较(图2、图3)显示,该方法在墨迹渗透和缺失区域的处理上优于传统方法TG(仅全局)和某些深度学习模型(如GDB),与TL表现接近。
在讨论部分,研究人员指出,为确保公平比较,仅与报告DIBCO结果的文献进行对比。两种AutoML框架虽采用不同优化度量(ML.NET使用FM,H2O使用AUC),但模型排名一致,表明比较合理。LightGBM优于MLP、DRF等其他模型的原因在于其更大的模型容量和更好的非线性特征交互抽象能力。混合全局-局部特征虽引入噪声,但通过PFI可有效筛选,优化后性能接近TL,表明特征选择对结果至关重要。计算成本方面,特征提取平均耗时60.4秒/百万像素,模型推理19.06秒/百万像素,占用内存256 MB。尽管速度不具优势,但文档二值化任务更注重精度而非实时性。模型在DIBCO 2019上的突出表现反映了其鲁棒性,而非对特定数据集的过度适配。结论部分总结道:本研究扩展了先前仅使用全局或局部特征的AutoML框架,引入丰富的全局-局部混合特征空间。虽然训练了多种模型,LightGBM整体表现最佳,平均交叉验证FM约95.36%,超越了多种现有方法。然而,该结果仍低于先前仅用局部特征的TL方法(95.8%),表明仍存在噪声特征,或训练时间(48小时)因特征复杂度增加而不充分,或窗口大小差异引入额外噪声。未来工作可进一步优化特征空间(重点精简计算昂贵的局部描述符),并探索更高效的模型架构以提升跨领域泛化能力。