一种可扩展随机森林（SRF）方法用于使用小制造数据集进行非线性预测建模

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《JOURNAL OF INTELLIGENT MANUFACTURING》：A scalable random forest (SRF) approach for non-linear predictive modelling using small manufacturing datasets

【字体：大中小】 时间：2026年06月02日 来源：JOURNAL OF INTELLIGENT MANUFACTURING 7.4

编辑推荐：

　　本文提出了一个集成的、可扩展的随机森林（SRF）预测框架，用于估计过程干预的效果，包括：（i）在指定容差内调整连续过程参数的操作范围，（ii）为离散过程参数选择特定类别，以及（iii）结合连续和离散参数的调整。该框架采用非线性集成方法超越线性假设，识别关键过程

本文提出了一个集成的、可扩展的随机森林（SRF）预测框架，用于估计过程干预的效果，包括：（i）在指定容差内调整连续过程参数的操作范围，（ii）为离散过程参数选择特定类别，以及（iii）结合连续和离散参数的调整。该框架采用非线性集成方法超越线性假设，识别关键过程输入并量化其对预测过程响应的贡献。随后，通过基于树决策路径的决策路径搜索（DPS）程序，利用这些贡献推导连续参数的最优操作范围和离散参数的最优类别。所提出的框架可扩展到具有复杂非线性依赖关系的大量过程因素，并实现数据驱动的过程改进。混合型数据集中的缺失值通过迭代的基于随机森林的插补方案处理，而自动森林大小优化增强了模型稳定性。所有预处理和建模步骤都嵌入在泄漏安全管道中，并辅以学习曲线分析和泄漏健全性诊断以防止过拟合。在评估的案例研究中，SRF提供了准确的预测以及透明的、适合实践者的操作窗口，将复杂的混合型制造数据转化为可操作的指导。

**论文解读：面向小样本混合型制造数据的可扩展随机森林（SRF）非线性预测框架**

**研究背景、存在问题与研究动机**

在现代制造过程中，质量特性（critical-to-quality, CTQ）受共同原因变异（common-cause variation）和可分配原因变异（assignable-cause variation）的共同影响。统计过程控制（Statistical Process Control, SPC）通过规格上下限（upper and lower specification limits, USL/LSL）监控CTQ，旨在实现常规调整并在异常时发出干预信号。然而，生产数据通常呈现非线性响应、混合连续-分类特征、缺失数据以及小样本等特点，给因果分析带来挑战。例如，镍基高温合金铸造中收缩率缺陷与元素成分（如碳、钛、钴）呈非线性关系，且依赖其联合水平，这使传统线性相关分析失效。随机森林（Random Forest, RF）作为非参数集成方法在表格预测中表现优异，但在小样本、异构数据下稳定性下降，易出现过拟合。现有后验解释工具（如SHAP、LIME、部分依赖曲线PD/ICE）能阐明特征影响，但无法直接输出可操作的因子层级调整范围（操作窗口）。因此，研究人员提出一种可扩展随机森林（Scalable Random Forest, SRF）框架，旨在为混合型、小样本制造数据集提供稳健预测、可解释因子限制及方差感知评估，并最终推导出可指导过程改进的操作窗口。

**研究内容与核心结论**

研究人员开发并评估了基于SRF的综合框架，涵盖六项目标：泄漏安全混合型管道、分类辅助增强协议、基于决策路径搜索（Decision Path Search, DPS）的最优/避免范围提取、稳健报告（RMSE/NRMSE/MAE/R2含置信区间）、学习曲线及泄漏健全性诊断、以及跨六个数据集（含工业镍基高温合金案例）的基线对比。结果表明，SRF在小样本混合型数据集上具有竞争性预测精度：在镍基高温合金案例中，SRF的RMSE（0.019）显著优于传统RF（0.051，p=0.010），略高于XGBoost（0.016，p=0.021）；在学生成绩（葡萄牙语）数据集上也取得最低RMSE（1.232）。消融实验证实，增强策略在小型噪声数据集上带来最大提升，森林大小优化贡献增量稳定性，DPS提供可解释性而不改变预测误差。泄漏健全性检验确认了折内含设计的必要性。该论文发表在《JOURNAL OF INTELLIGENT MANUFACTURING》。

**主要关键技术方法（不超过250字）**

为开展研究，研究人员采用了以下关键方法：①**泄漏安全管道**：将所有预处理（编码、插补、增强）限制在交叉验证（cross-validation, CV）训练折内，避免信息泄漏。②**分类辅助增强**：将连续响应暂时分位数分箱，在特征空间应用SMOTE（Synthetic Minority Over-sampling Technique），再通过missForest对掩码响应进行插补，以生成合成样本并稳定小数据集方差。③**自动森林大小优化**：纳入稳定性走廊，仅在提升超过阈值且种子间稳定时才接受更大森林。④**决策路径搜索（DPS）**：聚合训练后随机森林各树的决策路径，根据叶节点罚分（penalty matrix, PM）划分最优与避免范围，输出连续因子的区间和离散因子的类别级建议。样本队列来源包括：工业镍基高温合金铸造数据集（Batbooti, 2023）以及五个公共基准数据集（Concrete、Energy Efficiency、Power Plant、Student—Mathematics、Student—Portuguese）。

**研究结果**

**Overall predictive performance（整体预测性能）**：通过10折交叉验证（折内含预处理），SRF在小样本混合型数据集（镍基高温合金、学生成绩葡萄牙语）上匹配或优于强提升基线（XGBoost、LightGBM、CatBoost），并在大型连续型数据集（Concrete、Power Plant）上保持竞争力。配对t检验显示：镍基高温合金上SRF vs RF的p=0.010，SRF vs XGBoost的p=0.021；学生成绩（葡萄牙语）上差异不显著（p>0.05）。

**Learning curves and leakage sanity（学习曲线与泄漏健全性）**：学习曲线显示验证误差随训练样本量增加单调下降，且训练-验证差距适度；泄漏健全性实验通过人为引入泄漏（如将验证集目标作为特征）得到乐观误差，证实折内含设计有效防止过拟合。

**DPS vs. SHAP and PD/ICE（DPS与SHAP及PD/ICE对比）**：DPS输出的最优/避免范围与SHAP特征重要性排序一致，且落入PD/ICE所显示的低误差平坦区域。DPS直接提供因子级区间（如碳含量范围），优于仅提供归因值的后验解释工具。

**Imputation and robustness（插补与鲁棒性）**：在模拟缺失数据实验中，SRF内嵌的missForest相较于已知数据回归（KDR）、混合数据因子分析（FAMD）等保持更低NRMSE和分类误判率，尤其在40%-60%缺失率下优势显著。森林大小优化和种子稳定性分析确认了模型在超参数和随机变化下的稳健性。

**Per-dataset practical notes（各数据集实践说明）**：在工业镍基案例中，DPS区间与USL/LSL实践对齐；在学生成绩（数学）案例中，DPS与SHAP共同识别出最关键因子。所有结果均基于泄漏安全协议。

**总结讨论部分与研究结论翻译**

**讨论总结**：研究人员基于消融研究、缺失/小数据鲁棒性分析及与基线方法对比，聚焦三大贡献：DPS将森林路径转化为可操作的最优/避免范围（而非后验归因）；泄漏安全集成确保改进源于折内含设计而非数据泄漏；森林大小稳定性走廊实现方差感知选择。在镍基高温合金案例中，DPS为碳、钛等元素提供与规格容差一致的区间，可直接指导缺陷减少。但存在局限性：增强在大型清洁数据上效果减弱；DPS范围是假设生成性的，而非因果保证；框架专注于静态表格数据。未来方向包括结合迁移学习、贝叶斯校准及因果发现。

**研究结论翻译**：本研究提出了SRF框架，用于小样本、混合型制造数据集的预测建模。该框架集成了泄漏安全管道、分类辅助增强策略、自动森林大小优化以及用于操作窗口发现的DPS机制。在六个数据集（含工业镍基高温合金案例）上的评估表明，SRF相对于强提升基线取得了竞争性预测精度，同时提供了面向实践者的可解释性。关键发现可总结如下：首先，增强结合missForest显著提升小噪声数据集性能，而森林大小优化稳定方差并减轻过拟合；其次，DPS将集成结构转化为可解释的最优和避免范围，提供超越特征归因工具的可操作指导；第三，鲁棒性诊断确认改进源于折内含设计，种子和折间行为一致；最后，比较分析表明SRF在提升方法不稳定且深度学习方法需要更大样本量的条件下最为有效。局限性包括：在稀疏分类水平下增强敏感性增加、DPS范围仅为假设生成性、在大型连续数据集上增益减小。未来工作将探索与迁移学习及因果图方法的整合，以及向动态或流式制造数据的扩展。总体而言，SRF通过平衡准确性、可解释性和小样本约束下的鲁棒性，推进了工业预测建模的工具集。

联系信箱：

粤ICP备09063491号

热点排行