基于元启发式优化的随机森林回归模型,并结合Streamlit网络应用程序用于预测黄麻纱线的韧性
Nageshkumar T,
Avijit Das,
Sanjoy Debnath,
D. B. Shakyawar
《Textiles》:Metaheuristic Optimized Random Forest Regression with Streamlit Web Application for Predicting Jute Yarn Tenacity
Nageshkumar T,
Avijit Das,
Sanjoy Debnath and
D. B. Shakyawar
【字体:
大
中
小
】
时间:2026年04月15日
来源:Textiles 4.9
编辑推荐:
摘要 纱线韧度是决定性能、织物耐用性和最终用途适用性的关键质量参数之一。纱线韧度在很大程度上受到所使用纤维特性的影响。黄麻纤维的物理性质,包括纤维根含量、缺陷、纤维束强度和细度,对纱线韧度有显著影响。本研究利用元启发式优化的随机森林回归(RFR)从纤维参数
摘要 纱线韧度是决定性能、织物耐用性和最终用途适用性的关键质量参数之一。纱线韧度在很大程度上受到所使用纤维特性的影响。黄麻纤维的物理性质,包括纤维根含量、缺陷、纤维束强度和细度,对纱线韧度有显著影响。本研究利用元启发式优化的随机森林回归(RFR)从纤维参数预测黄麻纱线的韧度。RFR模型的超参数通过四种元启发式算法进行优化:鲸鱼优化算法(WOA)、灰狼优化(GWO)、甲虫触角搜索(BAS)和蚁群优化(ACO)。该模型使用包含414个实验数据的数据集,其中70%的数据用于训练,30%的数据用于测试模型,输入变量包括纤维束强度(g/tex)、缺陷百分比(%)和细度(tex)来预测纱线韧度(cN/tex)。所开发的模型能够有效预测纱线韧度。然而,RFR-GWO的表现略好,训练集的R2值为1.0,测试集的R2值为0.96。在执行时间方面,RFR-GWO最快,仅需14.25秒。SHAP分析显示,黄麻纤维的纤维束强度和根含量是影响最大的因素,而缺陷和细度对模型预测的影响最小。最佳模型RFR-GWO被集成到一个交互式的Streamlit网络应用中,提供了一个直观且用户友好的平台,用于实时估算纱线韧度。
1. 引言
黄麻,常被称为“金色纤维”,是印度东北部和孟加拉国最重要的经济作物之一。主要种植目的是提取韧皮纤维,这种纤维被认为是经济且应用最广泛的工业韧皮纤维[1]。由于其可生物降解性、可再生性和适中的机械性能,黄麻纤维作为合成纤维的替代品得到了广泛认可[2]。提取出的纤维被广泛用于制造绳索、袋子、地毯和家具材料。随着对环境的关注以及全球对合成纤维可持续替代品的需求增加,基于黄麻纤维的纺织品需求也在增长。纱线作为纺织品的主要组成部分,在决定最终产品的性能、外观和耐用性方面起着关键作用。在各种性能中,纱线韧度是一个重要的质量参数,不仅影响最终产品,还决定了纱线在卷绕、编织、针织和后续织物整理等过程中的抗机械应力能力[3]。纱线韧度受多种因素影响,如纤维特性、纺纱技术和工艺参数[4]。其中,纤维特性对纱线韧度的影响最大。黄麻纤维的物理性质,如根含量、缺陷、纤维束强度和细度也被报道会影响纱线韧度和其他特性[5,6]。鉴于纱线对最终产品整体质量的重大影响,准确预测纱线韧度非常重要。在生产前准确预测纱线韧度有助于降低工艺成本和材料浪费,并有助于选择合适的纤维和工艺优化,以获得所需的纱线韧度[7]。传统上,使用经验模型、统计模型和数学模型根据黄麻纤维特性来预测纱线强度。Bandyopadhyay[8]基于黄麻纤维的韧度和细度开发了回归方程来预测黄麻纱线强度。除了黄麻纤维的韧度和细度外,根含量和缺陷等参数也对纱线韧度有显著影响,但迄今为止尚未有研究报道它们的影响。由于回归模型不能始终准确预测实验值,因此探索替代的预测方法是必要的。
近年来,机器学习(ML)已成为包括纺织业在内的各个科学领域中的强大计算工具,具有克服传统建模技术缺点的潜力。机器学习能够在无需事先假设的情况下揭示大型高维数据集中的关系,处理多个影响参数,并提高预测准确性。机器学习已在纺织行业中广泛应用于研究纤维特性[9]、纱线[10,11]和天然纤维的织物特性[12,13]。在预测纱线特性方面,特别是在棉[4,11,14]、聚酯[15,16]和棉/聚酯混纺方面,已经取得了显著进展。然而,目前还没有专门针对黄麻纱线特性的研究。此外,也没有关于黄麻纤维特性(如根含量、纤维束强度、细度和缺陷)对纱线韧度影响的研究报告。大多数用于预测棉、聚酯和棉混纺纱线强度的机器学习模型都基于人工神经网络(ANNs)。尽管ANNs被认为是能够从数据中学习复杂关系的通用函数逼近器,但它们大多作为黑箱模型运行,不显式揭示输入变量和输出响应之间的关系。因此,一些研究探索了替代方法,如模糊逻辑[11]和基于树的回归模型[4]。与ANN模型不同,基于树的方法(如随机森林)提供了更好的可解释性,使用户能够更清楚地了解输入参数和输出参数之间的关系[17]。此外,它能够高效处理大型数据集,管理多个输入变量而不会遗漏任何变量,识别模型中最有影响力的因素,并捕捉输入变量之间的非线性关系。标准ML模型预测性能的主要瓶颈是超参数优化[18]。为克服这一限制,已将元启发式算法结合到传统ML模型中[19]。Zhang等人[20]使用人工神经网络(ANN)与粒子群优化(PSO)结合来预测纱线强度。结果表明,这种混合方法提高了预测准确性。Song和Fan[21]将广义回归网络(GRNN)与元启发式优化(即Harris hawk优化)结合起来预测纱线毛糙度。实验结果表明,这种混合模型在预测纱线毛糙度方面取得了非常高的准确性。Hu等人[22]开发了一种混合深度信念网络(DBN)-粒子群优化(PSO)算法来预测纱线质量。研究表明,与独立的DBN模型相比,这种混合方法产生了更高的R2值。这些研究表明,元启发式算法为探索机器学习模型的超参数提供了高效且系统的框架,从而显著提高了它们的预测准确性。
ML实现通常需要编程知识,这对非技术用户来说可能是一个障碍,因为输入或参数调整的错误可能导致预测不准确。将机器学习与网络应用相结合对于使预测模型易于非技术用户使用至关重要[9]。网络界面允许用户输入数据、运行预测并实时可视化结果,从而提高模型的实际应用性。它还便于在不同输入场景下进行更快的实验,改善用户体验,并确保在各种设备和平台上广泛部署。没有这种集成,机器学习模型的可用性将仅限于开发人员和数据科学家。
本研究的主要目标是开发优化的元启发式算法RFR,从黄麻纤维参数准确预测黄麻纱线韧度。为此,使用了四种元启发式算法WOA、GWO、BAS和ACO来调整RFR的超参数。此外,本研究还开发了一个网络应用来部署最佳模型。
2. 材料与方法
2.1. 实验和数据收集
在本研究中,使用了从印度各地农民田里收集的黄麻纤维(Corchorus olitorius L.)。根据IS: 271(2020)标准[5]评估了纤维质量,如纤维束强度、根含量、缺陷和细度,实验室条件为相对湿度和温度分别为65 ± 2%和27 ± 2°C。根含量指的是位于芦苇基端的硬质、树皮状部分。纤维束强度表示纤维束在受到外力作用时抵抗变形或断裂的能力,通过重量进行标准化测试。细度表示纤维的直径、线性密度或两者的组合。缺陷主要来源于不适当的加工过程,包括因洗涤不足导致的斑点纤维、末端不均匀或粗糙的纤维、含有木质或树皮碎片的纤维,以及由于过度沤洗而变得脆弱、死亡、粘性、结节状或苔状的纤维。纤维束强度使用数字纤维束强度测试仪(制造商:Deep Micro系统,加尔各答,型号:NINFET-AEFBST-MF01)测定,细度使用数字细度仪(制造商:Deep Micro系统,加尔各答,型号:NINFET-DFM-MF01)评估[23],根含量按长度测量,缺陷按重量计算。
2.1.1. 黄麻纤维的加工
纱线生产过程如图1所示。对黄麻纤维进行分级后,用35%的乳液(黄麻批处理油和水)处理并使用柔软机(制造商:Douglas Fraser and sons,阿布罗斯,苏格兰)使其软化。之后将纤维置于封闭容器中48小时,以便水分在整个纤维表面和核心均匀扩散。48小时后,将纤维取出并通过两阶段梳理过程(破碎梳理机和精梳机)进行适当的纤维分离和开纤,生成纤丝。然后通过三阶段牵伸过程将精梳机纤丝拉直(第一、第二和第三牵伸机的牵伸倍数分别为3.7、5.5和8.5),并在裙式牵伸机中进行纺纱。根据纱线线性密度和捻度的要求调整纺纱机的设置(牵伸和加捻齿轮)。加工机器的规格和操作参数分别列在表1和表2中。
2.1.2. 黄麻纱线的测试
纱线韧度的测量遵循IS 1670[24]标准,使用配备500 N载重传感器的万能测试机(Instron,型号5967)。测试前,纱线样品在标准实验室条件下进行 Conditioning和处理(相对湿度:65 ± 2%,温度:27 ± 2°C)。测试使用610 mm的标距长度和0.5 cN/tex的预张力。
2.1.3. 数据集划分
从实验中收集了包含414个有效输入和输出变量的数据集。数据集被随机分为训练集和测试集,比例为70:30。因此,290个样本用于模型训练,124个样本用于测试,以验证模型的准确性和泛化能力。
2.2. 随机森林回归
随机森林回归器是一种有效且广泛使用的数据分析工具。这种强大的机器学习技术允许分析复杂数据集并进行准确预测。在训练过程中,随机森林生成大量树,最终结果是通过平均所有树的预测值获得的。随机森林(RFs)解决了决策树对训练数据过拟合的问题。Breiman[25]开发了原始随机森林算法的改进版本,结合了随机特征选择和装袋技术。每个自助样本(Db)是从原始数据D中抽取n个样本创建的,其中包含N个示例。采样过程中允许替换示例。通常,自助数据集覆盖了大约三分之二的原始数据,并排除了重复的示例。使用输入向量x,自助子集作为构建K个独立回归树的基础。在回归任务中,随机森林的最终预测是通过平均K个回归树的输出获得的。RFR预测=1?????∑??=1????(??) (1)
装袋技术主要减少了决策树的方差,而不显著影响其偏差。在装袋过程中,从k个回归树中省略的样本被组合起来生成袋外数据集。使用袋外数据集,通过计算均方误差来评估第k个回归树的性能。M?S?E=1?????∑??=??(???????????????)2 (2),其中Yi是第i个预测值;Mi是所有树的第i个预测值的平均值。
2.3. 元启发式算法
元启发式算法是受自然过程启发的高级优化方法,旨在高效解决传统确定性或基于梯度的技术无效的复杂、非線性和多目标问题。在本次研究中,选择了四种元启发式算法(WOA、GWO、BAS和ACO),因为它们具有优化模型超参数的能力。2.3.1. 鲸鱼优化算法(WOA)Mirjalili和Lewis[26]引入了鱼类优化算法,该算法的灵感来源于座头鲸的集体行为。这些鲸鱼的狩猎策略主要包含三个动作:包围猎物、执行螺旋形气泡网攻击以及寻找潜在目标。**包围猎物**:在该算法中,鲸鱼充当搜索代理,它们的位置决定了它们在优化过程中所代表的潜在解决方案。猎物的位置代表最佳解决方案,一旦识别出这个最优解,鲸鱼就会相应地更新自己的位置。这种行为可以用以下方程来描述:
$$
\mathbf{D}_{\mathbf{L}}_{\mathbf{i},\mathbf{j}} = ||\mathbf{c} \cdot \mathbf{p}_\mathbf{b} \cdot \mathbf{e} \cdot \mathbf{s} \cdot \mathbf{t}_{\mathbf{j}} - \mathbf{p}_{\mathbf{i},\mathbf{j}}(t)| \quad (3)
\quad \mathbf{p}_{\mathbf{i},\mathbf{j}}(t+1) = \mathbf{p}_\mathbf{b} \cdot \mathbf{e} \cdot \mathbf{s} \cdot \mathbf{t}_{\mathbf{j}} - \alpha \cdot \mathbf{D}_{\mathbf{i},\mathbf{j}} \quad (4)
$$
其中t是当前迭代次数;$\mathbf{p}_\mathbf{i},\mathbf{j}$表示第i条鲸鱼在第j个维度上的位置;$\mathbf{p}_{\text{best}}$是猎物的当前最佳位置。值得一提的是,当找到更好的解决方案时,$\mathbf{p}_{\text{best}}$应该被更新;a和c是系数。向量a和c的计算公式如下:
$$
\mathbf{a} = 2 \left(2^{3} - 1\right) \cdot (1 - t^{2} \cdot t^{2} \cdot \mathbf{a} \cdot \mathbf{x}) \quad (5)
\quad \mathbf{c} = 2^{3} \quad (6)
$$
其中r是一个[0, 1]之间的随机数,$t_{\text{max}}$是最大迭代次数。随着迭代的进行,参数a的值逐渐减小至零,这有效地控制了鲸鱼围绕猎物缩小的包围动作。**气泡网攻击**:除了缩小的包围机制外,在鱼类优化算法的利用阶段,鲸鱼还会沿着螺旋路径更新自己的位置。这种行为用以下方程表示:
$$
\mathbf{p}_{\mathbf{i},\mathbf{j}}(t+1) = \mathbf{e} \cdot \mathbf{b} \cdot \cos(2\pi \cdot \alpha \cdot \lambda) \cdot \mathbf{p}'_{\mathbf{i},\mathbf{j}} + \mathbf{p}_\mathbf{b} \cdot \mathbf{e} \cdot \mathbf{s} \cdot \mathbf{t}_{\mathbf{j}} \quad (6)
$$
其中$\mathbf{p}'_{\mathbf{i},\mathbf{j}} = ||\mathbf{p}_\mathbf{b} \cdot \mathbf{e} \cdot \mathbf{s} \cdot \mathbf{t}_{\mathbf{j}} - \mathbf{p}_{\mathbf{i},\mathbf{j}}(t)|$表示第i条鲸鱼在第j个维度上与猎物的距离;b是一个常数,$\lambda$是一个[-1, 1]之间的随机数。在狩猎过程中,鲸鱼以螺旋模式游动,同时缩小包围半径。为了在鱼类优化算法中模拟这种行为,建立了一个50%的概率阈值来决定更新鲸鱼位置的方法。相应的数学公式如下:
$$
\mathbf{p}_{\mathbf{i},\mathbf{j}}(t+1) = \left\{
\begin{array}{ll}
\mathbf{p}_\mathbf{b} \cdot \mathbf{e} \cdot \mathbf{s} \cdot \mathbf{t}_{\mathbf{j}} - \alpha \cdot \mathbf{D}_{\mathbf{i},\mathbf{j}} & \text{如果 } t < 0.5 \\
\mathbf{e} \cdot \mathbf{b} \cdot \cos(2\pi \cdot \alpha \cdot \lambda) \cdot \mathbf{D}_{\mathbf{i},\mathbf{j}} + \mathbf{p}_\mathbf{b} \cdot \mathbf{e} \cdot \mathbf{s} \cdot \mathbf{t}_{\mathbf{j}} & \text{如果 } t \geq 0.5
\end{array}
\right. \quad (7)
$$
**寻找猎物**:在WOA的探索阶段,鲸鱼根据它们彼此之间的相对位置进行随机搜索。此外,算法使用参数a的绝对值来确定是进入探索阶段还是利用阶段。具体来说,当$| \mathbf{a} | > 1$时进行探索,使用WOA进行全局搜索。数学模型如下:
$$
\mathbf{D}_{\mathbf{R}}_{\mathbf{i},\mathbf{j}} = ||\mathbf{c} \cdot \mathbf{p}_\mathbf{t} \cdot \mathbf{a} \cdot \mathbf{n} \cdot \mathbf{d}_{\mathbf{j}} - \mathbf{p}_{\mathbf{i},\mathbf{j}}(t)| \quad (8)
\quad \mathbf{p}_{\mathbf{i},\mathbf{j}}(t+1) = \mathbf{p}_\mathbf{t} \cdot \mathbf{a} \cdot \mathbf{n} \cdot \mathbf{d}_{\mathbf{j}} - \alpha \cdot \mathbf{D}_{\mathbf{R}}_{\mathbf{i},\mathbf{j}} \quad (9)
$$
其中$\mathbf{p}_\mathbf{t} \cdot \mathbf{a} \cdot \mathbf{n} \cdot \mathbf{d}_{\mathbf{j}}$是从当前种群中随机选取的一条鲸鱼的位置。2.3.2. 灰狼优化器(GWO)Mirjalili等人[27]提出了灰狼优化算法,该算法模仿了自然界中灰狼的狩猎行为和领导等级制度。灰狼属于犬科动物,生活在群体中,并具有严格的社会支配结构。根据它们在群体中的角色,灰狼被分为四类:阿尔法、贝塔、德尔塔和欧米茄。灰狼群体的捕猎过程可以分为三个阶段:包围、狩猎和攻击。**包围**:确定猎物的位置后,灰狼开始包围它:
$$
\mathbf{D}_{\mathbf{p}} = ||\mathbf{C} \cdot \mathbf{x}_{\mathbf{p}}(t) - \mathbf{x}_{\mathbf{t}}| \quad (10)
\quad \mathbf{x}_{\mathbf{t}+1} = \mathbf{x}_{\mathbf{p}}(t) - \mathbf{A} \cdot \mathbf{D}_{\mathbf{p}} \quad (11)
$$
其中$\mathbf{x}(t)$是一条灰狼,t是迭代次数,$\mathbf{x}_{p}(t)$特指阿尔法、贝塔、德尔塔;$\mathbf{x}_{\mathbf{t}+1}$是它的下一个位置;A和C是系数向量。A和C的计算公式如下:
$$
\mathbf{A} = 2^{3} \cdot \mathbf{a} \cdot \mathbf{t}^{1-1} - \alpha \quad (12)
\quad \mathbf{C} = 2^{3} \quad (13)
$$
其中$\mathbf{r}_{1}$和$\mathbf{r}_{2}$是[0, 1]之间的随机向量;$\alpha$是一个递减的值[0, 2]。**狩猎**:在阿尔法、贝塔和德尔塔的带领下,灰狼开始狩猎过程。以下数学表达式描述了这一过程:
$$
\begin{array}{l}
\mathbf{D}_{\mathbf{\lambda}} = ||\mathbf{C}_{1}\cdot \mathbf{X}_{\lambda} - \mathbf{X}_{\mathbf{t}}| \quad (13) \\
\mathbf{X}_{1} = |\mathbf{X}_{\lambda} - \mathbf{A}\cdot \mathbf{D}_{\lambda}| \quad (14) \\
\mathbf{X}_{\mathbf{t}+1} = \mathbf{X}_{1} + \mathbf{X}_{2} + \mathbf{X}_{3} \quad (15)
\end{array}
$$
**攻击**:灰狼包围目标并开始组织攻击以捕获它。当$|\mathbf{A}| \geq 1$时,狼与猎物保持一定距离,从而进行全局搜索。相反,当$|\mathbf{A}| < 1$时,灰狼群体逐渐接近猎物并最终完成狩猎。2.3.3. 甲虫触角搜索算法(BAS)Jiang和Li[28]提出了甲虫触角搜索算法,该算法模仿了甲虫使用触角探测气味源的觅食行为,这些气味源在搜索空间中代表最优解。如果左侧触角检测到更强的食物气味,甲虫会向左移动;否则,它會向右移动。**触角的位置**:甲虫的左侧和右侧触角的位置可以表示为:
$$
\mathbf{p} = \mathbf{T} + \mathbf{c} \cdot \mathbf{d} \quad (16)
$$
其中$\mathbf{p}$表示甲虫的当前位置;$\mathbf{c}$表示甲虫重心与触角之间的距离;$\mathbf{d}$表示随机单位向量。**甲虫的下一位置**:为了模拟甲虫根据触角检测到的气味浓度差异决定方向的机制,采用了以下数学表达式:
$$
\mathbf{p}_{t+1} = \mathbf{p}_{t} + \lambda_t \cdot \mathbf{t} \cdot \mathbf{s} \cdot \mathbf{i} \cdot \mathbf{g}_2(\mathbf{f}(\mathbf{p}_t) - \mathbf{f}(\mathbf{p}_l) \quad (18)
$$
其中$\mathbf{s} \cdot \mathbf{i}$和$\mathbf{g}_2(\mathbf{f}(\mathbf{p}_t) - \mathbf{f}(\mathbf{p}_l)$表示甲虫在时间t的步长,$f(\mathbf{Pr})$和$f(\mathbf{Pl})$表示适应度函数。2.3.4. 蚁群优化(ACO)蚁群优化(ACO)的灵感来源于蚂蚁的自然觅食行为。在自然界中,蚂蚁通过释放称为信息素的化学物质来找到从巢穴到食物源的最短路径,这些信息素引导其他蚂蚁朝有效路径前进。当蚂蚁找到食物时,它会返回巢穴并在路径上留下信息素。后续的蚂蚁更有可能跟随信息素浓度较高的路径。通过这种集体行为中的路径强化和探索,蚁群逐渐收敛到连接巢穴和食物源的最有效或最短路径。**转换规则**:转换规则定义了蚂蚁在解决方案构建过程中选择下一个节点(或状态)的概率策略。数学上,蚂蚁k在迭代t时从节点i移动到节点j的概率$p_{\mathbf{k},\mathbf{i},\mathbf{j}}(\mathbf{t})$由以下公式给出:
$$
p_{\mathbf{k},\mathbf{i},\mathbf{j}}(\mathbf{t}) = \left[ \mathbf{T}_{\mathbf{i},\mathbf{j}}(\mathbf{t)}\right]^{\lambda} \cdot \left[ \mathbf{n}_{\mathbf{i},\mathbf{j}} \right]^{\lambda} \sum_{l \in \mathbf{N}_{\mathbf{k},\mathbf{i}} \left[ \mathbf{T}_{\mathbf{i},\mathbf{l}}(\mathbf{t)}\right]^{\lambda} \cdot \left[ \mathbf{n}_{\mathbf{i},\mathbf{j}} \right]^{\lambda} \quad (19)
$$
其中$T_{\mathbf{i},\mathbf{j}}(\mathbf{t})$是时间t时边i→j上的信息素强度;$n_{\mathbf{i},\mathbf{j}}$是启发式信息;$\alpha$调节信息素的影响;$\beta$调节启发式信息的影响;$N_{\mathbf{k},\mathbf{i}}$是蚂蚁k的可行邻居。**信息素更新**:在所有蚂蚁完成所有迭代后,应用信息素更新规则来调整蚂蚁经过的路径上的信息素浓度。更新后的信息素浓度使用以下公式计算:
$$
\mathbf{T}_{\mathbf{i},\mathbf{j}}(\mathbf{t}+1) = (1 - \varepsilon) \cdot \mathbf{T}_{\mathbf{i},\mathbf{j}}(\mathbf{t}) + \varepsilon \cdot \Delta_{\mathbf{T}_{\mathbf{i},\mathbf{j}}(\mathbf{t}) \quad (20)
$$
其中$\varepsilon$是信息素的挥发因子,$\Delta_{\mathbf{T}_{\mathbf{i},\mathbf{j}}(\mathbf{t})$表示这次迭代过程中节点i和节点j之间的信息素增量。$\Delta_{\mathbf{T}_{\mathbf{i},\mathbf{j}}(\mathbf{t}) = \left\{
\begin{array}{l}
\mathbf{Q}_{\mathbf{k},\mathbf{i},\mathbf{j}} \in \mathbf{L}_{\mathbf{k}} \\
\varepsilon \cdot \mathbf{T}_{\mathbf{k},\mathbf{i},\mathbf{j}} \\
\end{array}
\right.$$
其中$Q$是信息素强度,$L_{\mathbf{k}}$是第k条蚂蚁在当前迭代中的总距离。2.4. 用于优化随机森林回归器的元启发式算法超参数的优化对机器学习模型的性能至关重要。不合适的超参数可能导致不准确的结果和次优的模型性能。然而,通过手动或统计方法识别最优超参数仍然是一个相当大的挑战。在这项研究中,使用了四种元启发式算法来优化随机森林回归器的超参数。图2展示了元启发式算法优化的随机森林回归器的架构流程图。机器学习模型使用Python在Google Colab(一个基于云的Jupyter Notebook平台)上实现。随机森林回归使用Scikit-learn库实现。在总共414个数据点中,70%用于模型训练,剩余的30%用于评估预测准确性。2.4. 元启发式算法优化的机器学习模型的流程图。超参数搜索空间定义如下:$n_{\text{elements}}$的范围是50到300,$max_{\text{depth}}$在2到20之间变化,$min_{\text{samples_split}}$设置在2到10之间,$min_{\text{samples_leaf}}$的范围是1到5。超参数的优化使用元启发式算法进行,包括GWO、WOA、ACO和BAS,这些算法是在Google Colab环境中使用NumPy自定义开发的。这些元启发式方法涉及几个不同的阶段:初始化种群、评估适应性以及迭代搜索最优解。表3总结了元启发式算法的设置参数。目标函数是最大化决定系数(R2)。2.5. 模型性能标准**模型的性能使用统计指标进行评估,如决定系数(R2)、平均绝对误差(MAE)和均方根误差(RMSE)。R2值衡量模型解释的方差比例,而MAE和RMSE量化实际值和预测值之间的偏差。定义这些统计量的数学表达式如下:$$
R^2 = 1 - \sum_{i=1}^{n}\left( \mathbf{M}_\mathbf{a} - \mathbf{M}_\mathbf{p}\right)^2 \quad (21)
\quad R_{\text{M}}E = \sqrt{\frac{1}{n} \sum_{i=1}^{n}\left( \mathbf{M}_\mathbf{a} - \mathbf{M}_\mathbf{p}\right)^2} \quad (22)
\quad M_AE = \frac{1}{n} \sum_{i=1}^{n}\left( \mathbf{M}_\mathbf{a} - \mathbf{M}_\mathbf{p}\right) \quad (23)
$$
其中$\mathbf{M}_\mathbf{a} = \text{实际数据}$,$\mathbf{M}_\mathbf{p} = \text{预测数据}$,$N = \text{数据样本总数}$。2.6. 使用Shapley解释模型可解释性模型的可解释性对于理解预测是如何做出的至关重要。为了解释表现最佳的模型,本研究采用了Lundberg和Lee[29]介绍的Shapley加性解释(SHAP)技术。SHAP方法提供了一种清晰直观的方法来分析每个特征对模型预测的影响。2.7. Streamlit Web应用程序的开发机器学习模型是强大的预测工具,但往往难以解释。将这些模型部署在合适的Web应用程序中可以显著提高它们的可访问性和可用性。最佳元启发式优化的机器学习模型进一步集成到一个名为Streamlit的交互式Web应用程序中。Streamlit是一个基于Python的框架,允许快速构建和共享交互式Web应用程序。最佳RFR模型通过元启发式技术进行了优化,并使用Python的pickle模块保存,以便在Streamlit应用程序中高效加载。图3显示了Streamlit Web应用程序与最佳模型的交互流程图。该应用程序提供了一个用户友好的界面,允许用户输入关键参数,如根含量、纤维强度、缺陷和细度。结果显示的韧性清晰地与输入值一起显示,以保持透明度。图3. 开发的Streamlit Web应用程序的流程图。3. 结果和讨论用于开发机器学习模型的数据集描述见表4。特征纤维强度的平均值为19.02然而,RFR–GWO的表现指标略优于其他模型。GWO优化器有效地调整了RFR的超参数,避免了局部最小值,并提高了模型的泛化能力[30]。因此,RFR–GWO具有更高的预测准确性。表5显示了优化后的超参数;表6对开发的模型进行了统计评估;图5展示了训练和测试阶段的实际值与预测值对比图:(a) WOA;(b) GWO;(c) BAS;(d) ACO。这些模型还根据其执行时间进行了进一步比较。表7列出了所有四种模型的执行时间:RFR–ACO、RFR–WOA、RFR–GWO和RFR–BAS分别需要24.60秒、19.31秒、14.325秒和33.40秒。RFR–GWO模型表现出最短的执行时间,体现了其计算效率。GWO的执行时间较短是因为其数学结构简单,且调整参数较少。这种结构上的简单性降低了计算开销,从而在优化过程中更有效地平衡了探索与利用[31]。表7:元启发式优化机器学习模型的执行时间。
3.1 SHAP可解释性
根据性能指标,RFR–GWO模型在估计纱线强度方面表现出更出色的预测准确性,优于其他算法。因此,使用RFR–GWO模型的结果进行了SHAP分析。图6显示了SHAP特征重要性图,说明了每个输入特征如何根据其相应的SHAP值贡献于模型的输出预测。可以观察到黄麻纤维的束强度具有最高的SHAP值(+0.71),其次是根含量(+0.35)。相比之下,缺陷和细度的SHAP值最低,分别为+0.15和+0.14。总体而言,束强度和根含量被认定为预测纱线强度的最重要参数。束强度的高SHAP值表明它们之间存在正相关关系——束强度的增加会提高纱线强度。Paul[32]和Saha等人[33]也报告了类似的研究结果。纤维的根含量是第二重要的因素。根含量是纤维中坚硬、带树皮的部分,它阻碍了适当的加工和纺纱过程,从而降低了纱线强度[34]。相比之下,缺陷和细度的较低SHAP值表明这些特征对模型预测的影响相对较小。尽管如此,这两个参数仍然很重要。黄麻纤维的缺陷通常分为两类:次要缺陷和主要缺陷。次要缺陷通常在软化过程中被去除,而主要缺陷则残留在纤维上。含有主要缺陷的纤维会降低纱线强度[35]。一般来说,对于棉花等纤维而言,在其他纤维参数保持不变的情况下,更高的强度和更细的细度会提高纱线强度。然而,对于黄麻纤维来说,较高的强度与较粗的细度结合会提高纱线强度。这种行为可以归因于黄麻纤维的网状结构,在纱线形成阶段部分保持完整[9,32]。图7显示了SHAP摘要图,突出了各种输入特征及其相应SHAP值分布之间的关系。纵轴表示输入特征,横轴表示它们相应的SHAP值。每个点代表一个数据实例,颜色从蓝色渐变为红色表示特征的强度。该可视化展示了特征变化如何影响预测输出值。可以观察到,束强度的SHAP值范围在?3到+1.0之间,这表明束强度的增加显著提高了模型预测的准确性。在根含量方面,点分布在正负SHAP值上。左侧(负SHAP)的高特征值(红色)和右侧(正SHAP)的低特征值(蓝色)表明较高的根含量会显著降低模型的预测输出。缺陷的SHAP值范围在?0.5到+0.3之间,较高的缺陷值倾向于降低模型预测,但其总体影响相对较小。细度的SHAP值范围在?0.2到+0.2之间,表明它是本研究中最不重要的特征。
3.2 Sobol敏感性分析
Sobol分析是一种基于方差的综合全局敏感性方法,可以量化每个参数的单独影响及其相互作用的程度对模型输出的影响[36]。一阶Sobol指数(S1)衡量输入变量对输出方差的直接贡献,而总阶Sobol指数(ST)则捕捉该变量的整体贡献,包括其单独效应和所有交互效应[37]。图8展示了参数的Sobol敏感性分析结果。在各个变量中,束强度(g/tex)的影响最大,S1约为0.77,ST约为0.85,这表明束强度单独解释了大部分输出方差。第二重要的参数是根含量(%),其S1和ST分别为0.08和0.17。一阶指数和总阶指数之间的显著差异表明,虽然其单独效应较小,但它参与了与其他变量的交互效应。相比之下,细度(tex)和缺陷(%)的敏感性指数较低(S1 < 0.02和ST < 0.07),表明它们对输出变异性的单独贡献较低。然而,它们的总阶指数相对于一阶指数略有增加,表明存在轻微的交互效应。
3.3 Streamlit Web应用程序
在开发和比较了元启发式优化的RFR模型后,将表现最佳的RFR–GWO模型集成到了Streamlit Web应用程序中,提供了一个直观且交互式的界面,用于访问模型的预测功能。开发过程包括为每个变量设计专门的输入字段,使用户能够指定估计纱线强度的条件。图9展示了开发的Streamlit Web应用程序。“Evaluate”按钮用于控制应用程序,启动预测模型以解释输入特征,并立即向用户显示计算出的纱线强度值。这种集成方法提高了可访问性和用户便利性,使该系统成为研究人员、制造商和黄麻厂操作员预测纱线强度的实用工具。
4. 结论
本研究使用四种元启发式算法(WOA、GWO、BAS和ACO)优化了随机森林回归模型的超参数。这些混合模型旨在根据包含414个实验样本的数据集预测黄麻纱线的强度,其中70%的数据用于训练,30%用于测试模型。使用R2、MAE、RMSE和计算时间等四个统计指标评估了每个模型的性能。相关性分析显示,纤维的束强度和细度呈正相关,而根含量和缺陷呈负相关。定量结果表明,RFR–GWO的性能指标略优于其他模型,在训练阶段的R2为1.0,在测试阶段的R2为0.96。在计算时间方面,RFR–GWO在14.25秒内完成优化。SHAP分析显示,黄麻纤维的束强度和根含量是预测纱线强度的最重要参数。相比之下,缺陷和细度对纱线强度的影响较小。Sobol敏感性分析表明,束强度对模型预测有很强的直接影响。RFR–GWO模型被集成到了Streamlit Web应用程序中,提供了一个用户友好的交互式界面,用于实时预测纱线强度。预计基于机器学习的Web应用程序可以帮助黄麻行业和研究人员在不实际加工纤维的情况下预测纱线强度。本研究证明了元启发式算法优化的RFR模型在预测纤维属性的纱线强度方面的有效性。在本研究中,仅考虑了纱线强度。未来可以考虑 include 更多的参数,如最大拉伸延伸率、断裂功和总能量,以提供更全面的纱线分析。此外,当前模型是针对8磅(275.6 tex)纱线设计的,未来的工作应侧重于开发适用于4磅(137.8 tex)、6磅(206.7 tex)、10磅(344.5 tex)和16磅(551.2 tex)黄麻纱线的模型。