音频反馈对触觉-视觉混合现实脉搏 palpation（脉搏触摸）训练环境中用户体验的影响 Nikitha Donekal Chandrashekar、 Shawn D. Safford 和 Denis Gra?anin

《Information》：Impact of Audio Feedback on User Experience in Haptic-Visual Mixed Reality Pulse Palpation Training Environments Nikitha Donekal Chandrashekar, Shawn D. Safford and Denis Gra?anin

【字体：大中小】 时间：2026年04月30日 来源：Information 2.9

编辑推荐：

　　摘要：电子商务的快速增长凸显了高效客户评论情感分析的迫切需求，然而诸如讽刺和混合情感等自然语言的复杂性仍然具有挑战性。为了解决这些模糊性，本研究提出了一种新颖的情感分析架构。该方法结合了双向长短期记忆（Bi-LSTM）网络和Luong注意力机制。Bi-LSTM组件模拟了文本的序列

　　摘要：电子商务的快速增长凸显了高效客户评论情感分析的迫切需求，然而诸如讽刺和混合情感等自然语言的复杂性仍然具有挑战性。为了解决这些模糊性，本研究提出了一种新颖的情感分析架构。该方法结合了双向长短期记忆（Bi-LSTM）网络和Luong注意力机制。Bi-LSTM组件模拟了文本的序列和双向上下文，而Luong注意力机制则隔离并强调评论中最重要的部分，以实现精确的情感检测。与传统方法相比，所提出的混合模型表现出色，准确率达到96.67%，精确率达到96.83%，召回率也达到96.67%，并且过拟合现象相对较低。最终，研究结果证实该架构能够有效处理模糊的语言，并且非常适合大规模、实时的情感分析，为制定电子商务营销策略提供了强大的分析工具。

1. 引言
电子商务不仅改变了消费者的行为方式，也改变了当今营销的重点，即理解消费者的情绪[1]。产品推荐和客户满意度的构建，以及营销策略，都依赖于情感分析，尤其是其准确性[2]。每天都有数十亿条评论被发布，需要一个在速度和质量上都恰当的系统来处理和分析大规模的情感数据[3]，以提高情感分类的准确性，尤其是电子商务产品评论的分类[4]。所提出的框架尝试借助最新的深度学习（DL）技术来解决这些问题，包括结合了Luong注意力机制的双向长短期记忆（Bi-LSTM）[5]。
情感分析面临的挑战源于某些因素[6]。由于语言的细微差别，文本数据可能难以解释。此外，客户评论中的上下文变化和复杂的语言结构也使得文本数据难以理解[7]。此外，产品特性、评论甚至外部事件的情绪基调可能会同时影响消费者的情绪[8]。先进的深度语义特征提取方法有助于处理消费者情绪的复杂性，这些情绪取决于多种不断变化的因素，而传统模型无法捕捉到这些因素[9]。一些现有的方法，如循环神经网络（RNNs）、支持向量机（SVMs）和朴素贝叶斯分类器，在情感分类方面表现得相当不错[10]。然而，它们都无法有效处理文本数据中的序列和上下文关系[11]。相比之下，基于Transformer的Bi-LSTM能够获得更高的准确性，并且旨在捕捉上下文和长距离依赖性[12]。然而，这些模型并没有关注对汇总情感最为重要的评论部分[13]。此外，这些模型在很大程度上忽略了词语的重要性对分类的影响，尤其是在细微情感分类方面[14]。
所提出的框架利用基于Luong注意力的Bi-LSTM来弥补现有方法的不足，这种DL模型结合了Bi-LSTM在序列学习方面的优势，同时Luong注意力机制能够识别最重要的上下文。这种双管齐下的方法提供了复合优势（改进了长距离上下文的处理方式，并提高了模型对文本中最相关部分的关注度）。在提高情感分类能力的同时，该框架为电子商务产品评论分析提供了正确且稳健的解决方案，以应对文本结构和关键词语相互关系所带来的挑战，因为这两者都必须整合才能进行产品评论文本的情感分析。这是一个混合模型，它结合了Bi-LSTM和上下文敏感的注意力机制，以突出关键方面，从而更好地洞察消费者情绪，这使本工作与其他研究区分开来。

本文的主要贡献包括：
- 一个统一的情感分析框架，集成了预处理、探索性数据分析和基于Luong注意力的Bi-LSTM，适用于大规模电子商务评论数据集。
- 一种三类情感分类策略（正面、负面和中立），旨在提高现有基于Bi-LSTM的注意力模型中经常被忽视的中立意见的检测能力。
- 一个为噪声较大的客户评论量身定制的优化预处理流程，包括文本规范化、情感标记和异常值处理，以增强模型的鲁棒性。
- 在包含超过110,000条评论的多类别Amazon评论数据集上进行了广泛的评估，与传统基于注意力的Bi-LSTM方法相比，显示出更好的泛化能力和稳定性。

本研究通过结合明确的三类情感建模和专门的中立类表示，引入了超越传统基于注意力的Bi-LSTM架构的方法学进步。通过基于消融的评估，优化了Luong注意力机制，以增强对情感相关上下文特征的关注。该框架被设计为一个领域独立的情感分析流程，并在大型多类别数据集上进行了评估，以确保改进的泛化能力。本文的其余部分结构如下：第1节回顾了现有文献，并重点关注相关研究和发展；第2节详细描述了所提出的方法论和情感分析模型中遵循的步骤；第3节展示了实验结果；最后，第4节总结了主要发现和未来研究的可能方向。

1.1. 文献综述
首先，传统的自然语言处理（NLP）和主题建模技术已被广泛用于分析电子商务评论。例如，Liu等人[15]使用情感分类和社会网络分析来分析在线评论，以了解消费者关切；Yuan等人[16]和Yang等人[17]利用基于LDA的模型从产品评论中提取主题和情感趋势；Chen等人[18]则使用LDA技术分析直播电子商务平台中的公众情绪。然而，这些传统方法往往无法捕捉文本数据中的上下文依赖性和复杂语言模式。
为了应对这些限制，引入了基于方面和摘要的方法来更好地组织和解释消费者意见。Mabrouk等人[19]提出了一个结合方面提取和意见摘要的层次化框架；Guo等人[20]开发了一个两阶段分析模型，整合了自然语言处理和决策技术来识别关键满意度因素。尽管这些方法提高了可解释性，但它们仍然缺乏深入的上下文理解。
随着深度学习的进步，像长短期记忆（LSTM）网络这样的模型已被广泛用于情感分析。Fan等人[21]将LDA与LSTM结合使用，以增强特征提取；Nichifor等人[22]利用机器学习和NLP技术分析大规模电子商务评论。这些方法相比传统方法提高了性能；然而，它们在捕捉双向上下文和处理细微情感变化方面存在局限。
最近，基于注意力的深度学习模型，特别是带有注意力机制的Bi-LSTM，在情感分类方面显示出显著改进。H. Li等人[23]提出了一个用于三类情感分类的基于注意力的Bi-LSTM模型，在复杂数据集上表现出色；类似地，Huang等人[24]引入了一个ERNIE-Bi-LSTM模型，该模型结合了动态词嵌入和注意力机制来处理文本数据中的歧义和多义性。这些模型强调了上下文表示和注意力机制在提高情感分析准确性方面的作用。
除了模型开发之外，还有一些研究专注于理解不同电子商务环境中消费者的行为和情绪动态。Wang等人[25]使用混合方法研究了消费者行为；Li等人[26]利用文本挖掘技术分析了新鲜食品电子商务中的客户偏好；Ilieva等人[27]使用结构方程建模研究了客户满意度；Fici等人[28]调查了元宇宙环境中的消费者行为。这些研究为情感分析的实际应用提供了宝贵的洞察，但并未专注于改进模型架构。

1.2. 问题陈述
电子商务的日益普及显著改变了消费者行为，特别是在产品评论和客户满意度方面[23]。
尽管在主题建模方面的研究取得了显著进展，但许多问题使得难以有效捕捉消费者行为，例如语言的复杂性、消费者期望的变化以及流行病或法规等外部因素[21]。
现有研究为消费者评论提供了相关知识；然而，许多研究并未捕捉到消费者评论的多层次方面，特别是在跨境平台和新技术的情况下。消费者评论对电子商务策略和全球趋势变化的影响尚未得到深入研究，因此值得进一步探索[18]。

2. 材料与方法
图1展示了所提出的Amazon客户评论情感分析框架的总体工作流程。流程从数据收集开始，接着根据评论评分进行情感标记。然后进行数据预处理，包括文本清洗、处理缺失值和异常值检测，以准备数据集进行分析。接下来进行探索性数据分析（EDA），以检查情感类别的分布并分析评论中的文本模式。随后使用基于Luong注意力的Bi-LSTM模型进行特征提取和分类，该模型捕捉上下文依赖性并关注评论文本中最相关的部分。最终输出将评论分为三类情感：正面、负面和中立，为了解消费者反馈提供了有意义的见解。该架构通过引入几种设计改进，超越了传统的Bi-LSTM-注意力组合。该模型结合了明确的三类情感建模，能够专门表示中性意见，这在传统的Bi-LSTM注意力框架中通常缺失。Luong注意力机制通过上下文敏感的评分改进得到了优化，从而提高了对携带情感的标记的优先级。此外，该架构在大型多类别数据集上进行了评估，支持跨领域泛化，而之前的Bi-LSTM-注意力模型通常仅关注单一领域输入。

2.1. 数据收集
数据集来源于Kaggle上的Amazon客户评论，时间跨度为2013年至2019年。数据集包含来自智能手机、书籍、笔记本电脑甚至冰箱等多个类别的评论，还包括类别（Category）、评论标题（Review Header）、评论文本（Review Text）、评分（Rating）和Own_Rating（一种情感分类）等附加特征。数据集包含超过110,000条评论，情感评分被标记为正面或负面。这使得它成为进行情感分析的宝贵资源，因为它提供了对消费者情绪的理解。该数据集可以免费获取，并受CC0 1.0通用许可证的约束，这意味着可以自由用于任何目的。

2.2. 数据预处理
预处理流程包括标准的NLP操作，如小写转换、分词和停用词去除，这些是针对噪声较大的电子商务评论的基线文本规范化步骤。情感标记使用基于评分的弱监督进行，其中数值评分被映射到三类情感类别。这种方法在文献中被广泛采用，能够为大规模情感分析任务构建可扩展的标记数据集。

2.2.1. 文本清洗
文本清洗是针对噪声较大的电子商务评论的标准预处理步骤。它旨在提高文本的一致性并减少无关信息。应用了基本规范化操作，如小写转换、噪声去除、停用词过滤和分词。这些步骤有助于将原始评论文本转换为适合进一步处理的结构化形式，从而提高情感分析任务的数据质量。

2.2.2. 情感标记
情感分析通过根据每个评论的数值评分为其分配情感标签，将预测问题转化为三类分类问题。设r为评论评分，{1, 2, 3, 4, 5}。分配的情感标签S按照方程（1）给出：
(1)
因此，评分为二的评论被分类为负面，评分为三的评论被分类为中立，评分为五的评论被分类为正面。这种映射为将数值评分投影到相应的分类情感标签提供了清晰一致的方法，便于模型训练和评估。

2.2.3. 处理缺失数据
数据中的缺失值被替换为可用数据的平均值来进行插补。这样就可以使用方程（2）进行更准确的训练和分析：
(2)
其中表示要插补的缺失值，表示该特征的非缺失值总数，表示非缺失值。

2.2.4. 异常值检测
采用技术来定位与其余数据显著偏离的数据元素。检测异常值很重要，因为它们往往会降低模型的有效性。例如，一个与文本情感不符的极端评分评论就是异常值。可以使用-z分数或四分位距（IQR）来检测异常值。特征（例如，评论的长度或评分）的Z分数在方程（3）中定义如下：（3）其中表示平均值，表示标准差。异常值被定义为任何Z分数超过定义阈值的数据点，例如，而所有其他数据点都是内点。所提出的框架通过将结构化预处理和分析阶段集成到统一的工作流中，超越了传统的情绪分析流程。预处理模块包括情绪平衡的标注、系统的噪声降低和异常值检测，与标准的文本清洗方法相比，这些改进增强了数据的一致性。此外，探索性数据分析被嵌入到流程中，以指导特征理解和类别分布平衡，而不是作为单独的分析步骤。2.3 情绪分布和文本模式的探索性数据分析（EDA）进行探索性数据分析（EDA）以检查数据集中的情绪类别分布。分析每个类别（正面、负面和中立）的评论比例，以识别类别不平衡或偏斜。使用条形图和直方图可视化这些分布，以便更好地理解数据集的整体构成。此外，还进行文本分析，以识别与不同情绪类别相关联的频繁出现的单词和短语。分析正面和负面评论中术语的频率，以了解它们对情绪分类的贡献。通过比较不同情绪类别中的词的使用情况，可以识别出重要的情绪指示词，这有助于改善特征选择和模型性能。总体而言，EDA确保数据集被充分理解并适当结构化，为训练有效的情绪分析模型提供了坚实的基础。2.4 提出的框架概述表1展示了所提出的框架与现有基于注意力的Bi-LSTM模型之间的比较。该比较突出了关键方面，如预处理流程、对中立情绪分类的支持、数据集多样性、注意力机制以及统一框架的集成。与传统方法不同，所提出的模型结合了优化过的预处理流程、明确的三类情绪建模以及在统一架构中的多类别数据集处理。这展示了所提出方法在方法上的区别及其相对于现有基于注意力的Bi-LSTM框架的改进的鲁棒性。表1. 与现有基于注意力的Bi-LSTM模型的技术比较。2.5 使用Luong基于注意力的Bi-LSTM进行特征提取和分类所提出的框架采用了标准的Bi-LSTM架构，并结合了Luong注意力进行情绪分类。该方法的重点不是LSTM组件的详细数学公式，而是一个为噪声较多的电子商务评论数据设计的优化流程，其中注意力被用作情绪相关令牌选择的特征细化机制。所提出的框架通过引入一个抗噪声的情绪分析流程和明确的三类情绪建模来扩展标准的Bi-LSTM-注意力模型，其中Luong注意力作为特征细化机制，以增强对大规模电子商务评论数据中情绪相关上下文信息的关注。注意力加权的表示通过全连接层传递，然后通过softmax激活函数将输入分类为三种情绪类别：正面、负面和中立，如图2所示。图2. Bi-LSTM架构。2.5.1 输入层文本数据中的输入层接受词嵌入或属性集作为输入，其中是步骤的嵌入，是评论中的单词数量。输入序列通常使用如Word2Vec、GloVe或BERT之类的词嵌入生成，这意味着是步骤中单词的嵌入或高维向量表示。因此，输入序列可以如下在方程（4）中表示：（4）其中表示序列中每个单词的-d维词嵌入空间。2.5.2 后向传递门在Bi-LSTM架构中，后向传递从右到左处理输入序列，使模型能够捕获来自未来令牌的上下文信息。这补充了前向传递，后者捕获过去的上下文。前向和后向传递的输出结合在一起，形成输入序列的完整表示，提高了模型理解上下文依赖性以进行情绪分类的能力。2.5.3 Bi-LSTM Bi-LSTM通过在前向（从左到右）和后向（从右到左）两个方向处理输入数据来增强序列建模。在前向传递中，隐藏状态按方程（5）计算：（5）其中捕获直到时间步的过去上下文。在后向传递中，隐藏状态按方程（6）计算：（6）表示从序列末尾到的时间点的未来上下文。在每一步中，前向和后向状态被连接起来，在方程（7）中形成更丰富的表示：（7）该组合了过去和未来的信息。然后使用这个组合的隐藏状态在下游层（例如，带softmax的全连接层）中执行任务，如情绪分析，使模型能够利用完整的上下文信息进行更准确的预测。2.5.4 Luong注意力层Luong注意力机制应用于Bi-LSTM的输出之上，以识别和强调输入序列中的重要单词。它为每个隐藏状态分配注意力权重，使模型能够关注评论中的情绪相关部分。隐藏状态的加权组合形成了一个上下文向量，该向量捕获了输入序列中最有信息量的特征，并用于最终的情绪分类。这种架构通过图3所示的注意力机制支持模型表示双向上下文，并关注最相关的输入信息。图3. Luong注意力机制。2.5.5 全连接层这个层在基于Bi-LSTM的模型中作为最终阶段，将连接的隐藏状态转换为特定类别的分数。组合的隐藏状态通过一个密集层，其中应用带有权重和偏置的线性转换，在方程（8）中：（8）其中是权重矩阵，是偏置项，表示每个情绪类别的未标准化分数（logits）。为了将这些分数转换为可解释的概率，在方程（9）中应用softmax激活函数：（9）其中是类别的分数，分母对所有可能的类别进行了归一化。这确保输出形成了跨类别的有效概率分布（正面、负面、中立）。模型通过选择出现概率最高的类别来确定预测的情绪。这一步骤至关重要，因为它将高维的Bi-LSTM表示与最终的分类决策联系起来，从而实现准确的情绪预测。2.5.6 输出层基于Bi-LSTM的情绪分类模型通过选择三种情绪类别之一来产生最终预测：正面、负面或中立。在全连接层计算出logits后，softmax函数将它们转换为每个类别的概率，然后选择概率最大的类别作为最终决策。这在数学上表示为方程（10）：（10）其中是预测的情绪标签，Class是类别的softmax概率。概率最高的类别被赋值为输入文本的情绪（例如，电子商务评论），确保了清晰且可解释的分类结果。2.6 实验设置对于实验评估，数据集包含大约110,000条亚马逊评论。数据集被划分为80%的训练数据（88,000个样本）和20%的测试数据（22,000个样本）。模型使用Adam优化器进行训练，学习率为0.001。使用具有100维的预训练GloVe嵌入来表示输入文本。采用批量大小为64和20个训练周期。实现是在支持GPU的环境中使用TensorFlow进行的。应用0.5的丢弃率以减少过拟合，并使用基于验证损失的提前停止来提高泛化能力。选择这种架构是因为Bi-LSTM能够有效地捕获长范围的评论上下文，而Luong注意力机制增强了对关键情绪承载单词的关注。与传统的CNN、SVM或基本LSTM模型相比，这种组合提供了更强的语义理解，并且计算成本更低，适合大规模电子商务评论分析。3. 结果和讨论研究表明，该分类模型在三个类别上表现完美：正面、负面和中立。它达到了非常高的准确性，仅在负面实例中出现了少量的错误分类。从混淆矩阵、ROC曲线和精确度-召回率曲线可以看出，它以很小的错误分离了类别。它在对极端情况的处理上也表现出高精确度和召回率。此外，其准确性、精确度、召回率和F1分数的计算结果也很高。此外，训练和验证指标在泛化数据方面表现良好，意味着它们没有过度拟合。然而，随着训练周期的推移，性能稳步提升。图4中的混淆矩阵是为了可视化目的而缩放的表示。然而，所有评估指标都是使用包含22,000个样本的完整测试数据集计算的。模型有效地区分了正面、负面和中立类别，错误分类很少。报告的性能指标，包括准确性、精确度和召回率，是在完整的测试数据集上计算的，以确保它们的可靠性和统计显著性。图4. 混淆矩阵。表2展示了使用不同评估策略对所提出模型的鲁棒性评估。首先使用标准的80/20训练-测试分割在亚马逊评论数据集上对模型进行评估，以获得基线性能。此外，还考虑了k折交叉验证，以进一步验证模型在不同数据划分下的稳定性和一致性。这种评估表明，模型在不同数据划分下保持了可靠的性能，表明了其鲁棒性。表2. 提出模型的鲁棒性评估。绿色曲线（正面）的AUC为1.000000，表明它可以完美分类。橙色曲线（负面）的AUC为0.996250，表明它的表现良好但错误很少。红色曲线（中性）的AUC为0.998750，也非常优秀。三条曲线都接近左上角，表明模型的真正例率和假正例率都很高，如图5所示。图5. ROC曲线。图6展示了三种情绪类别的精确度-召回率曲线。曲线集中在右上区域，表明所有类别的精确度和召回率值都很高。这反映了所提出模型的强分类性能。图6. 精确度-召回率曲线。图7比较了分类模型的假负例率（FNR）和假正例率（FPR）。FNR由蓝色条形表示，为0.033，表明大约3.3%的真实正面案例被错误分类为负面。紫色条形显示FPR = 0.017，即1.7%的真实负面案例被错误分类为正面。图表表明假负例率高于假正例率，尽管也相对较低。图7. FNR和FPR。准确率为0.9667，表明96.67%的预测是正确的。准确率为0.9683，96.83%的正面预测是正确的。召回率为0.9667，意味着96.67%的真实正面案例被检测到。F1分数为0.9662，精确度和召回率相当。它在所有重要指标上都表现良好，如图8所示，数值大约为1。图8. 性能指标。表3提供了所提出模型的实验发现与现有电子商务文献中报告的关键结果之间的简洁比较。结果表明，先前的研究主要集中在主题提取、方面总结或领域特定的情绪趋势上，而所提出的模型提供了更高的情绪准确性和更精确的极性检测。通过超越或补充早期工作的局限性，该模型为电子商务分析提供了明显的实际好处，包括改进的客户理解、增强的评论总结、可扩展的情绪监控以及更可靠的服务质量因素分析。表3. 与现有文献的比较和实际意义。对所提出的框架与最近的基于Transform器的情绪分析模型进行了全面比较。Transformer架构，包括BERT和RoBERTa，以其强大的上下文表示能力而闻名。然而，所提出的基于Luong注意力的Bi-LSTM模型在保持相对较低的计算复杂性的同时，实现了有竞争力的分类性能。这突显了所提出方法适用于大规模电子商务评论情绪分析的适当性。此外，该框架的方法创新性在于将Bi-LSTM与Luong注意力机制相结合，促进了有效的双向上下文学习，并增强了模型关注情绪相关特征的能力。这种集成在性能和计算效率之间实现了平衡的折中，与基于Transformer的方法相比。表4展示了所提出的基于Luong注意力机制的Bi-LSTM框架与最新的基于Transformer的情感分析模型之间的性能对比。比较包括了准确性、精确度、召回率和F1分数等评估指标。尽管Transformer模型在准确性上略有提升，但所提出的框架在计算复杂度更低的情况下展示了竞争力，使其适用于大规模电子商务评论情感分类。表4：与基于Transformer的情感分析模型的性能对比。通过对提出的基于Luong注意力机制的Bi-LSTM模型与包括支持向量机（SVM）和随机森林等传统机器学习模型，以及卷积神经网络（CNNs）和标准Bi-LSTM在内的深度学习模型进行了全面而公平的评估。此外，还考虑了一个基于Transformer的模型（BERT）作为对比对象。所有模型都在相同的亚马逊评论数据集上进行了训练和评估，使用了相同的预处理步骤，并采用了80/20的训练-测试划分以保持一致性。比较结果表明，所提出的模型显著优于传统的机器学习模型和标准的深度学习方法，同时与基于Transformer的模型相比也表现出了竞争力。值得注意的是，与Transformer架构相比，所提出的模型保持了更低的计算复杂度，使其更适合大规模和实时的情感分析应用，如表5所示。表5：与基线模型的性能对比。图9显示了60个训练周期内的训练准确率和验证准确率。两种准确率在训练过程中稳步提高，表明模型学习效果良好。训练准确率接近1.0，而验证准确率约为0.95。两者之间的小差距表明模型具有良好的泛化能力且过拟合现象最小。图9：模型准确率。如图10所示，模型经过了60个训练周期的训练和验证。训练损失（深绿色）和验证损失（浅绿色）也在前几个周期内显著下降，大约从0.8降至0.2或更低，这意味着模型变得更好。尽管如此，在第40个周期时验证损失略有波动，这表明存在一定程度的变化。总体而言，模型的两种损失值都趋于稳定，反映了有效的学习过程和较低的后拟合现象。图10：模型损失。Mobile产品拥有最多的评论数量，超过20,000条，其中大部分是5星（浅蓝色）和4星（深灰色）评价。SmartTV的评论数量较少，大约14,000条，评价均为4星和5星。Mobile Accessories和Refrigerators的评论数量适中，Mobile Accessories的评论比例更平衡，多为3星和2星评价。书籍的评论数量最少，不到5000条，且各种评分分布均匀。图表显示，与手机相关的产品评分高于其他产品。图11：按类别划分的评分。图12展示了评论长度（15,000-0个字符）在x轴上，评分（1-5分）在y轴上。气泡大小表示该类别的评论数量，较大的气泡对应更多的评论。可以看出，评分较高的评论（分别为黄色和浅橙色标记的4.5星和5星）长度较长，评论长度超过5000个字符。相反，评分较低的评论（分别为紫色和蓝色的1星和2星）较短，长度大多在0-5000个字符之间。图12：评论长度与评分的关系。图13展示了评论长度的分布，x轴范围从0到15,000个字符，y轴表示评论密度。接近零的尖锐峰值表明大量评论非常短，通常只包含少数几个单词或句子。随着评论长度的增加，密度迅速下降，说明较长的评论较为罕见。总体上，分布高度左偏，大多数评论较短，仅有少量评论接近15,000个字符。图13：评论长度分布。图14说明了评论评分与单词数量之间的关系。x轴代表1到5的评分，y轴显示每条评论的单词数量。1星评分的评论通常较短，大多数评论包含的单词少于500个，并集中在较低评分范围内。相比之下，评分较高的评论（特别是4星和5星）往往有更多的单词，有些评论超过1000个单词甚至超过2500个和3000个单词，这表明较高的评分与较长的评论之间存在正相关。图14：评分与单词数量的关系。图15显示了按情感评分划分的评论长度分布，分为正面、中性和负面情感。x轴代表情感评分，y轴表示评论的长度（以字符数计）。正面评论的评论长度较长，部分评论超过17,500个字符。负面评论在中位数约为300个字符，大多数评论评分较低，反馈较为简略。中性评论的长度也较短，大多数评论的评分较低。图15：按情感划分的评论长度。评分与评论长度和单词数量的散点图矩阵表示了不同评分（1-5）下评论长度与单词数量之间的关联。散点图显示，评论越长（高评分），使用的单词数量越多（特别是4星和5星，分别用紫色和红色表示）。1星评分的评论（蓝色）长度较短，且评论长度和单词数量之间的相关性较高。图16：评论长度与单词数量的散点图矩阵。表6展示了进行的消融研究结果，旨在评估Luong注意力机制对Bi-LSTM模型性能的影响。标准Bi-LSTM的准确率为94.76%，而加入Luong注意力的Bi-LSTM将准确率提高到了96.67%。在精确度、召回率和F1分数方面也观察到了类似的提升。这种性能提升表明Luong注意力机制有效增强了模型对输入文本中情感相关特征的关注能力，从而提高了分类准确率和整体鲁棒性。表6：评估Luong注意力机制影响的消融研究。表6中观察到的高性能受到数据集特定特征的影响，包括基于评分的弱监督和领域受限的电子商务评论，这些因素简化了情感分类。因此，结果应被理解为在受控条件下的任务特定性能，而不是普遍的优越性。实验结果表明，所提出的模型相比文献中报道的现有方法取得了更好的性能。特别是，传统的机器学习和基于LSTM的方法在捕捉文本数据中的上下文依赖性方面存在局限性。在定量评估中，进行了错误分析以了解模型的局限性。模型在处理讽刺表达、混合情感句子和上下文依赖的极性转换时遇到困难。在某些情况下，隐含的情感线索导致了错误分类，尤其是在包含矛盾观点或领域特定表达的评论中。这些观察表明，虽然模型在处理明确的情感模式时表现良好，但在语言复杂和模糊的情景中其鲁棒性会降低。报告的性能提升应在数据集特定约束的背景下进行解释。由于情感标签是基于评分的弱监督得出的，任务本身可能具有较低的复杂性和潜在的标签偏见。此外，类别不平衡和电子商务评论的领域特定特征可能会影响评估指标。因此，结果反映了在受控实验条件下的强大性能，而不是在多样化的情感分析场景中的普遍优越性。观察到的高性能受到数据集特定特征的影响，包括基于评分的弱监督产生的清晰分离的情感类别和领域受限的电子商务评论结构。这可能降低了任务复杂性并引入了轻微的类别偏见；因此，结果代表了受控实验条件下的性能，而不是在多样化情感数据集中的普遍适用性。数据集专注于电子商务评论，情感标签是基于评分的弱监督得出的，这可能引入了标签偏见并降低了任务复杂性。此外，潜在的类别不平衡和领域特定的语言特征可能会影响性能指标。因此，报告的结果反映了在受控实验条件下的性能，而不是在多样化情感数据集中的普遍适用性。相比之下，Bi-LSTM架构能够有效地捕获前向和后向的上下文信息，从而实现更准确的情感分类。此外，注意力机制的集成使模型能够专注于输入序列中最相关的特征，从而提高了分类性能，尤其是对于复杂和中性情感。这些发现证实，与之前的研究相比，所提出的方法为电子商务应用中的情感分析提供了更加健壮和高效的框架。这些结果优于H. Li等人[23]和Huang等人[24]的先前研究。4. 结论本文提出了一种改进的电子商务产品评论情感分析系统，该系统采用了Bi-LSTM架构并结合了Luong注意力机制。通过这种方法，有效解决了产品评论情感分析中文本数据模糊性（具有多层含义和复杂性）所带来的挑战，因为它允许模型识别文本中的较长范围依赖关系，并强调文本的重要部分。研究结果表明，所提出的框架在提高情感分类准确性方面更加高效，并且与其他传统方法相比具有更高的准确率和召回率。该模型的准确率为96.67%，精确度和召回率分别为96.83%和96.67%，表现出良好的泛化能力和较低的过拟合现象，这一点通过其稳定的训练和验证性能得到了证明。尽管所提出的模型非常有效，但仍存在一些局限性。该模型是在特定数据集上评估的，这可能限制了其在不同领域中的泛化能力。此外，该方法仅关注文本数据，没有考虑图像或用户元数据等多模态信息，这些信息可能会影响情感理解。此外，模型在处理讽刺、讽刺和上下文依赖的表达等复杂语言模式时可能会遇到挑战。虽然计算效率优于基于Transformer的模型，但在大规模实时应用中仍有改进的空间。通过进一步研究更多的注意力机制或领域特定特征，可以进一步提高模型性能。未来的工作可能集中在改进模型以应对更复杂的情感变化（例如讽刺或特定领域的情感），并将其扩展到其他语言和各种电子商务数据中，以使其更具通用性。所提出的框架在受控实验条件下表现出强大的性能；然而，其贡献主要是基于标准架构和数据集特定限制的逐步改进。未来的工作可能会专注于提高跨不同数据集的泛化能力，并加强对复杂语言现象的处理能力。

热点排行