面向智能制造知识支持的轻量化查询自适应RAG框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《JOURNAL OF MANUFACTURING SYSTEMS》：Lightweight query-adaptive RAG framework for knowledge support in smart manufacturing

【字体：大中小】 时间：2026年04月11日 来源：JOURNAL OF MANUFACTURING SYSTEMS 14.2

编辑推荐：

　　随着智能制造从自动化执行进一步转向知识密集型决策支持，高效整合分散的领域知识已成为关键挑战。基于检索增强生成（Retrieval-Augmented Generation, RAG）的大语言模型（Large Language Models, LLMs）为引入外

随着智能制造从自动化执行进一步转向知识密集型决策支持，高效整合分散的领域知识已成为关键挑战。基于检索增强生成（Retrieval-Augmented Generation, RAG）的大语言模型（Large Language Models, LLMs）为引入外部知识提供了一种切实可行的方法。此类方法已逐渐应用于制造现场场景，其中决策过程通常需要频繁的人机协同（human–AI interactions）以及快速响应。在这一背景下，响应时延与知识利用成本对系统部署形成了约束。然而，传统RAG方法通常采用统一、静态的检索与生成流水线，在处理多样化查询时往往会引入冗余检索与上下文开销。因此，本文提出LiteRAG，一种轻量化查询自适应框架，该框架将语义查询分类与自适应检索相结合，以优化外部知识调用的必要性与范围。实验结果表明，与固定检索RAG相比，LiteRAG在柔性磨削任务中将平均token消耗与时延消耗降低近50%，同时适度提升了响应质量。该增益主要体现在需要检索增强的查询上，提升幅度约为15–20%。此外，跨模型评估表明，在该框架下，中等规模模型Qwen3_8B和Qwen3_14B可达到30B模型约90%的性能，体现出良好的资源效率与可扩展性。这些结果表明，LiteRAG为智能制造中大语言模型应用在知识利用与部署效率之间取得平衡提供了一种可部署的解决方案。

该论文发表于《JOURNAL OF MANUFACTURING SYSTEMS》，聚焦智能制造场景下大语言模型（Large Language Models, LLMs）知识支持系统的轻量化部署问题。研究背景在于，智能制造正在由传统的自动化执行与过程监测，转向依赖语义理解、知识组织和复杂推理的知识驱动型决策支持。制造领域知识通常分散于工艺规范、质量标准、设备手册、运维记录和经验笔记等多源异构载体中，具有碎片化、异质性强、更新频繁等特征。面对现场问题识别、工艺理解和方案选择等任务，工程人员长期依赖人工查阅、关键词检索或经验判断，但在时限严格、信息分散且任务语义复杂的环境中，这些方式难以支持快速、完整且高可信的知识获取。尽管大语言模型在自然语言理解、知识关联和复杂任务处理方面取得显著进展，但其内部知识更新周期长，难以及时覆盖制造工况变化、设备状态演化和经验知识累积，因此在专业化、长尾化制造任务中仍可能出现理解偏差甚至事实性错误。

为克服单纯依赖模型内部知识的不足，检索增强生成（Retrieval-Augmented Generation, RAG）通过接入外部知识库提升知识覆盖与答案可靠性，已成为制造知识问答的重要技术路线。但现有RAG系统大多采用固定的检索深度、统一的上下文拼接方式和静态流程，难以根据问题语义差异灵活控制是否需要检索、检索粒度以及上下文规模。这会在部分无需外部知识即可回答的问题上引入不必要的检索负担，也会在复杂问题上因上下文构造粗糙而造成语义干扰，进而增加token消耗、推理成本和响应时延。在边缘侧、本地化和中小企业应用环境中，这一矛盾尤为突出。因此，开展该研究的核心动因在于：在不改变模型参数、不过度依赖模型压缩技术的前提下，通过优化RAG知识调用流程，实现知识利用效果与部署效率的兼顾。

研究人员围绕这一目标提出了LiteRAG框架。该框架在传统RAG流程基础上，引入查询语义分类与相似度驱动的自适应检索机制，形成从查询感知、按需检索到轻量响应的系统级知识流。框架首先对用户问题执行语义识别，将查询划分为定义、机理、实验、规则、优化和未定义等类型，并据此映射不同的检索层级与上下文聚合窗口。对定义类和规则类等相对低复杂度问题，系统在生成前先进行相似度预检，若查询向量与知识库中高相似片段之间的最大相似度及分布差异均低于阈值，则判定模型内部知识覆盖不足，触发外部检索；否则直接由基础模型回答。对于机理解释、实验推断、参数优化等更依赖外部证据的问题，系统则按照分层句邻域规则直接进入检索流程。在检索激活后，框架采用双语检索融合策略，在中英文通道中并行检索并进行结果归一化融合，再通过重排序模型筛选Top-N上下文片段，最后结合相邻句子构建用于生成的外部语境。若问题未在预检阶段触发检索而直接由模型生成答案，系统还会在生成后执行知识一致性后检，若回答与知识库嵌入的最大语义相似度不足，则再次启动检索以补充和修正输出。通过这种预检—动态检索—后验证的闭环结构，LiteRAG在知识调用必要性、范围控制和资源消耗之间建立了动态平衡。

研究所采用的主要技术方法包括：构建基于规则驱动的查询分类（Query Classification, QC）模块，以关键词、句法模式和数学特征识别任务语义；采用句级切分与分层句邻域聚合策略，按句子、段落或融合级别组织上下文；设计相似度驱动的自适应检索（Adaptive Retrieval, AR）机制，以Q_max、Q?_m和Δ控制检索触发，并以R_max执行生成后知识支持校验；使用BGE-M3进行统一双语向量表示、FAISS执行检索、BGE-reranker-large完成重排序；在实验上以柔性磨削与抛光制造问答为场景，采用来自学术研究者、项目经理、高级技师和初级从业者共同构建的60个问题数据集，比较Base、RAG与LiteRAG模式，并开展消融实验和跨模型尺度评估。

在实验设计上，研究人员首先评估多个主流基础模型在制造知识任务中的基线表现，包括ChatGPT_5、Llama_3.1、DeepSeek_V3.2、Qwen3_Max、Qwen3_14B与Qwen3_30B。结果显示，各模型在该任务上的平均专家评分（Expert Score）大致位于60–80区间，BERTScore-F1约在0.6–0.7之间，说明即便是先进基础模型，在制造专业问答中仍存在明显提升空间。Qwen3_14B与Qwen3_30B虽然参数规模低于大型商业模型，但其性能已达到Qwen3_Max的大约85%–90%，且质量分布较稳定，因此被选为后续统一框架下的对比基础模型。这一结果说明，中等规模模型具备在轻量化知识增强框架中发挥实用价值的潜力。

在“5.2. Performance of the query-adaptive RAG framework”部分，研究人员比较了Base、固定检索RAG和LiteRAG三种知识利用模式。结果表明，无论在Qwen3_14B还是Qwen3_30B上，答案质量和语义一致性都呈现从Base到RAG再到LiteRAG逐级提升的趋势。以30B模型为例，整体Expert Score由Base模式的66.914提高到RAG模式的84.984，并进一步上升至LiteRAG的91.369；BERTScore-F1则由0.623增至0.691，再增至0.742。进一步将问题划分为“模型内部知识可覆盖的Intrinsic部分”和“需要检索增强的Augmented部分”后发现，三种模式在Intrinsic任务上的得分差异较小，而主要提升集中在Augmented任务上：RAG相较Base显著改善，LiteRAG又在RAG基础上继续提升，增益约15–20%。这说明LiteRAG的优势并不在于改变模型固有能力，而在于更有效地调用和组织外部知识，尤其是在复杂、条件依赖强的制造问题中。

在“5.3. Ablation results on key mechanisms”部分，论文通过消融实验检验了查询分类与自适应检索两个核心机制的独立作用及协同效应。实验构造了RAG、仅启用QC的LiteRAG（QC-only）、仅启用AR的LiteRAG（AR-only）以及完整LiteRAG四种配置。结果显示，在Intrinsic任务中，各模式得分总体相近，说明当基础模型本身足以回答问题时，额外检索并不能显著提升质量，甚至在个别边界任务上可能引入干扰。而在Augmented任务中，性能排序为RAG最低，AR-only有所提升，QC-only进一步提高，完整LiteRAG最佳。这表明语义分层检索与句邻域聚合能够比固定窗口检索生成更聚焦、更连贯的上下文；自适应检索则主要通过跳过不必要调用来压缩开销，并改善边界样本处理。两种机制结合后，不仅增强了复杂任务上的知识支持精度，也维持了更合理的检索决策边界。

在“5.4. Performance trends across model scales”部分，研究进一步分析了LiteRAG在不同参数规模Qwen3模型上的可扩展性。结果显示，LiteRAG整体性能随模型规模增大而提升，但增幅呈递减趋势：从4B到8B提升最明显，8B到14B和14B到30B的增益逐步收敛。BERTScore-F1也呈类似规律。更重要的是，Qwen3_8B与Qwen3_14B在LiteRAG下已达到30B模型约90%的表现。分解来看，小模型的Intrinsic部分得分随规模增加提升更为显著，而Augmented部分在14B及以上模型中表现出更明显增长。这说明在LiteRAG框架下，模型放大主要增强语言理解、事实判断和表达组织能力，而检索增强所带来的知识覆盖收益在中等及以上规模模型中趋于稳定。论文进一步结合错误类型分析指出，信息缺失始终是最主要错误来源，且在8B之后改善有限；事实错误与表达缺陷则随着模型规模增大持续下降，说明更大模型在回答可靠性与表述清晰度方面更稳定。

在资源效率方面，LiteRAG体现出论文题目所强调的“lightweight”优势。与固定检索RAG相比，LiteRAG在14B和30B模型上均将平均token消耗和响应时延压缩至约一半：token数从约2660降至1380–1410，时延从30–32 s降至约14 s。对于不需要外部知识的Intrinsic任务，LiteRAG与Base模式的资源开销基本相当，几乎未引入额外负担；对于Augmented任务，其平均token消耗虽与RAG接近，但延迟仍显著下降，说明通过更聚焦的候选上下文和更收敛的检索策略，系统在保持支持强度的同时改善了响应效率。消融实验进一步表明，AR-only和完整LiteRAG相较RAG在平均token和时延上分别可减少约46.9%–47.4%和52.6%–54.1%，QC-only也能获得较温和的轻量化收益，说明减少无效检索与改进上下文组织均有助于系统降负。

讨论部分主要围绕机制有效性、模型尺度含义及研究局限展开。研究人员认为，LiteRAG性能提升的核心来源不是基础模型本身发生变化，而是系统能够在更细粒度上识别查询意图，并按需调整检索启动与上下文规模。查询分类主要负责塑造检索粒度和召回内容层次，使信息更聚焦于问题语义；自适应检索主要决定是否调用外部知识，从而避免本可由模型内部知识解决的问题进入高成本检索流程。两者功能不同但互补，共同支持了分层、按需的知识调用机制。关于模型尺度，研究人员指出，中等规模模型已经能够获得大部分可观察到的性能增益，而进一步扩展参数仅带来边际改善，这为本地化和边缘部署中的模型选型提供了依据。

论文同时指出了若干局限。其一，当前查询分类模块主要依赖领域专家构建的启发式规则，在术语相对标准化、任务边界清晰的环境中有效，但在更广泛制造领域或知识持续演化场景下，规则维护可能带来较高工程成本，因此未来可探索基于数据驱动的分类方法，如查询—原型相似性建模或轻量级向量聚类。其二，双语检索融合中的查询翻译目前依赖通用小规模语言模型，在高度专业化术语处理中可能引入语义偏移，未来可引入领域术语词典约束，或采用面向特定语种对和工业语料微调的小型翻译模型，以提升跨语言语义对齐与术语一致性。

研究结论部分可译述如下：为应对智能制造中对轻量化知识获取与推理辅助的增长需求，研究人员围绕RAG流程中的检索调控策略，构建了LiteRAG-LLM框架。该框架通过结合面向查询的语义粒度控制与相似度驱动的检索激活机制，重组了知识调用过程，实现了上下文深度的按需调节。多维对比实验表明：与固定检索RAG相比，LiteRAG在本研究设定下可将平均token用量和推理时延降低近50%，且对由模型内部知识即可覆盖的查询，其工作负载水平接近Base模式；在成本下降的同时，响应质量仍有小幅提升，Qwen3_14B与Qwen3_30B的Expert Score分别较RAG提高约5.6%和7.5%，BERTScore-F1也呈现相近增幅，主要收益集中在需要增强的查询上，提升约15–20%，而内部知识型查询在三种模式间基本稳定。关于核心机制贡献，查询语义分类使QC-only在增强任务上获得更聚焦的检索内容，Expert Score较传统RAG提高约9.7%，并在token与时延上实现适度下降；自适应检索主要有利于可由基础模型直接回答的问题，通过选择性跳过将token和时延降低约80–90%，同时保持与RAG接近的Expert Score；当两种机制协同时，LiteRAG在增强任务上较QC-only进一步提高约6%的响应质量，并在若干边界案例上表现出更高稳健性。此外，LiteRAG的总体响应质量随模型规模增长而提升，但主要增益集中于4B到8B之间，之后增幅趋缓；8B和14B模型已达到30B模型近90%的性能。进一步分析显示，内部知识部分主要在小到中等规模阶段改善，而增强部分在14B及以上模型中收益更明显；随着规模增大，多数错误类型发生频率下降，但信息缺失错误在8B之后变化不大，仍是主要误差来源。

总体而言，该研究的学术意义在于从“模型压缩”之外，提出了一条面向RAG知识调用流程优化的轻量化路径，即在不改动模型参数的情况下，通过查询语义感知和相似度驱动调控，实现知识利用效率、答案质量与部署可行性的综合平衡。其应用意义在于为智能制造现场特别是边缘计算与资源受限环境中的LLM知识支持系统提供了可操作的工程方案，也为后续研究制造场景下更精细化、更可控的RAG系统奠定了方法基础。

联系信箱：

粤ICP备09063491号

热点排行