《Computers and Electronics in Agriculture》:ChatCEA: a knowledge-driven intelligent service agent for controlled environment agriculture
编辑推荐:
精准农业智能服务框架ChatCEA基于LLM和RAG技术开发,整合管理手册与期刊论文构建领域知识库,通过结构化数据处理和混合检索算法提升量化查询准确性,并建立首个包含1025组问答对的CEA专用基准。实验表明其回答正确率达0.71,显著优于GPT-4(0.41)和Google Search(0.44)。该框架支持本地部署保障数据隐私,为解决农业领域知识碎片化和语境理解不足问题提供新方案。
Fulin Xia|Jiandong Pan|Renhai Zhong|Wei Liu|Tongpeng Chen|Linchao Zhu|Yi Yang|Guichao Hua|Tao Lin
浙江大学生物系统工程与食品科学学院,中国杭州310058
摘要
控制环境农业(CEA)在获取精确、可操作的知识以进行高效生产管理方面面临挑战。传统的专家系统和搜索引擎往往缺乏处理复杂查询所需的灵活性和上下文理解能力。大型语言模型(LLMs)展现出强大的生成和理解能力,为改进CEA实践提供了机会。本研究提出了ChatCEA,这是一种智能服务代理,它通过检索增强生成(RAG)框架将LLMs与领域特定知识相结合。该框架包括三个主要组成部分:一个由管理手册和期刊论文构建的双源知识库模块、一个用于上下文语义搜索的检索模块,以及一个用于处理非结构化数据并精炼信息匹配的知识整合模块。这种结构通过提供专门的领域知识来补充通用LLMs,从而提高响应的准确性和相关性。ChatCEA还建立了首个针对CEA的基准测试,包含1,025对问答对。该基准测试包括定性和定量问题,并支持对整个生产过程的主要子领域的系统评估。该框架还支持本地部署,以保护数据隐私并实现生产环境中的实际应用。实验结果显示,ChatCEA的答案正确率为0.71,而GPT-4和Google Search的答案正确率分别为0.41和0.44。基于LLM的评估得分分别为ChatCEA 4.3分、GPT-4 3.8分和Google Search 2.5分。ChatCEA还通过提取和推理数值信息改进了对定量问题的处理。这些结果表明,ChatCEA为CEA管理提供了准确、数据驱动的支持。知识库、问答基准和源代码可在以下链接获取:
https://github.com/IDEAS-ZJU/ChatCEA引言
控制环境农业(CEA)是一种先进的农业方法,利用温室、植物工厂和垂直农场通过精确控制环境和栽培条件来优化作物生产(Dsouza等人,2023年)。然而,CEA系统的运营效率受到分散的技术知识以及缺乏可访问的、可操作的见解的限制(Zacharaki等人,2024年)。种植者常常难以找到关于作物管理、环境参数调整以及病虫害爆发缓解等复杂问题的指导(Kpodo等人,2024年)。这些运营挑战直接导致典型CEA设施中的生产力损失,这是由于决策不够优化所致。此外,无法有效获取精确和定量信息加剧了这些问题。开发一个有效的知识驱动的智能服务代理框架对于提高决策能力和优化性能至关重要。
传统方法,如专家系统和通用搜索引擎,对于这一领域来说是不够的。专家系统基于预定义的规则和有限的知识,这往往阻碍了它们应对现场动态挑战的能力,特别是那些与定制化植物管理和新兴生物现象相关的问题(Rani等人,2011年)。搜索引擎难以理解CEA查询的具体上下文和技术细节,迫使用户筛选无关信息并验证其准确性(Sandmann等人,2024年)。这些传统方法缺乏有效CEA服务所需的灵活性和理解能力,特别是在处理技术定量查询时存在明显缺陷,使得获取精确和可操作的信息变得困难(例如,“水培生菜的最佳营养EC值是多少?”)(Yang等人,2024年)。这些系统性缺陷凸显了结合领域特定知识整合与高级推理能力的适应性框架的迫切需求。
大型语言模型(LLMs)在自然语言处理方面取得了显著进展,这得益于深度神经网络和变换器架构。一个突出的例子是生成预训练Transformer 4(GPT-4)模型(Radford,2018年;Achiam等人,2023年),该模型被应用于医学诊断(Van Veen等人,2024年)、手稿评审(Liang等人,2024年)和法律咨询(Li等人,2024年)等领域。更广泛的农业研究也开始探索LLMs在各种情境中的应用。GPT-4作为农艺助理,能够回答与农业相关的问题并支持专业的农艺评估(Silva等人,2023年)。ChatAgri探索了LLMs在跨语言农业文本分类中的应用,显示出在农业信息处理方面的强大性能(Zhao等人,2023年)。尽管取得了这些进展,当前的应用仍然较为通用,无法满足CEA系统的高信息密度和环境特定要求。因此,需要专门的作物栽培、环境控制和病虫害管理知识(Lun等人,2022年)。虽然LLMs可以生成合理的回答,但幻觉现象的存在往往限制了它们在处理专门任务时的深度,导致答案泛化或误导(例如,推荐有害农药或建议不适当的温度设置)。这种幻觉可能导致严重的作物损失或财务损失(Gupta等人,2024年)。
为了解决这些限制,检索增强生成(RAG)框架通过将LLMs的回答基于外部领域知识来增强它们的能力(Fan等人,2024年)。这种方法在制造、医学和农业等各个领域提高了事实的准确性和可靠性(Lewis等人,2020年;Siriwardhana等人,2023年;Arslan等人,2024年)。在航空航天制造领域,CausalKGPT利用知识库通过理解质量数据中的因果关系来增强缺陷分析(Zhou等人,2024年)。在燃烧科学领域,基于研究文章的数据库增强了模型回答燃烧现象复杂问题的能力(Sharma和Raman,2024年)。在医学领域,青光眼知识库使Xiaoqing模型能够提供更准确的患者信息(Xue等人,2024年)。在农业应用中,PEZEGO结合了大型语言模型和RAG,通过结合领域知识和实时监控来实现病虫害管理(Yuan等人,2025年)。最近的研究还引入了事实核查和真实性推理框架,以提高基于LLM的问答的可靠性(Hang等人,2025年;Rolinger和Liu,2025年)。这些发展展示了RAG增强模型在领域特定推理和事实准确性方面的广泛潜力。
一个构建良好且全面的知识库对于弥合LLMs在专门领域面临的知识差距至关重要(Tzachor等人,2023年)。基于RAG构建一个CEA知识驱动的智能服务代理框架仍然面临几个挑战。其中一个主要障碍是从异构和非结构化数据中提取可操作的见解。许多与CEA相关的问题需要精确的定量数据,而知识库通常包含大量非结构化表格,这使得数据提取和提供准确回答变得复杂(Saadi等人,2025年)。此外,将查询与知识库中的大量信息准确匹配也是一个重大障碍。传统的RAG系统通常通过基本的语义搜索处理同质文本,这导致在文档解析过程中无法保留表格结构(Zhang等人,2024年),并且在将搜索结果与专业技术术语协调方面存在挑战(Gao等人,2024年)。克服这些挑战需要开发先进的数据结构技术和改进检索算法以生成准确答案。
在这项研究中,我们提出了ChatCEA,这是一个基于LLM和RAG技术的CEA知识驱动的智能服务代理框架。该框架整合了一个专门的知识库,其中包括管理手册和期刊论文,提供了该领域的专业知识。知识库涵盖了CEA管理过程,并满足了生产操作的信息密度和环境特定要求。此外,ChatCEA提出了一个知识整合模块,包括非结构化数据处理、混合搜索和重新排序,以解决通用LLMs和传统RAG系统在处理复杂定量查询时的局限性。重要的是,该框架可以作为本地系统在私有环境中部署,无需依赖外部网络,从而确保数据安全和隐私保护。为了评估其有效性,我们引入了一个全面的CEA问答(Q&A)基准,并使用两个评估指标将ChatCEA与像Google这样的传统搜索引擎和通用LLM GPT-4进行比较。为了解决CEA中的关键知识差距,包括有限的领域特定检索、碎片化信息以及处理定量问题的挑战,本研究的主要目标如下:
(1)基于LLM和RAG开发一个针对CEA领域的知识驱动的问答框架ChatCEA。
(2)构建首个针对CEA的问答基准,以系统地评估该框架的性能。
(3)评估不同知识来源对系统在各个CEA子领域性能的贡献。
(4)通过知识整合模块改进定量问题回答。
章节片段
ChatCEA框架架构
我们开发了ChatCEA(图1),这是一个基于LLM和RAG技术的CEA知识驱动的智能服务代理框架。在真实的CEA生产中,种植者面临三个主要挑战:知识分散在许多文档中,难以检索精确的技术参数,许多实际问题需要定量信息。为了解决这些挑战,该框架设计了三个核心组成部分:知识库模块、检索模块和
LLMs和搜索引擎的性能评估
ChatCEA模型在答案正确性和基于LLM的评估得分方面均优于传统搜索引擎Google和GPT-4(图4)。具体来说,ChatCEA在答案正确性方面表现更优(0.71),超过了Google(0.44)和GPT-4(0.41)。这表明ChatCEA提供的答案与参考答案更为一致。使用基于LLM的指标进行评估时,ChatCEA的平均得分为4.3分,超过了Google(2.5分)和
未来工作
尽管ChatCEA在CEA方面优于传统搜索系统和通用LLMs,但它仍存在一些局限性。首先,GPT-4既被用作基线模型,也被用作评估工具,这可能在开放或主观问题上导致系统性偏差。此外,评估结果可能会受到提示诱导偏差的影响,即回答的措辞或结构可能会影响判断。未来的工作将使用多个LLMs和专家评审员来提高评估的客观性
结论
本研究开发了基于LLM和RAG的CEA专家服务代理框架ChatCEA。本研究做出了四个主要贡献。首先,它建立了首个针对CEA的问答基准,为评估CEA生产中的问答系统提供了系统基础。其次,它整合了异构的CEA知识来源,包括管理手册和期刊论文,从而丰富了通用LLMs的领域特定专业知识。第三,它实现了准确的响应
CRediT作者贡献声明
Fulin Xia:撰写——原始草稿、软件、方法论、概念化。Jiandong Pan:撰写——审稿与编辑、监督。Renhai Zhong:撰写——审稿与编辑、监督。Wei Liu:撰写——审稿与编辑。Tongpeng Chen:撰写——审稿与编辑。Linchao Zhu:撰写——审稿与编辑。Yi Yang:撰写——审稿与编辑、监督。Guichao Hua:验证。Tao Lin:撰写——审稿与编辑、监督、资金获取。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。
致谢
本工作得到了中国国家重点研发计划(项目编号:2022YFD2002303)和浙江省重点研发计划(项目编号:2022C02003)的支持。