评估多任务AI模型与人类在食物份量估算方面的表现

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《The Journal of Nutrition》：Evaluating a Multitask AI Model versus Humans for Portion Size Estimation

【字体：大中小】 时间：2026年06月13日 来源：The Journal of Nutrition 3.7

编辑推荐：

　　比比努尔·努尔马诺娃|朱尔迪兹·奥马罗娃|艾博塔·萨纳特别克|胡塞因·阿塔坎·瓦罗尔|陈美燕哈萨克斯坦阿斯塔纳纳扎尔巴耶夫大学医学院，邮编010000摘要背景精确的饮食评估对于精准营养和营养监测至关重要。尤其是在中亚地区，由于集体用餐以及非标准化的家庭计量方式普遍存在，估算食物份

　　比比努尔·努尔马诺娃|朱尔迪兹·奥马罗娃|艾博塔·萨纳特别克|胡塞因·阿塔坎·瓦罗尔|陈美燕哈萨克斯坦阿斯塔纳纳扎尔巴耶夫大学医学院，邮编010000摘要背景精确的饮食评估对于精准营养和营养监测至关重要。尤其是在中亚地区，由于集体用餐以及非标准化的家庭计量方式普遍存在，估算食物份量一直是个难题。人工智能领域的进步，尤其是能够同时进行食物识别和份量估算的多任务学习模型，为传统的自我报告方法提供了有希望的替代方案。然而，目前关于人工智能与人类估算方法的直接比较仍十分有限。研究目的本研究比较了三种方法：无辅助的人类判断、视觉食物图谱辅助以及基于中亚食物的人工智能模型。研究方法共有128名来自哈萨克斯坦阿斯塔纳的参与者，通过标准化照片对51种食物和8种饮料的份量进行视觉估算。参与者被随机分配到无辅助组或图谱辅助组，同时还对基于中亚食物图像训练的人工智能模型进行了评估。实际食物重量作为参考标准。通过平均绝对误差和平均绝对百分比误差来评估不同食物类型、类别及份量下的估算准确性。研究结果图谱辅助估算的整体准确性最高（MAE为80.81克；MAPE为44.76%），而无辅助估算的准确性最低（MAE为133.86克；MAPE为79.40%）。人工智能模型的表现处于中间水平（MAE为97.37克；MAPE为67.81%）。不同方法之间的差异具有显著性（p < 0.05）：图谱辅助估算结果较为稳定，而人工智能模型的准确性则因食物类别和份量大小而有所不同。该人工智能模型在估算饮料和平均份量时的表现最佳（MAE分别为34.48克和11.79%），而在估算小份量及结构复杂的食物时则会出现较高误差。在无辅助组中，男性和女性之间的估算结果存在显著差异（p = 0.038），男性报告的份量更大；而在图谱辅助组中，这种差异则不太明显（p = 0.114）。结论使用视觉图谱可显著提升食物份量的估算准确性。对于结构复杂的食物和小份量食物，人工智能模型还需进一步优化。将视觉工具与人工智能工具相结合，有助于提升针对该地区的饮食监测策略。引言中亚地区的饮食习惯正在经历一场由现代化进程与根深蒂固的文化传统共同作用所引发的复杂多变的变化。在阿塞拜疆、哈萨克斯坦、吉尔吉斯斯坦、塔吉克斯坦、土库曼斯坦和乌兹别克斯坦的城市地区，高热量、经过深度加工且富含糖分、脂肪和盐分的食品消费越来越普遍，这进一步加剧了这些地区的饮食风险。而农村地区的人们则依然依赖长期形成的传统饮食习惯，这类习惯往往表现为更多摄入红肉、肉类制品及某些谷物，而水果和蔬菜的摄入量相对较少。这些根深蒂固的饮食习惯并未以现代基于证据的饮食指导为依据，从而导致营养不良问题日益严重。这包括非传染性疾病如肥胖症、高血压和2型糖尿病的发病率不断上升，同时这些国家的一些地区还存在微量营养素缺乏的问题。近期还有研究指出，需要为中亚人群制定适合该地区的身体质量指数和腰围等人体测量标准。尽管与饮食相关的风险因素日益增多，但由于缺乏准确、可靠的饮食数据，改变人们饮食习惯的努力仍然面临诸多阻碍。现有的大多数评估工具都是在西方环境下开发的，与中亚地区集体用餐、非标准化份量以及具有地方特色的食物等情况并不相适应。因此，这种不匹配可能会导致营养摄入量估算出现偏差，限制基于证据的政策制定，进而降低公共卫生领域中营养干预措施的有效性。此外，哈萨克斯坦的医疗专业人员在营养方面的能力也较为有限，有研究显示他们的理论知识与实际应用之间存在差距。为了解决这些问题，研究人员探索了两项技术进展：基于人工智能的图像识别系统以及视觉食物图谱。在过去十年中，有许多研究探讨了人工智能在饮食评估中的应用，尤其是用于估算食物份量。基于人工智能的工具，包括图像识别模型、增强现实界面以及沉浸式数字营养师，都在提高估算准确性以及减轻受访者负担方面取得了良好效果。例如，惠顿等人发现，基于人工智能或图像辅助的系统能为饮食监测提供更为精确且不会给受访者带来过大负担的解决方案，同时还能减少在访谈者协助下常见的过高估算偏差。类似地，布拉加等人通过沉浸式虚拟现实技术推出的沉浸式虚拟饮食与营养咨询师，显著提升了参与者对食物份量的估算准确性及其自我效能感，尤其是在估算高能量密度食物时效果更为明显。虽然其效果与面对面教育相当，但这类数字工具在多样性较高或资源有限的情境下具有更大的优势。对基于人工智能的饮食评估工具的更广泛研究表明，当使用针对特定环境数据训练的深度学习图像模型时，其性能优于传统方法。然而，大多数人工智能系统都是在西方环境下经过验证的，它们假设人们会按个体份量进食，并且熟悉克或杯这样的计量单位。在那些食物是从大盘子中分享、没有明确个人份量的集体用餐环境中，这些系统的表现至今尚未得到充分研究。尽管最近有研究表明大型语言模型能够为中亚人群提供符合当地文化的饮食建议，但由于精确估算食物份量仍是一个亟待解决的难题，这类模型在饮食评估方面的应用仍有限。经过本地化调整的视觉食物图谱则提供了一种互补的解决方案。当这些图谱包含了当地常见食物、典型的餐具以及符合实际的份量信息后，就能提升非西方地区的饮食估算准确性，比如中东、北非和巴尔干地区。对于那些通常不采用标准化份量且营养知识可能较为有限的中亚人群来说，具有地方文化特色的视觉参考资料或许能提供一种实用的解决方案。为满足这一需求，我们最近开发了一本针对中亚地区的数字食物图谱，其中包含了当地常见的食物、传统的餐具以及符合当地文化习惯的份量信息，专为该地区的饮食评估而设计。研究表明，与分餐制相比，集体用餐或自助餐式的进食方式，尤其是那种自己取餐或共享盘子的形式，会显著增加食物份量和营养摄入量估算的误差及变化幅度，因此，经过本地化调整的图谱或许有助于减少估算错误，提高饮食评估的准确性。虽然人工智能系统和视觉图谱都可能为解决这一问题提供有效方案，但两者都存在各自的局限性。食物图谱依赖于人类的解读，且难以大规模推广，而基于人工智能的图像识别系统则可以实现自动化、实时的份量估算，几乎不需要用户输入，且具备很高的扩展性。尽管这两种方法对中亚地区具有重要意义，但目前直接比较这两种方法的证据仍然很少。以往的研究多是将人工智能与回忆法或访谈法进行比较，而非专门与视觉图谱进行对比。因此，目前仍存在一个重要的知识空白，即尚不清楚人工智能模型是否能够成为比视觉图谱更好的估算工具，尤其是在像中亚这样迫切需要可行解决方案的地区。本研究旨在评估并比较三种食物份量估算方法：（1）无辅助的人类判断；（2）借助新开发的针对中亚地区的数字视觉食物图谱进行的判断；（3）基于超过21,000张本地食物图像训练的人工智能模型。据我们所知，这是中亚地区首项直接比较利用本地食物进行图谱辅助人类估算与人工智能驱动的份量估算的研究，填补了在文化适应性饮食评估方面的重要证据空白。研究假设认为，无论是图谱辅助的人类估算还是基于人工智能的估算，其准确性都会高于无辅助的人类估算。此外，鉴于中亚地区的相关研究证据较为有限，本研究还旨在探讨究竟是数字图谱还是人工智能模型能给出更准确的估算结果。这项研究的意义在于：通过将图谱辅助的份量估算准确性与食物及饮料的实际重量数据进行对比，评估人工智能模型的准确性，为未来该模型的性能优化提供参考，同时为中亚地区开发出标准的饮食评估工具，以便为研究人员、营养师和医疗专业人员提供帮助。研究设计这项验证性研究比较了三种食物份量估算方法的准确性：无辅助的视觉估算、借助经过文化适应性调整的视觉食物图谱进行的估算，以及基于人工智能的图像分析模型。由于人工智能模型无法参与交叉试验设计，而且让参与者接触多种估算条件很可能会引发学习效应和迁移效应，从而影响研究结果的准确性，因此无法采用随机交叉试验的设计。数据收集本次调查使用了51种食物和8种饮料的图片。每种食物都以小份、中等份和大份三种规格呈现，共计153张食物图片。饮料则统一以中等份量呈现，另外增加了8张图片。总体而言，此次调查共包含161张食物和饮料图片。这些食物都是从各类常见食物中挑选出来的，涵盖了主菜、肉类和乳制品类食物、面食类食物等等。研究对象的特征共有128名参与者完成了这项研究，并被纳入最终分析（见表1）。两组参与者在各项测量指标上均相当。两组的性别比例均衡，每组各有32名女性和32名男性。两组之间的年龄分布没有显著差异（p = 0.0824），且两组中大部分参与者的年龄都在18至25岁之间。两组之间的身体质量指数分布也相当（p = 0.624），平均身体质量指数数值也相近。讨论本研究通过三种不同的方法——无辅助的人类判断、图谱辅助估算以及人工智能辅助估算，对多种不同食物及其不同份量的估算准确性进行了评估。总体而言，图谱辅助估算的准确性始终最高，与无辅助估算和基于人工智能的估算方法相比，它能降低绝对误差和相对误差。在大多数食物类别中，无辅助估算的平均绝对误差和平均绝对百分比误差始终最高。关于写作过程中生成式人工智能及人工智能辅助技术的声明在撰写本研究时，作者们使用了ChatGPT来提升某些句子的可读性。在使用该工具/服务之后，作者们对内容进行了必要的审阅和修改，并对最终发表的内容承担全部责任。资金支持这项研究得到了哈萨克斯坦共和国科学及高等教育部科学委员会（资助编号AP23485288）以及纳扎尔巴耶夫大学“学院发展竞争性研究资助计划”（资助编号201223FD2603）的资助。利益冲突作者们声明不存在任何利益冲突。资助方在研究设计、数据收集、分析或解读、论文撰写以及决定是否发表研究结果等方面均未发挥作用。致谢：BN、ZO和MYC负责研究设计；BN、ZO和MYC负责开展研究工作；BN、ZO和AS负责数据分析；BN、ZO和MYC负责撰写论文；BN、ZO、MYC和HAV负责论文的审阅和编辑；AS和HAV负责其他方面的可视化工作；HAV和MYC负责提供其他方面的资源支持；MYC负责项目的监督和管理工作。所有作者都阅读并通过了最终稿件，对最终内容负有主要责任。

联系信箱：

粤ICP备09063491号

热点排行