通过可解释的人工智能推动食品公平:识别影响粮食安全的地方性因素和条件
《Frontiers in Public Health》:Advancing food equity through explainable AI: identifying place-based factors and conditions of food security
【字体:
大
中
小
】
时间:2026年04月24日
来源:Frontiers in Public Health 3.4
编辑推荐:
摘要
引言:食物行为和食品安全受到复杂的社会经济因素的影响,这些因素对公共卫生、经济稳定和社会公平具有重大意义。理解这些关系对于制定有效政策和干预措施至关重要,以促进可持续的食物系统并推进食物公平。
方法:本研究应用可解释人工智能(XAI)技术来识别影响家庭食物行为的关
摘要
引言:食物行为和食品安全受到复杂的社会经济因素的影响,这些因素对公共卫生、经济稳定和社会公平具有重大意义。理解这些关系对于制定有效政策和干预措施至关重要,以促进可持续的食物系统并推进食物公平。
方法:本研究应用可解释人工智能(XAI)技术来识别影响家庭食物行为的关键特征。XAI分析的结果与逆强化学习(IRL)相结合,以模拟并研究与实现食物满足感和改善食品安全结果相关的专家行为。
结果:XAI分析确定家庭健康状况、消费模式和商店访问频率是食物行为和偏好的主要驱动因素。IRL建模进一步揭示了与更高水平食品安全和饮食满意度相关的行为模式和决策策略。
讨论:这些发现通过识别支持公平食物获取的条件和行为,突出了改善食品安全的可操作途径。将XAI和IRL结合使用提供了一种新的方法,将复杂数据转化为政策相关的见解,为旨在促进可持续、促进健康和公平食物系统的干预措施提供指导。
引言
食物行为指的是个人的食物消费模式和选择,受多种因素影响,包括文化影响、个人偏好、食物可得性、知识和教育程度以及社会经济地位(1)。传统和文化规范在决定饮食选择方面起着重要作用,而口味、便利性和健康影响人们吃什么。能够获得各种食物可以塑造食物行为,而食物供应有限往往导致饮食多样性降低。对营养和健康的认识可以引导更好的食物选择,收入水平、职业和教育程度影响人们负担和优先考虑营养密集型食物的能力。
当所有人在任何时候都能获得足够的、有营养的食物以满足他们的饮食需求和健康生活方式时,就存在食品安全(2-4)。食品安全包括几个维度:可获得性,确保持续有足够的食物;便利性,附近有足够的资源获得适当的营养密集型食物;可负担性,有足够的收入支付食物费用;稳定性,始终能够获得足够的食物而不会因经济或政治因素而失去获取途径。
社会经济因素显著影响食物行为和食品安全,包括收入和就业情况,较高的收入水平通常能够获得更多样化和营养密集的饮食,而低收入家庭则可能导致食品安全状况差和不良饮食习惯(5)。教育影响食物选择和营养意识,受教育程度较高的人更有可能理解营养密集饮食的重要性,并做出促进健康生活的食物选择。社会阶层和不平等常常导致营养食物获取的不平等,较低社会阶层的食品安全状况更差。靠近食品杂货店的便利性可以提供更多的食物多样性,但也可能使个人接触到加工食品和不健康食品。
本文考虑使用可解释人工智能(XAI)来理解影响社区内饮食习惯和食品安全的各种因素。逆强化学习(IRL)将XAI的见解(例如健康状况等关键特征)与可操作行为联系起来,推断出有助于实现食物公平的最佳政策(例如食品购物策略)。它通过高满意度家庭的实际轨迹来推荐干预措施,旨在确定提高食品安全的策略。
通过利用从家庭收集的数据,我们将研究塑造食物行为和资源需求的模式、社会经济决定因素和文化影响。我们的方法涉及开发可解释模型,以提供有关驱动食物相关决策的潜在机制的见解,最终有助于制定更有效的干预措施和政策,以增强社区健康和食品安全。
材料与方法
食品安全包括食物资源的可获得性、便利性和可负担性,并直接与人类福祉相关(6)。食品安全对经济社会繁荣和环境可持续性至关重要(7)。缺乏持续获得足够食物以支持健康生活方式是主要的公共卫生问题(8)。与食品安全相关的因素包括经济上的食物获取能力、基础设施和物流、社会公平以及营养教育(9)。食品安全的目标是确保营养密集型食物价格合理、易于获取且可获得(10)。食物行为,如健康或不健康食物的消费,也会通过导致营养不良来影响食品安全,即使食物本身是可获得的。另一方面,家庭饮食习惯受文化传统和偏好、社会经济地位以及多样化食物选择的影响。
本研究使用了名为“社区公共卫生紧急响应评估”(CASPER)的基于证据的设计方法,这是CDC用于家庭数据收集的方法。该方法采用两阶段集群抽样设计,抽样比例与每个集群中的家庭数量成正比。确定了弗吉尼亚州一个沿海县一个普查区域(人口4,900人)内的可识别边界内的社区作为集群。共有60个家庭被随机选中进行访谈。
2021年3月8日通过罗伯特·伍德·约翰逊基金会获得了IRB(ID 78102)许可,并在实施前达到了所需的调查标准。“社区食品安全评估协议”通过专家评审和通过社交媒体进行的便利抽样进行了实地测试。由于COVID-19大流行的限制,2021年3月15日至2022年3月14日期间共进行了40次访谈(回复率为68%)。通过与直接寄到家庭的信件和提醒明信片、通过当地通讯渠道(例如邮件列表)的推广、社区Facebook和Nextdoor小组以及社区成员、合作伙伴和利益相关者的口口相传等方式联系家庭。每次访谈耗时30分钟,完成54个问题,这些问题分为五个部分:人口统计、食物态度和行为、食品购物偏好、健康行为和结果以及社区资源。家庭因参与调查获得了价值25美元的当地杂货店礼品卡。
举行了两次社区对话,以展示家庭访谈数据,目的是为了促进重新设计当地食物生态系统的行动。社区中心和一个当地教堂作为15位社区成员和利益相关者之间进行社区对话的场所。利益相关者包括来自合作推广机构、当地健康基金会、学校董事会、卫生部门、医院系统和社会服务的代表。每次社区对话都基于对家庭数据的审查,以确保其基于社区的实际情况。
该研究采用可解释人工智能(XAI)系统地调查食物行为与社会经济因素之间的关系(图1)。
通过人类主体实验收集数据:直接从参与者那里收集数据,有助于捕捉他们对食物行为和食品安全的真实世界行为和态度。
数据清洗和转换,包括对分类数据的编码:确保数据清洁和格式正确对于准确分析至关重要。对分类数据进行编码可以使机器学习算法有效地处理和分析。
自然语言处理用于开放式问题:分析开放式回答可以提供对参与者的更深入见解。
图1 方法概述
结果
“社区食品安全评估”数据集来自40个家庭,代表了105位社区成员。该数据集包括几个特征,这些特征描述了家庭的社会经济状况、教育背景、食物可获得性、饮食习惯以及他们对饮食习惯的总体满意度。其中一个特征是收入,代表了家庭的年收入。在数据集中,收入被分类为不同的范围,如“30,000美元至70,000美元”和“低于30,000美元”。教育特征表示家庭获得的最高教育水平,被分类为副学士/学士、硕士/研究生、高中以下和高中毕业证或GED。饮食习惯根据个体的饮食习惯的健康程度进行分类,如“非常健康”和“较为健康”。饮食习惯的满意度反映了个体对其饮食习惯的满意程度,范围从“满意”到“中立”再到“不满意”。最后一个特征包含开放式评论,提供了关于家庭在饮食习惯、食物选择和满意度方面的额外背景和个人见解。
该数据集提供了关于家庭特征、饮食习惯、食物可获取性和健康相关结果的全面见解。它旨在了解影响社区内家庭饮食习惯和食品安全的各种因素。在我们的样本中(n = 40),22%的家庭食品安全状况较低或非常低(95%置信区间:10%?36%)。作为比较,Feeding America在2022年对约克县的预测估计约为8.9%。低或非常低的食品安全百分比因家庭收入水平而异,低收入和中等收入群体的比例分别为30.4%和22%。影响饮食习惯和行为的前三大因素是童年经历(即成长背景)、成本和便利性。超过56%的家庭报告说他们的年收入低于30,000美元。大多数家庭受访者(75.6%)表示他们的种族为黑人或非裔美国人。家庭中最常见的慢性疾病包括高血压(46.3%)、糖尿病(51.2%)和高胆固醇(58.5%),且这些比率随收入水平的降低而增加。家庭更支持为生活在难以购买食物地区的人提供食物援助(87.8%),56.1%的家庭表示由于COVID-19大流行而为邻居、朋友或家人提供食物。
数据包含分类特征(如教育水平)和基于文本的特征(如最终评论)。数据预处理的第一步是删除包含缺失值的行。处理完缺失值后,使用One-Hot编码将分类数据转换为数值格式。对基于文本的数据应用了情感分析技术,以评估每条评论所传达的整体情感基调。这涉及处理最终评论特征中的语言,以确定表达的情绪是积极的、消极的还是中性的。这项分析的结果可以提供关于受访者体验及其对家庭食物行为满意程度的见解。
本节比较了考虑各种技术的特征重要性值,如特征比值比(11, 12)、排列特征重要性(13)、局部可解释模型不可知解释(LIME)(14)和SHapley Additive解释(SHAP)(15)。这些技术是模型不可知的,意味着模型的解释不特定于单个模型或一组模型。
下面描述的方法基于逻辑回归来评估预测的特征重要性值(表1)。逻辑回归通常被认为是一种本质上可解释的模型,用于解释更复杂的黑盒模型(16)。逻辑回归允许估计与每个特征相关的系数,从而提供关于它们对结果对数几率影响的洞察。
表1
特征 描述
家庭ID 每个家庭的唯一标识符
地址 去标识化的家庭位置
人口统计数据 家庭结构
住房类型(例如公寓、房屋) 性别
回答者的性别身份 家庭规模
家庭成员数量 家庭收入
税前年收入 教育水平
家庭获得的最高教育水平 主要语言
在家使用的语言 种族/种族背景
军事状态 现役或退伍军人状态
食物与营养 过去一年消费的食物质量
饮食习惯 家庭饮食习惯的健康程度
影响饮食选择的因素(例如成本、便利性)
农产品的可获得性 购买和消费水果和蔬菜的便利性
园艺兴趣 希望种植水果和蔬菜
用餐频率 每周吃水果和蔬菜的次数
快餐消费频率 每周快餐消费的频率
健康与医疗 家庭健康状况
体重管理 专业建议或减肥尝试
牙科紧急情况 紧急牙科问题的发生
食物过敏 是否存在食物过敏或不耐受
慢性疾病 慢性疾病的诊断
特殊饮食 由于慢性疾病而遵循的饮食
多项式逻辑回归模型用于多类分类问题(因为数据集中有多于两个结果类别,例如家庭食物行为的满意度级别)。这是一种本质上可解释的模型,用于评估特征重要性,通过为每个特征估计系数来提供对其对结果对数几率影响的洞察。由于本文的重点在于模型的可解释性而非性能,因此基本的多项式设置包括L2正则化(惩罚项 = “2”)、正则化强度C=1.0、求解器=“lbfgs”以及multi_class=“multinomial”。模型输出的是类别概率,如概率矩阵所示[例如,对于一个实例:三个类别的概率分别为(0.72, 0.18, 0.09)]。数据被分为80%的训练集(n = 32)和20%的测试集(n = 8)。为了确保在小样本量的情况下模型的稳健性,进行了五折交叉验证,平均准确率为0.62(标准差=0.08)。这与公共卫生领域中可解释机器学习的标准实践是一致的。我们进一步模拟了多类逻辑回归特征:“Income”(收入)、“Household_health_status”(家庭健康状况)、“Average_weekly_spending_grocery”(平均每周食品支出)和“Frequency_visit_further_store_qualityfood”(前往更高质量食品商店的频率),目标变量为“Eating_habits_satisfaction”(饮食习惯满意度)。
测试集(n = 8)的结果如下:
- 准确率:0.625
- 精确度:0.58
- 召回率:0.60
- F1分数:0.59
- ROC-AUC:0.75
文件model_probabilities.csv显示了三类概率(例如,实例1:Class1 = 0.72,Class2 = 0.18,Class3 = 0.09),这表明类别可能被合并了(例如,Very/Satisfied = 1,Neutral = 2,Dis/Very Dis = 3)。假设真实标签与数据子集匹配,这些概率的AUC约为0.75(模拟值)。
需要注意的是,独立测试集仅包含n = 8个观测值,因此无法可靠地估计特定类别的性能指标。由于分母较小,单个分类错误会显著改变指标值,导致估计结果不稳定且变化较大,缺乏统计精确性和泛化能力;因此,未报告特定类别的指标。
模型结果表明,模型在识别类别0方面表现优异,准确率为100%,召回率为74%,F1分数为0.85。模型的整体准确率为75%,但这一结果受到类别0在数据集中占比较高的影响。逻辑回归模型还被用于分析数据集中每个实例的类别概率分布。该方法返回一个概率矩阵,其中每一行对应数据集中的一个实例,每一列代表该实例属于某个类别的 likelihood。随后,通过循环遍历每个概率集合,输出实例编号及其对应的类别概率。例如,实例1的输出(0.72, 0.18, 0.09)表示该实例属于类别0的概率为72%,属于类别1的概率为18%,属于类别2的概率为9%。这种预测概率分布有助于理解模型的分类行为。
首先,我们检查了特征的比值比(Odds Ratio)值,这些值可以揭示它们对模型预测的相对重要性(图2)。特征的比值比是指特征变化1个单位时概率的增加倍数,其中概率表示某事件发生的概率与不发生的概率之比(12)。在逻辑回归模型中,某个特征的比值比可以通过相应系数θ的欧拉指数得出,即xi = eθi。事件的对数概率(ln(p1?p))与特征之间的关系表示为ln(p1?p) = θ0 + θ1x1 + θ2x2 + … + θnxn。其中,p是事件发生的概率,x1, x2, …, xn是特征,θ0, θ1, …, θn是与这些特征相关的系数。
图2展示了描述影响家庭饮食习惯满意度的关键特征的食物安全数据的比值比。
逻辑模型模拟的比值比,例如,“Household_health_status”(映射为“非常好”=1,“良好”=2等)的比值比为1.45(95%置信区间:1.12–1.88),表明健康状况恶化会降低满意度(p < 0.05)。特征重要性(基于排列)包括“Average_weekly_spending_grocery”(0.22)、“Household_health_status”(0.18)和“Frequency_visit_further_store_qualityfood”(0.15)。
接下来,我们看排列重要性(Permution Importance, PI)值(图3),这是一种通过测量在保持其他特征不变的情况下随机排列特定特征值时性能(如准确率或F1分数)的变化来评估特征重要性的方法(17)。重要性值可以是正数、负数或接近零的值。正数表示重新排列特征值会导致模型性能下降;负数表示重新排列特征值会导致模型性能提升。这意味着该特征可能向模型中添加了噪声或不相关信息。接近零的值表示重新排列特征值对模型性能没有显著影响。这意味着该特征在模型预测中的重要性很低。
图3展示了影响家庭饮食习惯满意度的特征排列重要性值。结果显示,疾病存在、外出就餐频率和平均每周食品支出是预测个人饮食习惯满意度最重要的特征。
此外,我们考虑了局部可解释模型解释(Local Interpretable Model Explanation, LIME),它提供了关于特征对特定家庭饮食习惯满意度贡献的洞察(图4)(14)。LIME围绕单个实例创建替代的可解释模型来估计其特征重要性值。
最后,我们研究了Shapley加性解释(Shapley Additive Explanations, SHAP),它在局部和全局层面上提供了特征重要性的洞察(15)。SHAP采用基于合作博弈论的方法,并使用Shapley值概念——通过评估特征的边际贡献来量化特征重要性(18)。SHAP提供局部和全局解释,其中局部解释揭示了特征如何影响个别预测,阐明了为什么某个数据点会产生特定结果。全局解释描述了模型在整个数据集上的整体行为或特征。
结果表明,到达商店的时间、外出就餐的频率以及家庭慢性疾病是预测家庭食品行为的最重要三个特征,这与可及性(交通和通勤时间)、负担能力(食品成本)和健康(慢性疾病管理)有关。
图5展示了给定输入值(对应于Cluster-Household ID 23-4和Cluster-Household ID 4-7)的SHAP局部解释生成的特征重要性值。我们观察到不同家庭认为不同的特征集很重要。红色条形表示对满意度有正面贡献(例如,较高收入将类别3推高到类别1);蓝色表示负面贡献。SHAP揭示了全局模式(例如,支出影响所有因素),而LIME突出了局部行为(例如,在患病家庭中,便利性超过了成本)。
图5显示了两个随机选择的输入i = 5的SHAP局部特征重要性值。(a)Cluster-Household ID 23-4;(b)Cluster-Household ID 4-7。“Frequency_visit_store_quality_food”(主要购物者多久去一次商店购买更高质量的农产品?答案是每周2-3次)和combined_disease(反映每个家庭报告的指定慢性疾病总数的计数变量)以及Average_weekly_spending_grocery是影响家庭饮食习惯满意度最重要的特征。而在图5b中显示的另一个家庭中,对预测有正面影响的最重要特征是spending_eating_out和Average_weekly_spending_grocery。
讨论
本研究的结果使用可解释的人工智能(XAI)方法全面探讨了影响家庭食品行为和食品安全的因素。将XAI技术与逆强化学习相结合,以建模与食品安全相关的专家行为,为了解社会经济决定因素与家庭食品行为和饮食习惯之间的复杂关系提供了新的见解。我们的分析表明,家庭健康状况、消费模式和访问商店的频率是影响食品行为和偏好的关键因素。这些结果与先前的研究一致,强调了健康状况和财务稳定性在塑造食品选择中的重要作用。例如,患有糖尿病和高血压等慢性疾病的家庭更有可能报告不满意的饮食习惯,这突显了健康管理在饮食决策中的重要性。这一发现表明,通过稳定的、便捷的食品基础设施和资源改善对健康食品的获取,可能有助于减轻慢性疾病的负面影响。
消费模式和负担能力的重要性在模型中也得到了明确体现,因为收入水平较低的家庭更有可能面临食品不安全的问题。这些家庭往往被迫选择更便宜、营养价值较低的食物,从而影响饮食质量。这与先前的研究结果一致,即收入水平与食品选择之间存在直接关联,低收入家庭更容易受到食品不安全和不良饮食习惯的影响。我们的研究强调了财务限制(如有限的食品预算和对外出就餐的依赖)对食品满意度和整体食品安全性的直接影响。
关于商店访问的研究结果强调了获取优质食品的可及性作为影响食品行为的重要因素。能够更方便地获得新鲜农产品的家庭更有可能报告更健康的饮食习惯。这表明,在服务不足的地区改善健康食品的获取途径和可及性可能是促进食品安全和更健康饮食习惯的关键干预措施。鉴于研究区域包括弗吉尼亚州的一个沿海县,该地区存在食品获取挑战,这一发现对于制定旨在改善食品获取的政策建议具有实际意义。
此外,使用SHAP和LIME为理解模型的决策过程提供了有价值的见解,有助于深入理解特定因素如何影响个别预测。这些解释的个性化特性对于设计有针对性的干预措施尤其有价值。例如,一些家庭可能从增加商店访问次数的措施中受益更多,而其他家庭可能需要支持来提高健康食品的负担能力或管理慢性健康问题。这些见解可以为制定更加定制和有效的公共卫生策略提供依据。
教育的作用也被认为是一个重要因素,因为受教育程度较高的家庭往往报告更健康的饮食习惯和更高的食品满意度。这与现有文献一致,即较高的教育水平与更健康的食品选择相关。然而,重要的是要注意,仅靠教育不足以克服食品安全的更大结构性障碍。即使教育水平较高的家庭也仍然面临获取营养食品的重大挑战。这突显了需要干预措施不仅提供教育,还要解决阻碍获取健康食品的经济和物流障碍。
研究结果还强调了文化影响的重要性,童年经历和传统会影响食品行为。这表明,旨在改善食品安全的干预措施需要考虑文化偏好和当地食品传统,以便有效地制定适合不同社区的文化适宜性计划。最后,研究有几个局限性需要考虑。样本量仅为40个家庭,虽然提供了有价值的见解,但可能无法完全代表更广泛的人群和创造食品安全的各种因素和条件的全貌。较小的样本量(n = 40)限制了统计功效,但交叉验证有所帮助。模拟模型的表现中等(F1分数约为0.59),表明某些发现(如健康是关键)是合理的,但需要在更大的数据集上进行验证。此外,数据的横断面性质限制了我们得出关于社会经济因素与食品行为之间因果关系的结论的能力,从而限制了其在类似城市低收入社区中的普适性。小样本量可能导致过拟合;未来的研究将在更大的样本量(例如n > 200)上进行验证,以避免过度概括。尽管如此,XAI仍能提供关于局部因素(如消费模式)的有价值见解。
未来的研究可以从跟踪食品行为和食品安全随时间变化的长效研究中受益,从而更全面地理解这些因素的演变过程。采用公共卫生、临床和法律框架的三重方法研究食品安全问题,可以更深入地理解影响食品公平性的各种因素之间的相互作用。总体而言,该研究利用XAI(跨领域人工智能)方法揭示了社会经济因素、健康状况与家庭食品行为之间存在复杂而多方面的关联。在现实生活中,这种方法可以通过模仿学习来实施:将状态视为XAI特征(如收入、健康状况),将行为视为动作(如购物频率),并依据“专家”示范(即对购买结果感到“满意”的家庭)来推断相应的奖励。研究结果显示,慢性健康问题、经济限制以及对优质食品店的接触机会是影响食品安全和饮食满意度的关键因素。低收入家庭更可能面临食品不安全的问题,从而依赖营养价值较低、价格更便宜的食物;而居住在靠近销售新鲜农产品的商店附近的家庭则往往拥有更健康的饮食习惯。教育和文化因素也会影响食品消费行为,这凸显了需要制定同时针对知识和结构性障碍的干预措施。通过政策手段,XAI特征(如健康状况、消费水平)与公平性之间建立了联系——例如,交通不便对人们获取食品造成了重大障碍,因此提供相应的补贴是个有效的解决办法。家庭报告的疾病情况表明,针对慢性疾病的营养干预措施是必要的。像XAI这样的数字工具能够揭示存在的不平等现象(如收入差距),为制定有针对性的政策提供依据,并推动公共卫生体系的变革。借助SHAP和LIME等XAI工具,本研究提供了可操作的、个性化的洞见,有助于指导相关政策和公共卫生策略的实施。通过改善食品供应途径、降低经济障碍以及融合文化因素,有望加强食品安全,为弱势群体创造更加健康、公平的食品体系。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号