地理空间分析与机器学习在预测美国零售市场县级食物浪费中的应用

《Resources, Conservation and Recycling》:Geospatial analytics and machine learning for forecasting county-level food waste in U.S. Retail markets

【字体: 时间:2026年04月02日 来源:Resources, Conservation and Recycling 11.8

编辑推荐:

  本研究通过构建并比较多种机器学习模型,预测美国各县级食品废物生成量,发现支持向量回归器(SVR)表现最佳,R2达0.837,MAE为792吨,RMSE为3,385吨。关键驱动因素包括商店数量和人口,预测精度在低废物量地区更高,为优化物流和生物经济循环提供依据。

  
Tinn-Shuan Uen|Luis F. Rodríguez

摘要

可持续的食品废弃物管理对于提高资源利用效率和缓解气候变化至关重要。为了了解食品废弃物的分布及其驱动因素,我们开发并比较了多种模型,利用人口统计数据、农业销售数据、杂货店信息、收入数据、食品支出数据以及社会福利项目获取情况等数据,来预测美国各县的年度食品废弃物产生量。支持向量回归器(Support Vector Regressor)的表现最佳,其均方误差(R2)为0.837,平均绝对误差(MAE)为792公吨(t),均方根误差(RMSE)为3,385吨;而其他模型的R2介于0.825至0.844之间,MAE介于792至987吨之间,RMSE介于3,385至5,608吨之间。对于每年产生不到100,000吨废弃物的县,预测准确性更高。食品废弃物产生的主要驱动因素包括杂货店和餐馆的数量以及人口规模。这些发现为优化废弃物转化为生物产品的物流和系统配置提供了重要见解,有助于推动循环生物经济的发展。

引言

在美国,食品废弃物再利用的努力面临诸多挑战。其中一个关键瓶颈是数据不足,这归因于缺乏相关的回收计划和测量体系(Corrado等人,2019年;de Moraes等人,2020年),这阻碍了食品废弃物再利用的长期盈利能力(EPA,2017年)。尽管有一些关于食品废弃物量的估计数据(FAO,2021年;US EPA,2016年),但这些数据通常仅停留在国家或州层面,限制了针对特定地区的解决方案的制定。另一个挑战是,由于生物产品价格的不稳定性以及高昂的资本和运输成本,食品废弃物管理的盈利能力可能会大幅波动(Uen和Rodríguez,2023年)。在美国许多州,食品废弃物与城市固体废弃物(MSW)混合在一起,导致收集效率低下,增加了运输成本,从而影响了可持续回收的实施(Armington和Chen,2018年)。尽管加利福尼亚州(参议院法案1383,2016年)和纽约州(参议院法案S2995,2019年)等州已经出台了相关立法,但这一问题依然存在。然而,通过优化物流和网络设计,可以提高废弃物处理和生物产品生产的收益(Badgett和Milbrandt,2021年;Ng等人,2020年)。鉴于预计到2050年全球人口将持续增长(Grafton等人,2015年),食品废弃物的产生量也很可能会增加,这为大规模收集和生物产品生产提供了更多机会。
食品废弃物一直是现代社会面临的一大挑战,因为垃圾填埋场会释放大量温室气体(Jaglo等人,2021年)。在美国,超过三分之一的食品生产被浪费掉了,这不仅对食品安全构成压力(Grafton等人,2015年),还导致食品供应链中能源和水的消耗大幅增加(FAO,2019年)。政府和组织已经制定了激励措施,以减少食品废弃物的填埋量,从而减轻气候变化的影响(联合国,2015年;US EPA,2015年)。为了实现这些目标,需要制定可持续废弃物管理的战略。
尽管大多数机器学习(ML)研究都集中在由多种材料组成的城市固体废弃物(MSW)上,但针对有机废弃物的研究相对较少,而有机废弃物在减少温室气体排放方面具有巨大潜力。尽管机器学习具有很强的应用前景(Ng等人,2021年除外),但许多先前的研究在评估指标、超参数调整、性能验证或特征重要性评估方面缺乏详细信息。关于模型过拟合、预测结果不稳定以及影响废弃物可用性的关键因素等方面仍存在知识空白。此外,以往的研究主要集中在大城市或省份,忽略了其他地区丰富的废弃物资源,而这些资源本可以被用于可再生能源的生产。县或类似级别的分辨率对于决策过程非常重要,如在MSW管理(Prades等人,2014年)、食品废弃物和粪便收集(Ankathi等人,2021年)以及固体废弃物管理(Grassel等人,2025年)等领域的研究中所体现的那样。此外,鉴于许多食品废弃物预测因子的有限可用性,县级预测与美国许多预测因子的规模相匹配。预测结果还可以用于美国政府认可的地区性设施(EPA,2025年)。因此,预测县级食品废弃物量对于确保全国范围内的高效回收至关重要。
本研究旨在开发可靠的机器学习模型,以预测美国的县级食品废弃物产生量。在这一层面上进行预测,能够为美国食品废弃物预测因子提供目前可行的最高分辨率,从而实现更精确的废弃物收集计划和处理设施选址。这种分辨率不仅支持针对特定地区的经济可行性评估策略,还为其他地区和废弃物类型提供了可借鉴的框架。我们的目标是:(1)通过评估特征重要性来提取关键特征;(2)比较不同机器学习模型在预测性能和稳定性方面的表现。我们选择的算法包括线性回归、k最近邻算法、支持向量回归器、集成树(随机森林、梯度提升和自适应提升),以及深度学习方法,并采用了常见的数据处理流程,如数据清洗、特征转换、标准化、超参数调整和交叉验证。

文献综述

本研究开发了包括多元线性模型、非线性模型、集成方法和基于监督学习的神经网络在内的预测模型,这些模型有助于解释学习过程和特征对预测结果的影响。我们的输入特征包括人口统计数据、社会经济数据、消费数据和食品零售数据。以下部分将介绍机器学习的概念(2.1)及其在相关应用中的重要性,以及各种具体应用。

材料与方法

我们的研究基于美国的县级数据。本节总结了收集的数据、使用的机器学习技术以及模型超参数调整方法,包括:(3.1)食品废弃物数据收集;(3.2)目标特征和输入特征;(3.3)数据预处理;(3.4)特征重要性评估;(3.5)数据重采样和超参数调整;(3.6)模型评估指标。分析和建模工作使用Python语言和scikit-learn等工具包完成。

结果与讨论

本研究旨在预测美国的县级食品废弃物产生量,以提高废弃物收集效率并增加生产可再生资源的机会。我们的研究结果涵盖了特征重要性评估(4.1)、算法比较(4.2)以及最佳算法的应用(4.3)。

结论

本研究提出了一种基于机器学习的解决方案,用于预测美国的县级食品废弃物产生量,并评估了人口统计特征、经济因素、零售销售数据、食品支出数据以及社会福利项目获取情况对预测结果的影响。结果表明,人口统计特征(TRS)和人口数量(POP)是预测食品废弃物最重要的两个特征,其次是消费水平(CS)、社会福利服务(SWS)和居民收入(REDM)。我们使用了七种算法(MLR、kNN、SVR、RF、GB、AR和DNN),并通过R2、MAE和RMSE等指标对它们的性能进行了比较。其中,支持向量回归器(SVR)和自适应提升算法(AR)的表现最佳,R2值高于0.835,MAE值低于816.9。

CRediT作者贡献声明

Tinn-Shuan Uen:撰写 – 审稿与编辑、初稿撰写、方法论设计、数据分析、数据整理、概念构建。Luis F. Rodríguez:撰写 – 审稿与编辑、项目管理、方法论设计、数据分析、资金筹集。

利益冲突声明

作者声明没有已知的财务利益冲突或个人关系可能影响本文的研究结果。

致谢

作者感谢以下机构的支持:NSF(资助编号:1833225、1639340)、USDA NIFA(资助编号:ILLU-741-624)以及台湾-UIUC奖学金
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号