数字孪生(Digital Twin)中的多模态数据处理:连接传感器(Sensor)与执行器(Actuator)以实现健康优化(Health Optimisation)
《Journal of Sensor and Actuator Networks》:Multi-Modal Data Processing in Digital Twins: Connecting Sensors and Actuators for Health Optimisation
编辑推荐:
人口健康的持续监测是科学文献中的主要焦点,大量研究强调了睡眠的关键作用。然而据研究人员所知,尚未实现充分映射环境刺激、睡眠与健康三者三元关系所需的多模态数据处理。本文提出一种综合数据融合策略,整合公共数据库从历史传感器数据中提取共性特征;通过训练四类算法(数学
人口健康的持续监测是科学文献中的主要焦点,大量研究强调了睡眠的关键作用。然而据研究人员所知,尚未实现充分映射环境刺激、睡眠与健康三者三元关系所需的多模态数据处理。本文提出一种综合数据融合策略,整合公共数据库从历史传感器数据中提取共性特征;通过训练四类算法(数学模型、机器学习(Machine Learning, ML)模型、人工智能(Artificial Intelligence, AI)模型及集成模型(Ensemble Model))分析环境输入如何影响睡眠质量进而作用于生理健康。所得到的先进模型为一个由10个集成模型构成的多模态架构,在含139,950行、8249列的大规模合并数据集上测试,取得R平方(R-squared, R2)=0.958,展示了卓越的数据处理与预测精度。除集成数据集外,本研究为人本数字孪生(Human-Centric Digital Twin)奠定了计算基础,为闭环IoT(Internet of Things)环境开辟道路——在该环境中传感器驱动的分析可指导自动化执行器(Actuator)干预以改善睡眠与健康。
论文解读:《Journal of Sensor and Actuator Networks》
一、研究背景与意义
现有文献已分别建立环境因素影响睡眠质量、睡眠影响长期生理健康的认识,且人口健康因系统性压力源、经济不稳定、环境退化及地缘政治动态而备受关注。睡眠不足是神经退行性疾病(如痴呆加速)、结直肠癌、生殖内分泌紊乱的中介因素,且在急救人员中引发约20%–29%的工作相关睡眠障碍。同时城市热岛效应致夜间最低温升高阻碍体温调节进而影响深睡,大气污染物(CO?、PM2.5、NO?)诱发上呼吸道炎症与阻塞性睡眠呼吸暂停(Obstructive Sleep Apnea, OSA),人工光与噪声抑制褪黑素致睡眠片段化。但据研究人员所知,目前尚无基于代表性大样本、全面建模"环境—睡眠—健康"三元交互作用的研究,本文旨在填补该空白,量化环境约束如何过滤睡眠质量并最终决定健康结局,并为以人为本的数字孪生及闭环传感?执行IoT提供计算框架。
二、主要关键技术方法
研究人员从美国国家睡眠研究资源(National Sleep Research Resource, NSRR)获取12个公开队列原始数据(含多导睡眠图Polysomnography, PSG波形与连续环境传感器日志),经特征提取与时序对齐存为30张CSV表,通过外连接(outer-join)合并为139,950行×8249列分析矩阵,每条记录标记来源队列(source_db)。采用字典驱动关键词匹配将变量划为睡眠域(772变量)、健康域(48变量)、环境域(110变量)。缺失值用链式方程多元插补(Multivariate Imputation by Chained Equations, MICE)迭代填补;训练集内部做中位数填充与StandardScaler标准化,目标变量用QuantileTransformer正态化;为捕捉非线性交互自动生成二阶多项式特征(second-degree polynomial features)后做主成分分析(Principal Component Analysis, PCA)保留95%方差降维;选用数学(Elastic Net弹性网络含Lasso与Ridge惩罚、贝叶斯岭回归Bayesian Ridge Regression、广义加性模型样条Generalized Additive Model spline with SplineTransformer)、机器学习(Extremely Randomized Trees Regressor即ExtraTrees、基于直方图梯度提升回归树Histogram-based Gradient Boosting Regression Tree即HistGradientBoost、核岭回归Kernel Ridge Regression with RBF核)、人工智能(CatBoost、LightGBM、Natural Gradient Boosting即NGBoost)及集成(Stacking SuperLearner与OMNI-Model投票回归器Voting Regressor融合Gradient Boosting、ExtraTrees、XGBoost)四类共10–11种算法,70/30划分训练?测试集,5折交叉验证评估决定系数(R-squared, R2)。
三、研究结果
3.1 建模环境对睡眠的影响(Modelling the Influence of the Environment on Sleep)
在高特征相关低标准差筛选子集上,单模型R2介于KernelRidge最低0.80至广义加性模型(Generalized Additive Model, GAM)最高0.88,Stacking SuperLearner集成达R2=0.86;在低相关高标准差分散数据下单模型R2降至0.44–0.56(ElasticNetCV、BayesianRidge、GAM、NGBoost均为0.56,HistGradientBoost为0.44),SuperLearner仍取得最佳R2=0.61,表明弱信号与高异质数据中集成学习具明显优势。
3.2 建模睡眠对健康的影响(Modelling the Influence of Sleep on Health)
以睡眠特征预测健康指标时数据相关性更低、标准差更大,各模型R2均未超过0.28,ExtraTrees表现最优;核岭回归(Kernel Ridge Regression, KRR)与自然梯度提升(NGBoost)未达R2>0.2被排除于后续分析,说明睡眠→健康路径预测难度高于环境→睡眠路径。
3.3 建模环境?睡眠?健康三元关系(Modelling the Tripartite Relationship Between Environment, Sleep, and Health)
采用融合MICE数据融合的OMNI-Model对全量139,950×8249数据集训练,最终集成模型刻画三元链式因果(环境→睡眠→健康),整体R2达0.958,首次实现大规模环境?睡眠?健康联合建模。
四、讨论与结论翻译
讨论指出:①MICE虽挽救碎片化信息但在跨库样本交集少时可能引入人工伪影扭曲生理分布;②全文矩阵先MICE再切分训练?测试存数据泄露(data leakage)风险致性能可能偏高;③皮尔逊相关系数(Pearson correlation coefficient)阈值筛选仅捕获线性关联未确立因果,可能遗漏复杂非线性路径;④当前模型仅解释部分变异反映人类行为生理数据本征熵及未测潜变量(遗传、心理应激、未记录环境因子)。未来将把MICE严格限训练折内防泄露,用因果推断框架替代相关筛选,探索非线性降维捕获潜变量,并引入合成数据生成模型减MICE依赖。
结论翻译:本文基于获批访问的12个数据库,按环境?睡眠?健康建模特征拼接数据,以此训练数学、ML、AI及集成领域10种先进模型。结果证明目标达成,并首次利用新型先进OMNI-Model成功建模环境?睡眠?健康的影响。未来研究方向为改进OMNI-Model使其不依赖MICE填补稀疏矩阵缺失值,将考虑合成数据生成模型。