评估交互式二维可视化作为生物医学时间序列数据标注的样本选择策略

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computers in Biology and Medicine》：Evaluating interactive 2D visualization as a sample selection strategy for biomedical time-series data annotation

【字体：大中小】 时间：2026年06月18日 来源：Computers in Biology and Medicine CS13

编辑推荐：

　　在生物医学背景下，可靠的机器学习（machine-learning, ML）模型依赖于准确的标签，然而生物医学时间序列（time-series）数据的标注仍然具有挑战性。算法驱动的样本选择可能支持标注过程，但涉及真实人类标注者的研究证据尚不充分。因此，研究人员

在生物医学背景下，可靠的机器学习（machine-learning, ML）模型依赖于准确的标签，然而生物医学时间序列（time-series）数据的标注仍然具有挑战性。算法驱动的样本选择可能支持标注过程，但涉及真实人类标注者的研究证据尚不充分。因此，研究人员比较了三种用于标注的样本选择方法：随机采样（random sampling, RND）、最远优先遍历（farthest-first traversal, FAFT）以及一种基于图形用户界面的方法，该方法允许探索高维数据的互补二维可视化（2D visualizations, 2DVs）。研究人员在婴儿运动评估（infant motility assessment, IMA）和语音情感识别（speech emotion recognition, SER）的四个分类任务中评估了这些方法。12名标注者（分为专家和非专家）在有限的标注预算下进行数据标注，并在标注后开展实验以评估采样方法。在所有分类任务中，当跨标注者聚合标签时，2DV表现最佳。在IMA任务中，2DV最有效地捕获了稀有类别，但也因有限的标注预算而表现出更大的标注者间标签分布变异性，导致使用单个标注者标签训练模型时分类性能下降；在这些情况下，FAFT表现优异。对于SER任务，在专家标注者中，2DV优于其他方法，在非专家标注者的单个标注者设置中与它们性能相当。失败风险分析显示，当标注者数量或标注者专业水平不确定时，RND是最安全的选择，而2DV因其更大的标签分布变异性而具有最高风险。此外，标注后访谈表明，2DV使标注任务更具趣味性和愉悦感。总体而言，基于2DV的采样在生物医学时间序列数据标注中显示出前景，尤其是在标注预算不是高度受限的情况下。标注软件可在 https://github.com/SPEECHCOG/TSExplorer 免费获取。

**论文解读：交互式二维可视化在生物医学时间序列数据标注中的样本选择策略评估**

**研究背景与问题**
生物医学时间序列数据（如脑电图（EEG）、肌电图（EMG）等）的标注常因主观性强、耗时费力而存在不一致性，然而高质量标签对训练可靠机器学习（ML）模型至关重要。现有样本选择与主动学习（active learning, AL）方法大多基于模拟实验，即复用已有数据集的标签，这忽略了真实标注过程中人类认知因素（如疲劳、注意力变化）对标注决策的影响。此外，算法驱动的采样策略可能难以适应生物医学任务的复杂性，且缺乏对多模态数据、多类别任务以及有限标注预算下实际标注行为的系统比较。为此，研究人员提出探索交互式二维可视化（2D visualization, 2DV）作为样本选择策略，以弥补现有研究在真实标注者实验、标注分布与下游分类性能综合评估方面的空白。该论文发表在《Computers in Biology and Medicine》。

**主要研究方法**
研究人员开发了通用图形用户界面框架Time-Series Explorer（TSExplorer），该工具通过t-分布随机邻域嵌入（t-SNE）、主成分分析（PCA）和统一流形逼近与投影（UMAP）将高维数据映射为二维散点图，允许标注者自由切换投影并逐点标注。研究采用三种样本选择方法：随机采样（RND）、最远优先遍历（FAFT）和基于2DVs的交互式探索。实验涉及两个生物医学数据集：婴儿运动评估（IMA）数据集（MAIJU-DS，41个记录，约29小时多传感器惯性测量单元（IMU）数据）和语音情感识别（SER）数据集（NICU-A芬兰子集，43个16小时连续录音，688小时音频）。12名标注者（每个数据集3名专家、3名非专家）在有限标注预算下（IMA: 360个样本/任务; SER: 400个样本/任务）分别标注每个任务。标注后实验包括标签直方图比较、模型微调性能（使用未加权平均F1分数（UAF1）和未加权平均召回率（UAR））以及失败风险分析（涵盖模型性能下降、稀有类别覆盖失败和标签分布不稳定性）。

**研究结果**
**标签直方图比较结果**
在IMA中，FAFT和2DV比RND更有效地从稀有类别中选取样本；但2DV的标注者间标签分布变异性显著更高，源于无限制的样本选择自由。在SER中，2DV在效价（valence）任务中最好地覆盖了稀有类别（消极），在唤醒度（arousal）任务中稍优。RND在IMA中产生最一致的标签分布，而2DV在SER中通常变异性最低。

**单独标注者标签的分类结果**
在IMA中，FAFT整体性能最高，RND次之，2DV表现最差（尤其在姿态分类中），这归因于有限预算下2DV的采样行为导致早期覆盖不均。但在标注数增加时，2DV的性能逐渐接近其他方法。在SER中，2DV在专家标注者中显著优于FAFT和RND；在非专家中，所有方法性能相当。

**合并标注者标签的分类结果**
在IMA中，当每个标注者标注超过200个样本后，2DV通常优于RND和FAFT；在较少标注时FAFT最佳。合并标签显著提升了2DV的表现，尤其在更复杂的运动分类中。在SER中，2DV在整体性能曲线下面积上最高，但小样本情况下FAFT在非专家中略优。所有设置下，专家标签训练的模型性能始终高于非专家标签。

**失败风险分析**
在IMA中，FAFT和RND在多数设置下具有最低的合并失败风险评分，2DV风险最高（主要源于稀有类别覆盖失败和标签分布不稳定性）。在SER中，2DV在专家标注者中风险最低，RND在非专家单标注者和六标注者设置中最安全。总体而言，RND在所有任务和条件下总风险最低（105.0），FAFT次之（110.0），2DV最高（126.0）。

**讨论与结论**
研究人员总结认为，2DV在从稀有类别中采样和提升标注者参与度方面优势显著，尤其适合多标注者标签合并或预算较宽松的场景。但有限预算下2DV的标签变异性可能导致风险，需依赖交互设计约束（如视觉提示、探索指南）来缓解。实验表明，专家经验与多标注者聚合具有互补作用。未来方向包括探索交互式三维投影、支持连续值标签、集成实时特征更新及系统评估投影算法影响。研究结论指出：基于2DV的采样在生物医学时间序列数据标注中具有广阔前景，尤其当标注预算不是高度受限时。
RND在标注者专业水平或数量不确定时提供最保守选择，FAFT在单标注者多类别不平衡任务中表现稳健。2DV在合并多标注者标签时性能提升显著，但需谨慎部署以避免失败风险。

联系信箱：

粤ICP备09063491号

热点排行