《Expert Systems with Applications》:A Hierarchical Reinforcement Learning Approach to Personalized Decision-Making for Brain Connectivity Segmentation
编辑推荐:
张勋(Chang-Hoon Ji)|吴智惠(Ji-Hye Oh)|姜裕妍(Yu-Kyum Kang)|金俊模(Jun-Mo Kim)|郭秀妍(Suyeon Kwak)|韩智雄(Ji-Wung Han)|赵尚贤(Sanghyeon Cho)|金泰宇(Tae-Eui Kam)摘要在复
张勋(Chang-Hoon Ji)|吴智惠(Ji-Hye Oh)|姜裕妍(Yu-Kyum Kang)|金俊模(Jun-Mo Kim)|郭秀妍(Suyeon Kwak)|韩智雄(Ji-Wung Han)|赵尚贤(Sanghyeon Cho)|金泰宇(Tae-Eui Kam)
摘要
在复杂的生物信号中实现经验性决策的自动化,是开发自主专家系统的前提条件,这样的系统能够消除人为偏见,并促进在不同受试者之间进行一致且可重复的分割。在使用动态功能连接性(dFC)对重度抑郁症(MDD)进行诊断时,当固定的时间尺度无法捕捉到受试者间的高度变异性以及神经动态的非平稳性时,就会出现参数选择的瓶颈。为了解决这个问题,我们提出了一种领域-算法协同设计方法,该方法将分层强化学习(HRL)应用于个性化dFC分割,将时间僵化和短暂连接性转换的临床现象转化为两级决策架构。宏观代理负责选择与每个受试者的特征状态停留时间相匹配的窗口大小,而微观代理则负责选择控制短暂状态转换采样密度的步长比例,从而将组合爆炸性的联合(窗口 × 步长)动作空间分解为易于处理的协调层次结构。三个临床约束的设计决策共同使通用h-DQN适应dFC环境:不对称的奖励机制对假阳性的惩罚比对假阴性的惩罚更严厉,以避免MDD的过度诊断;基于比例的步长参数化确保了在不同采集协议下的尺度不变性;不对称的信用分配结构使窗口级别的战略决策与步长级别的战术细化相协调。该框架在多个MDD数据集上经过验证,其性能始终优于固定参数和传统强化学习(RL)基线:在同一个站点内,F1分数提高了多达5.56个百分点;在不同站点之间的泛化能力上(从Site20到Site1/21),F1分数提高了多达3.2个百分点;与传统的RL变体相比,F1分数提高了大约9个百分点。该框架还能应用于独立队列,分别在ABIDE I(自闭症谱系障碍,ASD)和ADNI(轻度认知障碍,MCI)数据集上实现了+4.04和+4.61的F1分数提升。此外,学到的策略能够转移到独立训练的分类器上,并在F1分数上实现+3.19的提升,表明该策略捕捉的是受试者适应性的时间结构,而非分类器特定的归纳偏差。进一步的研究发现,这些策略揭示了MDD患者中不同的分割模式,这些模式反映了时间僵化现象,并揭示了一种由健康对照组优先占据的短暂稀疏连接状态(状态5),从而提供了无需先验假设即可解释的生物标志物。这些结果表明,该框架既是一个用于受试者适应性分割的原则性专家系统,也是精准精神病学中个性化、自适应时间序列分析的可扩展模板。