《Machine Learning and Knowledge Extraction》:Explainable Conversational Agents for Mobile Health Coaching Systems: Trust Factors, Progress and Opportunities
摘要:人工智能(AI)与机器学习(ML)技术(如对话代理)正日益成为多个行业,尤其是医疗保健领域中的关键工具。本文开展了一项关于移动健康辅导系统(MHCS)中对话代理(CAs)的范围综述(PRISMA-ScR)。研究考察了MHCS的现有应用,重点关注其开发策略、使用情境、对用户的影响、潜在优势以及研究空白,并强调若能得到恰当整合,可解释人工智能(XAI)能够使健康指导与决策支持建议更具透明性、可信性与可解释性。本范围综述识别了最大化利用对话代理、可解释人工智能与移动技术的机会,以提升移动健康辅导系统的可及性与可信度,同时指出了值得进一步探索的研究空白。
目的:本范围综述旨在梳理MHCS中对话代理与XAI赋能技术的证据图谱,识别与信任相关的设计准则,对已报告结果进行分类,并突出可解释对话代理(XCA)在移动健康情境中的应用机遇,尤其是在应对资源不足环境中常见一般医学状况方面的潜力。
纳入标准:纳入的合格文献需对现有CAs、XAI技术与MHCS、AI支持的医学对话系统、电子辅导系统以及移动健康应用进行了评估、设计或概念性分析。研究人员仅纳入与医疗保健、健康辅导、信任、可解释性或患者参与相关,且发表于2006年至2025年之间的资料来源。
证据来源:检索在IEEE Xplore、Google Scholar、Springer、ScienceDirect/Elsevier、ProQuest和ACM Digital Library中进行,并辅以定向网络检索和逆向引文追踪。
图表整理方法:研究人员按系统类型、通信模式、健康情境、运行模式、所用技术、XAI/信任特征、自动化程度、研究设计以及结局分类对数据进行整理。本文采用修订后的结局分类框架:产生预期结局(GDO)、部分产生预期结局(P-GDO)以及未产生预期结局(DN-GDO)。
结果:共收集201项资料。整理后的研究主要聚焦于健康领域中的CAs、用于慢性病与压力管理的MHCS、LIME、SHAP、Prospector和反事实解释等XAI方法,以及语音质量、沟通风格、外观、社会智能、隐私和性能质量等信任相关要素。大多数健康CAs和MHCS面向慢性病、心理健康或行为改变;较少研究涉及一般医学诊断或基于移动端的自主初级保健支持。
结论:现有证据表明,CAs和MHCS能够支持用户参与、健康辅导、健康教育以及特定决策支持任务,但关于安全、自主且可解释的一般临床实践功能的证据仍然有限。未来研究应优先关注临床监督下的XCA设计、核心安全性评估、具有透明解释的界面、数据保护、文化与语言响应式实施,以及面向资源不足移动健康场景的前瞻性综述研究。
1. Introduction
本文首先界定了可解释对话代理(XCAs)与移动健康辅导系统(MHCS)的研究背景,指出其本质上是人工智能(AI)、机器学习(ML)、人机交互(HCI)与健康技术创新交汇形成的复合研究领域。文章认为,随着自然语言处理与知识抽取能力持续提升,对话代理(CAs)已能够通过文本、语音或二者结合的方式与用户进行近自然交互。作者在此基础上强调,移动健康(mHealth)技术借助智能手机、平板设备和可穿戴设备,已经在慢性病管理、早期预警和预防性干预中展现出应用价值。然而,当前AI驱动健康系统的广泛部署仍然受到透明性、可解释性与问责性不足的制约。文章进一步指出,许多聊天机器人依赖“黑箱”算法,难以清晰说明输出形成机制,这会削弱医疗场景所要求的可信建议基础。因此,可解释人工智能(XAI)被引入为核心理论支撑,用于提升AI系统的可理解性与可审查性。文中还说明,该研究在既有201篇学术资源基础上,进一步按照PRISMA-ScR规范重组为范围综述,以提升研究问题、证据提取和综合报告的清晰度。
1.1. Rationale
在研究依据部分,文章强调本综述采用范围综述而非效果估计型综述的必要性。原因在于,该领域文献横跨AI、医疗健康、数字健康干预、交互设计及伦理治理等多个学科,研究对象、结局类型与方法学设计高度异质。基于这一特征,本文不意图评估单一干预措施的效应大小,而是系统映射已被研究的系统类型、功能边界、应用情境以及信任与可解释性如何被操作化。作者认为,这种证据制图(evidence mapping)方式更适于揭示现有系统在设计逻辑、使用环境和理论定位上的差异,并为后续研究与系统设计发现空白。
1.2. Statement of the Problem
问题陈述部分聚焦于现实医疗体系所面临的结构性压力,包括人员短缺、健康需求增长及突发公共卫生事件所带来的服务挤压。文章指出,COVID-19疫情进一步暴露了医疗系统在人力承载能力方面的脆弱性,也推动了数字健康工具在延伸健康支持方面的关注度上升。然而,尽管数字健康创新具有潜力,其有效使用仍受多重障碍限制,如用户不愿遵循数字建议、隐私与数据安全不足、系统僵化以及伦理与法律边界不明。文章特别强调,在采用AI算法的健康创新中,缺乏透明性与信任是关键阻碍。由此,移动端CAs在健康辅导、教育与自我管理方面虽呈现潜能,但其作为沟通媒介也带来了权威性、信任校准与系统边界界定等问题,因此需要对既有研究进行系统综合。
1.3. Aims
研究目标部分明确提出,本综述旨在考察MHCS中的XCAs,重点关注信任、进展与未来机遇。其核心任务包括:分析XCAs的概念与功能特征,以及其在非临床移动健康辅导和决策支持中的角色;识别影响用户信心、接受度和持续使用意愿的关键性信任因素;审视可解释性、可靠性和伦理考量如何塑造用户对系统建议的接受过程;综合现有文献,讨论如何将CAs、XAI与移动技术有效整合为透明、以用户为中心且可扩展的MHCS。该目标设定表明,文章并不将XCAs定位为完全自主的临床诊断主体,而更强调其辅助性与支持性定位。
1.4. Research Question
研究问题围绕五个层面展开:医疗与移动健康辅导场景中已研究的CAs类型;所涉及的健康状况、用户群体与交付场景;XAI技术及信任相关设计要素如何整合进系统;已报告结局如何通过透明框架加以分类;以及面向安全、可信、移动优先健康辅导与一般医学决策支持的XCA设计仍存在何种空白。该部分为后续证据梳理提供了清晰的分析框架。
2. Review Methodology
方法学部分表明,该研究遵循PRISMA-ScR扩展规范实施范围综述,采用问题识别、资源检索、来源筛选、数据制图、结果整理与影响报告等经典流程。作者强调其方法目标在于对异质文献进行结构化综合,而非执行统计汇总。
2.1. Protocol and Registration
文章说明,在正式开展综述前已起草研究方案,用于规范纳入标准、检索策略、研究筛选、数据提取与综合流程,但未进行正式注册。最终报告将依照PRISMA-ScR清单完成。
2.2. Eligibility Criteria
纳入标准部分指出,研究对象涵盖对现有CAs、XAI技术、MHCS、AI支持医学对话系统、电子辅导系统和移动健康应用进行评估、设计或概念分析的资源。文献必须与医疗保健、健康辅导、信任、可解释性或患者参与相关,发表时间限定在2006—2025年之间。这一标准反映了作者对技术相关性与学术严谨性的双重要求。
2.3. Data Sources
数据来源部分显示,研究系统检索了ACM Digital Library、IEEE Xplore、Elsevier ScienceDirect、SpringerLink、ProQuest和Google Scholar六大数据库,以覆盖AI、HCI与数字健康的交叉研究。同时,个别权威在线资料仅用于概念澄清,非学术性网页内容虽曾用于背景理解,但未纳入最终综合。
2.4. Search Strategy
检索策略采用受控词汇与自由词相结合的方式,围绕“conversational agents”“chatbots”“embodied conversational agents (ECAs)”“explainable artificial intelligence”“trust”“mobile health”“health coaching systems”等核心概念构建布尔逻辑组合,并通过“AND/OR”与数据库特定过滤器细化结果。作者将时间范围限定于2006—2025年,以捕捉CAs与XAI在健康领域的兴起历程。
2.5. Study Selection and Analysis
研究筛选经历题名、摘要与全文三级筛查,并根据预设标准进行选择。纳入研究随后接受定性主题分析,分析重点包括系统目的、对话设计、解释机制、评估方法与信任相关结局。文章明确指出,其分析关注模式、概念相似性与研究空白,而非性能排序或系统验证。
2.6. Data Extraction and Charting
数据提取框架覆盖书目信息、研究设计、技术类型、健康领域、通信模式、自动化水平、可解释性路径、信任相关要素、评估方法、结局指标、关键发现、局限性以及与XCA-MHCS相关性等变量。与此同时,每项研究还根据是否产生目标结果被编码为产生预期结局(GDO)、部分产生预期结局(P-GDO)或未产生预期结局(DN-GDO),以支持跨研究比较。
2.7. GDO/DN-GDO Outcome Classification Framework
该结局分类框架是本文方法学上的一项特色。GDO表示系统在诊断支持、可用性、参与度、用户体验或健康行为等方面达成了预期目标;P-GDO表示结果具有前景但仍受限于评估范围、临床验证不足或解释能力有限;DN-GDO则指系统未能达到预期,例如不能提供特定诊断、缺乏信任证据或高度依赖人工专家。作者借助该框架增强综合过程的可复现性与可比较性。
2.8. Data Analysis and Synthesis
综合分析围绕XCA在MHCS中的功能角色、可解释性的层级与形式、信任与接受决定因素、伦理与监管问题以及评估实践与方法严谨性展开。文章指出,与系统综述或Meta分析不同,本研究意在从异质证据中提炼主题、趋势与研究缺口。
3. Results
结果部分表明,最终共纳入201项资源,形成了关于CAs、MHCS与XAI技术交叉应用的证据图谱。整体上,研究集中于慢性病、心理健康、行为改变及健康教育场景,而一般医学诊断与自主化初级支持相关证据较为稀缺。
3.2. Concepts and Functionality of Explainable Conversational Agents
文章指出,CAs通常可分为目标导向型与非目标导向型两类,前者围绕特定任务运作,后者则更开放、依赖机器学习进行持续对话。作者强调,在健康情境中,本综述关注的是具备支持性和信息性作用的CAs,而非将其视为自主医疗系统。随着大语言模型(LLMs)提升了对话自然性与上下文理解能力,医疗领域CAs的功能边界虽有所扩展,但仍需要在明确定义的监督框架内运行。进一步地,XCAs被视为传统对话界面的概念延展,其关键不只是能够交流,而是将解释作为对话过程的核心组成部分,通过情境感知解释、反事实推理与多模态反馈增强用户理解与信任。
3.2.2. Conversational Agents in Healthcare
在医疗领域,CAs的现有研究主要集中于慢性病管理、心理健康支持、健康教育和行为干预。多数系统采用文本界面,并以补充而非替代临床服务的方式部署。文章提到,既有综述普遍发现这类系统在可用性和用户满意度方面表现积极,但也持续强调安全性、伦理标准与监督边界的重要性。部分研究显示,可解释性与个性化有助于提高用户参与和依从性,诸如Woebot等系统则展示了自动化心理健康支持的可行性,但同时需要明确披露系统限制。
3.2.3. Trust Factors Influencing User Confidence and Acceptance of XCAs in MHCS
关于信任因素,文章将其界定为用户对系统正确、稳定且适当地执行既定任务能力的信念。影响信任的核心因素包括准确性、可靠性、透明性与感知完整性。作者指出,用户需要清楚自己面对的是机器系统,并理解其能力边界与局限性。此外,同理心、礼貌性、理解性等类人特征能够增强感知信任,而错误信息或不敏感回应则会迅速破坏信任。医疗情境中的信任尤其重要,因为系统涉及敏感数据处理与健康决策建议。文中还讨论了语音质量、沟通风格、视觉外观、社会智能和感知性能质量等设计因素对信任建构的促进作用,说明信任并不仅由算法性能决定,也深受交互呈现方式影响。
3.2.4. Trusting XCAs: User Acceptability of Diagnosis, Treatment, Reliability, and Ethics
在MHCS相关讨论中,文章指出,这类系统综合使用可穿戴传感器、智能手机与云端应用,实现持续交互、行为促进、慢性病管理与健康计划依从性支持。其有效性依赖于多源数据的采集与分析,并借助AI生成个性化支持。现有系统已在糖尿病、高血压、心血管疾病和卒中管理中显示出价值,但隐私、透明性以及与用户沟通方式仍是关键挑战。作者特别强调,当前大多数MHCS主要用于促进健康行为和慢病管理,涉及一般医学状况的系统较少,能在无监督条件下完成诊断与治疗的完全自主系统更为罕见。
3.2.5. The Importance of CA in an MHCS
文章进一步指出,CAs在MHCS中可充当信息筛选者、交互支持系统及行为促进媒介,可用于症状询问、治疗性或预防性实践支持、提醒、促进用户参与以及协助与医疗人员沟通。研究显示,当系统纳入个体化建议、情绪状态与生活方式模式时,其托管式辅导活动更能提升用户参与度。因此,CAs的价值在于提高MHCS的可及性、可用性与用户黏性,同时不削弱人类专业判断。
3.3. Evidence of Gaps
文章总结的研究空白包括:XCA自动化证据仍不充分;用户即便面对XAI支持的系统仍可能对AI建议持怀疑态度;信任、可解释性与结局成功的操作化缺乏一致性;与电子健康记录和实时监测整合有限可能延误干预;可穿戴技术成本与可获得性限制了低资源环境中的推广;缺乏同理性交互、个性化与预测能力会削弱长期参与;部分应用虽可基于症状推荐,但尚未具备完整诊断能力、对话界面、语音识别或直观图形界面;同时,数据治理、隐私、偏倚、临床问责与不良事件管理的报告也较有限。
4. Streamlined Healthcare Application Explainable AI/ML in CA and MHCS
本节强调,理解AI系统底层机制是建立用户信任的前提。XAI技术通过提升结果的可解释性、可追踪性与问责性,有助于增强公平性、安全性并降低偏倚。文中重点讨论了Prospector、Shapley Additive Explanation(SHAP)与Local Interpretable Model-agnostic Explanations(LIME)等技术,指出其在解释特征贡献、局部预测依据和模型行为可视化方面具有重要作用。作者还结合具体研究说明,XAI可改善用户对AI驱动健康辅导系统的行为意向,并在急性心肌梗死预测等场景中支持结果解释。文章最后将这一技术潜力与高移动终端普及率相联系,认为XAI与MHCS融合有助于提升用户采纳和信心,尤其适用于医疗资源不足地区。
5. Analytical Synthesis of Findings
综合分析部分将XCA视为连接专家系统与终端用户的中介机制。文章认为,传统CAs重在任务完成与信息交互,而XCA则通过将解释嵌入自然语言交互,使系统不仅“能回答”,还“能说明为何如此回答”。这一变化意味着解释不再是事后附加功能,而是人机交互中的核心机制。综合结果显示,XCAs在慢病管理、健康教育与行为支持中具备较高应用潜力,但在自主临床推理、问责边界与实际行为效果验证方面仍缺乏充分证据。作者强调,解释性能够促进透明性、伦理责任、偏倚控制与知情互动,而信任则应被理解为由设计、可解释性、伦理与用户差异共同构成的社会—技术现象。
6. Discussion
讨论部分提出,XCA的真正价值不只在于技术能力,而在于其可能重塑医疗场景中的信任关系。通过提供清晰、可理解的建议依据,XCAs有望提升患者与专业人员对AI辅助决策支持、健康指导及随访流程的信心。然而,作者同时指出,关于解释机制如何实际影响用户行为、依从性与决策质量的实证研究仍较少。文章还回顾了XCAs在健康辅导中的进展,认为从基于规则的系统到结合情绪理解与多模态能力的模型,相关技术已取得显著发展,但未来设计应优先采用经临床验证的知识库、检索增强生成机制、显式解释层、以隐私保护为核心的设计、适度信任校准以及保留人工监督。对于未来发展机会,作者提出多模态融合、视觉与文本解释、行为与动机建模以及跨学科协作是重要方向。最后,文章构建了一个概念性XCA-MHCS模型,包括多模态用户输入、临床知识与数据层、AI推理与对话管理层、基于XAI的解释层,以及审计日志、隐私控制、临床监督和持续评估构成的安全治理层。
7. Conclusions
结论部分认为,XCAs可作为透明的虚拟健康助手,通过XAI为健康指导与决策建议提供解释依据,从而提升可及性、建立信任并支持更优健康实践。系统能否被采用,很大程度上取决于用户是否相信其准确性、可靠性、安全性与伦理完整性。文章特别指出,在资源受限地区,透明设计、文化适配性、可负担性、数字素养与社会责任感共同影响移动健康应用的接受程度。总体而言,XCAs在补充医疗服务、缓解医疗拥挤和增强患者参与方面具有显著潜力,但其发展仍应建立在以患者为中心、文化敏感、可解释且受监督的框架之上。