细微的差异,深远的影响:一种用于在专业医疗领域识别专家的、基于比较学习优化知识的图谱推荐系统
《ACM Transactions on Information Systems》:Nuanced Differences, Profound Impact: A Comparative Learning-Enhanced Knowledge Graph Recommender for Expert Identification in Specialized Medical Fields
【字体:
大
中
小
】
时间:2026年04月23日
来源:ACM Transactions on Information Systems
编辑推荐:
摘要
现代医疗实践的日益专业化和细分虽然在提高专业知识方面取得了显著进展,但也给患者与合适医疗专业人员之间的高效连接带来了巨大挑战。众多医疗专业领域加上医生资料的匮乏,使得传统的推荐算法难以应对这一挑战。本研究介绍了CLEAR-Med:一种基于对比学习增强的知识图谱推荐系统,旨
摘要
现代医疗实践的日益专业化和细分虽然在提高专业知识方面取得了显著进展,但也给患者与合适医疗专业人员之间的高效连接带来了巨大挑战。众多医疗专业领域加上医生资料的匮乏,使得传统的推荐算法难以应对这一挑战。本研究介绍了CLEAR-Med:一种基于对比学习增强的知识图谱推荐系统,旨在帮助患者在特定医学子领域内找到合适的医疗提供者。CLEAR-Med利用领域特定的知识图谱(KG)和先进的对比学习(CL)技术,捕捉医生的专业知识和偏好,有效解决了在线医疗社区(OHCs)中的数据稀缺性和信息过载问题。该系统构建了一个包含丰富信息的综合KG,包括医生的社交关系、专业网络以及从OHC数据中提取的专门属性。通过对比学习对关键实体和属性进行嵌入,CLEAR-Med生成了稳健的表示,并结合了高效的长短期记忆网络(LSTM)和强大的基于Transformer的模型。其模块化的预测层支持多种选择,从传统的多层感知器(MLP)到先进的生成扩散模型,从而产生高度准确和个性化的推荐结果。在基准测试中,CLEAR-Med展现了卓越的推荐性能,在OHC环境中表现出出色的适应性和准确性。消融研究证实了各个组件的有效性,而进一步探索Transformer和扩散模型等高级架构的实验表明,我们的框架在性能与计算效率之间取得了良好的平衡。除了应对数据稀缺性问题外,CLEAR-Med还为未来的专门医疗匹配系统建立了坚实的基础,填补了该领域的重要研究空白。
AI摘要(实验性)
本摘要由自动化工具生成,并非文章作者撰写或审核。它旨在辅助发现、帮助读者评估相关性和理解研究内容,作为文章作者提供的摘要的补充。完整文章仍为权威版本。点击此处了解更多信息。点击此处对摘要的准确性、清晰度和实用性发表评论,您的反馈将有助于改进未来的版本。
1 引言
医学研究的进步推动了医疗行业的深度专业化,使得复杂疾病的治疗取得了显著进展[78, 90, 102]。然而,这种高度专业化也为患者在医疗系统中导航带来了挑战[4, 7, 21]。由于专业领域和子领域的众多,患者难以找到最适合自己的专家。传统的转诊系统通常依赖于初级保健提供者的知识和专业网络,但这并不总能将患者高效地连接到最合适的专家[89]。对于患有复杂或罕见疾病的患者来说,这种低效率尤为严重,导致多次转诊、等待时间延长以及身体和情绪上的压力增加[68]。作为应对措施,在线医疗社区(OHCs)应运而生,通过远程咨询为患者提供了接触各种医疗专家的直接途径[21, 25, 42, 130]。全球疫情进一步加速了OHCs的普及,使得非接触式医疗实践在全球范围内成为常态[12, 62]。这些平台为患者提供了更大的便利和选择权[115]。然而,医学专业的多样性带来了新的挑战:从众多选项中选择最合适的专家[44]。许多患者缺乏识别与自己健康问题最匹配的专家所需的医学知识[51, 116]。在线个人资料和咨询记录往往无法凸显专家之间的细微差别,使患者面临信息过载的问题,容易做出次优决策[4]。此外,“冷启动”现象加剧了这一问题,因为新注册的医生缺乏历史数据,可能需要处理非其专业领域的病例[17]。这限制了他们展示专业知识的能力,也使得推荐算法难以准确识别他们的专业领域[61]。传统的推荐算法在这种情况下存在诸多局限性,包括难以区分医疗专业人员、数据稀缺性、不平衡以及OHCs中的噪声[47, 50, 74]。图1展示了通过OHC平台选择合适专家时面临的挑战,如识别正确的医疗专业领域、应对信息过载、处理平台偏见以及管理地理距离等物流约束。为了解决这些问题,需要一种超越简单交互矩阵的表示方法,能够捕捉医疗专业知识中的多关系异质性。知识图谱(KG)提供了一个自然且原则性的结构,用于建模临床关系(如医生-疾病、医生-程序)和职业关系(如医生-医院、合作)。通过保留子领域级别的邻域并允许从稀疏的交互历史中传播到语义上有意义的上下文,KG即使在没有历史数据的情况下也能有效地泛化属性和关系证据[43, 59, 107]。
图1. 患者在在线医疗社区中选择合适专家时面临的挑战。该图展示了患者尝试通过在线医疗社区平台找到最合适的医疗专家的复杂过程,突出了识别正确医疗专业领域、信息过载(由于众多专家资料)、平台推荐中的潜在偏见以及地理距离等物流约束等关键障碍。这些挑战可能导致不确定性及次优的医疗决策。
在OHCs中应用KG引入了几项特定领域的挑战,包括围绕罕见疾病的长时间尾尾部子图、严重的属性稀缺性和不平衡、嘈杂或不完整的文本描述,以及由于专业知识演变导致的冷启动问题。为了解决这些问题,我们采用了对比学习(CL)目标,该方法对齐了不同的视图(社交-职业 vs. 医疗)和模态(结构化属性 vs. 文本)。我们的方法从图邻域和交互共现中构建正样本,并跨视图采样难点负样本[16, 116, 128, 142]以提高区分度。在OHCs中,由于新注册的医生通常只有少量咨询记录,且他们的多关系邻域主要集中在罕见疾病上,因此会出现稀缺性和冷启动现象。我们通过应用基于路径的传播和利用属性三元组来稳定早期表示。不平衡表现为医生-疾病和咨询关系中的明显长尾分布:常见病症占据了大部分交互,而罕见疾病形成的子图非常小且孤立。与电子商务或媒体推荐不同,由于临床容量、机构分诊和患者安全或责任等方面的限制,无法人为增加尾部实体的曝光度。这些结构性因素强化了头部实体的主导地位,降低了通用去偏见策略的有效性,因此我们采用了跨视图对齐和跨模态难点负样本来保持罕见专家的可区分性。此外,通过联合对齐结构化属性和文本信号,并使用校准的权重和规范化方法处理医生资料和咨询对话中的噪声和缺失值,防止了对不可靠字段的过拟合。KG和CL之间的这种协同作用直接针对医学领域的独特特征,在数据稀缺和持续不平衡的情况下提高了专家之间的区分度。这也构成了CLEAR-Med的双视图KG和多层次CL架构的基础,该架构专为OHCs定制。
在这项研究中,我们提出了CLEAR-Med(一种基于对比学习增强的知识图谱推荐系统,用于医学专家识别)。CLEAR-Med旨在通过构建一个专门的KG来革新OHCs中的患者-医生匹配,该KG包含了关于医生专业背景、专业领域和患者健康状况的详细信息。通过结合先进的CL技术,CLEAR-Med解决了数据稀缺性问题,捕捉了细致的专业属性,生成了表达力强的嵌入,并提高了推荐准确性。我们的主要目标是通过帮助患者与最合适的专家建立联系来提升医疗效果和患者满意度。CLEAR-Med不仅简化了识别合适医生的过程,还确保推荐基于对患者需求和专业知识的全面理解。
本研究的主要贡献总结如下:
- 创新的KG构建:我们设计并构建了一个新颖的双视图KG,将社交-职业KG与医学领域KG独特地整合在一起。这种定制的结构使模型不仅能够捕捉临床专业知识,还能捕捉细致的专业关系,实现了医生子领域建模的前所未有的精细度。
- 先进的CL框架:我们提出了一种先进的多层次CL框架,专门用于对齐我们双视图KG中的异构表示。这种方法有效解决了数据稀缺性问题,并使模型能够学习出高度区分性的嵌入,捕捉专家之间的细微差别。
- 丰富医疗属性的整合:我们的模型融入了广泛的医学属性,提供了医生专业知识的全面视图。通过将这些属性无缝整合到CL框架中,我们增强了医生嵌入的表示能力,提高了推荐质量。
- 高度灵活和先进的框架整合了最先进的技术:我们提出了一个先进且可适应的框架,集成了多种最先进的技术。在表示层,我们利用大型语言模型(LLMs)为文本输入添加外部背景和多样性,而领域特定的Transformer生成精确的、上下文化重的属性嵌入。在预测层,我们的框架结合了强大的生成扩散模型进行迭代和高精度评分细化。我们在真实世界数据集上的广泛实验验证证明了这种集成架构的有效性,并分析了不同配置的性能权衡。
本文的其余部分安排如下:第2节回顾了相关工作;第3节介绍了背景并正式定义了问题;第4节详细描述了我们提出的CLEAR-Med框架;第5节描述了实验设置;第6节报告了全面的评估结果,包括主要比较结果、消融研究和鲁棒性分析;最后,第7节总结了本文。
2 相关工作
2.1 医疗推荐系统中的患者-医生匹配
OHCs及其在线医疗咨询(OMC)服务的快速发展显著改变了患者寻求医疗建议和与医疗专业人员连接的方式[44, 72, 109, 118]。医疗推荐系统已成为重要工具,根据各种标准帮助患者与合适的医生匹配[23, 48, 97, 140]。早期系统主要考虑了地理位置、可用性和医生总体评分等通用因素[33, 117]。这些系统通常采用协同过滤或基于内容的过滤来利用历史患者-医生交互和基本个人资料[28, 114]。尽管这些方法是基础性的,但它们往往无法捕捉解决特定医疗状况所需的专业知识细节[26, 77]。对于患有罕见或复杂健康问题的患者来说,这一限制尤为关键,因为他们需要具有精确子领域专业知识的专家[94]。此外,OHC平台引入了特定领域的约束,如机构分诊协议和临床能力限制,这些因素从根本上改变了曝光率和路由动态,与一般消费者平台有所不同[109, 140]。这些约束,加上不断发展的医疗专业知识和专家的时间可用性,突显了需要能够捕捉多关系专业结构并整合跨模态信号的模型的必要性,这超出了标准协同过滤方法的能力。
认识到医生专业子领域的重要性,研究人员开始将详细的专业信息整合到推荐模型中。例如,Pan等人[77]提出了一个结合医生专业和患者偏好的医生推荐系统,通过矩阵分解来提高匹配质量。类似地,Lu等人[65]使用深度学习来建模患者查询和医生专业知识之间的语义相关性,利用自然语言处理来解释和匹配文本描述。社区问答(CQA)平台的并行发展也解决了类似的专家寻找挑战。Li等人[58]提出了NeRank,通过异构网络嵌入实现个性化问题路由;Fu等人[24]开发了循环记忆推理网络来捕捉表面内容相似性之外的隐含专业知识;Peng等人[79]引入了多视图注意力匹配进行个性化专家查找;Sadegh Zahedi等人[84]提出了考虑动态专业知识演变的时间感知专家推荐模型。最近的研究进一步推动了这一领域的发展:例如,Peng等人[80]提出了CGEF,这是一种基于图的CL模型,能够捕捉高阶的专家与问题之间的关联;Wang等人[111]设计了一种个性化变换器,用于模拟专家随时间变化的兴趣和专业知识;Peng等人[81]开发了一个个性化的预训练框架,通过定制的预训练任务共同学习专家的兴趣和专业知识。虽然这些基于CQA的方法为专家匹配提供了宝贵的见解,但它们主要关注一般的问答场景,可能无法完全满足医疗咨询中固有的专业要求和层级结构。进一步的进展引入了语义嵌入和主题模型来表示专业知识。例如,Biswal等人[10]的Doctor2Vec模型根据医生的医疗记录和患者反馈学习了医生的分布式表示,捕捉了专业知识的微妙差异。此外,协同主题回归模型整合了医生档案和患者评价,提高了推荐准确性[138]。尽管有了这些发展,数据稀疏性和医疗信息的异构性等挑战仍然存在[55, 110, 139]。医生档案通常缺乏足够的细节,而患者提供的数据可能不一致或不完整[7, 66, 129]。因此,传统模型难以捕捉患者需求与专业知识之间的复杂动态关系。这就需要先进的模型,能够在克服数据稀疏性的同时有效表示专业属性。最近关于OMC导向推荐系统的系统评估强调了OHC服务固有的双向性质,并突出了负载平衡和可解释性等关键要求,呼吁超越传统电子商务推荐器的范式转变[44]。对健康推荐系统的补充范围评估进一步揭示了混合技术的广泛使用,并强调了以用户为中心的评估和证据映射的重要性[92]。
2.2 基于KG的推荐
KG在模拟复杂关系和整合推荐系统中的异构数据方面发挥了重要作用[43, 59, 107]。在医疗保健领域,KG有助于更全面地理解医疗实体及其相互关系,从而提高患者与医生匹配的准确性和个性化[64, 96, 135]。通过表示医生、疾病和治疗方法及其相互关系,KG使人们对医疗领域有更全面的了解[13]。KG在医疗保健中的早期应用主要集中在一般医学知识上,以支持决策系统,例如通过关联症状、诊断和治疗程序来推荐治疗方案或诊断疾病[134, 139]。虽然这些方法有助于理解患者需求,但往往忽视了将患者与具有特定子领域专业知识的医生对齐这一关键任务。最近的努力旨在改善KG中对医疗专业人员的表示。在更广泛的推荐系统文献中,调查综合了基于KG的推荐范式——包括嵌入、连接和传播方法——并研究了在数据稀疏和冷启动条件下准确性与可解释性之间的权衡[31]。然而,大多数现有方法仍然依赖于医生专业知识的广泛分类或一般描述[49],这限制了它们捕捉专业医疗领域复杂性的能力。数据稀疏性和医疗知识的内在复杂性等挑战阻碍了医疗保健领域全面KG的构建[71, 137]。关于质量管理的研究进一步强调了噪声或不完整KG所带来的风险,并强调了具有模式感知的设计的重要性,以防止头部实体的数据泄露并保留稀有子图[43]。例如,医生档案可能缺乏详细的描述,而大量的医学术语可能导致KG表示不完整或碎片化[41, 119]。此外,现有模型往往难以捕捉医疗专业知识的动态演变,这对于维护医生专业化的准确和最新表示至关重要[2]。克服这些挑战需要更先进的方法,以有效模拟医生的专业子领域,并促进OHC中的精确患者-医生匹配。在实践中,仔细的设计schema,综合考虑临床和社会-专业关系,整合属性三元组,并优化基于路径的传播深度,对于平衡表示表达能力和过拟合风险至关重要[43, 107]。此外,必须注意防止来自高度连接的头部实体的信息泄露,同时保留稀有疾病的邻域,确保专业子图得到准确的表示[71, 137]。
2.3 基于CL的推荐
CL作为一种强大的表示学习技术出现,特别是在解决数据稀疏性和改进推荐系统中的嵌入方面[16, 32]。通过利用数据增强、构建正负样本对以及使用专门的损失函数,CL即使在稀疏环境中也能有效揭示底层数据结构[46, 54]。除了经典的数据增强,最近的工作还探索了自监督图CL,以提高鲁棒性和长尾性能。这些方法在多视图扰动(如节点或边丢弃和随机游走)之间最大化一致性,补充了监督目标并减轻了对噪声交互的敏感性[121]。在基于KG的推荐中,CL已被用于通过改进用户和项目表示来增强项目推荐[103, 128, 143]。例如,Wei等人[116]提出了一个行为感知的CL框架,创建了用户-项目交互的多个视图,减轻了数据稀疏性并提高了推荐性能。同样,Zou等人[142]将KG与交互网络结合,生成多个视图进行数据增强,探索高阶连接以优化推荐。他们的方法通过有效利用KG中的结构信息展示了显著的改进。其他工作,如Wang等人[106]将推荐模块与KG嵌入模块连接起来,使用交叉和压缩单元在稀疏设置下改进了表示学习。此外,Tian等人[95]展示了CL从异构图中提取丰富潜在信息的潜力,利用正负样本对揭示数据中的专业子领域。在这些发展的基础上,自监督CL已扩展到社交和序列推荐设置,以减轻噪声并提高尾部性能。这些方法强调了辅助自监督目标与主要监督目标之间的谨慎平衡,以及构建信息丰富的负样本以改善表示质量[56, 63, 123]。尽管有了这些进展,CL在OHC中的应用仍然有限。现有研究主要集中在解决特定的稀疏性问题,而不是通过细致的专业属性来增强患者-医生匹配[112, 141]。鉴于医疗KG的复杂性和OHC平台中固有的数据稀疏性,迫切需要先进的技术来捕捉专业专业知识,以提高推荐性能。多视图CL对齐了社会-专业和医疗表示,而跨模态CL将结构化属性与文本信号相结合。通过从图邻域构建正样本对和挖掘视图间的硬负样本,这些技术在持续不平衡的情况下提高了可区分性[16, 116, 128]。同时,领域感知的采样策略有助于减轻由于子领域重叠或共享机构隶属关系而产生的误负[46, 54]。
2.4 KG中的属性三元组嵌入
在推荐系统中准确匹配和个性化表示实体及其属性至关重要[139],尤其是在医疗保健领域。传统的医生-患者推荐模型通常将复杂特征融合成单一向量进行模型训练[30, 87]。然而,由于属性数据的稀疏性和异构性,这种方法在OHC中效果不佳。例如,医生档案可能缺乏年龄、教育背景、专业头衔或专业领域的详细信息。简单地将这些属性组合在一起而不考虑它们的独特特征可能会导致次优的表示。将属性转换为三元组并将其整合到KG中提供了一种结构化和关系化的表示方法。属性三元组(包括一个实体、一个属性类型和一个属性值)使得表示更加细致和有关联性[98]。然而,嵌入属性三元组存在挑战,特别是在处理数值或复杂属性值时。与实体三元组不同,实体三元组中的关系通常是字符串或标识符之间的,而属性三元组涉及的值可能是数值的、分类的或文本的,需要专门的嵌入技术。Zhang等人[135]通过应用卷积神经网络(CNN)来融合和嵌入属性值和类型,使模型能够捕捉属性数据中的局部模式,部分解决了这个问题,但在处理数值数据时遇到了限制。Trisedya等人[98]提出了一种使用长短期记忆(LSTM)网络和n-gram模型进行实体对齐的方法,成功地嵌入了属性值。这项技术通过捕捉数据中的序列模式改进了复杂属性值的表示。尽管有了这些进展,但在OHC背景下对KG中的属性三元组嵌入的研究仍然不足。OHC中的独特挑战,包括不完整的患者记录和医生专业化的多样性,需要强大的嵌入技术。最近,像BERT这样的基于Transformer的架构的出现为这项任务开辟了新的前景。在生物医学语料库(如PubMed)上的领域特定预训练已被证明优于混合领域方法,产生了更丰富、更准确的生物医学实体及其关系的表示[29]。这些模型为文本属性提供了高度上下文化和语义丰富的嵌入,远远超过了早期的方法[3, 19]。认识到这一潜力,我们的工作不仅使用了一个强大的序列模型作为基线,而且还系统地评估了用领域特定Transformer模型替换它的影响。我们进一步通过应用类型感知的投影、规范化和加权来校准异构属性,防止噪声文本字段主导,同时忠实地编码数值和分类值以及领域特定的文本[3, 19, 29, 98, 135]。
3 前提
本节正式阐述了OHC中的患者-医生匹配问题,介绍了将在整篇文章中使用的基本符号和定义。为了便于参考,表1提供了关键符号的总结。
表1. 符号说明
\(\mathcal{D}\) 医生集合
\(\mathcal{P}\) 患者集合
\(\mathcal{O}\) 医生-患者交互集合
\(y_{dp}\) 医生\(d\)与患者\(p\)之间的交互指示器
\(\mathcal{G}=(\mathcal{E},\mathcal{R},\mathcal{T})\) KG
\(\mathcal{E}\) KG中的实体集合
\(\mathcal{R}\) KG中的关系集合
\(\mathcal{T}\) 关系三元组集合
\((h,r,t)\)
\(\mathcal{T}_{\text{attr}}\) 属性三元组集合
\((e,a,v)\)
\(\mathcal{A}\) 属性类型集合
\(\mathcal{V}_{a}\) 属性\(a\)的值集合
\(\mathbf{e}_{e}\) 实体\(e\)的嵌入
\(\mathbf{r}\) 关系\(r\)的嵌入
\(\mathbf{a}\) 属性类型\(a\)的嵌入
\(\mathbf{v}\) 属性值\(v\)的嵌入
\(\mathbf{E}_{a}^{e}\) 实体\(e\)的属性嵌入
\(\mathbf{e}_{e}^{\text{final}}\) 转换属性后实体\(e\)的最终嵌入
\(\mathcal{G}_{x,\text{L}}\), \(\mathcal{G}_{x,\text{N}}\) 实体\(x\)的局部和非局部子图
\(\mathcal{T}_{x,C}^{l}\) 子图\(C\)中第\(l\)层的三元组
\(\mathcal{E}_{x,C}^{l}\) 子图\(C\)中第\(l\)层的实体\(x\)
\(\mathbf{E}_{x,C}^{l}\) 子图\(C\)中第\(l\)层的实体\(x\)的嵌入
\(\alpha_{ht}\) 边缘\((h,t)\)的注意力权重
\(\hat{s}_{dp}\) 医生\(d\)与患者\(p\)之间的预测匹配分数
\(\mathcal{L}_{\text{Pred}}\) 预测损失函数
\(\mathcal{L}_{\text{Intra}}, \(\mathcal{L}_{\text{Inter}}\) 子图内和子图间的对比损失函数
\(\mathcal{L}_{\text{CL}}\) 总对比损失
\(\mathcal{L}_{\text{Total}}\) 总损失函数
\(\Theta\) 所有模型参数的集合
\(\lambda\), \(\lambda_{l}\) 控制属性影响的超参数
\(\tau\) CL中的温度参数
\(\K\) 子图传播的层数
3.1 基本定义
实体和交互。设\(\mathcal{P}=\{p_{1},p_{2},\dots,p_{|\mathcal{P}|}\}\)表示患者集合,\(\mathcal{D}=\{d_{1},d_{2},\dots,\) \(d_{|\mathcal{D}|}\}\)表示OHC平台上的医生集合。患者和医生之间的交互通过一组咨询记录捕获,表示为\(\mathcal{O}=\{(d,p)\mid d\in\mathcal{D},p\in\mathcal{P},y_{dp}=1\}\),其中\(y_{dp}=1\)表示医生\(d\)已为患者\(p\)提供了医疗咨询。
KG。我们构建了一个KG来模拟实体之间的丰富关系。KG被定义为一个有向图\(\mathcal{G}=(\mathcal{E},\mathcal{R},\mathcal{T})\),其中\(\mathcal{E}\)是实体集合,\(\mathcal{R}\)是关系集合,\(\mathcal{T}\subseteq\mathcal{E}\times\mathcal{R}\times\mathcal{E}\)是关系三元组集合。每个三元组\((h,r,t)\in\mathcal{T}\)表示从头部实体\(h\)到尾部实体\(t\)的关系\(r\)。
属性三元组。除了关系三元组,我们还考虑属性三元组来捕获实体的属性。属性三元组定义为代表\((e,a,v)\in\mathcal{T}_{\text{attr}}\),其中\(e\in\mathcal{E}\)是实体,\(a\in\mathcal{A}\)是属性类型,\(v\in\mathcal{V}_{a}\)是属性值。属性三元组通过结合关于实体的数值、分类和文本信息丰富了KG。
3.2 问题陈述
我们的目标是开发一个推荐系统,能够准确地将患者与在线医疗平台上专门从事特定医学子领域的医生匹配起来。正式地,问题可以表述为:
给定:
- 一组患者\(\mathcal{P}\)和医生\(\mathcal{D}\)。
- 一组医生和患者之间的历史交互\(\mathcal{O}\)。
- 一个捕获关系信息的KG \(\mathcal{G}=(\mathcal{E},\mathcal{R},\mathcal{T})\)。
- 一组提供实体额外属性的属性三元组\(\mathcal{T}_{\text{attr}}\)。
我们的目标是学习一个函数\(f:\mathcal{D}\times\mathcal{P}\rightarrow[0,1]\),该函数预测医生\(d\)和患者\(p\)之间的匹配分数\(\hat{s}_{dp}\),表示\(d\)适合治疗\(p\)的可能性。函数\(f\)应该同时利用知识图谱(KG)和属性信息来捕捉医生的专业领域和患者的具体医疗需求。图2展示了一个全面的流程图,说明了CLEAR-Med模型的架构。左侧部分显示了来自社交网络和医学知识图谱的输入数据,这些数据通过大型语言模型进行增强,并通过医学词库进行标准化。数据流入中间部分,在这里构建了属性视图和局部/非局部子图。这些数据通过长短期记忆(LSTM)或基于Transformer的嵌入进行处理,并输入到具有注意力机制的对比学习模块中,以创建子图内部和子图之间的正面和负面配对。右侧部分显示了处理后的患者和医生嵌入,这些嵌入通过预测模块进行处理,包括多层感知器、扩散模型和Transformer,以输出最终排名的候选医生列表。
提出的CLEAR-Med的全面架构整合了多样的在线医学KG、属性嵌入模块、对比学习(CL)机制和预测模块,以提高推荐准确性。社交和医学KG通过cMeSH进行属性丰富和标准化,然后通过注意力机制进行嵌入以捕获关键特征。这些嵌入通过CL进行细化,最终的医生-患者嵌入在预测模块中结合,以生成个性化的推荐分数和排名匹配结果。
4 方法论
本节介绍了我们为患者-医生匹配在专业领域内设计的知识感知CL框架。如图2所示,该模型由四个主要组件组成:(1)构建多样化的在线医学KG,(2)属性嵌入模块,(3)多层次CL机制,以及(4)预测模块。我们将在下面详细阐述每个组件,提供数学公式和详细解释以详细说明我们的方法论。
4.1 多样化的在线医学KG
KG提供了实体及其相互关系的结构化表示,使模型能够捕捉反映人类认知过程的复杂互动[75]。在医学领域,构建一个全面的KG能够整合异构数据源,揭示各种实体之间的潜在联系[15]。这种整体表示对于通过提供超越孤立数据点的上下文和关系洞察来提升推荐性能至关重要。
我们正式定义KG为:
\begin{align}
\mathcal{G}=(\mathcal{E},\mathcal{R},\mathcal{T}),
\nonumber
\end{align}
(1)
其中\(\mathcal{E}\)表示实体集,\(\mathcal{R}\)表示关系集,\(\mathcal{T}\subseteq\mathcal{E}\times\mathcal{R}\times\mathcal{E}\)是编码事实信息的三元组集。
4.1.1 社交和医学KG
为了捕捉在线医疗生态系统的多方面性质,我们构建了两个专门的KG:社交KG(\(\mathcal{G}_{\text{social}\))和医学KG(\(\mathcal{G}_{\text{medical}\))。这种双图方法模拟了医疗环境中的社会动态和临床互动,从而更丰富和细致地理解实体。
社交KG(\(\mathcal{G}_{\text{social}}\)。
\begin{align}
\mathcal{G}_{\text{social}}=(\mathcal{E}_{\text{social}},\mathcal{R}_{\text{social}},\mathcal{T}_{\text{social}},
\nonumber
\end{align}
(2)
其中:
\begin{align}
\mathcal{E}_{\text{social}} &=\mathcal{D}\cup\mathcal{H}\cup\mathcal{I}\cup\mathcal{A},
\nonumber
\end{align}
(3)
\begin{align}
\mathcal{R}_{\text{social}} &=\{\textit{works}\_\textit{in},\textit{member}\_\textit{of},\textit{cooperate}\_\textit{with},\textit{professional}\_\textit{direction}\}.
\nonumber
\end{align}
(4)
在这个图中,\(\mathcal{D}\)代表医生,\(\mathcal{H}\)表示医院,\(\mathcal{I}\)代表机构,\(\mathcal{A}\)表示地理区域。关系\(\mathcal{R}_{\text{social}}\)如works_in、member_of和cooperate_with捕捉了这些实体之间的专业和协作动态。例如,cooperate_with关系可能表明医院之间的合作关系或医生与研究机构之间的合作项目。通过建模这些社会关系,KG可以揭示可能表明共同专业知识或相似专业领域的隐含联系,从而增强推荐系统提出相关匹配的能力[108]。
医学KG(\(\mathcal{G}_{\text{medical}})。
\begin{align}
\mathcal{G}_{\text{medical}}=(\mathcal{E}_{\text{medical}},\mathcal{R}_{\text{medical}},\mathcal{T}_{\text{medical}},
\nonumber
\end{align}
(5)
其中:
\begin{align}
\mathcal{E}_{\text{medical}} &=\mathcal{D}\cup\mathcal{P}\cup\mathcal{S}\cup\mathcal{U},
\nonumber
\end{align}
(6)
\begin{align}
\mathcal{R}_{\text{medical}} &=\{\textit{treats},\textit{suffers}\_\textit{from},\textit{uses},\textit{cures}\}.
\nonumber
\end{align}
(7)
这里,\(\mathcal{D}\)代表医生,\(\mathcal{P}\)代表患者,\(\mathcal{S}\)代表疾病,\(\mathcal{U}\)代表药物。关系\(\mathcal{R}_{\text{medical}}\)如treats和suffers_from建立了医生和患者之间的直接临床互动,将它们与特定疾病和治疗联系起来。例如,treats关系将医生与患者连接起来,表明专业的参与,而suffers_from关系将患者与疾病联系起来,为医生治疗特定疾病提供背景。通过将医生的专业领域映射到患者的医疗条件上,医学KG使推荐系统能够利用临床相关性,从而提出更准确和个性化的建议[108]。
社交KG和医学KG的整合形成了我们的综合在线医学KG:
\begin{align}
\mathcal{G}=\mathcal{G}_{\text{social}}\cup\mathcal{G}_{\text{medical}}.
\nonumber
\end{align}
这个统一的KG包含了社会-专业网络和临床互动,为提高推荐系统匹配患者与合适医生的能力提供了重要的整体视图。
4.1.2 三元组表示和嵌入学习
在我们的KG中,每个实体\(e\in\mathcal{E}\)由一个嵌入向量\(\mathbf{e}_{e}\in\mathbb{R}^{d}\)表示,每个关系\(r\in\mathcal{R}\)与一个嵌入向量\(\mathbf{r}\in\mathbb{R}^{d}\)相关联。对于每个三元组\((h,r,t)\in\mathcal{T}\),我们采用了一种受TransE [11]启发的翻译嵌入方法:
\begin{align}
\mathbf{e}_{h}+\mathbf{r}\approx\mathbf{e}_{t}.
\nonumber
\end{align}
三元组的合理性通过评分函数来衡量:
\begin{align}
f(h,r,t)={-}\left\|\mathbf{e}_{h}+\mathbf{r}-\mathbf{e}_{t}\right\|^{2}.
\nonumber
\end{align}
我们的目标是最大化有效三元组的分数,同时最小化无效三元组的分数。这种方法通过确保头部实体加上关系向量的嵌入接近尾部实体的嵌入,有效地捕捉了实体之间的关系。由于这些翻译模型在建模多关系数据方面的简单性和有效性,已在各种应用中证明是成功的[113]。
我们KG模块的一个核心设计原则是其灵活性,能够适应各种嵌入策略并处理知识动态,反映了医疗知识表示的复杂方法。我们的框架整合了多个KGE模型,允许在计算效率和表示能力之间进行审慎的权衡。它包括高效的、强大的TransE作为基础表示层,该层在建模医学数据中常见的清晰层次关系方面表现出色。对于需要捕获更复杂关系模式的场景,框架无缝支持像RotatE [93]这样的高级模型,后者擅长建模对称和组合关系。
此外,为了解决知识过时的关键挑战,我们的框架结合了一种新颖的增量更新策略。这种动态能力确保KG能够随着最新的医学发现而保持最新,而无需进行昂贵的全面重新训练,从而维持高的推荐新鲜度。这种混合和动态设计是我们工作的一个关键贡献。在第6.9.1节中提出的全面分析实证评估了这些集成嵌入和更新策略的不同特性和性能权衡,验证了我们整体架构的适应性。
4.1.3 处理KG稀疏性
在构建KG时,特别是在像OHCs这样的专业领域中,关系的内在稀疏性是一个重大挑战。我们使用稀疏度比率来量化稀疏性:
\begin{align}
S=1-\frac{|\mathcal{T}|}{|\mathcal{E}|\times|\mathcal{R}|}.
\nonumber
\end{align}
(11)
高稀疏度比率表明许多潜在的联系缺失,阻碍了强大的嵌入学习[133]。为了解决这个问题,我们整合了属性信息,并采用了多层次的CL机制,具体内容将在后续章节中详细说明。属性数据通过额外的上下文信息丰富了实体表示,而CL利用局部和非局部子图来提高嵌入的质量,尽管存在稀疏性[131]。
4.2 属性嵌入模块
在在线医疗平台上,医生和患者等实体拥有超出其关系三元组的丰富属性信息。属性包括数值数据(例如,年龄、治疗的患者数量)、分类数据(例如,医学专业、职称)和文本描述。将这些属性信息纳入实体嵌入对于捕捉每个实体的细微特征至关重要,从而提高推荐系统的性能[98, 126]。然而,传统的KG嵌入方法往往忽视属性数据或处理不当,主要关注关系信息[113]。为了解决这一限制,我们提出了一个属性嵌入模块,通过使用LSTM网络来整合属性信息来丰富实体表示[39]。
4.2.1 属性表示
属性三元组定义为:
\begin{align}
(e,a,v)\in\mathcal{T}_{\text{attr}},
\nonumber
\end{align}
(12)
其中\(e\in\mathcal{E}\)是一个实体(医生或患者),\(a\in\mathcal{A}\)是一个属性类型(例如,年龄、经验),\(v\in\mathcal{V}_{a}\)是属性值。通过将这些属性三元组纳入我们的模型,我们捕获了关系三元组中未表示的关键特征,从而增强了嵌入的语义深度。
例如,医生治疗的患者数量或患者的病程长度提供了关于他们档案的宝贵见解,这可以显著影响推荐过程中的匹配。忽略这些属性可能导致无法捕捉实体重要方面的次优嵌入[133]。
4.2.2 通过LSTM进行属性值嵌入
属性值,特别是数值和文本属性,通常表现出序列模式。捕捉这些属性的序列和位置信息对于准确表示至关重要[8]。例如,属性值“senior consultant”比“junior doctor”传达了更高水平的专业知识,这可以显著影响推荐结果。为了模拟属性值的序列性质,我们使用字符级嵌入,然后是LSTM网络。LSTM网络旨在处理序列数据并捕捉长期依赖性,使它们非常适合处理长度和结构各异的属性值。
字符嵌入。属性值\(v\)中的每个字符\(c_{t}\)被嵌入到一个密集的向量表示中:
\begin{align}
\mathbf{c}_{t}\in\mathbb{R}^{d_{c}},\quad t=1,2,\dots,T,
\nonumber
\end{align}
(13)
其中\(d_{c}\)是字符嵌入的维度,\(T\)是属性值序列的长度。这种字符级嵌入使模型能够处理任何属性值,包括未见过的单词或数值,通过将它们分解成组成字符。
LSTM编码。字符嵌入序列\(\{\mathbf{c}_{1},\mathbf{c}_{2},\dots,\mathbf{c}_{T}\}\)被输入到LSTM网络中以捕捉序列依赖性:
\begin{align}
\mathbf{h}_{t}=\text{LSTM}(\mathbf{c}_{t},\mathbf{h}_{t-1}),
\nonumber
\end{align}
(14)
其中\(\mathbf{h}_{t}\in\mathbb{R}^{d_{h}}\)是时间\(t\)的隐藏状态,\(d_{h}\)是LSTM隐藏状态的维度。最终的隐藏状态\(\mathbf{v}=\mathbf{h}_{T}\)作为属性值\(v\)的嵌入:
\begin{align}
\mathbf{v}=\mathbf{h}_{T}.
\nonumber
\end{align}
(15)
通过利用LSTM捕捉长期依赖性的能力,我们确保属性嵌入有效地捕捉了内容及其顺序。这对于区分相似但不同的属性值(例如,“145.5 cm” vs. “155.4 cm”)至关重要。
4.2.3 组合属性类型和值嵌入
为了统一属性类型和值嵌入,我们采用了受KG嵌入模型(如TransE [11]及其扩展)启发的基于翻译的方法[126],这些模型整合了属性信息。每个属性类型\(a\)都被嵌入到一个向量中:
\begin{align}
\mathbf{a}\in\mathbb{R}^{d}.
\nonumber
\end{align}
我们通过翻译关系结合属性类型和值嵌入:
\begin{align}
\mathbf{E}_{a}^{e}=\mathbf{v}-\mathbf{a}+\mathbf{b}_{a},
\nonumber
\end{align}
(17)
其中\(\mathbf{b}_{a}\in\mathbb{R}^{d}\)是特定于属性类型\(a\)的可训练偏置向量。直观地说,这种公式实现了属性值在语义空间中代表特定“位移”的概念。例如,值“senior consultant”从通用的“professional_title”概念中移开,朝向代表更高专业水平的区域。偏置项\(\mathbf{b}_{a}\)捕捉了与特定值无关的属性特定特征,使模型能够在即使具有相似语义表示的情况下区分不同类型的专业资格。
4.2.4 聚合多个属性
实体通常具有定义其特征的多个属性。对于具有多个属性\(\{(a_{i},v_{i})\}_{i=1}^{N_{e}}\)的实体\(e\),我们通过将它们相加来聚合属性嵌入:
\begin{align}
\mathbf{E}_{a}^{e}=\sum\limits_{i=1}^{N_{e}}(\mathbf{v}_{i}-\mathbf{a}_{i}+\mathbf{b} _{a_{i}}).
\nonumber
\end{align}
(18)
这种简单而有效的聚合方法确保了所有属性信息都对最终嵌入有贡献。虽然可以探索其他聚合策略,如注意力机制[100],根据它们的重要性为属性分配不同的权重,但我们在实验中发现总和就足够了。
4.2.5 将属性嵌入整合到实体表示中
最终的实体嵌入是通过将原始实体嵌入与聚合的属性嵌入相结合获得的:
\begin{align}
\mathbf{e}_{e}^{\text{final}}=\mathbf{e}_{e}+\lambda\mathbf{E}_{a}^{e},
\nonumber
\end{align}
(19)
其中\(\lambda\)是一个超参数,用于控制属性信息的影响。这种整合通过结合关系和基于属性的信息来丰富实体表示。参数\(\lambda\)允许我们平衡属性嵌入的贡献,这对于防止关系信息或属性信息的优势占据主导地位至关重要。
通过将属性数据纳入实体嵌入,我们解决了KG的稀疏性问题,并丰富了超出关系数据的实体表示。使用基于LSTM的嵌入来处理序列属性值可以捕捉关键的细微差别,进一步增强了模型准确表示每个实体的能力。这种方法与我们的翻译框架一致,确保了一致性,并支持在多级CL和推荐等下游任务中改进性能。
我们属性嵌入模块的一个关键特性是其架构灵活性,旨在根据性能和计算效率之间的期望平衡来适应各种序列编码器。我们的框架支持轻量级且高效的基于LSTM的编码器,该编码器在捕捉具有中等复杂性的医学属性的序列性质方面非常有效。为了实现SOTA语义理解,框架还无缝整合了更强大的基于Transformer的模型。这些先进的编码器利用来自庞大医学语料库的预训练知识来生成更丰富、更具上下文意义的表示。这种混合设计使得CLEAR-Med能够适应不同的部署场景。在第6.9.2.4节中的增强分析中,我们对这些集成编码器选项的性能权衡进行了全面实证分析。
4.3.1 图构建与编码
为了充分利用知识图谱(KG)中的丰富关系信息,我们为每个实体(医生或患者)构建了两种类型的子图:局部子图和非局部子图。局部子图关注直接的互动关系,而非局部子图则通过探索相似实体及其连接来捕捉更高层次的关系。这种多层次的方法使我们能够模拟KG中的微观和宏观结构,这对于理解医疗领域的复杂实体交互至关重要。
4.3.2 关注机制下的编码
为了有效地从构建的子图中编码信息,我们采用了一种受图注意力网络(GATs)[101]启发的关注机制。关注机制允许模型权衡不同邻近实体和关系的重要性,专注于每个实体最相关的信息。对于子图\(C\)中的每一层\(l\)(局部L或非局部N),我们计算嵌入\(\mathbf{E}_{x,C}^{l}\)如下:
\[\mathbf{E}_{x,C}^{l}=\sum\limits_{(h,r,t)\in\mathcal{T}_{x,C}^{l}}\alpha_{ht}\mathbf{e}_{t}+\lambda_{l}\mathbf{E}_{a}^{x},\]
其中\(\mathbf{e}_{t}\)是尾部实体\(t\)的嵌入,\(\mathbf{E}_{a}^{x}\)是来自前一个模块的实体\(x\)的属性嵌入。直观地说,这种加权聚合使模型能够在结合属性信息的同时,专注于最相关的医疗关系。
4.3.3 CL损失函数
为了学习既具有区分性又具有鲁棒性的嵌入,我们设计了对比损失函数,以促进局部子图和非局部子图内部以及子图之间的信息一致性。受到最近对比表示学习[16, 131]进展的启发,我们定义了两种类型的对比损失:子图内对比损失和子图间对比损失。
4.4 预测模块
在CL过程之后,我们获得了每一层局部和非局部子图的嵌入,以及医生和患者的属性嵌入。这些嵌入涵盖了多个层面的复杂关系和专业子领域。
4.4.1 最终嵌入与匹配得分
为了得到最终表示,我们按如下方式连接嵌入:
\[\mathbf{e}_{d}=\text{Concat}(\mathbf{E}_{d,\text{L}}^{0},\dots,\mathbf{E}_{d, \text{L}}^{K},\mathbf{E}_{d,\text{N}}^{0},\dots,\mathbf{E}_{d,\text{N}}^{K}),\]
\[\mathbf{e}_{p}=\text{Concat}(\mathbf{E}_{p,\text{L}}^{0},\dots,\mathbf{E}_{p, \text{L}}^{K},\mathbf{E}_{p,\text{N}}^{0},\dots,\mathbf{E}_{p,\text{N}}^{K}).\]
医生\(d\)和患者\(p\)之间的匹配得分是使用多层感知器(MLP)计算的:
\[\hat{s}_{dp}=\sigma\left(\text{MLP}\left([\mathbf{e}_{d};\mathbf{e}_{p}]\right )\)]\]
我们框架的一个关键创新是其模块化的预测层,该层能够高度适应不同的复杂性和性能要求。框架整合了一系列预测机制来模拟最终的医患交互得分,包括一个强大且高效的MLP,它通过捕捉非线性特征交互提供稳定且可解释的预测。对于需要更高精度和能够模型更复杂模式的场景,框架还融入了先进的架构,例如多头注意力增强协作过滤(MHACF)模型,擅长动态加权不同的嵌入组件,以及强大的生成式去噪扩散预测(CDDP)模型,该模型擅长迭代优化预测以达到最高精度。这种多组件设计突显了我们框架的灵活性。在第6.9.3节中进行的全面分析,实证评估了这些集成预测组件的性能特点和计算权衡,验证了我们整体架构的多样性。
4.4.2 损失函数
我们使用加权二元交叉熵损失进行预测[38]:
\[\mathcal{L}_{\text{Pred}}=-\sum\limits_{(d,p)\in\mathcal{O}}\left(\lambda_{1}y_{dp} \log\hat{s}_{dp}+(1-y_{dp})\log(1-\hat{s}_{dp})\],
其中\(\mathcal{O}\)是观察到的交互集,\(\lambda_{1} > 1\)平衡了正面和负面样本的权重,\(y_{dp}\in\{0,1\}\)表示医生\(d\)是否治疗过患者\(p\)。
4.4.3 总体目标
最终的损失函数整合了预测损失、CL损失和正则化项:
\[\mathcal{L}_{\text{Total}}=\mathcal{L}_{\text{Pred}}+\lambda_{2}(\alpha \mathcal{L}_{\text{Intra}}+\mathcal{L}_{\text{Inter}})+\lambda_{3}\|\Theta\|_{ 2}^{2},\]
其中\(\lambda_{2}\)、\(\lambda_{3}\)和\(\alpha\)是平衡损失权重的超参数,\(\Theta\)代表所有模型参数。总体算法总结在算法1中。
4.5 复杂性分析
我们系统地分析了所提出的CLEAR-Med框架的四个主要组件的计算复杂性。我们提供了详细的时间和空间复杂性分析,以证明该框架在在线医疗系统中的实际部署中的计算效率。
4.5.1 KG嵌入初始化
初始的基于TransE的KG嵌入需要计算所有三元组\((h,r,t)\in\mathcal{T}\)的嵌入。对于每个三元组,平移约束\(\mathbf{e}_{h}+\mathbf{r}\approx\mathbf{e}_{t}\)需要\(\mathcal{O}(d)\)次操作。由于总共有\(|\mathcal{T}|\)个三元组和\(I_{\text{pre}}\)次预训练迭代,初始化复杂性为\(\mathcal{O}(I_{\text{pre}}|\mathcal{T}|d)\)。这是一次性的预处理成本,不会影响在线推荐的延迟。
4.5.2 属性嵌入模块
该框架支持两种属性处理模式:(1)通过属性编码器模块进行动态编码;(2)使用预计算属性嵌入的查找。对于使用字符级LSTM的动态编码,每个属性值需要\(\mathcal{O}(Td_{h}^{2})\)的复杂性,其中\(T\)是序列长度,\(d_{h}\)是LSTM的隐藏维度。然而,在实践中,框架主要使用存储在字典中的预计算属性嵌入,每次查找操作需要\(\mathcal{O}(1)\)时间,但随后对\(d\)维向量的聚合需要\(\mathcal{O}(d)\)次操作。对于具有\(N_{e}\)个属性的实体\(e\),实际的属性处理复杂性为:
\[\mathcal{C}_{\text{attr}}(e)=\begin{cases}\mathcal{O}(N_{e}Td_{h}^{2}+N_{e}d)& \text{如果采用动态编码} \\ \mathcal{O}(N_{e}d)&\text{如果采用预计算查找} \end{cases},\]
其中额外的\(N_{e}d\)项用于聚合\(N_{e}\)个维度为\(d\)的属性嵌入。对于批量\(B\)中的所有实体,动态编码的复杂度为\(\mathcal{O}(BN_{e}Td_{h}^{2})\),预计算查找的复杂度为\(\mathcal{O}(BN_{e}d)\)。
4.5.3 多层次CL机制
CL机制涉及几个计算阶段。理论上,构建K跳亚图需要探索每个实体\(\mathcal{O}(D_{\text{avg}}^{K})\)个节点,其中\(D_{\text{avg}}\)是平均节点度。然而,为了避免指数级复杂性,我们的实现采用了邻居采样策略在kg_propagation函数中,通过随机采样(np.random.choice)将每层限制在最多\(T_{\text{max}}\)个三元组。该框架为每个用户-项目对构建了四种不同的子图视图:用户直接(40个三元组)、用户潜在(128个三元组)、项目直接(128个三元组)和项目来源(40个三元组)。因此,实际子图构建的复杂度为:
$$\begin{align}
\mathcal{C}_{\text{subgraph}}=\mathcal{O}\left(4\cdot K\cdot T_{\text{max}}\right),
\end{align}
$$
(46)
其中在我们实现中,$T_{\text{max}}=\max(40,128)=128$。
图注意力计算。注意力机制通过连接头部嵌入和关系嵌入$[\mathbf{e}_{h}\parallel\mathbf{r}$(维度为$2d$)来处理三元组$(h,r,t)$。我们的实现使用了一个两层MLP注意力网络:$2d\rightarrow d\rightarrow 1$,每个三元组需要$\mathcal{O}(2d\cdot d+d\cdot 1)=\mathcal{O}(d^{2})$次操作。对于第$l$层的$T_{l}$个三元组,注意力计算需要$\mathcal{O}(T_{l}d^{2})$次操作,对于$K$层和四种子图视图,总复杂度为$\mathcal{O}(4KT_{\text{max}}d^{2})$。
对比损失计算。CL涉及计算正负对之间的相似性。对于$N_{p}$对,每对嵌入的维度为$d$,每次相似性计算需要$\mathcal{O}(d)$次操作。对所有对进行softmax归一化增加了$\mathcal{O}(N_{p})$的复杂度。总对比损失复杂度为:
$$\begin{align}
\mathcal{C}_{\text{contrast}}=\mathcal{O}(N_{p}d).
\end{align}
$$
(47)
总体训练时间复杂度。将所有组件的时间复杂度结合起来,对于批量大小为$B$的每次训练迭代,总时间为:
$$\begin{align}
\mathcal{C}_{\text{train}}=\mathcal{O}\left(B\left(N_{e}d+4KT_{\text{max}}d^{2 }+N_{p}d+d_{\text{total}}^{2}\right),
\end{align}
$$
(48)
其中各项分别代表:属性处理($N_{e}d$)、四视图子图注意力计算($4KT_{\text{max}}d^{2}$)、CL操作($N_{p}d$)和MLP预测($d_{\text{total}}^{2}$)。
4.5.4 预测模块。最终的MLP预测将所有层和四种子图视图的嵌入连接起来。根据我们在.parse_args中的代码实现,输入维度为$d_{\text{total}}=d\times(K+1)\times 2\times 2=4(K+1)d$,其中因子4代表了用户直接、用户潜在、项目直接和项目来源的嵌入,$(K+1)$包括初始层加上$K$个传播层。我们的MLP架构由三层组成:$d_{\text{total}}\rightarrow 2d_{\text{total}}\rightarrow d_{\text{total}}\rightarrow 1$,每次预测需要$\mathcal{O}(d_{\text{total}}^{2})$次操作。对于$B$对医生-患者对的批量推理,总时间为:
$$\begin{align}
\mathcal{C}_{\text{pred}}=\mathcal{O}(B\cdot d_{\text{total}}^{2}).
\end{align}
$$
(49)
4.5.5 空间复杂度分析。该框架的内存需求包括:
- 实体和关系嵌入:$\mathcal{O}(Nd+|\mathcal{R}|d)$用于存储所有嵌入。
- 子图存储:$\mathcal{O}(B\cdot 4\cdot K\cdot T_{\text{max}}\cdot d)$用于在训练期间维护四种子图视图,每个子图每层最多存储$T_{\text{max}}$个三元组。
- 注意力权重:$\mathcal{O}(B\cdot 4\cdot K\cdot T_{\text{max}})$用于存储所有子图中的注意力权重。
- 中间激活:$\mathcal{O}(B\cdot d_{\text{total}})$用于MLP前向传递。
总空间复杂度为:
$$\begin{align}
\mathcal{C}_{\text{space}}=\mathcal{O}(Nd+BKT_{\text{max}}d+Bd_{\text{total}}).
\end{align}
$$
(50)
4.5.6 在线推荐的推理时间复杂性。对于给定患者查询的实时医生推荐,系统基于我们的前向函数实现执行以下步骤:
(1) 属性处理:$\mathcal{O}(N_{e}d)$用于预计算查找模式。
(2) 子图构建:$\mathcal{O}(4\cdot K\cdot T_{\text{max}})$使用我们的固定采样策略。
(3) 基于注意力的嵌入计算:$\mathcal{O}(4\cdot K\cdot T_{\text{max}}\cdot d^{2})$覆盖所有子图视图和层。
(4) 对$M$个候选医生的预测:$\mathcal{O}(M\cdot d_{\text{total}}^{2})$使用我们的三层MLP。
总推理复杂度为$\mathcal{O}(N_{e}d+4KT_{\text{max}}d^{2}+Md_{\text{total}}^{2})$,这与候选医生数量$M$成线性比例,适合大规模部署。
4.5.7 计算效率分析。与传统协同过滤方法的复杂度$\mathcal{O}(N^{2})$(对于$N$个用户)相比,我们的方法通过局部子图处理实现了亚线性扩展。该框架的复杂性主要由子图构建项$KD_{\text{avg}}^{K}$主导,这是可管理的,因为在医学知识图谱(KG)中$D_{\text{avg}}$通常较小(我们数据集中的平均度数<50),并且$K\leq 3$层就足以捕获相关信息。这一分析表明CLEAR-Med在利用丰富的关系和属性信息提高推荐准确性的同时,保持了计算可行性。
为了验证CLEAR-Med在实际部署中的效率,我们在使用单个NVIDIA A800-SXM4 GPU(具有80 GB内存)的实验设置上进行了全面的性能评估。表2总结了不同模型配置和基线比较的关键性能指标。
表2. 模型
训练时间 推理延迟 内存使用 吞吐量(秒/ epoch)
DMF 31.8 1.7 2.4 585.4
ENMF 29.1 1.4 2.1 10.2
KGCN 87.3 4.1 4.2 241.6
RippleNet 124.7 6.9 8.8 143.5
MKR 108.4 5.3 5.1 185.3
MCCLK 116.2 5.8 5.6 170.8
CLEAR-Med 117.4 3.8 8.7 261.5
CLEAR-Med和基线模型的实际性能指标如下:
- 训练时间:测量每个epoch的墙钟时间;
- 推理延迟:表示生成推荐的核心模型前向传递时间;
- 内存使用:表示训练期间的GPU峰值内存消耗;
- 端到端响应时间:包括数据预处理、子图构建、模型推理和结果后处理在内的完整流程。
CLEAR-Med展示了合理的训练效率,每个epoch为117.4秒,略高于MCCLK(116.2秒),但与更复杂的知识感知方法(如RippleNet的124.7秒)相比仍然具有竞争力。这种性能反映了我们多层次CL机制和双知识图谱处理的计算开销,同时仍然适合实际部署。尽管在架构上涉及四个不同的子图视图(用户直接、用户潜在、项目直接、项目来源)和多层注意力机制,CLEAR-Med通过几种设计选择保持了合理的效率:
- 固定子图采样策略:我们在数据预处理期间使用随机采样将子图大小限制在固定范围内(局部子图40个三元组,潜在子图128个三元组),避免了像RippleNet那样可能造成性能瓶颈的可变大小图操作;
- 流式CL:我们的双视图方法在这些预采样的固定大小子图上操作,而不需要在训练期间进行昂贵的动态邻居发现;
- 高效的嵌入连接:模型架构使用简单的连接操作组合多层嵌入,而不是复杂的聚合机制。
该框架提供了强大的推理性能,核心模型延迟为3.8毫秒,当包括数据预处理、实体嵌入查找和结果后处理时,端到端响应时间扩展到4.9毫秒。这种效率得益于我们子图表示的固定大小,使得张量操作可预测,无需动态内存分配,以及我们的直接MLP预测架构,它处理的是维度一致的嵌入(4 × (K + 1) × d,其中K为层数,d为嵌入维度)。8.7 GB的内存占用虽然高于传统的协同过滤方法,但可以在常见的16 GB+商用GPU上部署,使其适用于中型医疗机构,而无需专门的高内存硬件。
从资源管理的角度来看,我们的实验环境涉及一个共享的实验室GPU集群,其中多个研究项目竞争计算资源。尽管是多用户环境,CLEAR-Med的高效资源分配即使在集群的GPU利用率接近容量时也能确保稳定训练。该框架的中等内存占用(8.7 GB)在A800上留下了足够的开销,允许同时执行其他实验,同时保持一致的性能。在我们的协作研究环境中,这种资源效率尤其宝贵,因为昂贵的A800硬件需要服务于多个并发项目。在高峰使用期间,当集群范围内的GPU内存利用率超过60 GB时,CLEAR-Med仍然能够可靠地训练,没有性能下降,这证明了框架的有效设计和在共享计算环境中保守的资源需求的实际好处。
5 实验
5.1 数据
我们的实验数据来自Haodf.com,这是中国最大的在线健康中心(OHC)之一。该数据集涵盖了15个部门的761名医生,重点是在平台上患者流量最大的专科[34, 45]。这些部门包括妇科、中医(TCM)、心脏病学等(详见表3)。对于每个部门,我们至少收集了50名医生的数据,对于每个医生,我们平均收集了500至3,000名患者的数据。数据收集时间跨度从2021年11月21日到2024年10月24日,确保了近期医疗咨询和医生-患者互动的全面覆盖。
表3. 部门 医生数量 患者数量
妇科 50 131,521
眼科 54 130,005
中医 51 119,610
儿科 50 118,248
内分泌科 51 111,145
神经病学 50 108,706
男科 49 103,198
胃肠病学 53 100,100
心脏病学 50 98,364
肿瘤学 50 97,920
精神病学 50 93,750
牙科 51 73,936
传染病学 52 69,836
呼吸医学 50 67,625
康复医学 50 42,510
为了丰富数据集并提供医生和患者的全面概况,我们收集了多种类型的信息。对于医生,数据集包括性别、专业职称、出版物数量、经验年限、教育背景和治疗历史等详细信息。它还涵盖了他们的工作场所、专业领域以及与医院、大学和医学协会的隶属关系。对于患者,数据集包括可用的医疗记录,包括疾病、症状、处方药物和个人特征(如年龄、身高、体重和性别)等详细信息。
为了评估CLEAR-Med的跨平台适应性和泛化能力,我们使用了Practo.com(一个著名的国际医疗平台)的数据进行了补充实验。这个额外的数据集作为一个简化的跨平台验证,以展示我们模型在不同语言和文化背景下的有效性。国际医疗环境在数据结构和可用性方面存在显著差异,通常反映了不同的监管环境和平台设计理念。在许多地区,对全面数字健康记录和AI驱动的医疗解决方案的重视可能不那么发达,因此数据收集方法可能更为简化。为了清晰起见,除非另有说明,所有后续的图表和分析均涉及主要的Haodf数据集。
Practo数据集包括与我们主要数据集相同的15个医疗部门,包括心脏病学、牙科、皮肤科、胃肠病学、妇科、神经病学、骨科等,确保了专科覆盖的一致性。我们保持了每个部门至少收集50名医生的方法。然而,由于国际平台常见的隐私保护政策和反爬虫机制,患者互动数据较为有限,每个医生大约与100至300名患者相关联。数据收集时间跨度从2014年12月25日到2025年7月1日,提供了医生-患者互动的广泛时间视角。
Practo数据集捕获了必要的医疗咨询信息,包括医生的专业背景、专科、经验年限、机构隶属关系和患者评分系统等详细信息。患者互动数据包括咨询评论、预约日期和反馈内容。虽然这个数据集保持了患者-医生匹配所需的核心元素,但国际平台的结构与中国国内平台自然不同。简化的数据架构反映了全球医疗平台的共同特点,其中某些详细的医疗本体和全面的患者医疗历史可能不如中国领先的OHC平台那样系统化。这些平台差异在详细医疗实体关系和全面患者档案方面呈现了一些限制,但为我们提出的方法在多样化医疗生态系统中的适应性提供了宝贵的见解。数据完整性的变化使我们能够评估CLEAR-Med的鲁棒性,并证明其在实际应用中的实用性。
为了确保数据的质量和一致性,我们实施了一个全面的多阶段预处理流程。该过程从实体标准化开始,其中数百万个独特的原始实体(包括医生、患者、医院、疾病和药物)被系统地解析并分配了唯一标识符。医学术语与医学主题头词(MeSH)词典对齐,以保持语义一致性,这是处理医院名称和疾病术语变化的关键步骤。同时,原始咨询记录通过过滤不完整的会话和垃圾信息进行了严格清洗,将有效的互动转换为标准化的(doctor_id, patient_id, interaction_type)三元组,同时保留了时间信息并确保了患者匿名化。在此之后,我们使用基于规则的解析器和正则表达式从结构化和半结构化来源中提取了大量的KG三元组。这涉及处理医生的专业档案和患者医疗历史,以建立如机构隶属关系和治疗路径等关系,并通过自动化验证确保医学合理性。
与结构化数据处理并行,我们处理了异构实体属性和文本信息。像经验年限这样的数值属性被规范化,而像专业职称这样的分类数据则根据预定义的词汇表进行了标准化。基于文本的属性在字符级别进行了分词和编码,以捕获细粒度的语义,缺失值使用领域特定的策略进行填充。此外,为了利用结构化属性和未结构化文本中的丰富信息,我们实施了双重嵌入策略。结构化属性(如专业资格和经验水平)使用字符级序列模型进行编码,以捕获细粒度的语义模式,而未结构化文本内容则使用领域适应的语言模型进行处理,以生成有效的上下文表示。
为了进一步增强我们文本数据的语义丰富性,我们加入了最后一阶段的预处理,利用了大型语言模型(LLM)。在初步清洗和标准化之后,医生档案和患者咨询记录都经过了领域适应的LLM处理。对于医生档案,模型进行了文本规范化和丰富,用标准化的医学术语和相关上下文信息扩展了简洁的专业描述。对于患者查询,LLM负责症状规范化和实体链接,将通俗描述映射到正式的医学概念,并提取隐含的背景细节。这一步的LLM增强确保了下游嵌入模块的文本输入不仅干净,而且在语义上也是有根据的,并且在上下文上也是丰富的,为KG构建和表示学习提供了更高质量的基础。
在整个流程中,实施了包括统计验证、专家审查和与外部数据库的交叉验证在内的全面质量保证措施,以保证数据的完整性、医学有效性和遵守隐私法规。
5.1.1 知识图谱(KG)构建
使用收集的数据,我们构建了一个全面的KG来模拟在线医疗生态系统中的复杂实体关系和属性。KG包含两个主要组成部分:社交KG和医学KG(图3)。这种双重图方法使我们能够表示社会专业网络和临床互动,提供了数据的丰富和详细的表示。社会知识图(Social KG)模拟了医生、患者和机构之间的社会和专业关系。其实体包括医生(\(\mathcal{D}\))、患者(\(\mathcal{P}\)、医院(\(\mathcal{H}\)、机构(\(\mathcal{I}\))和地理区域(\(\mathcal{A}\))。该图通过员工、会员、同事等关系捕捉专业和协作动态。医学知识图(Medical KG)模拟了临床互动和医疗信息。其实体包括医生(\(\mathcal{D}\)、患者(\(\mathcal{P}\)、疾病(\(\mathcal{S}\)和药物(\(\mathcal{U}\))。治疗、患有和使用等关系将这些实体联系起来,代表了治疗关系和患者状况。除了关系三元组外,我们还强调了在知识图研究中经常被忽视的属性三元组的重要性。属性三元组以\((e,a,v)\)的形式定义实体属性,其中\(e\)表示实体,\(a\)表示属性类型,\(v\)表示属性值。对于医生和患者,这些属性包括年龄、就诊次数、治疗的患者数量、疾病持续时间、身高和体重等数值数据。这些属性在丰富医生和患者的资料方面起着关键作用,为识别专业子领域提供了重要背景。5.1.2 知识图统计。构建的知识图包含了多种多样的实体和关系,为我们的推荐系统奠定了坚实的基础。表4展示了每个知识图组件的关键统计数据,详细说明了实体类型、关系类型以及捕获的数据量。表4. 知识图实体类型关系/属性类型实体三元组 社会KG 581,503,2101,735,521 医学KG 451,797,3081,900,877 混合KG 7122,053,9383,636,398 属性视图 2201,373,4357,782,488 知识图统计 社会KG模拟了医生、医院、机构和地理区域之间的专业和协作关系,包含五种实体类型和八种关系/属性类型,拥有超过150万个实体和170万个三元组。医学KG专注于临床互动,连接医生、患者、疾病和药物,包括四种实体类型和五种关系/属性类型,涵盖约180万个实体和190万个三元组。混合KG整合了社会和医疗信息,结合了七种实体类型和十二种关系/属性类型,该图包含超过205万个实体和363万个三元组。属性视图捕获了详细的属性信息,包括个人和专业特征,包含两种实体类型和二十种关系/属性类型,总共有大约137万个实体和778万个三元组。这些统计数据突显了数据的丰富性和复杂性,这对于训练强大有效的推荐模型至关重要。5.1.3 数据稀疏性分析。尽管构建的知识图非常丰富,但医生和患者在相关三元组方面仍面临稀疏性问题。图4展示了与医生和患者相关的三元组分布。图3. 社会和医学知识图的示例。社会知识图模拟了医生、医院、机构和地理区域等实体,并通过works_in、member_of和cooperate_with等关系连接它们。医学知识图通过treats、suffers_from和uses等关系连接医生、患者、疾病和药物。这些图展示了将社会专业网络与临床互动相结合,以提高推荐系统将患者与合适的专家匹配的能力。医学和社会知识图的示例。医学知识图通过treatments、affliction、expertise和served等关系连接医生、患者、疾病和药物。同样,社会知识图通过served、membership、cured_in、employee、alumnus和colleagues等关系连接医生、医院、机构和地理区域。这些知识图共同整合了社会专业网络与临床互动,提高了推荐系统将患者与最合适的专家匹配的能力。图4. 两个条形图显示了数据量分布,以说明数据稀疏性。左图(a)显示了与医生相关的三元组分布,x轴代表三元组计数范围(从0–10到70–80),y轴显示医生数量;峰值出现在20–30范围内。右图(b)显示了与患者相关的三元组分布,x轴在0–10范围内有大量峰值,直观地表明大多数患者的相关三元组很少。数据量分布显示,我们知识图中的大多数医生和患者的三元组数量都少于40个,大多数集中在10–30范围内。这种稀疏性对传统的嵌入方法构成了挑战,这些方法难以捕获足够的信息以进行准确的推荐。为了解决这个问题,我们的模型利用了属性嵌入和多层次CL机制,具体细节在方法论部分有说明。通过整合多样化的数据源并构建全面的知识图,我们丰富了医生和患者的表示,使模型能够有效捕捉专业子领域,并显著提高推荐性能。5.2 基线和消融实验为了从多个角度客观评估我们的在线医学推荐模型的性能,我们选择了几种对比模型并进行了消融实验:—Pop:一个基本的模型,始终推荐最受欢迎的项目。—DMF [125]:一个通过神经网络增强的矩阵分解推荐模型。—ENMF [14]:一个高效的神经矩阵分解模型,无需采样即可进行推荐。—ConvNCF [36]:一个基于外积的神经协同过滤推荐模型,通过CNN进行了增强。—RecVAE [86]:一个基于交互的推荐模型,使用新的变分自动编码器并带有隐式反馈。—KGCN [107]:一个主流的基于知识的推荐模型,基于图卷积网络捕获知识图上实体的邻近交互信息。—KGNN-LS [105]:一个基于图神经网络(GNNs)的基于知识的推荐模型,使用标签平滑正则化来处理用户特定加权知识图上的边权重。—CKE [133]:一个基于知识的推荐模型,能够结合知识图和其他信息(如文本和其他属性)来丰富知识图上实体的表示。—KTUP [13]:一个基于知识的推荐模型,利用多任务学习的优势来整合知识图相关任务和推荐任务。它有一个模块来理解实体之间交互的原因,以解决样本代表性问题。—RippleNet [104]:一个增强知识的矩阵分解模型,可以在知识图上传播用户专化的子领域。—MKR [106]:一种用于知识图增强推荐的多任务学习方法,通过交叉和压缩单元辅助推荐任务。—MCCLK [142]:一个基于知识图视图分割的数据增强的多层次交叉视图CL的基于知识的推荐系统。—CGEF [80]:一个用于CQA平台的SOTA专家查找模型,使用GAT结合数据增强基CL框架来捕获高阶连接性。—MATER [84]:一个双级匹配-聚合模型,用于时间感知的专家推荐,通过句子级问题匹配和时间动态建模联合建模用户的专业知识和兴趣,最初是为CQA平台设计的。—CLEAR-Med w/o S:我们模型的一个消融版本,没有社会知识图的表示嵌入。—CLEAR-Med w/o M:我们模型的一个消融版本,没有医学知识图的表示嵌入。—CLEAR-Med w/o A:我们模型的一个消融版本,没有属性三元组的表示嵌入。—CLEAR-Med w/o MLP:我们模型的一个消融版本,在推荐预测过程中不使用MLP模块。为了全面评估模型性能,我们引入了推荐系统领域中常用的六个标准评估指标[132]。这些指标提供了关于模型有效性和鲁棒性的宝贵见解。(1) 曲线下面积(AUC):AUC衡量模型在所有可能的分类阈值下区分正样本和负样本的能力。它定义为接收者操作特征曲线下的面积:\begin{align} \text{AUC}=\int_{0}^{1}\text{TPR}(t)\,d\text{FPR}(t), \nonumber \end{align} (51)其中\(\text{TPR}(t)\)是阈值\(t\)处的真正例率,\(\text{FPR}(t)\)是假正例率。较高的AUC值表示更好的整体排名性能。(2) 均方根误差(RMSE):RMSE通过计算平方偏差的平均值的平方根来量化预测值和实际值之间的差异:\begin{align} \text{RMSE}=\sqrt{\frac{1}{n}\sum\limits_{i=1}^{n}(y_{i}-\hat{y}_{i})^{2}}, \nonumber \end{align} (52)其中\(y_{i}\)是真实值,\(\hat{y}_{i}\)是预测值,\(n\)是样本数量。较低的RMSE值表示模型更准确和稳定。(3) Precision@K (P@K):P@K衡量前K个推荐项中相关项目的比例:\begin{align} \text{P@K}=\frac{|\{\text{relevant items}\}\cap\{\text{top-K items}\}|}{K}. \nonumber \end{align} (53)较高的P@K表示前K个推荐项中有更多的项目与用户相关。(4) 平均倒数排名(MRR)@K:MRR@K通过考虑前K个推荐项中第一个相关项的位置来评估排名质量:\begin{align} \text{MRR@K}=\frac{1}{N}\sum\limits_{i=1}^{N}\frac{1}{\text{rank}_{i}}, \nonumber \end{align} (54)其中\(N\)是用户数量,\(\text{rank}_{i}\)是第\(i\)个用户在前K个推荐项中的排名位置。较高的MRR@K表示相关项目的排名较高。(5) 平均精确度(MAP)@K:MAP@K评估每个用户在前K个推荐项中所有相关项目的平均精确度得分:\begin{align} \text{MAP@K}=\frac{1}{N}\sum\limits_{i=1}^{N}\frac{\sum_{j=1}^{K}\text{P}@j\cdot\text {rel}(j)}{\text{number of relevant items}}, \nonumber \end{align} (55)其中\(\text{rel}(j)\)是排名\(j\)处的相关性二元指示器,\(\text{P}@j\)是排名\(j\)处的精确度。较高的MAP@K值表示整个推荐列表中的精确度更好。(6) 标准化折扣累积增益(NDCG)@K:NDCG@K通过考虑前K个推荐项中所有相关项目的位置来评估排名质量,给予列表中较早出现的项目更高权重:\begin{align} \text{NDCG@K}=\frac{\text{DCG@K}}{\text{IDCG@K}}, \nonumber \end{align} (56)其中:\begin{align} \text{DCG@K}=\sum\limits_{i=1}^{K}\frac{2^{\text{rel}(i)}-1}{\log_{2}(i+1)}, \nonumber \end{align} (57)IDCG@K是通过完美排名相关项目获得的理想DCG@K。较高的NDCG@K表示相关项目排名更高,更强调它们在前K列表中的位置。在我们的实验中,我们将\(K\)设置为2、5、10和20,以从短列表和长列表的角度评估模型的性能。这种方法使我们能够评估模型在不同推荐场景下的有效性,满足各种用户需求。5.3 实验设置为了获得最佳性能,我们使用树结构Parzen Estimator算法仔细选择了模型的超参数并进行微调,并辅以手动调整[6]。表5详细总结了关键超参数,包括优化过程中探索的值范围、它们的最终最优值及其在模型中的相应作用。表5. 超参数值 探索范围 最优值 描述 学习率 0.001–0.01 0.004 控制训练期间优化器的步长。 批量大小 32, 64, 128 每次梯度更新处理的样本数量。 训练周期数 100–300 200 数据集上的总训练迭代次数。 嵌入维度 32, 64, 128 实体和关系嵌入的维度。 层数 1–4 网络深度或传播层数量。 聚合器类型 {sum, pool, concat, avg} 用于聚合不同层嵌入的方法。 用户三元组集大小 20–80 40 为用户本地知识图采样的三元组数量。 用户潜在三元组集大小 64–256 128 为用户潜在知识图采样的三元组数量。 项目三元组集大小 64–256 128 为项目全局知识图采样的三元组数量。 项目来源三元组集大小 20–80 40 为项目来源知识图采样的三元组数量。 L2正则化权重 \(1\times 10^{-6}\)–\(1\times 10^{-4}\) \(1\times 10^{-5}\) 防止过拟合的权重衰减系数。 属性权重 0.1–0.9 0.5 平衡属性嵌入的贡献。 文本权重 0.1–0.9 0.5 平衡文本嵌入的贡献。 SSL温度 0.1–0.5 0.2 对比损失中的温度参数,用于缩放。 SSL regularization \(1\times 10^{-8}\)–\(1\times 10^{-6}\) \(1\times 10^{-7}\) 自监督损失项的 regularization权重。 模型超参数及其最优值总结 我们将实体嵌入和属性嵌入的维度设置为64,确保模型和基线比较的一致性。本地和非本地图中每层的三元组数量分别限制为40和128,平衡了训练效率和子图的复杂性。属性嵌入模块由两层组成,处理256维输入向量并通过双向传播将其压缩为64维输出。对于优化,我们使用了Adam优化器,批量大小为128,并训练了200个周期。权重参数\(\lambda_{1}\)、\(\lambda_{2}\)和\(\lambda_{3}\)分别设置为3、\(1\times 10^{-3}\)和\(1\times 10^{-5}\),以实现最佳模型性能。对于数据采样,我们选择了每位医生信息量最大的前100名患者作为正样本。此外,通过从不同部门选择100名高质量患者进行了负样本采样。数据集被划分为训练集、验证集和测试集,比例为6:2:2。为了准备知识图的训练版本,我们通过截断边缘连接来屏蔽与测试集中包含的医生和患者相关的三元组和属性信息。这些连接在测试阶段得到了恢复,以确保一致性。6 实验结果 6.1 主要比较结果 如表6所示,我们提出的模型CLEAR-Med(以下简称CLEAR)在性能上显著优于传统的基于交互的模型,如Pop、DMF、ENMF、ConvNCF和RecVAE。CLEAR取得了令人印象深刻的AUC值0.671,比表现最好的基于交互的模型DMF高出18.5%,后者记录的AUC值为0.566。此外,CLEAR还展示了更高的预测准确性,其RMSE值为0.055,而RecVAE的RMSE值为0.132。有趣的是,某些模型,如ENMF,甚至在性能上不如更简单的Pop模型。例如,ENMF的AUC值为0.513,而Pop的AUC值为0.529。这突显了传统基于交互的模型在OHC(在线医生咨询)背景下的局限性,在这种背景下,数据稀疏性带来了重大挑战。有限的医生-患者互动阻碍了这些模型开发出有效的表示方法[10]。在数据稀疏的情景中,Pop模型的基于流行度的启发式方法偶尔会胜过更复杂的方法。表6. 模型 AUC RMSEP@2 P@20 MRR@20 Pop 0.529 0.943 0.030 0.049 0.031 0.100 DMF 0.566 0.514 0.051 0.073 0.043 0.134 ENMF 0.513 0.099 0.023 0.032 0.026 0.080 ConvNCF 0.508 0.125 0.029 0.044 0.033 0.098 RecVAE 0.549 0.132 0.042 0.060 0.034 0.116 KGCN 0.508 0.099 0.105 0.144 0.066 0.222 KGNN-LS 0.515 0.099 0.095 0.133 0.070 0.221 CKE 0.502 0.102 0.135 0.196 0.075 0.280 KTUP 0.537 0.470 0.089 0.128 0.056 0.201 RippleNet 0.543 0.140 0.124 0.180 0.070 0.261 MKR 0.559 0.199 0.114 0.161 0.069 0.241 MCCLK 0.570 0.135 0.112 0.173 0.070 0.257 CGEF 0.591 0.128 0.125 0.181 0.075 0.305 MATER 0.582 0.078 0.118 0.162 0.072 0.298 CLEAR-Med w/o S 0.586 0.079 0.095 0.145 0.063 0.282 CLEAR-Med w/o M 0.629 0.068 0.120 0.170 0.076 0.330 CLEAR-Med w/o A 0.617 0.067 0.095 0.165 0.081 0.333 CLEAR-Med w/o MLP 0.603 0.064 0.105 0.170 0.106 0.404 CLEAR-Med 0.671 0.055 0.190 0.285 0.117 0.533 对不同实验设置下Haodf数据集的模型性能比较 第一部分包括传统的基于交互的模型(Pop、DMF、ENMF、ConvNCF和RecVAE)作为基准比较。第二部分介绍了考虑知识的模型(KGCN、KGNN-LS、CKE、KTUP、RippleNet、MKR和MCCLK),这些模型融合了KG数据或结构化信息。最后一部分是对CLEAR的消融实验(CLEAR w/o S、CLEAR w/o M、CLEAR w/o A和CLEAR w/o MLP),评估每个模块的影响。每项指标中表现最好的结果都以粗体显示。与考虑知识的模型(KGCN、KGNN-LS、CKE、KTUP、RippleNet、MKR和MCCLK)的比较表明,融合KG信息通常会提高性能。例如,CKE的Precision@2(P@2)为0.135,优于DMF的0.051。然而,CLEAR始终超越了所有这些模型,在AUC方面相对于最强的基于KG的竞争模型MCCLK提高了17.7%。CLEAR的优势在于它能够有效地应对OHC特定的挑战,如医生实体的冗余性和数据稀疏性,通过利用医学和社会KG以及CL来 refin 高级推荐系统(OHC)中的表示。CLEAR在精确度和排名指标上也表现出色。它的P@2为0.190,优于MCCLK的0.112和CKE的0.135。同样,在Mean Reciprocal Rank at 20(MRR@20)方面,CLEAR记录了0.533,显著超过了最接近的竞争者CLEAR w/o MLP的0.404。这些结果强调了CLEAR不仅能够检索到相关的医生,还能有效地对他们进行排名,从而提高用户满意度[73]。其他考虑知识的模型,如KGCN和KGNN-LS,虽然在大多数指标上表现不佳。例如,KGCN的AUC为0.508,P@2为0.105,而CLEAR的AUC为0.671,P@2为0.190。这表明CLEAR能够有效地处理属性三元组,并整合CL,从而从属性信息中提取更深入的见解,同时减轻与稀疏性相关的噪声。与基于CL的框架MCCLK相比,CLEAR保持了明显的优势,其AUC高出17.7%。这一结果突显了CLEAR的定制方法的有效性,该方法专门针对OHC场景,结合了医生-患者互动数据和KG信息,而不是依赖通用的数据增强技术。最后,我们将CLEAR-Med与专家查找领域的最新SOTA基线MATER和CGEF进行了比较。两个模型都表现出了强劲的性能,MATER的AUC为0.582,CGEF的AUC更高,达到了0.591,证明了它们先进的设计。MATER的优势在于其复杂的时间感知建模,而CGEF则在通过数据增强型CL捕获高阶图谱连接性方面表现出色。值得注意的是,CGEF在top-k精确度指标上的优秀表现突显了其以图为中心的方法在纯排名任务中的强大能力。然而,这两个SOTA模型的性能仍然明显低于我们专门设计的CLEAR框架。这种性能差距源于应用领域的根本差异。MATER和CGEF都是为通用CQA平台精心设计的,依赖于明确的问答对或简单的互动图等信号。相比之下,我们的医疗咨询场景更为复杂,缺乏标准化的问答格式,需要对领域知识有更深刻的理解。它们的框架无法完全捕捉到依赖于整合外部知识(例如疾病本体)和丰富专业属性(例如机构隶属关系、职业轨迹)的细微医疗专业化要求,而这些是我们双视图(医疗和社会)KG的核心。这些特定于任务的约束突显了我们为医疗领域定制的架构设计的重要性,这使得CLEAR-Med能够实现显著更高的AUC。为了全面评估推荐列表长度变化对模型性能的影响,我们分析了模型在 different \(K\) 值下的性能。图5显示了随着 \(K\) 从2增加到20,Precision、NDCG、MAP和MRR的趋势,表明我们的模型在所有指标上均保持了稳健的性能。随着 \(K\) 的增加,Precision逐渐下降,这与预期一致,因为当列表变大时,分母增加通常会导致Precision下降[67]。然而,相对较小的下降幅度突显了我们模型即使在较长的推荐列表下也能一致地检索到相关患者的能力。图5. 四条线图展示了在推荐列表长度为K = 2、5、10和20时模型的性能指标。图(a)显示Precision随着K的增加而逐渐下降。图(b)显示NDCG得分随着K值的增加而稳步上升。图(c)显示Mean Average Precision随着K的增加而略有下降。图(d)显示Mean Reciprocal Rank随着K的增加而稳步上升。在不同K值下的性能指标。指标包括(a) Precision、(b) NDCG、(c) MAP和(d) MRR,分别在推荐列表长度K = 2、5、10和20时进行评估。这里,K代表用于计算每个指标的推荐列表中排名前几项的数量,反映了性能随列表长度变化的情况。相比之下,NDCG和MRR都随着 \(K\) 的增加而呈上升趋势。NDCG因模型能够将最相关的患者排在列表顶部而得到提升,这在医疗推荐系统中尤为重要,因为优先考虑最合适的医生可以显著影响患者结果。同样,MRR的上升表明相关推荐被放置得更加靠前,强调了模型在识别和优先考虑高质量匹配项方面的能力。MAP指标随着 \(K\) 的增加而保持稳定,展示了模型在不同召回水平下保持一致精确度的能力。这种稳定性突显了模型在处理短期和长期推荐列表时的能力。相比之下,许多现有模型在 \(K\) 增加时会显著的性能下降,通常是由于过拟合或泛化能力差[37]。我们模型的一致性能表明了它在捕捉医生-患者关系方面的有效性。这些结果表明,我们的模型在处理短期和长期推荐列表时都表现优异,始终能够将正确的推荐放在列表顶部。这种能力在医疗领域尤为重要,因为用户高度依赖排名靠前的建议。模型在 \(K\) 增加时仍能保持高准确率,反映了它在处理数据稀疏性方面的有效性。6.2 消融研究 为了评估提出的CLEAR中每个组件的贡献,我们通过系统地移除或修改关键模块进行了消融实验。表6总结了这些消融变体的性能,提供了关于每个组件重要性的宝贵见解。社交KG嵌入。移除社交KG嵌入(CLEAR w/o S)会导致性能大幅下降,AUC从0.671降至0.586(相对下降了12.7%),P@2从0.190降至0.095。这突显了社交KG在捕捉医生复杂关系和专业特征方面的关键作用。通过提供结构化关系信息,社交KG显著提高了嵌入质量,使模型能够生成更准确和相关的推荐[136]。医疗KG嵌入。省略医疗KG嵌入(CLEAR w/o M)也会导致性能下降,AUC降至0.629,P@2降至0.120。虽然医疗KG提供了关于医疗实体、疾病和治疗的丰富领域特定知识,但其复杂性——特别是与患者症状和疾病相关的实体三元组的冗余性——在精确映射医生专业方面带来了挑战。这突显了社交KG和医疗KG的互补作用,前者放大了后者的效用。属性三元组嵌入。排除属性三元组嵌入模块(CLEAR w/o A)后,AUC为0.617,P@2为0.095,强调了属性信息的重要性。属性嵌入通过整合对个性化推荐至关重要的上下文特征来增强表示。使用LSTMs有效地捕获了细致的属性信息,显著提高了推荐质量[43]。预测模块中的MLP。用简单的张量积替换预测模块中的MLP(CLEAR w/o MLP)会导致性能下降,AUC为0.603,P@2为0.105。MLP在建模用户和项目嵌入之间的非线性互动中起着关键作用,能够捕捉张量积单独无法捕捉的复杂模式。通过将串联的嵌入转换为更高维的空间,MLP促进了更灵活和准确的预测,正如神经协同过滤文献中所强调的[37]。组件的重要性。完整的CLEAR模型始终优于所有消融变体,证实了每个组件——社交KG、医疗KG、属性三元组和MLP模块——在提升性能方面的重要性。其中,社交KG的影响最大,其次是医疗KG和属性三元组。预测模块中的MLP也在提升整体性能方面发挥了重要作用,尽管作用较小。这些发现强调了整合社交KG和医疗KG与属性信息对于全面捕捉OHC场景中的多方面关系的必要性。CL框架有效地利用了这些多样化的信息源,减少了数据稀疏性,同时提高了模型的鲁棒性。通过系统地分析每个组件的贡献,我们验证了CLEAR的设计,并确定了潜在的改进领域,例如改进医疗KG冗余的处理或探索更复杂的预测架构。6.3 对三元组数量的敏感性 为了进一步探索与医生相关的三元组数量对模型性能的影响,我们根据医生连接的三元组数量将医生分组进行了深入分析。这些组被分为10个三元组区间(例如,0–10、10–20、……、110–120),并评估了模型在每个组中的性能。具体来说,我们分析了P@2和MRR@20指标,以评估模型在推荐具有不同KG连接程度的医生方面的有效性。如图6所示,我们的完整模型CLEAR在不同三元组计数范围内始终优于所有消融变体。这一观察结果与我们的早期发现一致,强调了在CL框架内整合社交KG、医疗KG和属性嵌入的有效性。分析图6(a)中的趋势,我们观察到随着三元组数量的增加,所有模型的P@2指标都有所改善,包括消融模型。例如,CLEAR的P@2在0–10三元组范围内的平均值约为0.193,在60–70三元组范围内增加到约0.291。这一趋势表明,在KG中拥有更多连接的医生更有可能被准确推荐。更丰富的关系信息使模型能够学习到更具信息量的嵌入,从而提高其匹配患者与合适医生的能力。图6. 两条线图展示了在不同数量的医生相关三元组下模型的性能,范围从0–10到110–120。图(a)显示Precision@2得分,图(b)显示MRR@20得分。这两条线图比较了完整CLEAR模型与其消融变体。线条显示完整CLEAR模型通常优于各种变体。所有模型的性能在50–70三元组范围内达到峰值(标为“最佳性能范围”),然后对于三元组数量非常高的医生则开始下降。模型在不同数量的实体三元组下的性能。图表展示了CLEAR及其消融变体的推荐性能随医生相关三元组数量的变化。子图(a)显示P@2得分,子图(b)显示不同三元组计数范围内的MRR@20得分。然而,超过70个三元组后,P@2的改进开始趋于平稳甚至略有下降。这种饱和效应表明,超过某个阈值后,额外的三元组带来的收益会减少。过多的连接引入的冗余或噪声可能会削弱模型提取新、有意义信号的能力。类似地,图6(b)显示MRR@20指标随着三元组数量的增加而提高,直到大约60-70个三元组左右。CLEAR在0-10个三元组范围内的MRR@20约为0.441,而在50-60个三元组范围内增加到约0.642。超过这个点后,MRR@20指标趋于稳定或略有波动,进一步证实了存在一个饱和点,超过这个点后额外的三元组对性能提升的贡献很小。一个有趣的观察结果是,即使对于拥有少于40个三元组的医生,CLEAR也能保持竞争力的性能,实现合理的P@2和MRR@20分数。这证明了该模型在处理数据稀疏性方面的鲁棒性,这可能是由于CL机制的作用。CL模块有效地利用了局部和全局结构信息,即使在数据稀疏的情况下也能丰富嵌入 [131]。这种能力在现实世界场景中特别有价值,确保患者不仅与受欢迎或联系广泛的医生匹配,还能与那些可能在数据中代表性不足但高度合适的医生匹配。值得注意的是,没有Social KG的消融模型(CLEAR w/o S)在所有三元组数量范围内都始终表现较差。例如,在50-60个三元组范围内,CLEAR w/o S的P@2约为0.204,而CLEAR的P@2为0.283。这强调了Social KG在提升推荐性能方面的关键作用。通过捕捉医生之间的专业和协作关系,Social KG丰富了嵌入,并提高了模型区分专业差异的能力。同样,没有Medical KG(CLEAR w/o M)和没有Attribute嵌入(CLEAR w/o A)的模型与完整模型相比也表现较差,尽管影响在不同三元组数量范围内有所不同。这表明,尽管每个组件都对模型有正面贡献,但它们的相对重要性会根据关系数据的可用性和丰富程度而变化。总体而言,这些发现强调了与医生相关的三元组数量在一定程度上对模型性能有积极影响,超过这个数量后,收益趋于平稳。有趣的是,在特定的三元组数量范围内,如P@2的100-110和110-120,以及MRR@20的0-10、100-110和110-120,CLEAR并没有优于某些消融模型。这些异常可能归因于高度连接的三元组中的数据稀疏或噪声,这可能导致冗余并掩盖有意义的模式 [122]。尽管存在这些例外,CLEAR仍然有效利用了可用的关系数据,包括稀疏连接,以提供准确的推荐。通过在CL框架内集成Social KG、Medical KG和attribute嵌入,模型捕捉到了医生的全面表示,从而在不同数据丰富程度下实现了更好的性能。
6.4 基于部门的分析
为了评估CLEAR在各种医学专业中的适应性和性能,我们在15个部门进行了实验,使用P@2指标来评估每个部门内推荐的排名效果。作为基准,我们包括了四个消融模型。实验结果如图7所示。
图7. 一个分组条形图,展示了CLEAR模型及其四个消融版本在15个不同医学部门中的P@2性能分数。x轴代表各个部门(如神经学、儿科和心脏病学),y轴表示P@2分数,范围从0.00到0.35以上。图表直观地显示,完整的CLEAR模型(用黄色条形表示)在大多数部门中始终实现最高的P@2分数,而心脏病学和肿瘤学医学等部门表现最为出色。
图7展示了CLEAR及其消融版本在15个医学部门中的P@2分数。x轴代表各部门,y轴表示P@2分数。条形图用于比较不同专业间的性能差异。
如图7所示,CLEAR在15个部门中有12个部门的P@2分数最高,并且在牙科、内分泌学和儿科等领域的表现与最佳消融模型相当。这种持续的优越性凸显了我们模型在多样化医学专业中的鲁棒性和泛化能力。部门间模型性能的差异可以归因于每个专业特征所固有的各种因素。例如,心脏病学和肿瘤学医学等部门由于拥有丰富的医学数据和频繁的OHC平台互动,因此表现出较高的P@2分数。特别是心脏病学,受益于高患者流量[45]、大量的医患对话以及与心血管疾病和治疗相关的专业术语词汇。这种丰富性有助于构建和对齐知识图谱(KGs),使模型能够捕捉到关于专业领域的细微差异并提高推荐准确性。相比之下,中医(TCM)等部门面临独特的挑战。中医的专业术语在常用的医学本体(如cMeSH[18])中往往缺乏标准化表示,导致KG三元组较为稀疏,与其他专业的重叠较少。这种稀疏性降低了模型学习有效嵌入的能力,从而使得P@2分数相对较低。同样,牙科和内分泌学也面临挑战,因为这些领域的术语特定性强且互动较少,限制了模型可利用的信息量。此外,每个部门的数据量和多样性显著影响模型性能。数据集较大、患者案例多样的部门为模型提供了更丰富的上下文信息[1]。例如,儿科涵盖了不同年龄段的广泛病症,增强了模型的泛化能力。相反,数据有限或病例高度专业化的部门可能难以提供足够的上下文信息,从而限制了模型的有效性。
消融模型之间的性能差异进一步突显了CLEAR中每个组件的重要性。没有Social KG(CLEAR w/o S)的模型在大多数部门中的表现始终较差,这证明了捕捉专业和协作关系的重要性。Social KG通过整合医生的隶属关系、合作机构和机构联系来丰富模型,这些因素在具有强大转诊网络的专门领域中尤为重要[136]。同样,去除Medical KG(CLEAR w/o M)会影响那些临床知识和疾病特异性信息至关重要的部门的性能。Medical KG提供了必要的领域专业知识,丰富了嵌入并提高了模型根据医疗需求为患者匹配合适医生的能力。此外,Attribute嵌入(CLEAR w/o A)也显著提升了个性化推荐的效果。
6.5 医生专业化对齐与系统响应性
在OHC平台上,准确地将患者与具有其医疗需求专业知识的医生匹配对于有效提供医疗服务至关重要[138]。然而,新注册的医生常常因为缺乏历史咨询数据而面临“冷启动”问题。这一限制迫使他们接受各种类型的病例,其中许多可能并不完全符合他们的专业领域[17]。这种广泛的病例接受范围可能会掩盖他们的真凘认知领域,使得推荐系统难以准确识别和呈现他们的专业特长[61]。
图8描绘了医生在OHC平台上面临的典型挑战。由于缺乏历史病例数据,新注册的医生通常不得不接受各种类型的病例来建立在线形象,其中许多可能并不符合他们的实际专业领域[17]。随着时间的推移,这种广泛的病例接受会导致在线形象与其真实专业领域不符。这种错误表示进一步被“马太效应”所放大,该效应放大了早期模式,形成了持久的、误导性的专业形象[61]。因此,医生可能会根据他们最初处理的病例类型被刻板化,限制了他们在自己擅长领域的发展和专业满足感。
图8展示了医生在在线医疗社区平台上遇到的挑战。由于缺乏历史病例数据,新注册的医生通常不得不接受各种类型的病例来建立在线形象,其中许多可能与他们的真实专业领域不符[17]。随着时间的推移,这种广泛的病例接受会导致他们的在线形象与其真实专长不符。这种错误表示通过“马太效应”得到进一步强化,形成了持久且具有误导性的专业形象[61]。因此,医生可能会根据最初处理的病例类型被刻板化,从而限制了他们在自己擅长领域的专业发展和专业满足感。
消融模型之间的性能差异进一步突显了CLEAR中每个组件的重要性。缺乏Social KG(CLEAR w/o S)的模型在大多数部门中的表现始终较差,这表明捕捉专业和协作关系至关重要。Social KG通过整合医生的隶属关系、合作机构和机构联系来丰富模型,这些因素在具有强大转诊网络的领域中尤为重要[136]。同样,去除Medical KG(CLEAR w/o M)会影响那些临床知识和疾病特定信息至关重要的部门的性能。Medical KG提供了必要的领域专业知识,丰富了嵌入,并提高了模型根据医疗需求为患者匹配合适医生的能力。此外,整合了医生个人和专业特征的Attribute嵌入也显著提升了个性化推荐的效果。
6.5 医生专业化对齐与系统响应性
在OHC平台上,准确地将患者与具有其医疗需求专业知识的医生匹配对于提供有效的医疗服务至关重要[138]。然而,新注册的医生由于缺乏历史咨询数据而常常面临“冷启动”问题。这一限制迫使他们接受各种各样的病例,其中许多可能并不完全符合他们的专业领域[17]。这种广泛的病例接受可能会掩盖他们的真实专业领域,使得推荐系统难以准确识别和反映他们的专业特长[61]。
图8描述了医生在OHC平台上面临的典型挑战。由于缺乏历史病例数据,新注册的医生常常不得不接受各种类型的病例来建立在线形象,其中许多可能与他们的真实专业领域不符[17]。随着时间的推移,这种广泛的病例接受可能会导致他们的在线形象与其真实专业领域不符。这种错误表示会被“马太效应”放大,形成持久且具有误导性的专业形象[61]。因此,医生可能会根据他们最初处理的病例类型被刻板化,从而限制了他们在自己擅长领域的专业发展和专业满足感。
图8展示了医生在在线医疗社区平台上遇到的挑战。该图展示了医生在在线医疗社区平台上的经历。起初,由于缺乏历史病例数据,医生会接受各种类型的病例来建立在线形象。这种广泛的接受可能会导致他们的真实专业能力被误解。随着时间的推移,病例的积累可能会导致他们的在线形象基于他们处理的病例类型被刻板化,从而掩盖他们的专业领域。
这种不匹配不仅影响医生,也影响患者,患者可能会收到与他们的具体医疗需求不符的推荐。不准确的在线形象可能会形成一种反馈循环,导致推荐系统继续推荐相似类型的病例,进一步强化了这种刻板印象,降低了平台的整体效果[27]。解决这些问题对于提高推荐质量和确保医生和患者的 mutual benefits(利益共享)至关重要。虽然CLEAR的主要目标是提高患者与医生的匹配度,但该模型也解决了上述的冷启动问题。随着医生处理越来越多病例,CLEAR有助于他们的在线资料更好地反映他们的真实专业领域。这种能力确保了更准确的患者与医生匹配,使患者能够与具有与其需求密切匹配的专业知识的医生联系,同时让医生能够专注于他们的专业领域。这种对齐提高了护理质量和专业满意度。为了探索CLEAR如何捕捉医生专业化的演变及其对推荐准确性的影响,我们对两个方面进行了分析:医生专业化的进展以及推荐中的专业匹配精度。
6.5.1 医生专业化的进展
我们选择了处理病例数量最多的前10名医生,并将他们的咨询历史分为四个时间段。对于每个时期,我们使用嵌入的余弦相似度计算了病例之间的平均成对相似度。较高的平均相似度表明医生的专业化更加专注,表明医生处理的病例随着时间的推移越来越符合特定的专业领域。
如图9所示,大多数医生在四个时期的平均病例相似度呈上升趋势。例如,医生1264的平均病例相似度从第一个时期的大约0.15增加到了第四时期的0.25。这一进展表明,随着医生处理更多病例,他们倾向于专注于特定的医学子领域,系统有效地学习和捕捉了他们的专业专长。图表的顶部面板显示了病例数量分布,表明这些医生拥有丰富的咨询历史,为模型提供了足够的 Daten 来精细化对其专业化的理解。右侧面板展示了每个时期所有医生的相似度分数分布,随着时间的推移分布逐渐变窄,反映出专业化的趋势。这表明医生处理的病例变得更加同质化,与其专业领域相匹配。
图9. 前10名医生随时间的病例相似度演变。主面板显示了每个医生四个时间段内的平均病例相似度,说明了专业化过程。顶部面板展示了医生之间的病例数量分布,右侧面板展示了每个时期的相似度分数分布。阴影区域表示±1标准差。
这种演变对患者和医生都有显著的好处。患者更有可能收到与其医疗需求更匹配的医生推荐,从而可能改善健康结果[22]。与此同时,医生可以专注于他们专业领域的病例,从而提高他们的职业满意度和工作效率。6.5.2 专业匹配的准确性。为了评估模型推荐与医生专业匹配患者的能力,我们分析了推荐患者与医生历史病例之间的相似性。从之前的分析中选择了四位具有代表性的医生,并计算了排名前10的推荐患者与医生过去病例之间的余弦相似度。平均相似度分数作为一个定量指标,用来衡量推荐结果在多大程度上反映了医生的专业技能。图10展示了这四位代表性医生的相似度分数分布情况。密度图显示,大多数推荐患者与医生的历史病例具有高相似度分数。例如,医生1001的平均相似度分数约为0.155,大多数分数都集中在这个值附近。分布中出现的明显峰值表明模型在识别医生的专业子领域并据此推荐患者方面是有效的。图10。四个密度图显示了四位代表性医生(医生1287、1127、1395和1001)的推荐患者与历史病例之间的相似度分数分布。每个图都展示了一个钟形密度曲线。每个图中的红色虚线表示平均相似度分数,其范围从0.113到0.155,直观地显示出推荐患者高度集中在每位医生的专业领域内。推荐患者与历史病例之间的相似度分数分布。每个子图代表一位医生,显示了排名前10的推荐患者的相似度分数密度分布。红色虚线表示平均相似度分数。这些红色虚线进一步突出了推荐结果与医生专业知识的匹配程度。这种精确的匹配确保了患者被安排给能够解决他们特定医疗问题的医生,从而提高了平台提供的整体护理质量[33]。6.5.3 影响和好处。上述分析表明,CLEAR不仅有效地解决了新注册医生的冷启动问题,还能动态适应医生专业领域随时间的变化。通过利用CL并结合来自社交知识图谱(Social KG)和医疗知识图谱(Medical KG)的丰富关系数据,模型逐步完善了对每位医生专业技能的理解。对于患者来说,这意味着更准确的推荐,增加了他们与专业领域与其医疗需求高度匹配的医生进行咨询的可能性。这种个性化的匹配提高了患者的满意度,并可能导致健康结果的改善[85]。对于医生来说,专注于他们专业领域的病例可以提高诊断效率和专业成就感,使他们能够更有效地运用自己的专业知识。此外,模型对医生专业领域的适应性确保了平台上医疗资源的更有效分配。它确保了专业知识的最佳利用,可能减少误诊或需要转诊给其他专家的情况[35]。CLEAR能够随着时间学习并适应医生的专业领域,显著提高了在线健康护理(OHC)平台上患者与医生匹配的准确性。通过对医生病例相似性的变化和专业匹配的精确性分析,我们验证了模型在克服冷启动问题方面的能力,并随着经验的积累而不断改进。这带来了更好的患者医疗结果和医生更高的职业满意度,突显了高级推荐系统在医疗领域的价值。6.6 对传播层数量的敏感性。我们模型中的传播层数量在捕获来自知识图谱(KGs)的结构和语义信息方面起着重要作用。如表7所示,我们评估了模型在不同数量的传播层(从1到5层)下的性能。分析了关键指标,如AUC、RMSE、P@2和MRR@20,以评估层数对模型效果的影响。表7. 层数 AUC RMSE P@2 MRR@2 10 0.642 0.057 0.135 0.479 20 0.657 0.056 0.125 0.449 30 0.671 0.055 0.190 0.533 40 0.632 0.058 0.105 0.325 50.589 0.063 0.085 0.287 不同传播层数量的模型性能 粗体值表示最佳性能。结果表明,模型在三层传播层时达到最佳性能。在这种配置下,AUC达到0.671,P@2达到0.190,表明其预测准确性和排序能力更强。从一层增加到三层性能的提升可以归因于模型捕捉更高阶连接性和KGs中更丰富上下文信息的能力。随着层数的增加,模型汇总了来自更广泛邻域的信息,使其能够学习到直接连接中不明显的更复杂的关系和专业子领域[53, 124]。然而,当层数超过三层时,性能会下降。例如,四层的AUC降至0.632,五层时进一步降至0.589。同样,P@2从三层的0.190分别降至四层的0.105和五层的0.085。这种性能下降可以通过图神经网络(GNNs)中的过度平滑现象来解释,即层数的增加导致节点表示变得难以区分[57, 76]。随着模型从更远的节点汇总信息,嵌入值趋于相似,从而丧失了区分能力,这对于准确推荐至关重要。此外,在我们异构的知识图谱背景下,更深的传播层还可能引入来自遥远和可能无关实体的噪声和无关信息[120]。这可能会稀释来自直接邻居和专业子领域的有意义信号,负面影响模型区分具有不同专业知识的医生的能力。在三层时观察到的最佳性能反映了捕捉足够的高阶信息和保持实体表示特异性之间的平衡。在这种深度下,模型有效地汇总了来自本地和稍微扩展的邻域的相关信息,避免了过度扩展到噪声较大或不太相关的KG区域。6.7 跨平台验证结果为了进一步验证CLEAR-Med在不同语言和文化背景下的泛化能力和鲁棒性,我们在Practo数据集上进行了补充实验,作为简化的跨平台验证。如第5.1节所述,Practo数据集包含与我们主要数据集相同的15个医疗部门,但在不同的平台约束和数据可用性条件下运行。表8展示了所有模型在这个国际医疗平台上的性能结果。表8. 模型 AUC RMSE P@2 MRR@20 Pop 0.547 0.896 0.032 0.052 0.034 0.107 DMF 0.553 0.543 0.048 0.069 0.041 0.128 ENMF 0.521 0.103 0.025 0.034 0.028 0.085 ConvNCF 0.502 0.132 0.027 0.041 0.031 0.093 RecVAE 0.534 0.143 0.039 0.056 0.032 0.108 KGCN 0.503 0.109 0.093 0.128 0.059 0.197 KGNN-LS 0.511 0.107 0.086 0.119 0.063 0.195 CKE 0.506 0.113 0.119 0.173 0.068 0.248 KTUP 0.518 0.511 0.081 0.116 0.051 0.178 RippleNet 0.523 0.151 0.111 0.162 0.064 0.232 MKR 0.558 0.218 0.102 0.144 0.062 0.213 MCCLK 0.555 0.147 0.099 0.153 0.063 0.228 CGEF 0.559 0.152 0.103 0.148 0.064 0.241 MATER 0.562 0.135 0.106 0.147 0.065 0.264 CLEAR-Med w/o S 0.567 0.084 0.089 0.137 0.059 0.264 CLEAR-Med w/o M 0.574 0.073 0.111 0.158 0.070 0.296 CLEAR-Med w/o A 0.571 0.072 0.087 0.152 0.074 0.302 CLEAR-Med w/o MLP 0.569 0.068 0.097 0.158 0.096 0.367 CLEAR-Med在Practo数据集上的跨平台验证结果 每个指标的最高性能结果都以粗体显示。跨平台验证结果揭示了几个关于模型适应性和数据特征对推荐性能影响的重要见解。在Practo数据集上评估时,模型的性能表现出不同的模式,有些有所改进,有些则有所下降,不同模型类别之间的变化幅度差异显著。这种性能变化可以归因于国际平台数据结构和可用性约束的一些关键因素。具体来说,Practo数据集由于隐私保护政策和常用的反爬虫机制而面临重大限制,导致数据结构大幅简化:知识图谱从10种关系类型减少到只有2-3种基本关联,医疗实体词汇缺乏标准化的疾病和药物命名法,患者信息被高度匿名化,只提供主观评价内容而非结构化的临床数据。传统的基于交互的模型(Pop、DMF、ENMF、ConvNCF和RecVAE)在不同平台上表现出显著的适应性,其性能模式各异,反映了它们对不同数据特征的鲁棒性。有趣的是,一些模型经历了性能提升:Pop的AUC从0.529增加到0.547,而ENMF从0.513提高到0.521。这种反直觉的改进可以归因于Practo数据集的简化交互结构,其中更直接的医患评价格式(仅包括医生姓名、患者姓名、评价日期和评价内容)消除了全面咨询记录中的许多噪声。相反,DMF和RecVAE分别下降了2.3%和2.7%,而ConvNCF几乎没有下降。这种混合但总体稳定的性能凸显了这些模型在利用基本医患交互模式方面的基本优势,尽管存在平台特定的约束,如隐私保护政策和反爬虫机制限制了数据量。知识感知模型表现出不同的性能模式,这直接反映了Practo数据集知识图谱结构的严重限制。尽管Practo数据集只有2-3种关系类型,与原始数据的10种关系类型相比,较简单的模型仍然表现出韧性:KGCN仅下降了1.0%,而KGNN-LS仅下降了0.8%。有趣的是,CKE略有提升,达到了0.8%,表明其协作知识嵌入方法可能在缺乏关键医疗关系时受益。KTUP和RippleNet分别下降了3.5%和3.7%,反映了它们对更丰富图连接的依赖性,而Practo数据集由于完全缺乏疾病-药物关系、患者医疗属性和专业协作网络而无法提供这些连接。值得注意的是,更复杂的知识感知模型表现出更强的适应性。MKR和MCCLK分别保持了0.558和0.555的AUC,表现出相当强的性能。CGEF由于严重依赖于高阶图连接,在Practo数据集上相比Haodf数据的性能下降了更多,AUC降至0.559。这反映了其对Practo数据集贫瘠图结构的敏感性。MATER表现出出色的跨平台鲁棒性,AUC为0.562,仅比其在Haodf数据集上的性能下降了3.4%。这种韧性突显了其双层匹配-聚合框架的有效性,即使在信息有限的条件下也能提取有意义的模式。检查消融实验揭示了不同模型组件在特定数据限制下对鲁棒性的贡献。CLEAR w/o M(无医疗知识图谱)的性能下降表明,尽管Practo数据集缺乏深度的医患和患者-药物关联,模型仍有效利用了剩余的医疗上下文来支持临床推理。同样,CLEAR w/o A(无属性)的性能下降凸显了利用可用属性词汇(如基本医生特征)的必要性,以弥补全面专业资料的缺失。CLEAR w/o MLP也显示出准确性的降低,这表明在处理稀疏数据结构时捕捉复杂特征交互变得越来越关键。此外,CLEAR w/o S(无社交知识图谱)的结果证实了专业网络数据的价值;即使关系类型有限,通过clinicName字段提供的基本医生-诊所关联仍提供了重要的社交背景,增强了推荐性能。这些模式共同强调了CLEAR的多视图架构对于国际平台适应性的重要性,因为它允许系统聚合多样化的信号——社交、医疗和基于属性的信号——即使在特定信息渠道受限的情况下也能保持有效性。尽管存在这些挑战,CLEAR在Practo数据集上的所有指标上始终保持其优势,实现了最高的AUC 0.583和P@2 0.174。这种持续的性能优势验证了我们多层次CL框架的鲁棒性及其从有限信息源中提取有意义表示的能力。模型的AUC下降了13.1%,尽管比某些单独的基线更高,但仍显示出CLEAR的多模态设计的综合性,确保了在不同平台环境下的持续卓越性。重要的是,CLEAR在与所有竞争方法相比时仍保持显著的性能优势,包括表现强劲的MATER,证明了CLEAR集成结合社交、医疗和属性信息的方法在国际医疗平台上的优越适应性。这些跨平台验证结果最终确认了尽管数据质量和结构存在差异,CLEAR-Med的架构设计仍能有效地适应国际医疗平台。6.8 医疗特定评估指标虽然传统的推荐指标能提供有关模型性能的宝贵见解,但它们可能无法完全捕捉医疗推荐系统的独特要求和优先级。为了解决这一限制并验证我们方法的临床相关性,我们通过医生反馈评估和患者结果跟踪模拟进行了全面评估。6.8.1 医生反馈评估。我们招募了10位执业医生来评估我们推荐系统的临床适宜性。每位医生都被分配了一个特定的医疗角色(5位内科专家,5位外科专家),对应不同的临床场景。评估协议向每位医生展示了五种不同算法生成的排名前5的患者推荐:CLEAR、DMF、RecVAE、MCCLK和MKR。该设计反映了现实中的临床场景,医生在做出咨询决定之前通常会评估多名潜在患者。之所以特意选择10:100的医患比例,是为了模拟现实世界中的医疗资源限制,即有限的 specialist 可用性要求对患者进行仔细的分配。这一比例大致反映了主要医疗中心的典型门诊诊所情况,那里的高级专家可能需要评估多例患者病例以进行分诊和咨询优先级排序。对于每组建议,医生使用五点李克特量表在多个维度上评估了医患匹配的适当性。评估涵盖了:(1)专业相关性(疾病与专科的匹配)、(2)患者复杂度的适宜性(将患者病例的复杂性与医生的经验相匹配)、(3)医疗安全性考虑,以及(4)整体建议质量。表9显示,CLEAR 在所有评估维度上显著优于所有基线方法。医生对 CLEAR 的专业相关性评价最高,表明其在疾病与专科匹配方面的能力更为出色。该系统在复杂度适宜性和医疗安全性方面也取得了优异的成绩,反映了其在保持高安全标准的同时,能够适当匹配患者病例的复杂性和医生的专长。值得注意的是,60%的医生表示 CLEAR 是他们首选的建议系统,这一比例远高于基于知识的基线方法 MCCLK 和传统方法。
**算法** | **专业相关性** | **复杂度适宜性** | **医疗安全性** | **整体质量** | **偏好率(%)**
| ----------- | ----------- | ----------- | ----------- | ----------- | ----------- |
| CLEAR-Med | 4.0 ± 0.4 | 3.9 ± 0.5 | 4.1 ± 0.3 | 4.0 ± 0.4 | 60.0 |
| DMF | 3.3 ± 0.6 | 3.1 ± 0.7 | 3.2 ± 0.5 | 3.2 ± 0.6 | 10.0 |
| RecVAE | 2.9 ± 0.8 | 2.8 ± 0.9 | 2.7 ± 0.7 | 2.8 ± 0.8 | 10.0 |
| MCCLK | 3.6 ± 0.5 | 3.4 ± 0.6 | 3.5 ± 0.4 | 3.5 ± 0.5 | 20.0 |
| MKR | 3.2 ± 0.7 | 3.0 ± 0.8 | 3.1 ± 0.6 | 3.1 ± 0.7 | 0.0 |
**医生反馈评估结果(分数代表平均值 ± 标准差;n = 10 名医生)**
**粗体值表示最佳结果。**
**定性反馈显示,医生特别看重 CLEAR 在以下方面的表现:**
(1)基于医学知识图(KG)的精确疾病-专科对齐,
(2)考虑患者病情严重性和医生经验的适当复杂度匹配,
(3)整合医生工作量和可用性信息,
(4)全面利用医学属性和协作关系。**
多位医生指出,由 KG 改进的建议“在临床直觉上更合理”,“更好地反映了现实世界的转诊模式。”
**6.8.2 患者结果跟踪模拟。**
为了评估以患者为中心的结果,我们进行了一项有控制的模拟研究,共有100名志愿者参与者(主要是大学生)分为10组,每组10人。每组被分配到10种不同的患者场景,涵盖多种医疗状况:急性心肌梗死、糖尿病酮症酸中毒、急性胰腺炎、哮喘发作、急性中风、阑尾炎、胆结石病、踝部骨折、尿路结石和上消化道出血。参与者收到了详细的患者角色描述,包括人口统计数据、病史、症状表现、用药史和个人特征。每位参与者使用经过验证的患者满意度指标评估了五种算法的前5个医生建议:建议满意度、医生信任度、感知的安全性、治疗信心和整体系统帮助程度。这个前5个建议的评估框架模拟了现实中的患者决策场景,患者在做出最终选择之前通常会考虑多个医生的选项。表10显示,患者在所有评估维度上一致偏好 CLEAR 的建议。患者对 CLEAR 推荐的医生表达了最高的满意度和信任度,特别是在感知的安全性方面得分尤为突出。值得注意的是,67%的参与者表示,如果面临所描述的医疗场景,他们会选择 CLEAR 推荐的医生,这一比例远高于其他选项。
**表10:患者结果跟踪模拟结果(分数代表平均值 ± 标准差;n = 100名参与者)**
**粗体值表示最佳结果。**
**按医学专科进行的详细分析显示,CLEAR 的优势在紧急情况(心脏事件、急性胰腺炎、中风)中最为明显,参与者特别评价了该系统在将紧急情况与经验丰富的专家相匹配方面的能力。对于慢性疾病(糖尿病管理),参与者欣赏该系统对医生经验和医患匹配因素的全面考虑。**
**6.8.3 临床相关性评分(CRS)分析。**
为了量化临床适宜性,我们开发了一个综合 CRS,它整合了从我们的 KG 结构和属性数据中得出的多个特定领域因素:**
\[ \text{CRS} = 0.4\times{\text{Specialty}}_{\text{Match}} + 0.3\times{\text{Experience}}_{\text{Match}} + 0.2\times\text{Complexity}_{\text{Match}} + 0.1\times{\text{Availability}}_{\text{Match}}, \]
其中每个组成部分都被标准化到 [0, 1] 的范围内。专科匹配计算医生专长(doctor.profession.direction.area relations)和患者疾病(patient.suffer.disease relations)之间的余弦相似度。经验匹配根据同时存在的疾病数量和药物复杂性来评估医生的资格(doctor.profession_title attributes)。复杂性匹配根据患者的并发症数量和药物相互作用潜力来评估适当的病例难度分配。可用性匹配结合了医生工作量(doctor.consultation_amount attributes)和调度因素。
表11 显示 CLEAR 在所有测量维度上的临床相关性都优于其他方法。该系统通过有效利用医学 KG、通过考虑医生资格和病例复杂性来实现出色的经验匹配,以及通过全面的属性分析实现强大的复杂性匹配,从而获得了最高的 CRS 分数0.861,相比表现最佳的基线方法提高了9.7%。
**这些特定领域的评估证明了 CLEAR 在传统推荐指标上的优越表现能够在临床实践环境中得到有效转化。医生反馈和患者结果模拟的整合为该系统在实际医疗推荐场景中的实用价值提供了有力证据,同时保持了适合生产部署的计算效率。**
**6.9 先进架构增强分析。**
我们工作的核心贡献是将 CLEAR 设计为一个灵活且可适应的框架,而不是一个固定的模型。这种模块化设计使其能够整合一系列最先进的架构(SOTA architectures),从而在计算效率和表示能力之间实现审慎的平衡,以满足不同的部署需求。为了展示这种固有的灵活性,并严格分析其先进组件的能力,我们对框架的各种内部配置进行了系统评估。这次分析展示了每个集成模块的独特特性——从基础技术到尖端替代方案——并提供了对性能与效率权衡的深入 empirical 理解。**
**6.9.1 KG 嵌入。**
我们的框架的 KG 模块在设计时考虑了两个核心原则:表示灵活性和动态适应性。为了实现这一点,它整合了一系列 KGE 模型来处理多样化的关系复杂性,并采用了一种新颖的增量更新机制来应对医学知识的演变。本节分析了这些集成组件的特点。**
**RotatE [93] 将关系视为复杂空间中的旋转,其中每个关系 \(r\) 通过复杂乘法将头部实体 \(h\) 旋转以逼近尾部实体 \(t\)。基本评分函数定义为:**
\[ f_{r}(h,t) = -\|\mathbf{h}\circ\mathbf{r}-\mathbf{t}\|_{2}, \]
其中 \(\mathbf{h},\mathbf{r},\mathbf{t}\in\mathbb{C}^{d}\),\(\circ\) 表示哈达玛积(Hadamard product)。在我们的实现中,复向量表示为实部和虚部的连接:**
\[ \mathbf{h} = [\mathbf{h}_{re};\mathbf{h}_{im}]\in\mathbb{R}^{2d} \]。**
旋转操作通过以下方式实现:**
\[ \mathbf{r}_{\theta} = [\cos(\boldsymbol{\theta});\sin(\boldsymbol{\theta})]\in\mathbb{R}^{2d}, \]
\[ \mathbf{h}\circ\mathbf{r}_{\theta} = [\mathbf{h}_{re}\odot\cos(\boldsymbol{\theta})-\mathbf{h}_{im} \odot\sin(\boldsymbol{\theta});\mathbf{h}_{re}\odot\sin(\boldsymbol{\theta})+ \mathbf{h}_{im}\odot\cos(\boldsymbol{\theta})], \]
其中 \(\boldsymbol{\theta}\in[-\pi,\pi]^{d}\) 表示旋转相位,\(\odot\) 表示元素级乘法。训练目标是最小化基于边距的损失:**
\[ \mathcal{L}_{RotatE} = \sum\limits_{(h,r,t)\in\mathcal{T}}\sum\limits_{(h^{\prime},r,t^{\prime })\in\mathcal{T}^{\prime}}\max(0,\gamma+f_{r}(h^{\prime},t^{\prime})-f_{r}(h,t)), \]
其中 \(\mathcal{T}^{\prime}\) 表示负样本,\(\gamma > 0\) 是边距超参数。**
**ComplEx [99] 通过将所有实体和关系建模为复向量来扩展复杂嵌入范式。评分函数利用了三线性复积的实部:**
\[ f(h,r,t) = \text{Re}(\langle\mathbf{h},\mathbf{r},\overline{\mathbf{t}}\rangle) = \text{Re}\left(\sum\limits_{k=1}^{d}h_{k}\cdot r_{k}\cdot\overline{t_{k}}\right), \]
其中 \(\overline{\mathbf{t}}\) 表示复共轭。这可以分解为实数运算:**
\[ f(h,r,t) = \sum\limits_{k=1}^{d}\big[\text{Re}(h_{k})\cdot\text{Re}(r_{k})\cdot \text{Re}(t_{k})+\text{Im}(h_{k})\cdot\text{Im}(t_{k}) \]
\[ +\text{Re}(h_{k})\cdot\text{Im}(r_{k})\cdot\text{Im}(t_{k})- \text{Im}(h_{k})\cdot\text{Im}(r_{k})\cdot\text{Re}(t_{k})\big]. \]
优化使用逻辑损失和 L2 正则化:**
\[ \mathcal{L}_{ComplEx} = \sum\limits_{(h,r,t)\in\mathcal{T}\cup\mathcal{T}^{\prime}}\log (1+\exp(-y_{hrt}\cdot f(h,r,t))+\lambda\|\Theta\|_{2}^{2}, \]
其中 \(y_{hrt}=1\) 表示正样本,\(y_{hrt}=-1\) 表示负样本。**
表12 的结果清晰地分析了我们框架支持的不同 KGE 配置在性能与效率之间的权衡。CLEAR (TransE) 配置作为一个高效的基线,具有最低的计算成本,同时表现出了强大的性能。CLEAR (RotatE) 配置展示了该框架利用更具表现力的模型的能力,在所有指标上实现了最高的性能,P@2 的相对改进达到了3.2%。这突出了 RotatE 在捕获 KG 中更复杂关系模式方面的优势。虽然 ComplEx 配置也显示出中等的改进,但它和 RotatE 都引入了额外的计算开销。这项实证分析验证了我们框架的模块化特点,表明它可以灵活地适应不同的 KGE 模型,以优先考虑计算效率或根据具体部署需求最大化预测准确性。
**方法** | **AUCP@2** | **MRR@20** | **嵌入时间(分钟)** |
| ----------- | ----------- | ----------- | ----------- |
| CLEAR-Med (TransE) | 0.67 | 10.19 | 0.53 | 38.2 |
| CLEAR-Med (RotatE) | 0.67 | 8.0 | 0.19 | 60.54 | 11.2 |
| CLEAR-Med (ComplEx) | 0.67 | 5.0 | 0.19 | 30.53 | 8.15.1 |
**KG 嵌入方法比较。**
**粗体值表示最佳结果。**
**增量 KG 更新。**
医学知识随着新治疗方法、药物发现、疾病分类和临床协议的不断出现而迅速发展。传统的静态 KG 会迅速过时,可能导致基于过时医学信息的次优建议。为了解决这一关键挑战,我们开发了一种增量 KG 更新策略,在保持建议新鲜度的同时保留嵌入质量。我们的增量更新框架基于选择性知识整合的原则运作,新医学实体和关系在不需要完全重新训练的情况下被系统地整合进来。该策略利用 TransE 嵌入的平移属性,有效地适应新知识,同时保持现有嵌入的语义结构。**
增量更新过程从知识验证开始,新医学三元组 \((h_{new},r,t_{new})\) 通过对现有医学本体进行自动化一致性检查来进行临床验证。验证函数 \(\mathcal{V}:\mathcal{T}_{new}\rightarrow\{0,1\}\) 使用语义相似性指标和专家策划的规则集:**
\[ \mathcal{V}(h,r,t) = \begin{cases}1 & \text{if }\text{sim}(h,\mathcal{H}_{verified }) > \tau_{h}\land\text{sim}(t,\mathcal{T}_{verified }) > \tau_{t} \\ 0 & \text{otherwise}\end{cases}, \]
其中 \(\mathcal{H}_{verified}\) 和 \(\mathcal{T}_{verified}\) 表示经过临床验证的实体集,\(\tau_{h},\tau_{t}\) 是相似性阈值。对于没有现有嵌入的新实体,初始化在现有的 TransE 框架内使用上下文邻居平均:**
\[ \mathbf{e}_{new}^{(0)} = \frac{1}{|\mathcal{N}(e_{new})|}\sum\limits_{n\in\mathcal{N}(e_{new}) \mathbf{e}_{n}+\boldsymbol{\epsilon}, \]
\[ \boldsymbol{\epsilon} \sim\mathcal{N}(0,\sigma_{init}^{2}\mathbf{I}), \]
其中 \(\mathcal{N}(e_{new})\) 表示现有 KG 中语义相似的实体,\(\boldsymbol{\epsilon}\) 引入了受控随机化以防止嵌入崩溃。增量训练目标通过加权损失函数平衡新知识整合与现有嵌入的保留:**
\[ \mathcal{L}_{incremental} = \alpha\mathcal{L}_{new}+(1-\alpha)\mathcal{L}_{stability}+\beta \mathcal{L}_{consistency}, \]
\[ \mathcal{L}_{new} = \sum\limits_{(h,r,t)\in\mathcal{T}_{new}}\max(0,\gamma+\|\mathbf{e}_{h} +\mathbf{r}-\mathbf{e}_{t}\|_{2}-\|\mathbf{e}_{h^{\prime}}+\mathbf{e}_{t^{\prime}}\|_{2}),\]
\[ \mathcal{L}_{stability} = \sum\limits_{(h,r,t)\in\mathcal{T}_{existing}}\|\mathbf{e}_{h}^{(t)}- \mathbf{e}_{h}^{(t-1)}\|_{2}^{2}, \]
\[ \mathcal{L}_{consistency} = \sum\limits_{e\in\mathcal{E}_{shared}}\text{KL}(\mathcal{P}(e|context^{ (t-1)})\|\mathcal{P}(e|context^{(t)}), \]
其中 \(\alpha\in[0,1]\) 控制新知识学习与稳定性保持之间的平衡,\(\mathcal{T}_{existing}\) 表示之前学习的三元组,\(\mathcal{L}_{consistency}\) 确保共享实体的上下文概率分布在更新过程中保持一致。**
**为了保持计算效率,我们使用基于影响的采样来实施选择性嵌入更新。只有影响得分高于阈值 \(\tau_{influence}\) 的嵌入才会进行参数更新:**
\[ \text{influence}(e) = \sum\limits_{(h,r,t)\in\mathcal{T}_{new}}\mathbb{I}[e\in\{h,t\}]\cdot \exp(-d_{semantic}(e,\{h,t})), \]
\[ \mathcal{E}_{update} = \{e\in\mathcal{E}:\text{influence}(e) > \tau_{influence}\}, \]
其中 \(d_{semantic}\) 衡量医学概念空间中的语义距离,\(\mathbb{I}[\cdot]\) 是指示函数。**
**建议的时间新鲜度通过知识更新率来量化,该率衡量最近医学发展对建议决策的有效影响:**
\[ \text{Freshness}(R_{t}) = \frac{1}{|R_{t}|}\sum\limits_{r\in R_{t}}\exp\left(-\lambda \cdot\text{age}(\text{knowledge}_{r})\), \]
其中 \(R_{t}\) 表示时间 \(t\) 的建议,\(\text{age}(\text{knowledge}_{r})\) 衡量自最近使用知识以来的时间,\(\lambda\) 控制衰减率。**
**知识覆盖率量化了模型在训练和推理过程中利用可用知识的有效性。我们定义覆盖率为代表模型实际使用的 KG 元素的比例:**
\[ \text{Coverage}(G) = \frac{|\mathcal{T}_{\text{utilized}}|+|\mathcal{E}_{\text{attr}}^{\text{utilized}}|}{96%的新鲜度提升确保了医疗从业者能够根据最新的临床知识获得推荐,这对患者安全和治疗效果至关重要。6.9.2 权限嵌入。我们框架的权限嵌入模块是混合设计的,可以适应不同的编码器来处理医疗属性值。为了分析这些集成组件的特性,我们评估了三种配置:轻量级的、高效的字符级LSTM,以及两种强大的、领域特定的基于Transformer的编码器。MacBERT [19] 采用带有全词掩码和n-gram掩码策略的掩码语言模型。多头自注意力机制定义为:\begin{align} \text{Attention}(Q,K,V) &=\text{softmax}\left(\frac{QK^{T}}{\sqrt{d_{k}}}\right)V,\nonumber \end{align} (77) \begin{align} \text{MultiHead}(Q,K,V) &=\text{Concat}(\text{head}_{1},\ldots,\text{head}_{h})W^{O}, \nonumber \end{align} (78)其中 \(\text{head}_{i}=\text{Attention}(QW_{i}^{Q},KW_{i}^{K},VW_{i}^{V})\) 且 \(W_{i}^{Q}\in\mathbb{R}^{d_{model}\times d_{k}}\), \(W_{i}^{K}\in\mathbb{R}^{d_{model}\times d_{k}}\), \(W_{i}^{V}\in\mathbb{R}^{d_{model}\times d_{v}}\), \(W^{O}\in\mathbb{R}^{hd_{v}\times d_{model}}\)。完整的Transformer块包含层归一化和前馈网络:\begin{align} \text{FFN}(x) &=\max(0,xW_{1}+b_{1})W_{2}+b_{2},\nonumber \end{align} (79) \begin{align} \text{LayerNorm}(x) &=\gamma\odot\frac{x-\mu}{\sqrt{\sigma^{2}+\epsilon}}+\beta,\nonumber \end{align} (80) \begin{align} \text{TransformerBlock}(x) &=\text{LayerNorm}(x+\text{FFN}(\text{LayerNorm}(x+\text{MultiHead}(x,x,x)))). \nonumber \end{align} (81)对于属性值处理,我们从[CLS]标记中提取上下文化表示,并应用领域特定的投影:\begin{align} \mathbf{E}_{attr}=\text{LayerNorm}(W_{proj}\cdot\text{MacBERT}(\text{tokenize} (v_{raw}))_{[CLS]}+b_{proj}). \nonumber \end{align} (82)ClinicalBERT [3] 跟随类似的架构,但结合了临床领域词汇 \(\mathcal{V}_{clinical}\) 和针对医疗文本结构的专门位置编码。最终的属性嵌入通过学习到的注意力权重结合多种属性类型:\begin{align} \alpha_{i} &=\frac{\exp(w_{i}^{T}\tanh(W_{a}\mathbf{E}_{attr,i}+b_{a}))}{\sum_{j=1}^{N_{a}}\exp(w_{j}^{T}\tanh(W_{a}\mathbf{E}_{attr,j}+b_{a})),\nonumber \end{align} (83) \begin{align} \mathbf{E}_{entity} &=\sum\limits_{i=1}^{N_{a}}\alpha_{i}\mathbf{E}_{attr,i}, \nonumber \end{align} (84)其中 \(N_{a}\) 是实体的属性数量。表14显示MacBERT取得了最大的改进,AUC增加了1.9%,P@2增加了6.8%。ClinicalBERT在AUC和P@2上分别增加了1.2%和4.2%。然而,这两种Transformer模型都需要更多的内存:MacBERT由于其更大的参数空间和注意力计算开销,额外消耗了28.7%的GPU内存,而ClinicalBERT比LSTM基线多消耗25.3%的内存。表14。方法AUCP@2MRR@20内存使用(GB)CLEAR-Med (LSTM)0.6710.1900.5338.7CLEAR-Med (MacBERT)0.6840.2030.54811.2CLEAR-Med (ClinicalBERT)0.6790.1980.54410.9属性嵌入方法比较粗体值表示最佳结果。6.9.3 预测层。我们框架的一个关键创新是其模块化的预测层,旨在适应各种预测机制。为了分析这些集成组件的特性,我们评估了三种配置:一个稳定高效的MLP,一个基于注意力的MHACF,以及一个强大的生成式CDDP。MHACF使用多头注意力机制动态地对不同的嵌入组件进行加权。该架构通过多个注意力头处理串联的医生-患者嵌入:\begin{align} \mathbf{Q}_{i} &=[\mathbf{e}_{d};\mathbf{e}_{p}]W_{i}^{Q},\quad\mathbf{K}_{i}=[ \mathbf{e}_{d};\mathbf{e}_{p}]W_{i}^{K},\quad\mathbf{V}_{i}=[\mathbf{e}_{d}; \mathbf{e}_{p}]W_{i}^{V},\nonumber \end{align} (85) \begin{align} \text{head}_{i} &=\text{softmax}\left(\frac{\mathbf{Q}_{i}\mathbf{K}_{i}^{T}}{ \sqrt{d_{k}}}\right)\mathbf{V}_{i},\nonumber \end{align} (86) \begin{align}\mathbf{h}_{att} &=\text{Concat}(\text{head}_{1},\ldots,\text{head}_{H})W^{O}. \nonumber \end{align} (87)在\(L\)个细化层上应用残差连接和层归一化:\begin{align} \mathbf{h}_{l+1}=\text{LayerNorm}(\mathbf{h}_{l}+\text{ReLU}(W_{l}\mathbf{h}_{ l}+b_{l})),\quad l=0,\ldots,L-1. \nonumber \end{align} (88)最终预测结合了用于自适应特征选择的门控机制:\begin{align} \mathbf{g} &=\sigma(W_{g}[\mathbf{e}_{d};\mathbf{e}_{p};\mathbf{h}_{L}]+b_{g}),\nonumber \end{align} (89) \begin{align} \hat{s}_{dp} &=\sigma(W_{o}(\mathbf{g}\odot\mathbf{h}_{L})+b_{o}). \nonumber \end{align} (90)CDDP实现了一个条件扩散过程,用于迭代预测细化。前向扩散过程逐渐向预测空间添加高斯噪声:\begin{align} q(\mathbf{x}_{1:T}|\mathbf{x}_{0})=\prod\limits_{t=1}^{T}q(\mathbf{x}_{t}|\mathbf{x}_ {t-1}),\quad q(\mathbf{x}_{t}|\mathbf{x}_{t-1})=\mathcal{N}(\mathbf{x}_{t}; \sqrt{1-\beta_{t}}\mathbf{x}_{t-1},\beta_{t}\mathbf{I}), \nonumber \end{align} (91)其中\(\{\beta_{t}\}_{t=1}^{T}\)遵循一个方差调度。反向过程通过神经网络 \(\boldsymbol{\epsilon}_{\theta}\) 学习去噪:\begin{align} p_{\theta}(\mathbf{x}_{0:T}) &=p(\mathbf{x}_{T})\prod\limits_{t=1}^{T}p_{\theta}(\mathbf{x}_{t-1}| \mathbf{x}_{t},\mathbf{c}),\nonumber \end{align} (92) \begin{align} p_{\theta}(\mathbf{x}_{t-1}|\mathbf{x}_{t},\mathbf{c}) &=\mathcal{N}(\mathbf{x}_{t-1};\boldsymbol{\mu}_{\theta}(\mathbf{x }_{t},t,\mathbf{c}),\boldsymbol{\Sigma}_{\theta}(\mathbf{x}_{t},t)), \nonumber \end{align} (93)其中\(\mathbf{c}=[\mathbf{e}_{d};\mathbf{e}_{p}]\)代表条件信息。去噪均值参数化为:\begin{align} \boldsymbol{\mu}_{\theta}(\mathbf{x}_{t},t,\mathbf{c})=\frac{1}{\sqrt{\alpha_{ t}}}\left(\mathbf{x}_{t}-\frac{1-\alpha_{t}}{\sqrt{1-\bar{\alpha}_{t}}} \boldsymbol{\epsilon}_{\theta}(\mathbf{x}_{t},t,\mathbf{c})\right), \nonumber \end{align} (94)其中\(\alpha_{t}=1-\beta_{t}\)且\(\bar{\alpha}_{t}=\prod_{s=1}^{t}\alpha_{s}\)。训练目标最小化简化后的损失:\begin{align} \mathcal{L}_{CDDP}=\mathbb{E}_{t\sim\text{Uniform}(1,T),\mathbf{x}_{0}, \boldsymbol{\epsilon}\sim\mathcal{N}(0,\mathbf{I})}\left[\|\boldsymbol{ \epsilon}-\boldsymbol{\epsilon}_{\theta}(\sqrt{\bar{\alpha}_{t}}\mathbf{x}_{0} +\sqrt{1-\bar{\alpha}_{t}}\boldsymbol{\epsilon},t,\mathbf{c})\|_{2}^{2}\right]. \nonumber \end{align} (95)此外,一个考虑推荐的损失项强制执行任务特定的约束:\begin{align} \mathcal{L}_{rec}=\mathbb{E}_{\mathbf{x}_{0}\sim q(\mathbf{x}_{0}|\mathbf{c})} [BCE(\sigma(f_{pred}(\mathbf{x}_{0})),y_{dp})], \nonumber \end{align} (96)其中 \(f_{pred}\)将去噪输出映射到预测分数,\(y_{dp}\)表示真实标签。表15中的结果显示了我们框架内集成的不同预测头配置的独特性能特征。MLP配置作为一个高效且稳健的基线,具有最低的推理延迟,非常适合实时、大规模部署。MHACF配置展示了动态特征加权的好处,通过使用注意力更好地建模复杂的嵌入交互,实现了2.7%的AUC相对提升。CDDP配置突出了生成模型的巨大潜力,在所有指标上达到了最高的预测准确性,通过其迭代细化过程实现了13.2%的P@2相对提升。表15。方法AUCP@2MRR@20推理时间(ms)CLEAR-Med (MLP)0.6710.1900.5333.8CLEAR-Med (MHACF)0.6890.2070.5568.4CLEAR-Med (CDDP)0.6970.2150.56715.2预测层方法比较粗体值表示最佳结果。然而,这种性能提升伴随着明显的计算成本权衡,MHACF和CDDP分别需要多121%和300%的推理时间。这项全面分析验证了我们预测层的模块化特性,展示了该框架能够根据不同的操作需求进行配置——无论是优先考虑最大推理速度的MLP,还是平衡性能的MHACF,或在不太依赖延迟的场景中通过CDDP实现SOTA准确性。6.10 偏差分析和缓解跨平台验证结果突出了开发全球适用医疗推荐系统时的一个重要考虑因素:可能影响模型性能和公平性的文化、语言和系统性偏见,这些偏见可能在不同医疗环境中存在。在多样化的文化环境中部署的医疗AI系统必须仔细解决这些偏见,以确保在不同人群和医疗系统中提供公平和有效的医疗服务[83]。6.10.1 识别出的文化和结构偏见。我们的分析揭示了中国和国际平台之间患者-医生沟通模式的显著差异,这些差异直接影响我们模型的属性嵌入和知识图谱(KG)构建过程。Haodf.com上的中国患者倾向于提供更详细的医疗历史,并使用正式的医学术语,反映了尊重医疗权威和结构化医疗文档实践的文化规范。相比之下,Practo.com的患者通常使用更口语化的语言,并侧重于主观体验,这与强调患者自主性和基于叙述的医疗描述的西方医疗沟通模式一致[91]。这种差异特别影响我们的属性嵌入模块,其中字符级LSTM处理的是根本不同的语言模式。知识图谱构建过程在医学概念表示上遇到系统性的差异,中国医疗记录将中医概念与西医结合在一起,创建了西方平台中缺失的实体关系[60]。虽然我们的实现通过cMeSH标准化解决了这个问题,但特定于文化的医学概念仍可能引入对熟悉特定文化医疗范式的从业者的推荐偏见。平台之间的架构差异引入了超出简单数据量差异的结构偏见。Haodf.com的全面专业网络数据使得能够构建丰富的社交KG,包括详细的医生合作网络、机构隶属关系和专业层级。Practo.com的简化结构将关系建模限制在基本的医生-诊所隶属关系和患者评价系统上,从根本上改变了我们双KG架构的信息。这种差异影响我们的CL机制,其中本地和非本地子图的构建严重依赖于可用的关系丰富度,可能会使学习到的表示偏向于特定于平台的交互模式。我们的评估框架可能会无意中偏好主要训练平台的特征,反映了医疗服务和患者期望的深层文化差异。Precision@K和MRR指标虽然在推荐系统中是标准的,但可能无法充分捕捉特定于文化的有效医生-患者匹配概念。中国患者可能优先考虑医生的资历、机构声望和正式资格,而西方患者可能强调可访问性、沟通风格和患者满意度[40]。这些医疗决策过程中的文化差异表明,统一的评估指标可能无法完全代表不同医疗环境中的多样化需求和偏好。除了文化考虑之外,我们的分析还揭示了可能系统性地影响推荐公平性的地理和机构偏见。社交KG的构建可能会无意中偏好与知名医疗机构或城市医疗中心相关的医生,那里更丰富的专业网络数据和机构合作创造了更密集的关系表示。医疗实践模式的地理聚类可能导致某些地区医疗方法的过度代表,或者不利于在主要医疗中心之外寻求治疗的患者[88]。同样,KG的实体关系密度可能与机构的研究产出和发表频率相关,从而对学术活跃的医疗系统产生隐性的偏见,而不是那些可能提供同等有价值但特征不同的医疗专长的社区导向的从业者[5]。6.10.2 实施的技术缓解策略。我们的框架实施了几种技术方法来解决这些已识别的偏见。多模态属性处理提供了可配置的处理模式来处理语言多样性。字符级LSTM方法对正字法变化具有内在的鲁棒性,并且可以在不进行结构修改的情况下处理表意(中文)和字母(英文)脚本。替代的MacBERT和ClinicalBERT实现利用了来自多种语言环境的特定领域预训练,减少了语言特定的表示偏见[20]。双KG架构通过其统一的实体标准化过程和多层次CL框架实现偏见缓解。系统不是偏重于一种文化视角,而是将社交和医学KG视为互补的观点,实现平衡表示学习,同时捕捉普遍的医疗关系并保留特定于文化的细微差别。CL机制通过其双视图架构提供了内在的偏见缓解,其中本地和非本地子图的构建确保实体表示能够捕捉到即时上下文和更广泛的社区模式[16]。我们的预测架构通过对医生和患者嵌入的对称处理来实现隐性的公平性考虑。基于串联的方法避免了可能偏爱某些文化沟通风格的优先加权。Sigmoid激活函数确保了预测分数的有界性,减少了由特定于文化的异常值或平台特定评分模式引起的极端值的影响。为了应对地理和机构偏见,我们的CL机制确保实体表示能够捕捉到本地上下文(即时专业网络)和非本地模式(更广泛的医疗社区),防止过度依赖机构声望或地理聚类效应。尽管可以将明确的公平性约束(如人口统计平等)纳入损失函数,但我们认为医疗推荐系统需要仔细考虑特定于领域的公平性权衡。严格的人口统计平等执行可能会与合法的医疗专业知识差异、专业分布模式或患者特定的临床需求相冲突[83]。相反,我们的框架通过平衡的多视图表示学习实现结构公平性,其中双KG架构确保社交-专业关系和临床互动平等地贡献于最终推荐,防止对任何单一因素的系统性偏见[70]。模块化设计促进了能够适应不同医疗领域的上下文感知公平性措施的整合,同时保持了临床有效性和患者安全考虑。6.10.3 未来方向和持续挑战。解决医疗推荐系统中的文化偏见需要持续关注技术和方法论考虑。跟踪不同用户群体中推荐公平性的动态偏见监控系统是未来发展的重要领域[69]。我们框架的模块化设计支持集成偏见检测模块,这些模块可以持续评估跨文化维度的推荐质量。开发基于检测到的文化环境动态调整模型行为的文化感知注意力机制是另一个有前景的方向。这可能涉及扩展我们的多头注意力架构,以包括指导注意力权重计算的文化嵌入维度。此外,通过参与式设计方法让不同的医疗社区参与模型开发过程,可以帮助识别和解决仅从技术分析中可能看不到的偏见[9]。全面的跨平台验证为更广泛的医疗AI社区提供了关于开发文化感知医疗推荐系统的挑战和机会的宝贵见解。虽然我们的框架在不同文化环境中展示了有希望的适应性,但继续关注公平性、文化敏感性和包容性设计对于在多样化的全球医疗环境中负责地部署仍然至关重要。在两个平台上对15个医疗部门的系统性能分析揭示了部门特定的文化适应需求,特别是在中医等领域,文化背景显著影响实践模式。7 结论OHC平台上的个性化推荐系统对于加强患者和医疗专业人员之间的联系至关重要。尽管这些平台上的医生具有巨大潜力,但他们专门的子领域往往被低估,导致患者和医生的匹配效果不佳,满意度降低。解决OHC场景中固有的复杂性和数据稀疏性需要能够适应这些专门环境的先进神经网络算法,以提供更准确和相关的推荐。我们的研究介绍了CLEAR-Med,这是一种对比学习增强的知识图谱推荐器,旨在改善患者-医生匹配。CLEAR-Med有效地缓解了医生在OHC平台上面临的许多压力和程序效率低下问题。此外,它还增强了OHC平台现有的推荐模块,为患者和医生提供了一个更高效和令人满意的医疗咨询环境。我们的研究第三,通过对两个具有不同文化背景的现实世界数据集进行广泛实验,我们证明了我们集成方法的卓越性能(SOTA)和跨平台稳定性。最后,我们率先探索了关键的现实世界挑战,提出了一种新颖的增量更新策略来提升推荐结果的新鲜度,并对系统性和文化偏见进行了全面分析,并提出了相应的缓解策略,为构建更加及时、公平和负责任的医疗AI系统树立了新的标杆。
尽管取得了这些进展,我们的研究也存在一些局限性,这些局限性为未来的探索提供了方向。虽然我们的跨平台验证表明CLEAR-Med能够适应不同的语言和文化环境,但国际平台的局限性在数据可用性和结构一致性方面暴露了一些重大问题。Practo数据集的简化结构虽然有助于验证模型的稳定性,但缺乏全面的医学本体和详细的临床关系,这限制了CLEAR-Med全部功能的发挥。未来的研究可以探索更复杂的数据协调技术,以更好地整合不同平台的架构。此外,尽管我们的模型能够有效捕捉来自结构化互动中的特定子领域信息,但在从细微对话中挖掘隐含信息方面仍有潜力有待挖掘。结合先进的语言处理技术,如多头注意力机制和医学BERT模型,可以进一步提升这种能力。此外,正如我们的优化分析所建议的那样,探索在最终预测阶段使用生成模型(如扩散模型)是一个有前景的方向,尽管计算成本较高。最后,研究自适应机制以确定最佳的传播层数或根据局部图结构动态调整模型深度,也可能提升模型性能。为跨平台医疗数据收集制定标准化协议仍然是整个医疗AI社区面临的关键挑战。