基于幂Ailamujia分布的竞争风险模型贝叶斯方法

《Symmetry》:A Bayesian Approach for Competing Risks Model Using Power Ailamujia Distribution

【字体: 时间:2026年06月11日 来源:Symmetry 2.2

编辑推荐:

  本研究开发了一种基于幂Ailamujia(PA)分布的贝叶斯风险分析技术,该技术有助于识别不同类型的风险因素及其特定效用。模型中引入了先验分布,并在标准平方误差损失函数基础上实施贝叶斯估计,例如均方误差函数以及二次损失函数。随后借助马尔可夫链蒙特卡洛(MCMC

  
本研究开发了一种基于幂Ailamujia(PA)分布的贝叶斯风险分析技术,该技术有助于识别不同类型的风险因素及其特定效用。模型中引入了先验分布,并在标准平方误差损失函数基础上实施贝叶斯估计,例如均方误差函数以及二次损失函数。随后借助马尔可夫链蒙特卡洛(MCMC)方法开展分析,从而能够较为精确地进行时间分析与敏感性分析。为对该技术进行实际展示,研究人员分析了真实数据,并将所提出技术与经典预测方法进行了比较。此外,研究人员将该方法应用于两个不同的真实世界数据集:其一为来自阿姆斯特丹HIV感染队列研究(Amsterdam Cohort Studies on HIV infection)的生物医学AIDSSI数据集,其二为包含欧洲冠军联赛(UEFA Champion’s League)进球时间的体育数据集。尤为关键的是,在实施竞争风险分析之前,研究人员对两个数据集均进行了全面的拟合优度分析,以验证PA分布的适用性。
该文发表于《Symmetry》,围绕幂Ailamujia(PA)分布在竞争风险模型中的统计推断问题展开研究,核心目标是构建一个兼具灵活性、可解释性与实证适用性的参数模型,用于处理具有多种潜在失效原因的寿命数据。寿命分析与生存分析广泛应用于社会科学、工程可靠性及生物医学研究,其基本任务是刻画某一事件从起始到发生的时间分布。然而,在大量实际问题中,研究对象往往同时暴露于多个彼此竞争的事件原因之下,一种事件一旦首先发生,其他事件便不再可观测,这就形成了竞争风险(competing risks)问题。传统寿命分布虽然在单一风险或单调风险率条件下应用广泛,但在面对非单调危险率、异质性人群以及复杂右偏尾部行为时,常常表现出拟合不足、参数结构复杂或贝叶斯计算不稳定等局限。因此,有必要寻找一种既具较强危险率刻画能力、又便于经典与贝叶斯双重推断的分布框架。研究人员据此引入PA分布,并系统考察其在竞争风险建模中的理论形式、参数估计、相对风险计算、模拟表现以及真实数据应用效果。

文章指出,PA分布由形状参数β和尺度参数θ构成,能够表征单调与非单调危险函数,尤其适合处理具有单峰型危险率特征的寿命数据。与Weibull分布相比,PA分布对非单调危险模式具有更高灵活性;与广义Gamma分布相比,其参数结构更简洁;与对数正态分布相比,其对特定偏度和峰度特征的寿命数据具有较好表达能力。基于这一分布,研究人员建立了竞争风险情形下的原因别概率密度函数、生存函数、危险函数与累积危险函数,并在多风险独立假设下给出了总体危险函数与总体生存函数,从而形成完整的模型框架。随后,论文以极大似然估计(MLE)和贝叶斯估计(BE)两条主线开展推断,解决参数闭式解不存在时的数值求解问题,并通过相对风险(relative risk, RR)指标量化各失效原因的主导程度。

研究采用的主要技术方法包括以下几类。首先,在模型构建层面,以PA分布定义原因别概率密度函数、危险函数和生存函数,并在独立竞争风险框架下构造联合似然函数。其次,在频率学派推断层面,通过对数似然函数求导建立得分方程,采用Newton–Raphson数值迭代法求取MLE,并利用观测Fisher信息矩阵构建渐近95%置信区间。再次,在贝叶斯层面,给参数指定相互独立的Gamma先验,在二次损失函数下以后验均值作为贝叶斯估计量,并借助MCMC中的Metropolis随机游走算法获得后验样本与95%可信区间。其后,研究通过模拟实验比较MLE与BE在不同样本量和删失比例下的均方误差(MSE)与覆盖概率(CP)。最后,在实证部分分别分析来自Amsterdam Cohort Studies on HIV infection的AIDSSI队列数据,以及UEFA Champion’s League进球时间数据,并在竞争风险分析前先进行K-S检验和图形化拟合优度诊断。

在研究结果部分,论文依次给出了多个层面的结论。

2. Statistical Modeling with the Power Ailamujia (PA) Distribution
这一部分首先定义了PA分布在竞争风险情形中的基础统计结构。研究人员给出各原因的概率密度函数、生存函数、危险率函数和累积危险函数,并说明PA分布可用于刻画递增、递减及单峰型危险率。文中进一步指出,在当前参数形式下,该分布主要适合建模单调型和倒浴盆型(upside-down bathtub)危险形态,而不是真正的U型浴盆危险。通过总危险函数与总生存函数的组合表达,研究建立了多个独立失效原因共同作用下的整体模型,为后续参数估计和相对风险分析奠定了数学基础。

3. Assumptions and Maximum Likelihood Estimates
这一部分在独立同分布、各失效原因相互独立以及观测时间为潜在原因别失效时间最小值等假设下,构建了竞争风险数据的联合似然函数。研究人员将每个个体的观测表示为寿命时间与原因指示变量的组合,再利用原因别密度函数和其他原因的生存函数共同构成完整似然。通过对数变换,论文推导出简化后的对数似然函数,并对尺度参数θj与形状参数βj分别求偏导,形成得分方程。由于该组方程不存在闭式解析解,研究采用数值迭代法求取MLE。随后,论文进一步推导二阶偏导数并构造观测信息矩阵,以获得参数估计的渐近方差—协方差矩阵,并据此建立近似95%置信区间。由此得出的结论是:PA竞争风险模型虽然在解析求解上较复杂,但借助数值优化可以稳定获得参数估计和区间推断结果。

4. Bayesian Procedure
在贝叶斯部分,研究人员设定各未知参数服从相互独立的Gamma先验分布,并在二次损失函数下,将参数的后验均值作为贝叶斯估计量。通过将似然函数与先验分布相结合,论文给出联合后验分布的比例形式。鉴于后验积分无法显式求出,研究采用MCMC方法进行数值近似,文中提及可使用Metropolis–Hastings算法或Gibbs抽样,而实际实现主要采用Metropolis随机游走算法。该部分的关键结论是:贝叶斯分层推断可为PA竞争风险模型提供有效的不确定性量化工具,尤其适用于高维、复杂或带删失的数据环境。

5. The Relative Risks
这一部分定义了相对风险RR,用于衡量在时刻t某一特定原因导致失效的相对概率。研究人员给出了原因别失效概率与长期累积风险的表达形式,并指出在所有原因具有共同形状参数时,相关积分通常无法解析求解,因此需要采用数值积分。论文强调,所有原因别相对风险之和必须满足总概率为1的结构性要求。该部分的主要结论是:通过估计πj与RR,研究者能够识别主导失效模式,为临床干预或工程维护提供定量依据。

6. Simulation Study
模拟研究聚焦于两种竞争原因(k = 2)的情形,用于比较MLE与贝叶斯估计在不同样本量与删失水平下的统计表现。研究人员设定真实参数值、样本量和删失比例,利用潜在失效时间生成机制构造模拟数据:先为每个个体和每个原因生成独立均匀随机变量,再通过反演原因别生存函数获得潜在失效时间,以最小潜在时间作为观测失效时间,并记录对应原因。重复模拟后,使用MSE和CP评估估计性能。结果显示,随着样本量增加,MLE与MCMC两种方法得到的MSE均持续下降,覆盖概率保持在可接受范围内;在完整数据与轻度删失情形下,两种估计方法的MSE非常接近,表明二者均具有良好的准确性和稳健性。单次MCMC运行结果还表明,非信息先验并未明显扭曲数据所携带的信息,MLE与后验估计高度一致。

7. Applications
这一部分是全文最重要的实证验证,分为两个案例研究。

7.1. Case Study I About the AIDSSI Dataset
研究人员首先分析AIDSSI数据集。该数据来自R环境中“mstate”程序包,源于Amsterdam Cohort Studies on HIV infection,共包含329名参与者,聚焦于有高风险行为的男男性行为者。文中考虑两个主要竞争结局:AIDS发生,以及诱导合胞体(syncytium-inducing, SI)HIV表型的出现;若至研究结束两者均未发生,则记为删失。为保证模型适用性,研究先对总体事件时间实施K-S拟合优度检验,结果p值为0.0575,高于0.05,支持PA分布对该生物医学时间结局数据具有可接受的拟合能力。图形诊断同样显示,拟合密度、累积分布、生存曲线与P-P图均与观测数据吻合较好。

在参数估计方面,MLE与贝叶斯MCMC方法给出的参数结果基本一致,说明PA分布在AIDS进展与SI表型出现这两个竞争风险的建模中具有稳定性、可靠性和灵活性。MCMC分析采用10,000次迭代,前50%样本作为burn-in,接受率为51.66%,链混合与收敛诊断良好。后验分布整体表现为右偏,说明较大参数值出现频率较低但会对分布形态产生明显影响。研究进一步展示了生存函数与危险函数的贝叶斯后验估计,指出AIDSSI数据中的原因别危险函数呈明显单峰型,即在某一中间时间段达到较高水平,随后趋于稳定或下降。文中据此认为,PA分布能够有效刻画HIV疾病进程中风险随时间变化的动态模式。相对风险估计结果显示,不同原因的长期失效贡献可以被定量区分,从而支持对患者预后与风险分层的统计判断。

7.2. Case Study II: UEFA Champion’s League Data
第二个案例为UEFA Champion’s League比赛数据,用于检验该模型在体育时间事件分析中的适用性。研究对象为37场比赛的进球时间数据,时间变量按90分钟标准化。文中定义两个竞争事件:Cause I为任一球队通过射门打入首球的时间,Cause II为主队打入首球的时间。两类事件均可能发生,但仅最先发生者被观测。研究首先对两类事件分别开展K-S检验,所得p值分别为0.9905和0.9684,均远高于0.05,表明PA分布对该体育数据具有很强的拟合适配性。图形化诊断显示,拟合密度、生存曲线及P-P图与经验分布吻合良好。

在估计方面,MLE与BE结果再次表现出高度一致,说明PA分布能够较好捕捉足球比赛中不同进球机制所对应的竞争风险结构。贝叶斯估计同样基于10,000次MCMC迭代,接受率为37.18%,前5000次作为burn-in。参数的边际后验分布呈一定右偏,但轨迹图与自相关图均显示链收敛良好。结合参数估计结果,研究发现Cause I对应的早期危险加速程度高于Cause II,表明Cause I在比赛初期具有更显著的相对风险,而Cause II更接近一种次级、长期风险来源。相对风险区间估计进一步支持了这一判断,说明PA分布能够成功分离并量化不同进球事件的独立风险贡献。

对于讨论部分,论文总体强调,PA分布在竞争风险模型中的优势主要体现为三个方面。其一,模型具有足够的危险率灵活性,能够刻画比Weibull分布更丰富的时间风险形态,尤其适用于单峰和非单调模式。其二,尽管似然方程无解析解,但通过MLE与MCMC均可获得稳定推断结果,且模拟与应用研究中两类估计方法表现高度一致。其三,基于真实生物医学与体育数据的拟合优度检验、信息准则和图形诊断均显示PA分布具有较强的实证适用性。与此同时,文章也明确指出研究局限:模型假设竞争风险彼此独立,因而不能处理原因间依赖结构;后验推断质量依赖于潜在寿命过程服从PA分布这一设定。未来研究方向包括引入Copula函数处理依赖竞争风险,以及发展半参数模型,以提升模型对更复杂删失机制和数据结构的适应性。

研究结论部分可译述如下:本文研究了基于幂Ailamujia(PA)分布的竞争危险模型及系统可靠性测度中的统计推断问题。在常规参数估计中,似然方程不存在解析闭式解。研究通过成功结合极大似然估计(MLE)与马尔可夫链蒙特卡洛(MCMC)支持下的贝叶斯框架,克服了相关计算困难。在参数估计之前,研究利用Kolmogorov–Smirnov(K-S)检验和概率—概率(P-P)图等经验拟合优度指标评估了PA模型的结构适配性。两个真实案例展示了所提分布的实际应用价值与解释能力:在生物医学分析中,该框架成功建模了AIDSSI数据集,并结合感染年龄评估了向诱导合胞体(SI)HIV表型转变的危险特征与转移风险;在体育动态分析中,该模型成功刻画了欧洲冠军联赛历史数据中的竞争性进球事件。经验拟合优度分析表明,经典Weibull分布因经验危险率严格单调而对相关数据拟合最接近,但所提出的PA分布是非常接近且优于Lindley、对数正态和指数等其他基线模型的备选方案。PA模型的赤池信息准则(AIC)与贝叶斯信息准则(BIC)与Weibull分布非常接近,同时K-S检验给出了高度不显著的p值(p > 0.05),从而验证了PA模型作为寿命数据分析参数模型的可靠性与可行性,而不会牺牲统计精度。尽管PA分布在独立竞争风险分析中具有明显优势,但本研究仍存在局限,包括竞争风险独立性假设以及参数推断对PA分布设定的依赖。未来研究可考虑使用Copula函数处理相关竞争风险,并探索半参数模型。总体而言,信息准则的下降从数学上支持了该模型对偏斜失效时间的适配能力,但这些结论仍需结合本文样本规模范围加以理解,未来仍有必要在高删失框架下开展进一步比较研究,以更全面界定PA分布族的适用边界。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号