泊松–QGamma分布:性质、估计方法、回归建模及其在工程计数数据中的应用

《Stats》:The Poisson–QGamma Distribution: Properties, Estimation Methods, Regression Modeling, and Applications in Engineering Count Data

【字体: 时间:2026年06月11日 来源:Stats 1

编辑推荐:

  对过度离散计数数据进行建模是应用统计学中的常见挑战,尤其是在工程应用中,重复事件、系统故障以及聚类观测常常导致超出经典泊松模型所允许范围的变异性。本文引入并研究了泊松–QGamma分布,这是一种通过将泊松分布与QGamma分布混合而得到的新型复合离散模型。所提

  
对过度离散计数数据进行建模是应用统计学中的常见挑战,尤其是在工程应用中,重复事件、系统故障以及聚类观测常常导致超出经典泊松模型所允许范围的变异性。本文引入并研究了泊松–QGamma分布,这是一种通过将泊松分布与QGamma分布混合而得到的新型复合离散模型。所提出的分布在解析上是可处理的,并且具有足够的灵活性以刻画真实计数数据中经常观察到的过度离散、偏度和超额峰度。研究人员推导了该分布的若干统计性质,包括概率质量函数、累积分布函数、生存函数和风险率函数、矩、离散指数、偏度、峰度、熵以及生成函数。参数估计方面,研究人员考虑了极大似然估计(MLE)、矩估计法、最小二乘法和加权最小二乘法。通过蒙特卡罗(Monte Carlo)模拟考察了这些估计量在有限样本下的表现。研究人员还构建了一个基于泊松–QGamma分布的回归模型,用于处理带有协变量的计数响应。通过模拟研究和真实数据应用,将所提模型与经典及竞争性计数模型进行了比较。为说明该模型的实际价值,研究人员分析了3组与工程相关的数据集,分别涉及电网故障计数、环境传感器事件计数以及通信网络中的分组丢失计数。结果表明,与泊松分布、负二项分布、泊松–Lindley分布、广义泊松分布以及COM–泊松分布等若干标准备选模型相比,泊松–QGamma模型能够提供更优拟合,特别是在存在过度离散和重尾行为时。总体而言,所提出的分布为过度离散计数数据建模提供了一种简约而有效的工具,同时也丰富了复合离散分布这一更广泛的模型类别。
本文发表于《Stats》,围绕工程领域中常见的过度离散计数数据建模问题,系统提出并研究了一类新的单参数复合离散分布——泊松–QGamma分布(Poisson–QGamma distribution, PQGaD)。研究背景在于,计数数据广泛存在于可靠性工程、交通安全、环境监测、生物医学和通信系统等应用场景中,研究对象通常是固定时间、区域或观测单元内事件发生的次数,如故障、事故、缺陷、设备使用次数或分组丢失次数。经典泊松分布因结构简单、解释清晰、数学处理方便,往往是计数数据分析的首选模型;但其“均值等于方差”的等离散假设在实际中常被违反。真实数据常常由于未观测异质性、重复事件、聚类效应以及运行条件变化而呈现过度离散、右偏和重尾特征,从而使传统泊松模型拟合不足。

为克服这一局限,统计学中常通过令泊松强度参数随机化来构造混合泊松模型(mixed Poisson distributions),从而在保持条件泊松结构的同时,得到更灵活的边际分布。负二项分布便是泊松分布与Gamma分布混合的典型结果。此后,泊松–逆高斯、泊松–指数、泊松–Lindley等模型不断发展,旨在改善尾部行为和离散程度的刻画。然而,已有许多柔性计数模型虽能提升拟合性能,却往往需要较多参数、似然函数复杂,或牺牲了泊松型模型原有的解析简洁性。基于这一问题,研究人员尝试引入QGamma分布作为混合分布。QGamma分布可视为新多项式指数分布(New Polynomial Exponential Distribution, NPED)的一个特例,它在保持单参数结构的同时,通过密度中的多项式项引入额外灵活性。因此,开展本研究的目的,在于构建一种既能有效处理过度离散、偏度和重尾,又保持封闭形式表达和参数简约性的计数模型。

研究人员首先通过层次表示构造PQGaD:条件于潜在强度参数λ时,随机变量服从泊松分布,而λ服从QGamma分布。对潜在变量λ积分后,得到了PQGaD的边际概率质量函数,并进一步推导累积分布函数、生存函数、风险率函数以及一系列矩性质。结果显示,该模型保留了QGamma混合机制中的多项式结构,因此能够在单参数框架下灵活调节分布离散程度和尾部形态。与经典泊松分布相比,PQGaD放宽了等离散假设;与若干多参数替代模型相比,该模型仍然保持较好的可解释性和较低复杂度。这种“灵活性—简约性”平衡,使其尤其适用于工程场景中的重复故障、事件聚集以及系统异质性明显的计数数据。

在方法层面,研究人员主要采用了以下几类技术路线。首先,基于泊松—QGamma复合机制推导模型的封闭形式分布函数及矩特征;其次,采用极大似然估计(MLE)、矩估计(MoM)、最小二乘估计(LSE)和加权最小二乘估计(WLSE)进行参数估计,并通过蒙特卡罗模拟评价有限样本性质;再次,在回归部分通过对条件均值引入对数连接函数(log-link),建立适用于含协变量计数响应的PQGaD回归模型,并使用BFGS拟牛顿法(quasi-Newton method)进行数值优化;最后,在实证分析中使用3类工程相关数据集——电网故障计数、环境传感器事件计数和通信网络分组丢失计数——将PQGaD与泊松、负二项、泊松–Lindley、广义泊松和COM–泊松等模型进行比较,评价指标包括对数似然、AIC、BIC、Pearson卡方统计量、RMSE和KS统计量。

在研究结果方面,论文按照多个小节逐步展示了PQGaD的理论与应用价值。

在“2. The Poisson–QGamma Distribution”部分,研究人员正式定义了泊松–QGamma分布,并从QGamma分布作为NPED特例的密度出发,给出混合构造过程。通过对潜在泊松率λ积分,得到了PQGaD的封闭形式概率质量函数,这是全文最核心的理论结果之一。进一步推导得到了累积分布函数、生存函数和风险率函数。结果说明,参数θ能够控制分布形态:当θ较小时,分布更分散、右尾更重;当θ增大时,概率质量更多集中在较小计数值附近,尾部衰减更快。风险率函数的边界行为分析表明,该模型不仅能调节离散程度,还能反映尾部风险特征,因此对工程可靠性和故障事件分析具有实际解释意义。

在“3. Statistical Properties”部分,研究人员系统推导了PQGaD的统计性质。由于该模型属于混合泊松分布,其阶乘矩可以通过条件期望方便地求得,进而得到前四阶阶乘矩、原点矩、原始矩和中心矩。基于这些结果,研究人员进一步构造了变异系数、偏度系数、峰度系数和离散指数等描述性统计量。特别重要的是,离散指数始终大于1,从理论上证明了PQGaD对所有允许参数值均表现为过度离散,因此相较于满足离散指数等于1的经典泊松分布更具柔性。研究人员还定义并讨论了Shannon熵,用于度量分布不确定性。在“3.2. Numerical Behavior of the Main Measures”中,通过选定参数值的数值展示可知,随着θ增加,均值和方差同时下降,离散指数虽仍大于1但逐渐减小,偏度和峰度增大,而熵持续下降。这说明θ是控制PQGaD离散性、尾部行为与不确定性的关键参数。

在“4. Parameter Estimation and Simulation”部分,论文考察了4种参数估计方法的表现。在“4.1. Maximum Likelihood Estimation”中,研究人员建立了似然函数和对数似然函数,指出对应估计方程无封闭解,因此采用Newton–Raphson算法进行数值求解,并通过参数变化与对数似然变化双重标准监测收敛,同时在迭代中保持θ>0约束。在“4.2. Method of Moments”中,矩估计通过令样本均值等于理论均值,得到关于θ的三次方程,并取其正根作为估计值。“4.3. Least Squares and Weighted Least Squares Estimation”中,LSE通过匹配样本矩与理论矩最小化平方误差,WLSE进一步通过权重抑制高阶矩在有限样本下的不稳定性。在“4.4. Monte Carlo Simulation Design”中,研究人员通过混合表示生成随机样本,对不同θ和样本量组合重复模拟,并以平均估计值和均方根误差(RMSE)评价估计性能,同时计算熵描述拟合分布的集中程度。在“4.5. Simulation Results and Discussion”中,结果表明MLE和WLSE总体表现最佳,尤其在小样本和中等样本下具有更小偏差和更低RMSE;MoM虽计算简便、适合作为初始值,但在样本较小或θ较大时稳定性较差;LSE整体可用,但准确性通常不及WLSE。所有估计量的性能均随着样本量增加而改善,支持估计方法的一致性。

在“5. Poisson–QGamma Count Regression Model”部分,研究人员将PQGaD扩展到回归框架,用以处理带协变量的过度离散计数响应。在“5.1. Model Formulation”中,模型对第i个观测的响应变量设定PQGaD分布,并通过对数连接函数将条件均值与解释变量联系起来。由于模型天然以θ表征,而回归结构定义在线性预测子的均值上,因此研究人员通过数值方法求解均值与θ之间的对应关系,从而实现参数重参数化。在“5.2. Likelihood Function and Parameter Estimation”中,建立了回归模型的对数似然函数,并使用BFGS拟牛顿法进行极大化。在“5.3. Model Diagnostics”中,研究人员提出使用Pearson残差、观测值与拟合值对比图以及与经典泊松回归模型的残差行为比较来评估模型适配性,强调不能仅依赖信息准则判断优劣。在“5.4. Simulation Study”中,通过设定两个标准正态协变量、固定真实回归系数并从过度离散分布生成响应变量,对PQGaD回归和经典泊松回归进行比较。结果显示,PQGaD回归模型对真实回归系数的估计更接近真实值,偏差和均方误差更小,且AIC、BIC更低,说明当响应变量存在过度离散时,该模型比经典泊松回归更适用。

在“6. Real Data Applications”部分,研究人员使用3个工程相关数据集验证模型的实际表现。在“6.1. Dataset 1: Power Grid Failure Counts”中,PQGaD在电网故障计数数据上的AIC、BIC最低,对数似然最高,卡方统计量、RMSE和KS统计量最小,表明其比其他模型更能捕捉故障计数中的额外变异性。在“6.2. Dataset 2: Environmental Sensor Event Counts”中,面对环境传感器事件计数数据,PQGaD同样在全部报告指标上表现最佳,显示其能够更准确地描述监测系统事件频数的波动特征。在“6.3. Dataset 3: Packet Loss Counts in Communication Networks”中,对于通信网络分组丢失计数,PQGaD再次取得最低AIC、BIC、卡方统计量、RMSE和KS统计量,尽管广义泊松和COM–泊松模型也较普通泊松分布有所改进,但综合表现仍不及PQGaD。在“6.4. Goodness-of-Fit Discussion”中,研究人员总结指出,普通泊松分布因等离散假设限制,在三组数据中表现最弱;负二项、泊松–Lindley、广义泊松和COM–泊松等模型虽有所提升,但PQGaD在拟合优度与模型简约性之间实现了更优平衡。尤其是AIC和BIC的持续下降表明,其性能提升并非仅由参数复杂化导致。在“6.5. Summary of the Applications”中,研究人员进一步确认,PQGaD对于具有聚类、未观测异质性或较重右尾的工程计数数据具有较高实用价值。

讨论部分的核心可概括为:PQGaD通过QGamma混合机制在单参数结构下实现了对过度离散、偏度和重尾行为的有效刻画,从理论性质、参数估计、回归扩展和真实数据应用等多个层面均表现出稳定而优越的性能。其优势不仅在于拟合能力优于多个经典和竞争模型,也在于保留了较强的解析可处理性和模型简约性,因此为复合离散分布家族增添了一个具有实际应用潜力的新成员。

研究结论部分可译为:本文引入了泊松–QGamma分布,作为一种用于过度离散计数数据的灵活单参数模型。该模型通过将泊松分布与QGamma分布复合而得到,从而获得了封闭形式的概率质量函数以及在解析上可处理的分布性质。研究人员推导了多种数学特征,包括累积分布函数、生存函数、风险率函数、阶乘矩、原始矩、中心矩、离散指数、偏度、峰度和Shannon熵。研究中考察了4种估计方法:极大似然法、矩估计法、最小二乘法和加权最小二乘法。蒙特卡罗模拟结果表明,极大似然估计和加权最小二乘估计通常具有最可靠的表现,尤其在RMSE意义下更为突出;模拟研究还确认,随着样本量增大,估计精度会提高。研究人员进一步构建了一个基于该分布、采用均值对数连接函数的回归模型,为响应变量存在过度离散时替代经典泊松回归提供了新方案,同时结合残差分析与图形拟合优度评价来检验模型适配性。真实数据应用表明,泊松–QGamma模型相较于标准计数模型能够提供有竞争力或更优的拟合。由于该模型在容纳过度离散、偏度和重尾行为的同时仍保持简约性,因此可作为复合离散分布家族中的有用补充。未来工作可进一步考虑零膨胀扩展、贝叶斯估计、多元推广以及在更广泛工程和生物医学计数数据中的应用。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号