通过辅助信息增强有限总体参数估计:在体育教育与辐射安全中的应用

《Journal of Radiation Research and Applied Sciences》:Enhancing the finite population parameter estimation through auxiliary information: Applications in the physical education and radiation safety

【字体: 时间:2026年06月18日 来源:Journal of Radiation Research and Applied Sciences 2.5

编辑推荐:

  本研究提出一种基于指数-正弦(exponential-cum-sine)函数的新估计量,用于在简单随机不放回抽样(SRSWOR)下估计有限总体的累积分布函数(CDF)。该估计量将辅助信息机制与指数变换和正弦变换相结合,能够提高估计效率与精度。该估计量中两个联合

  
本研究提出一种基于指数-正弦(exponential-cum-sine)函数的新估计量,用于在简单随机不放回抽样(SRSWOR)下估计有限总体的累积分布函数(CDF)。该估计量将辅助信息机制与指数变换和正弦变换相结合,能够提高估计效率与精度。该估计量中两个联合优化的参数提供了更大的灵活性,并能够高效利用研究变量与辅助变量之间的关系。研究推导了所提估计量偏倚(bias)和均方误差(MSE) 的理论表达式,并利用一阶近似技术建立了其与现有估计量之间的效率解析比较。研究进一步采用实证研究与蒙特卡罗(Monte Carlo)模拟研究评估所提估计量的性能。实证分析使用了来自体育教育和辐射相关研究的真实数据,模拟研究则基于正态(Normal)、Gamma、对数正态(Log-normal)和指数(Exponential)分布总体,并考察不同样本量与相关结构。结果一致表明,与常用估计量、正弦比率估计量、乘积估计量、指数-正弦估计量、Rao 估计量以及 Yadav 等(2024)提出的估计量相比,所提估计量具有最小均方误差(MSE)和最大百分相对效率(PRE)。此外,结果还显示,随着研究变量与辅助变量之间正相关程度的增加,所提估计量的效率增益进一步提升。所提估计量在不同抽样情形与总体分布下也表现出优异的稳健性。基于此,研究认为,所提出的指数-正弦型估计量是调查抽样及其他应用统计领域中有限总体累积分布函数(CDF)估计问题的一种可靠、高效且具有实际应用价值的替代方案。
该文发表于《Journal of Radiation Research and Applied Sciences》,研究聚焦于有限总体累积分布函数(CDF)的高效估计问题,核心目标是在简单随机不放回抽样(SRSWOR)框架下,借助辅助信息提升总体分布函数估计的精度与稳健性。总体分布函数包含研究变量分布结构的完整信息,相较仅估计均值、比例等单一参数,CDF 估计能够更全面地刻画总体特征,因此在医学、环境科学、可靠性工程、质量控制以及应用调查统计中具有重要价值。然而,在实际调查中,研究者往往受限于成本、时间与总体清单可得性,只能通过样本推断总体分布。传统经验累积分布函数估计量虽然无偏且易于计算,但在存在高质量辅助信息时,其效率通常有限。既有文献已充分证明辅助变量可改善均值、总量与比例的估计,但针对有限总体 CDF 的辅助信息估计研究相对不足;现有比率型、乘积型、回归型、指数型和正弦型方法在函数结构上普遍较为固定,难以同时捕捉研究变量与辅助变量之间的单调关联和非线性偏离,也缺乏统一的双参数优化框架。正因如此,开展本研究具有明确必要性:一方面,它回应了有限总体 CDF 估计中“灵活性不足、优化能力有限、对复杂关系适应性不强”的方法学缺口;另一方面,它通过体育教育与辐射安全数据验证方法的跨学科适用性,体现了调查统计方法向真实复杂数据场景拓展的现实需求。

研究人员据此构建了一类新的指数-正弦型有限总体 CDF 估计量。该方法继承指数校正(exponential adjustment)的平滑、稳定特征,同时引入正弦变换(sine transformation)以增强对非线性与曲线型关系的适应能力,并通过两个可调权重参数 g1 与 g2 的联合优化,使估计量不再局限于单一固定函数形式。论文在理论层面推导了该估计量的一阶近似偏倚和均方误差表达式,并给出最优参数取值及最小 MSE;在比较层面,将其与常用经验 CDF 估计量、比率型与乘积型估计量、Bahl and Tuteja(1991)指数类估计量、Rao(1991)差值/回归型估计量以及 Yadav 等(2024)的广义比率类估计量系统比较,建立了所提估计量优于各竞争方法的解析条件;在应用层面,又结合真实数据与模拟数据验证其表现。论文得出的核心结论是:新估计量在理论分析、实证比较与模拟研究中均显示出更低的 MSE 和更高的 PRE,且随着研究变量与辅助变量正相关程度增强,其效率优势更加明显。该结论说明,将指数变换与正弦变换置于统一优化框架中,能够有效提升有限总体 CDF 估计的准确性、稳定性与适用范围。这一研究的重要意义在于,它为有限总体分布函数估计提供了一个兼具理论可证性和应用可行性的改进工具,也为调查抽样、应用统计、公共卫生、辐射科学与体育教育研究中的分布估计问题提供了新的方法学支持。

在方法上,研究主要采用以下关键技术路径。第一,在简单随机不放回抽样(SRSWOR)下,以有限总体 CDF 为目标参数,使用相对误差展开与一阶泰勒(Taylor)近似推导各类估计量的偏倚与均方误差。第二,构建带有 g1、g2 两个待优化权重的指数-正弦型估计量,并通过最小化一阶 MSE 获得最优参数。第三,采用真实数据与蒙特卡罗(Monte Carlo)模拟双重验证框架。真实数据来源于辐射安全与体育教育相关研究,共含 5 个总体;模拟研究构造 N=500 的超总体,借助 Gaussian copula(高斯 Copula)诱导相关结构,并设置正态、Gamma、对数正态和指数四类边际分布,在不同样本量与相关水平下比较 MSE 与 PRE。

在研究结果部分,论文首先通过“Some existing and adapted estimators”系统重述并改写了若干现有 CDF 估计方法。研究人员指出,常用 CDF 估计量(Usual CDF estimator)具有实现简单和无偏的优势,但效率有限;比率型与乘积型估计量(Ratio and product estimators)通过引入辅助变量信息提高精度,但依赖相关方向与函数形式设定;Bahl and Tuteja (1991) estimator 将指数调整引入 CDF 估计,可在高相关条件下降低偏倚与 MSE;Rao (1991) estimator 则通过差值/回归思想利用辅助变量与研究变量之间近线性关系提高效率;Yadav et al. (2024) Estimator 进一步使用辅助变量的已知总体参数构造广义比率结构。这一部分的作用不在于提出新结论,而在于为后续统一比较提供同一近似框架,并显示传统方法虽有改进,但大多仍受限于单一结构或有限优化能力。

在“Proposed estimator”部分,研究人员正式提出指数-正弦型新估计量。该估计量融合指数项的平滑单调修正和正弦项的非线性修正,通过加权加法结构而非单纯乘法结构实现更灵活的建模。研究使用相对误差表示和一阶泰勒展开对估计量进行代数化简,继而推导偏倚表达式与均方误差表达式,并进一步给出参数 g1、g2 的最优解及相应最小 MSE。由此得出的关键结论是,所提估计量不仅包含若干经典估计量作为特例或极限情形,而且在理论上可通过参数优化适配不同数据结构,体现出更高的一般性与灵活性。

在“Comparative performance study”部分,研究人员将新估计量与各竞争估计量的 MSE 表达式逐一比较,推导出其优于常用估计量 ?0、比率型估计量 ?1、乘积型估计量 ?2、指数-正弦比率与乘积类估计量 ?3 和 ?4、Rao 型估计量 ?5 以及 Yadav 型估计量 ?6 的条件。该部分结论表明,新估计量在统一的大样本近似框架下具备明确的理论优势,且这种优势与总体变异、相关程度及辅助信息质量密切相关。

在“Empirical evaluation on physical and radiation data”部分,研究人员使用 5 组真实总体开展实证检验。前 3 组数据与辐射处理薄荷包对药材甲(Stegobium paniceum)繁殖、世代时间等影响相关,后 2 组数据来自体育活动行为研究,以步行行为为研究变量,并分别以骑行行为和有氧运动行为作为辅助变量。结果显示,在 5 组数据中,所提估计量 ?? 的 MSE 分别为 0.00147、0.00253、0.00185、0.00414 和 0.00277,均显著低于其他所有估计量;其 PRE 分别达到 1600.00、984.80、1275.77、428.69 和 641.14,均为最高。由此可见,指数-正弦联合调整能够在辐射相关数据和体育教育数据中稳定提升有限总体 CDF 估计精度。论文在“Discussion of real-life data sets results”中进一步总结指出,这种优势说明所提变换结构能够有效捕捉研究变量与辅助变量之间的非线性关系,且在不同数据集上的一致表现支持其稳健性与实际可用性。

在“Simulation study”部分,研究人员为检验有限样本性质,构建了完整的蒙特卡罗模拟框架。研究在 N=500 的有限总体下,通过 Gaussian copula 控制 Y 与 X 的相关结构,并分别指定正态、Gamma、对数正态和指数边际分布;随后在固定相关水平下改变样本量,在固定样本量下改变相关程度,计算各估计量的 MSE 与 PRE。模拟结果显示,在四类总体、全部样本量和全部相关水平下,所提估计量 ?? 始终优于其他方法,其 PRE 大致位于 400 至 464 之间,明显高于 Rao 型估计量 ?5 与 Yadav 型估计量 ?6 的水平。随着样本量增大,所有估计量的 MSE 均下降,这与抽样理论一致;但即便如此,所提估计量仍保持显著领先。随着相关程度增强,其效率增益更加明显,说明该方法特别适合正相关较强的应用场景。与此同时,乘积型估计量在正相关总体中的较差表现也与经典理论相符。模拟部分的结论是:所提指数-正弦型估计量具有跨分布、跨样本量、跨相关结构的稳健优越性。

在讨论部分,论文强调,本研究的主要贡献不只是提出了一个新形式的估计量,更在于建立了一个可优化、可推广、可兼容经典方法的统一框架。研究结果表明,辅助信息一旦以适当方式进入 CDF 估计过程,能够显著降低估计误差;而同时使用指数与正弦两类变换,则较单一变换更能应对现实数据中的复杂依赖关系。论文也指出,所提方法的表现仍与辅助信息质量及数据结构有关,但从真实数据和模拟研究的双重证据看,其理论性质与应用效果高度一致。

研究结论部分可译为:本研究在简单随机不放回抽样(SRSWOR)下提出了一种新的有限总体累积分布函数(CDF)指数-正弦型估计量。通过在统一且可优化的框架中引入指数变换与正弦变换,该估计量能够高效利用辅助信息并提高估计准确性。所提估计量具有两个联合优化参数,这一点是传统比率型、乘积型、回归型或正弦型估计量所不具备的,因此它在不同数据结构和相关模式下具有更高的灵活性和适应性。研究基于一阶近似推导了其偏倚与均方误差等理论性质,并建立了其优于现有估计量的充分条件。实证分析和蒙特卡罗模拟均表明,该估计量在体育教育与辐射安全数据以及正态、Gamma、对数正态和指数总体中都取得最低 MSE 和最高 PRE。随着研究变量与辅助变量相关性的增强,其效率提升更为显著。总体而言,所提估计量在理论上成立、在实践中有效、在统计上高效,是有限总体 CDF 估计问题中一种有价值的方法学补充。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号