综述:从显著到有意义:ATOM化性别差异与相似性研究

《Frontiers in Neuroendocrinology》:From significant to meaningful: ATOMizing the study of sex differences and similarities

【字体: 时间:2026年05月26日 来源:Frontiers in Neuroendocrinology 6.7

编辑推荐:

  性别差异研究领域长期依赖一种隐含且有缺陷的启发式判断:将“差异”定义为两组平均值之间存在任何统计学显著性差距。这种做法产生的研究结果往往缺乏实用价值,甚至适得其反,无助于理解性别相关变异,也不利于推进个性化医疗的发展。遵循当前统计学共识,研究人员主张性别差异不

  
性别差异研究领域长期依赖一种隐含且有缺陷的启发式判断:将“差异”定义为两组平均值之间存在任何统计学显著性差距。这种做法产生的研究结果往往缺乏实用价值,甚至适得其反,无助于理解性别相关变异,也不利于推进个性化医疗的发展。遵循当前统计学共识,研究人员主张性别差异不应仅由显著性定义,而应依据情境依赖的标准,优先考虑信息的实用性。借鉴ATOM原则(接受不确定性、深思熟虑、开放透明、谦逊审慎),研究人员呼吁采用明确且经过论证的定义,并从关注组平均值转向关注有意义的个体变异。为阐释这一方法论与哲学层面的转变,研究人员引入了阈值优势概率(Thresholded Probability of Superiority, TPS)。该方法将性别差异视为概率分布,而非过度泛化的固定抽象概念。因此,TPS能够对性别相关变异提供更细致、更具相关性且可操作的理解,从而更有效地支持精准医疗的发展。
  1. 1.
    引言:重新思考何为性别差异
    性别差异研究在行为与生物医学科学中独具特殊性,其研究对象并非自然边界明确的实体,而是一种概念界定且统计建构出来的“差异”。然而,该领域极少反思“什么是性别差异”这一根本问题,而是默认采用简单启发式:若男性与女性的组平均值差异达到统计学显著性,即判定为存在性别差异。这种惯例存在根本缺陷:在统计学上,它源于对p值的普遍误读;在实践上,依赖平均值的结论往往不精确,对大量个体而言甚至是错误或虚假的;在社会层面,它可能强化刻板印象、加剧不平等并导致歧视。因此,研究人员认为必须重新审视“什么应被算作性别差异”,将研究重心从单纯检测差异是否存在,转向解释差异出现的频率及其实际意义,并提出了TPS这一新的统计方法。
  2. 2.
    当前方法存在的问题
    2.1 关于“显著”性别差异的问题
    零假设显著性检验(Null Hypothesis Significance Testing, NHST)及其核心指标p值,常被误认为是科学有效性的基石,但在性别差异研究中已演变为一种“虚无仪式”。NHST检验的是“无差异”这一几乎必然为假的原假设,其结果高度依赖样本量:大样本会使微小且无意义的差异变得“显著”,小样本则可能遗漏重要效应。此外,p值仅反映数据与重复抽样下的原假设的兼容性,却被研究者错误地等同于效应存在的概率或实际重要性,陷入“量级谬误”。美国统计协会(American Statistical Association, ASA)已明确指出,科学结论不应仅凭p值是否跨越特定阈值(如p<0.05)来判定,机械的二分法会导致科学记录的严重扭曲。性别差异研究若继续仅以显著性作为定义差异的唯一标准,其学科基础将极其脆弱,且与当前统计学共识相悖。
2.2 使用组平均值作为性别相关群体代理的问题
除NHST外,对组平均值的过度依赖是另一大问题。算术平均值仅在数据服从正态分布且组间方差齐性时才具代表性,但这在实际研究中极难满足。平均值是一种抽象,往往会掩盖数据的变异性、偏态和分布形态,甚至无法代表群体中的任何一个体。比较两组平均值还存在辛普森悖论等风险,且当群体非随机分配(如性别类别)时,这种比较更容易产生误导性结论。这种“沙漏谬误”先将复杂个体数据简化为单一均值,抹杀组内异质性并制造二元对立假象,再将均值差异过度泛化至所有个体,常导致“男性与女性身高存在显著差异”这类忽略限定的绝对化表述,助长本质主义观念。正如古尔德所言,对平均值的滥用源于追求清晰本质的柏拉图传统,这阻碍了精准医疗从“一刀切”真正走向个体化。
2.3 摒弃当前默认做法的问题
摆脱对p值和平均值的依赖并非易事,这会让人感到失去了分析的根基。ASA虽呼吁放弃硬性阈值,但并未提供单一的替代方案,这造成了暂时的真空。然而,这正是转向更优实践的契机。研究人员提出应遵循ATOM原则:接受不确定性、深思熟虑地选择方法、开放透明地论证选择、谦逊审慎地传达结论。这意味着要摒弃将NHST和均值比较视为真理的机械做法,转而采用分布的方法论,关注个体层面的变异,从而使研究结果对个性化医疗和政策制定真正具有可操作性。
  1. 3.
    迈向更好的方法:多条路径与一步迈进
    3.1 引入基于阈值优势概率的方法
    阈值优势概率(Thresholded Probability of Superiority, TPS)是为应对性别差异研究挑战而设计的方法,它体现了ATOM原则。与传统t检验不同,TPS不再询问“两组均值差是否为零”,而是询问“随机抽取一名男性和一名女性,他们之间存在有意义差异的可能性有多大?”。TPS与克里夫德尔塔(Cliff's delta)同属非参数方法,但基于预先设定的最小感兴趣效应量(Smallest Effect Size of Interest, SESOI)进行阈值化处理。它计算的是随机配对中,一组得分高于另一组的差值超过SESOI的概率。TPS不仅能估计效应量,还能通过双单侧检验(Two One-Sided Tests, TOST)程序进行等效性检验,验证差异是否在预设的等效界值内,从而避免只发表显著性结果的偏差。此外,TPS使用稳健的自举法p值,并将其转化为“惊奇值”(S-value)以提供更直观的证据度量,完全避免了机械的二分法判断。
3.2 TPS能提供什么:一个实例分析
以包含800名个体(男女各400)的BMI数据为例。传统t检验显示男女BMI均值差为0.66,未达显著性(p=0.080),常被解读为“男女BMI无差异”。但TPS分析揭示,若设定临床有意义的阈值为5个BMI单位,约45%-46%的男女配对存在此差异,且略倾向于男性(26%)高于女性(19%),但置信区间较宽,表明不确定性较高。若降低阈值至1个BMI单位,88%的配对存在差异;若提高至10个单位,则仅16%的配对存在差异,且此时可证实组间等效。进一步分析身高和体重数据发现,尽管t检验显示巨大的均值差异(效应量大),但在身高上,仅有约10%的配对差异接近均值差,6%的配对甚至方向相反(女高于男);体重上,仅有约6%的配对差异接近均值差,23%的配对方向相反。这表明基于平均值的结论会严重误导对个体真实情况的认知。TPS强制研究人员预先定义何为“有意义”,量化了差异发生的频率,提供了更符合现实且可直接用于临床决策的个体层面信息。
  1. 4.
    结论
    性别差异研究若要真正促进精准医疗并避免强化刻板印象,必须进行范式重构。研究人员需承认性别差异是统计建构而非自然实体,当前基于显著性阈值和组平均值的定义在概念和实践上存在局限。不存在单一的替代方案,唯有依据ATOM原则,在具体研究情境中审慎定义何为有意义的差异。TPS作为一种具体方法,通过将差异视为分布而非单点,要求预先设定SESOI,量化个体层面的概率,从而提供了实用相关性、实现了ATOM化操作,并具有哲学与教学价值。最终,推进该领域需要拥抱性别相关变异的全部复杂性——多元、情境化且可被修正,这需要方法论、概念和文化层面的共同变革。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号