综述：从显著到有意义：ATOM化性别差异与相似性研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Frontiers in Neuroendocrinology》：From significant to meaningful: ATOMizing the study of sex differences and similarities

【字体：大中小】 时间：2026年05月26日 来源：Frontiers in Neuroendocrinology 6.7

编辑推荐：

　　性别差异研究领域长期依赖一种隐含且有缺陷的启发式判断：将“差异”定义为两组平均值之间存在任何统计学显著性差距。这种做法产生的研究结果往往缺乏实用价值，甚至适得其反，无助于理解性别相关变异，也不利于推进个性化医疗的发展。遵循当前统计学共识，研究人员主张性别差异不

性别差异研究领域长期依赖一种隐含且有缺陷的启发式判断：将“差异”定义为两组平均值之间存在任何统计学显著性差距。这种做法产生的研究结果往往缺乏实用价值，甚至适得其反，无助于理解性别相关变异，也不利于推进个性化医疗的发展。遵循当前统计学共识，研究人员主张性别差异不应仅由显著性定义，而应依据情境依赖的标准，优先考虑信息的实用性。借鉴ATOM原则（接受不确定性、深思熟虑、开放透明、谦逊审慎），研究人员呼吁采用明确且经过论证的定义，并从关注组平均值转向关注有意义的个体变异。为阐释这一方法论与哲学层面的转变，研究人员引入了阈值优势概率（Thresholded Probability of Superiority, TPS）。该方法将性别差异视为概率分布，而非过度泛化的固定抽象概念。因此，TPS能够对性别相关变异提供更细致、更具相关性且可操作的理解，从而更有效地支持精准医疗的发展。

1.
引言：重新思考何为性别差异

性别差异研究在行为与生物医学科学中独具特殊性，其研究对象并非自然边界明确的实体，而是一种概念界定且统计建构出来的“差异”。然而，该领域极少反思“什么是性别差异”这一根本问题，而是默认采用简单启发式：若男性与女性的组平均值差异达到统计学显著性，即判定为存在性别差异。这种惯例存在根本缺陷：在统计学上，它源于对p值的普遍误读；在实践上，依赖平均值的结论往往不精确，对大量个体而言甚至是错误或虚假的；在社会层面，它可能强化刻板印象、加剧不平等并导致歧视。因此，研究人员认为必须重新审视“什么应被算作性别差异”，将研究重心从单纯检测差异是否存在，转向解释差异出现的频率及其实际意义，并提出了TPS这一新的统计方法。
2.
当前方法存在的问题

2.1 关于“显著”性别差异的问题

零假设显著性检验（Null Hypothesis Significance Testing, NHST）及其核心指标p值，常被误认为是科学有效性的基石，但在性别差异研究中已演变为一种“虚无仪式”。NHST检验的是“无差异”这一几乎必然为假的原假设，其结果高度依赖样本量：大样本会使微小且无意义的差异变得“显著”，小样本则可能遗漏重要效应。此外，p值仅反映数据与重复抽样下的原假设的兼容性，却被研究者错误地等同于效应存在的概率或实际重要性，陷入“量级谬误”。美国统计协会（American Statistical Association, ASA）已明确指出，科学结论不应仅凭p值是否跨越特定阈值（如p<0.05）来判定，机械的二分法会导致科学记录的严重扭曲。性别差异研究若继续仅以显著性作为定义差异的唯一标准，其学科基础将极其脆弱，且与当前统计学共识相悖。

2.2 使用组平均值作为性别相关群体代理的问题

除NHST外，对组平均值的过度依赖是另一大问题。算术平均值仅在数据服从正态分布且组间方差齐性时才具代表性，但这在实际研究中极难满足。平均值是一种抽象，往往会掩盖数据的变异性、偏态和分布形态，甚至无法代表群体中的任何一个体。比较两组平均值还存在辛普森悖论等风险，且当群体非随机分配（如性别类别）时，这种比较更容易产生误导性结论。这种“沙漏谬误”先将复杂个体数据简化为单一均值，抹杀组内异质性并制造二元对立假象，再将均值差异过度泛化至所有个体，常导致“男性与女性身高存在显著差异”这类忽略限定的绝对化表述，助长本质主义观念。正如古尔德所言，对平均值的滥用源于追求清晰本质的柏拉图传统，这阻碍了精准医疗从“一刀切”真正走向个体化。

2.3 摒弃当前默认做法的问题

摆脱对p值和平均值的依赖并非易事，这会让人感到失去了分析的根基。ASA虽呼吁放弃硬性阈值，但并未提供单一的替代方案，这造成了暂时的真空。然而，这正是转向更优实践的契机。研究人员提出应遵循ATOM原则：接受不确定性、深思熟虑地选择方法、开放透明地论证选择、谦逊审慎地传达结论。这意味着要摒弃将NHST和均值比较视为真理的机械做法，转而采用分布的方法论，关注个体层面的变异，从而使研究结果对个性化医疗和政策制定真正具有可操作性。

3.
迈向更好的方法：多条路径与一步迈进

3.1 引入基于阈值优势概率的方法

阈值优势概率（Thresholded Probability of Superiority, TPS）是为应对性别差异研究挑战而设计的方法，它体现了ATOM原则。与传统t检验不同，TPS不再询问“两组均值差是否为零”，而是询问“随机抽取一名男性和一名女性，他们之间存在有意义差异的可能性有多大？”。TPS与克里夫德尔塔（Cliff's delta）同属非参数方法，但基于预先设定的最小感兴趣效应量（Smallest Effect Size of Interest, SESOI）进行阈值化处理。它计算的是随机配对中，一组得分高于另一组的差值超过SESOI的概率。TPS不仅能估计效应量，还能通过双单侧检验（Two One-Sided Tests, TOST）程序进行等效性检验，验证差异是否在预设的等效界值内，从而避免只发表显著性结果的偏差。此外，TPS使用稳健的自举法p值，并将其转化为“惊奇值”（S-value）以提供更直观的证据度量，完全避免了机械的二分法判断。

3.2 TPS能提供什么：一个实例分析

以包含800名个体（男女各400）的BMI数据为例。传统t检验显示男女BMI均值差为0.66，未达显著性（p=0.080），常被解读为“男女BMI无差异”。但TPS分析揭示，若设定临床有意义的阈值为5个BMI单位，约45%-46%的男女配对存在此差异，且略倾向于男性（26%）高于女性（19%），但置信区间较宽，表明不确定性较高。若降低阈值至1个BMI单位，88%的配对存在差异；若提高至10个单位，则仅16%的配对存在差异，且此时可证实组间等效。进一步分析身高和体重数据发现，尽管t检验显示巨大的均值差异（效应量大），但在身高上，仅有约10%的配对差异接近均值差，6%的配对甚至方向相反（女高于男）；体重上，仅有约6%的配对差异接近均值差，23%的配对方向相反。这表明基于平均值的结论会严重误导对个体真实情况的认知。TPS强制研究人员预先定义何为“有意义”，量化了差异发生的频率，提供了更符合现实且可直接用于临床决策的个体层面信息。

4.
结论

性别差异研究若要真正促进精准医疗并避免强化刻板印象，必须进行范式重构。研究人员需承认性别差异是统计建构而非自然实体，当前基于显著性阈值和组平均值的定义在概念和实践上存在局限。不存在单一的替代方案，唯有依据ATOM原则，在具体研究情境中审慎定义何为有意义的差异。TPS作为一种具体方法，通过将差异视为分布而非单点，要求预先设定SESOI，量化个体层面的概率，从而提供了实用相关性、实现了ATOM化操作，并具有哲学与教学价值。最终，推进该领域需要拥抱性别相关变异的全部复杂性——多元、情境化且可被修正，这需要方法论、概念和文化层面的共同变革。

联系信箱：

粤ICP备09063491号

热点排行