非自闭症顺性别及跨性别成年人中性别多样性与自闭症特征之间的关联：负面情绪与情感表达障碍的介观作用

《International Journal of Transgender Health》：Links between gender diversity and autism traits in non-autistic cisgender and transgender adults: Contributions of negative affect and alexithymia

【字体：大中小】 时间：2026年04月28日 来源：International Journal of Transgender Health 14.8

编辑推荐：

　　**摘要** **背景** 大多数关于自闭症与性别多样性（GD）的文献依赖自我报告的自闭症筛查问卷（例如，自闭症谱系指数；AQ-50），这些问卷可能检测到与自闭症不同的心理结构。 **目的** 在两项研究中，我们测试了非自闭症的顺性别和跨性别成年人中，GD特征或性别分类

　　**摘要**
**背景** 大多数关于自闭症与性别多样性（GD）的文献依赖自我报告的自闭症筛查问卷（例如，自闭症谱系指数；AQ-50），这些问卷可能检测到与自闭症不同的心理结构。

**目的** 在两项研究中，我们测试了非自闭症的顺性别和跨性别成年人中，GD特征或性别分类（顺性别/跨性别）与自闭症特征之间的联系是否反映了与情感表达障碍/负面情绪共有的变异。

**方法**
**研究1**（N=285名顺性别成年人）测量了自闭症特征（AQ-50）、情感表达障碍、负面情绪、感知到的歧视以及维度GD。
**研究2**（N=208人；104名跨性别和104名顺性别）主要测量了自闭症特征、情感表达障碍和负面情绪。通过分层回归分析，在纳入其他测量变量之前和之后，测试了维度GD（研究1）和跨性别身份（研究2）是否能够预测AQ-50分数。此外，（a）中介分析探讨了情感表达障碍、负面情绪与自闭症特征之间的相互作用；（b）回归分析测试了维度GD或跨性别身份是否能够预测“自闭症特异性”的AQ-50变异；（c）在研究2中，根据情感表达障碍和负面情绪对群体进行了匹配，并使用独立t检验测试了AQ-50的差异。

**结果** 无论是维度GD指标（研究1）还是跨性别身份（研究2）都预测了较高的自闭症特征分数，但加入情感表达障碍和负面情绪后，这些预测效应消失了。中介分析显示情感表达障碍和负面情绪与自闭症特征之间存在部分双向关联。重要的是，在研究1中，维度GD并未预测AQ-50上的自闭症特异性变异，在研究2中，跨性别身份的预测效应在匹配群体后也消失了。

**讨论** 在非自闭症的顺性别和跨性别人群中，考虑到情感表达障碍和负面情绪后，维度GD或跨性别身份与自我报告的自闭症特征之间的关联变得不显著。这些发现提醒我们不要从筛查总分中推断出自闭症的特异性联系。临床上，仅凭非自闭症跨性别人群中升高的自闭症特征不应作为决策依据。

**关键词**
自闭症筛查工具；跨性别；内化症状；情绪意识；交叉点

**引言**
性别多样性（GD）包括与出生时分配的性别规范不同的身份/表达方式，包括跨性别和非二元身份（Coleman等人，引用2022年），有时伴随着性别焦虑（对出生时分配的性别与实际体验的性别不符的显著困扰；APA，引用2022年）。过去十年中，大量研究支持GD与自闭症谱系障碍（ASD）之间存在关联，元分析表明，在性别多样性人群中，自闭症的诊断率大约是普通人群的11倍（Kallitsounaki & Williams，引用2023a）。尽管自闭症和性别多样性经常以分类术语讨论（即自闭症与非自闭症；顺性别与性别多样性），但它们也可以基于连续/维度的方式衡量，因为与自闭症和性别多样性相关的特征在整个人群中都有分布（例如，Constantino & Todd，引用2003年；Ehrensaft，引用2018年）。

**脚注**
目前，存在几种衡量维度性别多样性的工具，包括性别认同/焦虑问卷（GIDYQ；Deogracias等人，引用2007年）和性别自我报告问卷（GSR；Strang等人，引用2023年），这些工具都被认为广泛地衡量了性别多样性。同样，也存在多种自闭症筛查工具来测量自闭症特征，其中最常用的是自闭症谱系指数（AQ-50；Baron-Cohen等人，引用2001年），特别是在研究GD-Autoism交叉点的成人病例对照研究中（13项研究中有11项使用了AQ）。AQ是一个包含50个项目的问卷，旨在通过自我报告来测量成人的自闭症特征，以及通过家长报告来测量青少年的自闭症特征（Baron-Cohen等人，引用2006年）和儿童的自闭症特征（Auyeung等人，引用2008年）。使用自闭症筛查工具（如AQ）的研究一致报告，在转诊到性别专科诊所的儿童、青少年和成人中，自闭症特征的比例高于对照组（例如，Akgül等人，引用2018年；David等人，引用2025年；Heylens等人，引用2018年；Huisman等人，引用2026年；Leef等人，引用2019年；Nobili等人，引用2018年；?zel等人，引用2025年；Skagerberg等人，引用2015年；van der Miesen等人，引用2018年；Vermaat等人，引用2018年；但参见Pasterski等人，引用2014年）。由于自闭症在性别诊所样本中的比例较高（Kallitsounaki & Williams，引用2023a），大多数比较性别转诊个体与顺性别对照组的研究可能包括了自闭症参与者。然而，这些研究大多没有报告或控制自闭症诊断。因此，性别转诊样本中自闭症特征分数的升高可能是由于包括了自闭症个体，而不是反映了与性别多样性本身相关的更高自闭症特征。

**补充证据**
来自仅限顺性别样本的进一步证据表明，当前表现出性别焦虑的个体也表现出更多的自闭症特征（Kallitsounaki等人，引用2021年；Kallitsounaki & Williams，引用2020a，引用2022年[补充信息]）。换句话说，具有较高性别焦虑特征的顺性别人也报告了更多的自闭症特征。虽然自闭症特征与性别多样性之间的这种关联可能非常重要，但在缺乏适当金标准临床评估的情况下，基于筛查工具得出的结论应谨慎对待。这是因为筛查工具（如AQ）对与其他心理结构和状况相关的特征敏感，从而降低了其对自闭症的特异性。

**一方面**，自闭症筛查工具（包括AQ）通常具有足够的心理测量属性（例如内部一致性和重测信度），并且在广泛比较中能够区分自闭症和非自闭症样本（例如，Lundqvist & Lindner，引用2017年；Pehlivanidis等人，引用2025年；Yoshinaga等人，引用2023年；综述见Ruzich等人，引用2015年）。**另一方面**，正因为它们是筛查工具，它们的区分有效性往往不足以将自闭症与其他状况或这些状况中的常见特征区分开来（例如，Cholemkery等人，引用2014年；South等人，引用2017年）。例如，Ashwood等人（引用2016年）评估了476名接受自闭症诊断评估的成年人，发现AQ分数并不能预测患者是否被诊断为自闭症。相反，较高的AQ分数预测了焦虑症的诊断，作者因此得出结论：“广泛性焦虑症可能‘模仿’自闭症并提高AQ分数，导致假阳性”（第2595页）。其他研究发现，AQ在区分自闭症与精神分裂症谱系障碍（Wouters & Spek，引用2011年）和注意力缺陷多动障碍（Sizoo等人，引用2009年）方面表现不佳。除了临床诊断，AQ分数还与焦虑和抑郁症状有很强的相关性（例如，Galvin等人，引用2022年；Romano等人，引用2014年）。

**所有这些因素都令人担忧**，即非自闭症人群中性别多样性与自闭症特征之间的所谓关联（通过筛查工具衡量）可能反映了GD与伴随自闭症出现的特征/状况（如焦虑/抑郁）之间的关联，而不仅仅是自闭症本身。这种担忧不仅仅基于对测量间统计相关性的认识，还基于广泛认可的理论框架，这些框架使得这种关联显得合理。例如，少数群体压力理论提出，暴露于与污名相关的压力源会导致性别（和性）少数群体中出现更高的心理困扰和焦虑抑郁水平（例如，Chodzen等人，引用2019年；Meyer，引用2003年）。因此，当自闭症筛查工具（如AQ-50）已知与负面情绪共变时（例如，Romano等人，引用2014年；White等人，引用2023年），理论上性别相关变量与AQ-50之间的关联可能部分是由与内化症状共有的变异驱动的，而不仅仅是自闭症特异性特征变异。这是因为AQ-50的某些项目并不专门针对自闭症机制。例如，一些项目涉及 experiences 和行为（如社交退缩/不适、高度自我监控和减少的社交参与），这些也可能由内化症状和长期压力引起，增加了与自闭症无关的原因对这些项目的认同。实际上，Turban和van Schalkwyk（引用2018年，第8页）正是这样认为的：“越来越多的人认识到，这类筛查工具对ASD并不具有特异性，患有其他情绪或行为问题的青少年在没有ASD的情况下也会有更高的分数。具有GD的青少年预期会有更高的分数，因为这个群体已知有较高的内化心理病理率。”

同样，社区研究也发现跨性别和非二元群体中的自闭症特征高于对照组（Kung，引用2020年；Stagg & Vincent，引用2019年），但往往无法排除其中包含被诊断出自闭症的参与者的可能性。即便如此，控制自闭症诊断或只包含非自闭症GD参与者的研究仍然报告了比非自闭症顺性别群体更高的自闭症特征（English等人，引用2025年；Hendriks等人，引用2022年；Kallitsounaki & Williams，引用2022年；Murphy等人，引用2020年；Warrier等人，引用2020年）。

我们的研究还包括了一个情感表达障碍的测量指标，因为情感表达障碍是一种以难以识别和描述个人内在情绪状态为特征的特征/状况（Nemiah等人，引用1976年；Sifneos，引用1973年），它与自闭症有关（例如，元分析见Kinnaird等人，引用2019年），但也可以与之区分（例如，Bernhardt等人，引用2014年；Cuve等人，引用2022年；Yorke等人，引用2025年）。许多研究还观察到在性别多样性成年人中情感表达障碍特征的升高（例如，Kallitsounaki & Williams，引用2023b；Kessler等人，引用2006年；Mazzoli等人，引用2022年）。在跨性别和性别多样性人群中，对内部身体线索的关注和评估可能与性别焦虑和对少数群体压力的创伤反应交织在一起。因此，当AQ-50已知与情感表达障碍共变时（例如，Nicholson等人，引用2019年；Shah等人，引用2016年），理论上性别相关变量与AQ-50分数之间的关联可能部分是由与情感表达障碍相关的变异驱动的，而不仅仅是自闭症特异性特征变异。同样，一些AQ-50项目需要自我参照的情绪处理，而识别和描述情绪的困难可能会增加对某些项目的认同，即使自闭症特异性特征并未升高。本文通过两项研究探讨了这些问题。

**研究1**中，285名非自闭症的顺性别成年人完成了AQ-50（Baron-Cohen等人，引用2001年），以及焦虑、抑郁和压力的测量（抑郁焦虑压力量表-21 [DASS-21；Henry & Crawford，引用2005]）、情感表达障碍（多伦多情感表达障碍量表-20 [TAS-20；Bagby等人，引用1994]）、日常歧视经历（日常歧视量表 [EDS；Williams等人，引用1997]），以及两种维度性别多样性的测量：GIDYQ（Deogracias等人，引用2007年）用于衡量性别焦虑特征，以及GSR（Strang等人，引用2023年）用于衡量二元和非二元性别多样性体验。选择GIDYQ主要是为了与现有的自闭症-性别文献进行比较，因为它是目前最广泛用于成人一般人群个体差异研究的性别多样性测量工具（例如，George & Stokes，引用2018年；Kallitsounaki & Williams，引用2020a）。然而，GIDYQ仅衡量了性别多样性的一个方面，即性别焦虑特征。重要的是，并非所有具有性别多样性体验的人都会报告与出生时分配的性别相关的困扰。因此，研究1还包括了GSR，它涵盖了非二元和二元性别多样性体验。与GIDYQ不同，GSR关注的是那些确认性和带来舒适感的性别相关特征、体验和目标。GSR也是使用参与式方法开发的，并已在自闭症和非自闭症个体以及性别多样性和顺性别人群中得到了验证（Strang等人，引用2023年）。

**为什么我们在研究1中包括了非自闭症的顺性别样本？** 尽管我们的目的是为了更深入地了解自闭症与性别多样性之间的联系，但上文讨论中提到，支持性别多样性-自闭症交叉点的证据有一部分来自顺性别或一般人群样本的个体差异研究，而不是来自跨性别和性别多样性参与者样本。在这些文献中，自闭症是以维度方式操作化的（例如，通过AQ-50分数）。同样，“性别多样性”通常也是通过连续的性别相关特征以维度方式操作化的，以反映即使是类别上的顺性别个体在行为、舒适度、兴趣或身份方面也存在差异（例如，Jacobson & Joel，引用2018年；Sandfort等人，引用2021年；Tabler等人，引用2021年）。这种维度的性别差异本身也与自闭症特征相关（维度），即较少的性别一致性/典型性与更多的自闭症特征相关（例如，Kallitsounaki等人，引用2021年；Kallitsounaki & Williams，引用2020a，引用2020b；Munoz Murakami等人，引用2022年；van Der Miesen等人，引用2024年）。因此，研究1旨在直接评估在减少潜在混杂因素的条件下（即仅包括非自闭症参与者，并测量和解释关键协变量）的这部分性别多样性-自闭症交叉点证据。当然，应谨慎对待不能假设顺性别人群中的性别变异研究结果必然适用于跨性别和性别多样性人群。出于这个原因，我们在研究2中采用了病例对照设计，以探讨跨性别群体与顺性别群体之间的相同问题。在研究2中，一个独立的社区样本共208名非自闭症成年人完成了AQ-50、TAS-20、DASS-21问卷以及基于DSM-5标准设计的性别焦虑特质自我报告量表（Kennedy等人，Citation2021）的测量。

**研究1：方法**

共有347名参与者完成了这项研究。要符合参与条件，参与者必须位于英国，没有临床自闭症诊断，并且认同与出生时被分配的性别相符的性别。为了确保数据质量，进行了两次注意力检查。未能通过注意力检查的参与者（n=24）、报告有自闭症诊断的参与者（n=26）、认同性别多样性的人（n=9）或未报告其性别类别的参与者（n=3）被排除在外。最终样本包括285名非自闭症顺性别参与者（其中85.96%在出生时被分配为女性）。他们的平均年龄为20.11岁（标准差=4.84岁，范围=17–64岁）。在种族方面，60%的参与者是白人，20.35%是黑人，11.58%是亚洲人，4.91%是混血人，3.17%来自其他种族背景。

参与者通过研究参与计划在线招募（n=266名本科心理学学生）以及通过在数据收集研究人员的社会和专业网络上传播研究信息从一般人群中招募（n=19名）。本科生通过完成部分研究任务获得课程学分，而一般人群的参与者没有获得任何补偿。所有参与者都提供了数字形式的知情同意书，该研究获得了肯特心理学研究伦理委员会的批准（编号：202417309076429326）。

**测量工具和程序**

- **青少年和成人性别身份/性别焦虑问卷（GIDYQ）**：GIDYQ是一种自我报告的性别焦虑特质测量工具（Deogracias等人，Citation2007）。它包含27个关于参与者对出生时被分配的性别和实际体验的性别的情感、愿望、想法和行为的自我参照语句（例如，“在过去12个月里，你是否对自己是女性感到不满？”）。参与者使用5点量表对每个条目进行回答，范围从“从不说”到“总是”。该问卷有两个版本，一个适用于出生时被分配为男性的个体，另一个适用于出生时被分配为女性的个体。较低的平均分数表示更多的性别焦虑特质。

- **性别自我报告（GSR）**：GSR是一种自我报告的性别身份测量工具（Strang等人，Citation2023）。它包含30个自我参照语句（例如，“我希望人们把我看作男性”），参与者使用4点量表对每个语句进行评分，范围从“从来不真实”到“总是真实”。GSR包含两个维度：(a) 女性-男性连续体（FMC）量表，用于衡量二元性别体验；(b) 非二元性别多样性（NGD）量表，用于衡量对非二元性别或超出二元类别的性别认同。FMC得分越高表示对女性特征的认同度越高，对男性特征的认同度越低；NGD得分越高表示非二元性别认同度越强。

- **按照Strang等人（Citation2023）的方法，FMC和NGD得分被转换为0到1的范围。然后根据FMC和出生时被分配的性别计算出二元性别多样性（BGD）得分。BGD是参与者性别身份与出生时被分配的性别之间的主要差异指标。FMC提供方向性信息（女性 vs 男性）。因此，对于出生时被分配为女性的参与者，BGD得分等于1减去FMC；对于出生时被分配为男性的参与者，BGD得分等于FMC。因此，出生时被分配为男性且BGD得分高的参与者表现出较高的女性特征，而出生时被分配为女性且BGD得分高的参与者表现出较高的男性特征。需要明确的是，较高的BGD得分表示与出生时被分配的性别不同的二元性别的特征更一致，并不意味着参与者一定认同该性别。在本研究中，主要使用BGD和NGD量表得分作为GSR变量。**

- **自闭症谱系商数（AQ-50）**：AQ-50是一种自我报告的自闭症特质测量工具（Baron-Cohen等人，Citation2001）。它包含50个自我参照语句（例如，“我很难想象成为另一个人会是什么感觉”），参与者使用4点量表进行评分，范围从“完全同意”到“完全不同意”。表明自闭症特征的回答得分为1，非自闭症特征的回答得分为0。得分范围从0到50，分数越高表示自闭症特征越明显。

- **托伦多表达困难量表（TAS-20）**：TAS-20是一种自我报告的表达困难测量工具（Bagby等人，Citation1994）。它包含20个关于参与者对自己身体感觉和情绪的认知和描述能力的自我参照条目（例如，“我很难描述我对别人的感受”）。参与者使用5点量表表示他们对每个语句的同意程度，范围从“完全不同意”到“完全同意”。总得分范围从20到100，分数越高表示表达困难越严重。

- **抑郁焦虑压力量表-21（DASS-21）**：DASS-21是一种自我报告的负面情绪测量工具（Henry & Crawford，Citation2005）。它包含21个项目，涉及抑郁（例如，“我觉得自己没有任何值得期待的事情”）、焦虑（例如，“我无缘无故感到害怕”）和压力（例如，“我很难放松”）。参与者使用4点量表评估每个项目在过去一周内的适用程度，范围从“完全不适用于我”到“非常适用于我或大部分时间都适用”。根据原始评分指南，总分乘以2以匹配原始的DASS-42量表。最终总分范围从0到126，分数越高表示负面情绪越严重。

- **日常歧视量表（EDS）**：EDS是一种自我报告的感知歧视经历的测量工具（Williams等人，Citation1997）。它包含9个项目（例如，“人们表现得好像他们认为你不聪明”），参与者使用6点量表评估这些事件发生的频率，范围从“从未”到“几乎每天”。较高的平均分数表示更多的日常歧视经历。

所有测量工具都是通过Qualtrics在线完成的。

**统计分析**

数据经过筛查，未发现缺失数据。在所有后续分析中，都检查了相关假设，并且大部分假设都得到了满足。当假设被违反时，会在相关分析中明确指出，并说明如何处理这个问题。

进行了三次独立的层次回归分析。在每次回归中，AQ-50总分为因变量，年龄和出生时被分配的性别作为第一步的预测变量，TAS-20、DASS-21和EDS得分作为第三步的预测变量。不同之处在于第二步使用的性别多样性测量指标。具体来说，回归1使用GIDYQ作为第二步的预测变量，回归2使用BGD，回归3使用NGD。对于每次分析，我们报告了解释方差（R2）、解释方差的变化（ΔR2）、标准化（β）和非标准化（B）系数，以及标准误差和95%置信区间。标准化系数（β）被解释为皮尔逊r相关系数（.10、.30、.50分别代表小、中等和大的效应）（Cohen，Citation1988）。

为了探讨表达困难、负面情绪和自闭症特征之间的相互作用，进行了两次探索性中介分析。在第一项分析中，我们研究了表达困难（M）是否中介负面情绪（X）和自闭症特征（Y）之间的关系。在第二项分析中，我们研究了负面情绪（M）是否中介表达困难（X）和自闭症特征（Y）之间的关系。分析使用SPSS中的PROCESS v4.2软件进行，非标准化的间接效应使用5,000个自助样本估算。

接下来，我们探讨了在初步回归分析中发现的自闭症特征（AQ-50）与性别相关测量指标（GIDYQ平均得分；GSR上的BGD得分；GSR上的NGD得分）之间的关联是否独立于与表达困难（TAS-20）和负面情绪（DASS-21）共享的方差。为此，将AQ-50总分对TAS-20和DASS-21进行回归，以获得反映AQ-50特有的自闭症方差，这些方差独立于与TAS-20和DASS-21共享的方差。然后，将这种AQ特有的方差作为三个独立线性回归的因变量，每个回归分别以一个性别相关变量以及出生时被分配的性别作为预测变量。

需要明确的是，“自闭症特有的方差”是指在消除了与这些协变量相关的方差后的AQ-50得分方差。这并不保证剩余的AQ得分方差一定唯一且特定地反映了自闭症特征，而只是衡量了与相关但可分离的构念共享的方差无关的AQ方差。因此，在当前研究中，我们通过两种方式估计了这种自闭症特有的方差。首先，我们建立了回归模型，显示了在包含协变量之前和之后AQ得分对性别相关因变量的预测效应。其次，我们使用残差化的AQ-50得分（即与协变量无关的AQ方差）作为预测变量进行了额外的回归分析。

还进行了贝叶斯分析，以评估支持备择假设相对于零假设的相对证据（例如，Dienes，Citation2014）。贝叶斯因子（BF10 > 1）表示对备择假设的支持增加（BF10 > 1、> 3、> 10、> 30、> 100分别表示传闻性、实质性、强烈、非常强和决定性的证据支持H1），而小于1的贝叶斯因子表示对零假设的支持增加（BF10 < 1、< 0.33、< 0.10、< 0.03、< 0.01分别表示传闻性、实质性、强烈、非常强和决定性的证据支持H0）。所有贝叶斯分析使用R（版本4.3.3；R Core Team，Citation2024）和JASP 0.19.3（JASP team，Citation2025）进行。

最后，应匿名审稿人的要求，并为了透明性，我们报告了在排除AQ-50得分≥32的参与者（n=28）后的探索性敏感性分析结果（见补充材料），因为任何得分超过此阈值的参与者被认为具有临床显著的自闭症特征（Baron-Cohen等人，Citation2001）。然而，我们从完整样本的结果（排除AQ-50得分≥32的参与者之前）进行解释，有几个原因。首先，区分自闭症诊断和自闭症特征得分很重要。研究1中的所有参与者都报告称他们没有正式的自闭症诊断。我们之前对案例对照研究的批评集中在没有测量性别多样性临床样本中的正式自闭症诊断上，而在这些样本中，被诊断的自闭症患者比例过高。相比之下，AQ-50是一个连续的自我报告特征测量工具，超过阈值的得分既不表示诊断结果，也不预示需要全面诊断评估的成年人的自闭症诊断（Ashwood等人，Citation2016）。因此，排除高AQ得分者并不等同于排除被诊断为自闭症的参与者。其次，这样的排除会截断特征分布，从而由于统计功效降低而削弱关联（例如，Zimmermann等人，Citation2017）。因此，为了符合研究的维度方法，我们在主要分析中保留了AQ-50得分的完整范围，以估计性别相关特征方差与自闭症特征连续体之间的关系。

**研究1：结果**

研究变量的描述性统计数据和相关性分别显示在表1和图1中，每次层次回归的结果显示在表2中。每个GD特征指数（GIDYQ、GSR-BGD、GSR-NGD）在第二步中的预测作用均提高了AQ-50（ΔR2 = .01–.04；跨回归提高了1–4%）。加入TAS-20和DASS-21（以及EDS）后，增益显著更大（ΔR2 = .24–.26；跨回归提高了24–26%），并且在任何回归中GD的预测效应都不再显著（表2）。在标准化术语中，DASS-21或TAS-20中+1标准差的变化分别对应于AQ-50中的+0.48标准差和+0.46标准差（总效应；见图2）。因此，一旦将述情障碍和负面情感纳入模型，性别焦虑特征、二元性别多样性与非二元性别多样性与自闭症特征之间的关联就不再明显了。图1显示了研究1的相关性热图。注意：N=285。请注意，DASS-21、GIDYQ、BGD和NGD并未呈正态分布。然而，皮尔逊相关系数对正态性假设的违反具有较高的鲁棒性，尤其是在较大样本中（Edgell & Noon, 1984; Ghasemi & Zahediasl, 2012; Havlicek & Peterson, 1976）。因此，没有对数据进行任何转换或调整。所有涉及GIDYQ（得分低表示更多性别焦虑特征）的相关性均为负值，但在图中显示为正值以便于可视化。GIDYQ=性别身份/性别焦虑问卷；BGD=二元性别多样性；NGD=非二元性别多样性；AQ-50=自闭症谱系商数-50；TAS-20=多伦多述情障碍量表-20；DASS-21=抑郁焦虑压力量表-21；EDS=日常歧视量表。*p < .05；**p < .01；***p < .001。aBF10 < 1；bBF10 > 1；cBF10 > 3；dBF10 > 10；eBF10 > 30；fBF10 > 100。放大查看图2。研究1的中介分析结果显示，DASS-21通过TAS-20对AQ-50有总效应（c：b = 0.13，SE = 0.01）和间接效应（a：b = 0.27，SE = 0.02；b：b = 0.17，SE = 0.04）。也存在从DASS-21直接到AQ-50的路径（c'：b = 0.09，SE = 0.02）。同样，TAS-20也有总效应（c：b = 0.28，SE = 0.03）和通过DASS-21的间接效应（a：b = 1.31，SE = 0.11；b：b = 0.09，SE = 0.02）。所有路径都标有系数和显著性指标。表1提供了研究1中关键变量的描述性统计信息。表2展示了研究1中自闭症特征的层次回归结果。探索性分析表明，述情障碍（TAS-20）介导了负面情感（DASS-21）与自闭症特征（AQ-50）之间的关系。根据主回归分析，DASS-21对AQ-50的总效应显著。DASS-21预测了TAS-20（a路径），TAS-20又预测了AQ-50（b路径）。在考虑了TAS-20的中介作用后，DASS-21对AQ-50的直接影响仍然显著，DASS-21每增加1个标准差，AQ-50增加0.33个标准差（调整后，而调整前为+0.48个标准差）。间接效应也显著，b = 0.04，SE = 0.01，95%置信区间[0.02, 0.07]，表明部分中介作用。总体而言，DASS-21对AQ-50的31%效应由TAS-20中介。图4显示了负面情感（DASS-21）是否介导了述情障碍（TAS-20）与自闭症特征（AQ-50）之间的关系。TAS-20对AQ-50的总效应显著。TAS-20预测了DASS-21（a路径），DASS-21又预测了AQ-50（b路径）。在考虑了DASS-21的中介作用后，TAS-20对AQ-50的直接影响仍然显著，TAS-20每增加1个标准差，AQ-50增加0.28个标准差（调整后，而调整前为+0.46个标准差）。间接效应也显著，b = 0.11，SE = 0.03，95%置信区间[0.07, 0.17]，表明部分中介作用。总体而言，TAS-20对AQ-50的39%效应由DASS-21中介。中介分析证实，TAS-20和DASS-21都能独立预测自闭症特征，但它们与AQ-50的关联部分反映了共同变异。敏感性分析显示，TAS-20和DASS-21共同解释了AQ-50分数中28%的变异，剩余72%的变异是与述情障碍和负面情感无关的自闭症特异性变异。一系列线性回归研究表明，没有性别相关变量能独立于TAS-20和DASS-20解释AQ-50的变异。这些结果表明，一旦去除了TAS-20和DASS-20共有的AQ-50变异，性别焦虑特征、二元性别多样性和非二元性别多样性与自闭症特异性变异之间的关联就不显著了。图3展示了TAS-20和DASS-21解释的AQ-50分数变异组成部分。这种饼图说明了AQ-50的变异成分，“AQ-50”位于中心。最大的部分（72%）是浅灰色的，代表独特的自闭症特异性变异。接下来的部分（17%）是深灰色的，表示由TAS-20和DASS-21共同解释的变异。接下来的中等浅灰色部分（6%）表示仅由DASS-21解释的变异，最小的深灰色部分（5%）表示完全由TAS-20解释的变异。每个部分都标有其相应的百分比，直观地表示了对AQ-50变异的贡献。c路径系数代表了DASS-21（a）或TAS-20（b）对AQ-50的总效应。c-prime路径系数指的是DASS-21（a）或TAS-20（b）对AQ-50的直接效应。所有分析的路径都具有显著性。*** p < .001

阅读该图的详细描述：该图展示了两个中介模型面板（a和b），使用矩形框和方向箭头来说明DASS-21、TAS-20和AQ-50之间的关系。面板a显示了DASS-21对AQ-50的总效应（c = 0.12，SE = 0.02）以及通过TAS-20的间接效应（a: b = 0.24，SE = 0.03；b: b = 0.24，SE = 0.04）。同时，还存在从DASS-21到AQ-50的直接路径（c': b = 0.12，SE = 0.02）。面板b展示了TAS-20对AQ-50的总效应（c = 0.33，SE = 0.04），以及通过DASS-20的间接效应（a: b = 1.24，SE = 0.13；b: b = 0.08，SE = 0.02）。同样，也存在从TAS-20到AQ-50的直接路径（c': b = 0.24，SE = 0.04）。所有路径都标有系数和显著性指标。

图4(b)显示了负面情绪（DASS-21）是否介导了述情障碍（TAS-20）与自闭症特征（AQ-50）之间的关系。TAS-20对AQ-50的总效应具有显著性。TAS-20可以预测DASS-21（a路径），而DASS-21又可以预测AQ-50（b路径）。在考虑了DASS-21的中介作用后，TAS-20对AQ-50的效应仍然显著（直接效应），TAS-20每增加1个标准差，AQ-50增加0.37个标准差（调整前为+0.51个标准差）。间接效应也具有显著性，b = 0.09，SE = 0.03，95%置信区间[0.04, 0.16]，表明存在部分中介作用。总体而言，TAS-20对AQ-50的效应中有27%是通过DASS-21介导的。

作为后续的敏感性分析，我们根据负面情绪和述情障碍对组别进行了匹配，并进行了独立的t检验，以检查在未匹配样本中观察到的跨性别者与顺性别者在自闭症特征上的差异是否在匹配样本中依然存在（见表5）。一旦根据负面情绪和述情障碍进行了匹配，之前跨性别者和顺性别者在自闭症特征上的显著差异就不再显著。

接下来，进行了线性回归分析，以考察性别方式（顺性别者/跨性别者）是否能够解释AQ-50中剩余的自闭症特异性方差。TAS-20和DASS-21共同解释了AQ-50分数中32%的方差，剩下68%的方差与述情障碍和负面情绪无关（与研究1的结果非常相似；见图5）。回归分析显示，性别方式并不是AQ-50剩余分数的显著预测因素（p = .334，BF10 = 0.23；详见表S4），这表明在排除了与TAS-20和DASS-21共有的方差后，顺性别者和跨性别者在自闭症特征上的水平相似。

这个甜甜圈图表展示了AQ-50的方差组成，“AQ-50”标记在中心。最大的部分（68%）是浅灰色的，代表独特的自闭症特异性方差。接下来的部分（17%）是深灰色的，表示由TAS-20和DASS-21共同解释的方差。之后是中等的深灰色部分（10%），表示仅由TAS-20解释的方差，最小的浅灰色部分（5%）表示仅由DASS-21解释的方差。每个部分都标有其对应的百分比，直观地展示了它们对AQ-50方差的贡献。

在两项研究中，使用独立样本和多种性别多样性的操作化方法，我们观察到了了一致的发现模式。在研究1中，我们复制了多项研究结果，显示了非自闭症顺性别者在维度性别多样性和维度自闭症特征之间的关联。然而，一旦考虑了述情障碍和负面情绪，这些关联就不再明显。在研究1（顺性别者社区样本）中，每个性别多样性测量指标（GIDYQ和GSR）在考虑了年龄和出生时分配的性别效应后，都能预测AQ-50分数（ΔR2 = 1-4%）。但是，加入述情障碍（TAS-20）和负面情绪（DASS-21）以及感知到的日常歧视（EDS）后，解释的方差增加了很多（ΔR2 = 24-26%）。在考虑了这一额外方差后，每个性别多样性指标作为AQ-50分数的预测因素都不再显著。

总体讨论：在两项研究中，我们使用独立样本和多种性别多样性的操作化方法，观察到了一致的发现模式。在研究1中，我们复制了多项研究结果，显示了非自闭症顺性别者在维度性别多样性和维度自闭症特征之间的关联。然而，一旦考虑了述情障碍和负面情绪，这些关联就不再明显。在研究1中（顺性别者社区样本），每个性别多样性测量指标在考虑了年龄和出生时分配的性别效应后，都能预测AQ-50分数（ΔR2 = 1-4%）。然而，加入述情障碍（TAS-20）和负面情绪（DASS-21）以及感知到的日常歧视（EDS）后，解释的方差增加了很多（ΔR2 = 24-26%）。在考虑了这一额外方差后，每个性别多样性指标作为AQ-50分数的预测因素都不再显著。

在两项研究中，我们使用了独立样本和多种性别多样性的操作化方法，观察到了一致的发现模式。在研究1中，我们复制了多项研究结果，显示了非自闭症顺性别者在维度性别多样性和维度自闭症特征之间的关联。然而，一旦考虑了述情障碍和负面情绪，这些关联就不再明显。在研究2中，我们比较了跨性别者与出生时按性别分配的顺性别成年人的自闭症特征。在考虑了年龄和出生时分配的性别效应后，性别方式（顺性别者/跨性别者）是AQ-50分数的显著预测因素（ΔR2 = 4%）。然而，再次加入TAS-20和DASS-21后，这种预测效应消失了（ΔR2 = 33%）。两项研究中的中介分析都表明，述情障碍和负面情绪与AQ-50方差之间存在部分的双向关联。最后，“自闭症特异性”方差在两项研究中都与任何性别多样性指标无关，且在考虑了负面情绪和述情障碍后，组间的AQ-50分数差异消失了，贝叶斯因子一致支持零假设。

AQ-50方差的很大一部分（约28-31%）可以由述情障碍和负面情绪解释，加上在考虑了这种共享方差后性别多样性预测效应的丧失，表明之前在非自闭症样本中报告的自闭症特征与性别多样性特征之间的关联可能是由于AQ测量误差造成的（Hendriks等人，2022年；Kallitsounaki和Williams，2022年；Murphy等人，2020年；Warrier等人，2020年）。这反映了人们对自闭症筛查工具的区分效度及其对情绪相关困难的敏感性的担忧。当前结果表明，当使用自我报告的筛查工具在非自闭症人群中测量自闭症特征时，观察到的与性别多样性的关联可能反映了非自闭症特有的因素。我们通过几种方式确认了这一点。首先，我们通过将AQ-50的残差分解到TAS-20和DASS-21上来分离“自闭症特异性”方差。在研究1中，没有任何性别多样性变量能够预测这种自闭症特异性方差（即残差），在研究2中，跨性别者状态也无法预测它，贝叶斯因子一致支持零假设。如果性别多样性和自闭症特征之间确实存在特定的重叠，那么在检查独特的、与述情障碍或负面情绪无关的AQ-50方差时，这种关联应该仍然存在，但在两项研究中都没有观察到。

首先，我们根据TAS-20和DASS-21将跨性别者和顺性别者组进行匹配，之后组间的AQ-50分数差异消失了，贝叶斯因子强烈支持零假设。如果性别多样性与自闭症特征之间存在关联，那么在密切匹配述情障碍和负面情绪后，应该仍有足够的自闭症特异性方差来检测性别方式组（顺性别者/跨性别者）在AQ-50分数上的差异。如果性别多样化的非自闭症人群中较高的自闭症筛查分数并不反映自闭症特性的提升，那么它们反映的是什么？有两种可能的解释。首先，可能存在一个共同的潜在（生物学或环境）因素，这个因素同时影响了自闭症特征、述情障碍和负面情绪，而正是这个因素与性别多样性相关。其次，自闭症筛查工具可能存在测量误差，导致反应不仅反映了自闭症特征，还反映了与自闭症无关的方面。这种测量误差可能表现为：(a) 共同的方法变量（例如，相同的受访者、测量场合和/或回答格式），这通过个体回答偏差在各种测量中产生了共变；或者 (b) 测量污染，即AQ-50中的某些题目错误地反映了述情障碍和/或负面情绪而不是自闭症特异性特征。

可以说，测量误差是我们发现的一个更为简洁的解释。首先，当前研究中所有测量都是由同一个评估者完成的，这立即带来了通过共同方法变量造成的测量误差风险。其次，自闭症筛查工具往往非常宽泛，增加了某些题目可能会捕捉到非自闭症特性的可能性。例如，AQ-50中的第22项和第46项（“我发现很难交新朋友”和“新情况让我感到焦虑”）可能表明可能存在自闭症，但这些题目也描述了在具有内化困难（如焦虑和抑郁）的非自闭症人群中常见的心理状态。在跨性别样本中，较高的少数群体压力暴露可能会进一步增加这些题目的得分，但这并不一定意味着具有自闭症特异性。然而，需要指出的是，在研究2中我们没有包含少数群体压力的测量。

关于性别多样性与自闭症交叉的大部分证据来自在非自闭症样本中使用自闭症筛查工具的研究。一些研究表明，在非自闭症的性别多样化人群中，自闭症筛查工具的总分较高（Akgül等人，2018年；English等人，2025年；Kallitsounaki和Williams，2022年；Kennedy等人，2025年；Murphy等人，2020年；Warrier等人，2020年）。其他研究则显示了性别多样性特征与一般人群中自闭症筛查工具总分之间的关联（例如，Kallitsounaki等人，2021年；Kallitsounaki和Williams，2020a，2022年；van der Miesen等人，2024年）。因此，这些研究得出的结论，即性别多样性与自闭症特征之间存在特定关联，受到了当前研究结果的质疑。当然，这些结果并不质疑某些性别多样化的人确实患有自闭症，或者性别多样化人群中自闭症诊断的过度代表。在临床实践中，诊断过程应包括多学科评估，使用诊断工具和筛查工具来帮助专家做出适当的诊断。令人欣慰的是，研究表明，正式诊断为自闭症的性别多样化人群在这些深入的临床测量和筛查工具上也表现出一致的困难模式（Kallitsounaki等人，2025a）。同样，其他研究表明，被诊断为自闭症的人群的性别身份特征在数量和质量上与非自闭症人群没有差异（Fischbach等人，2025年；Fysh等人，2026年；Kallitsounaki等人，2025b）。因此，我们的研究结果并不质疑性别多样性与自闭症之间的关联的有效性。相反，我们的发现强调了行为的多面性，即相似的行为特征可能来自不同的发展路径，而自闭症只是其中之一。换句话说，虽然自闭症筛查工具测量了自闭症特征，但它们也测量了与自闭症特征共变的特征。可能是无意中捕捉到了这些共变量，从而产生了性别多样性与自闭症特征之间的关联。

我们研究的主要结论是，自闭症筛查工具（特别是AQ-50）的较高分数并不一定反映自闭症特性的提升。自闭症筛查工具通常被认为是非特异性的，分数中的某些方差来自于筛查工具无意中测量了与自闭症特征无关的特征。如果在测量时没有控制可能的共变量，那么AQ-50的分数可能会测量到非自闭症特征。可能正是这些非自闭症特征在跨性别成年人中的升高，以及在顺性别人群中的性别相关变异导致了这种关联。重要的是，不要将不属于自闭症特征的方差错误地归因于自闭症特征。当前的研究结果表明，AQ-50上的较高分数可能反映了非自闭症特征，而不是自闭症特征本身。在我们的研究中，我们通过将AQ-50的残差分解到TAS-20和DASS-21上来分离了“自闭症特异性”方差。在研究1中，没有任何性别多样性变量能够预测这种自闭症特异性方差（即残差），在研究2中，跨性别者状态也无法预测它，贝叶斯因子一致支持零假设。如果性别多样性与自闭症特征之间存在特定的重叠，那么在检查独特的、与述情障碍或负面情绪无关的AQ-50方差时，这种关联应该仍然存在，但在两项研究中都没有观察到。未来的研究可以进一步探讨不同性别群体（例如，非二元性别、无性别指定者）是否存在独特的自闭症特征谱型，尤其是采用纵向研究设计。是否存在一些未测量的特征/属性/状况影响了当前研究的结果，从而使得我们的解读失效？从理论上讲这是可能的，但可能性极低。在控制了TAS-20和DASS-21得分后，性别与自闭症特征（AQ）之间的关联已经减弱到接近零，再加入其他协变量可能进一步将这种关联的幅度降至接近零（或零），但这不会实质性地改变我们的研究结果或其解读。换句话说，增加额外的协变量极不可能增加性别与自闭症特征之间的关联并恢复其统计显著性。只有当这些未测量的协变量是“抑制变量”时，才会改变结果和结论。Conger（引用1974，第36-37页）将“抑制变量”定义为“通过将其纳入回归方程来提高另一个变量（或一组变量）预测效度的变量”。更具体地说，这种未测量的变量需要与性别相关因素和AQ-50有某种关联，以至于省略它会导致经过协变量调整后的性别与自闭症特征关联被低估或抑制。我们目前还没有发现这种潜在的抑制变量，但未来的研究可能会发现。

此外，当前的结果对我们理解协变量与性别多样性（无论是分类还是维度化的）之间的关系有何启示？在研究1中，通过GIDYQ和GSR测量得到的性别相关特征的变化与共情障碍特征和负面情绪有显著关联。与此类似，在研究2中，跨性别参与者的负面情绪和共情障碍特征显著高于顺性别参与者。这些发现与其他许多研究结果一致，这些研究观察到跨性别成年人存在内化症状的增加（例如，Borgogna等人，引用2019；Perez-Brumer等人，引用2017），以及少数针对这一群体的共情障碍研究（Kallitsounaki & Williams，引用2023b；Kessler等人，引用2006；Mazzoli等人，引用2022）。跨性别成年人中负面情绪的增加可能与其性别认同所带来的压力有关（Chodzen等人，引用2019；Meyer，引用2003）。同样，共情障碍特征的增强可能是性别多样性的一部分结果，可能是通过压力机制实现的。例如，与性别相关的身体功能（如月经）有关的困扰可能会影响某些跨性别者的身体意识，从而增加他们的共情障碍特征得分。尽管这些解释都是合理的，但效应的方向也可能相反（参见Bailey，引用2020，关于少数性群体中的心理健康）。当前研究并未涉及因果关系的问题，也没有必要解决这一问题，因为它的主要目的是确定性别多样性（无论是分类还是维度化的）与非自闭症人群的自闭症筛查得分之间的关系。此外，需要明确的是，研究2中跨性别参与者共情障碍特征得分的相对轻微升高可能是由于TAS-20的测量误差，而不是真正反映了共情障碍的增强。如果当前研究有任何启示的话，那就是在解释变量之间的关系时，如果忽略了相关协变量，应当始终保持谨慎。未来的研究可以通过在双因子模型中进行回归分析来更深入地探讨这些问题。双因子模型允许将潜在的一般因素（AQ-50、TAS-20、DASS-21之间的共同方差）与特定因素区分开来，这些特定因素分别关联自闭症特征（AQ特异性）、共情障碍（TAS特异性）和负面情绪（DASS特异性）。如果在控制了特定因素后，性别多样性仍能预测一般因素，那么这将证实这种关联是通过非自闭症特异性的共同方差来实现的。为了区分共同因素和测量重叠，可以对来自不同信息源的数据进行建模。如果在双因子模型中，一般因素与性别多样性之间的关联在信息源报告和自我报告数据中都存在，那么就表明存在一个实质性的共同因素。相反，如果这种关联仅存在于自我报告或信息源报告中（或者在单一模型中加入方法变量后这种关联消失），那么就表明存在测量误差。无论如何，当前研究强烈表明，在非自闭症人群中，性别多样性（特征或身份状态）与自闭症特征（通过筛查总分指标）之间的关联并不能说明性别多样性与非自闭症有特异性关联。

还需要注意的是，AQ-50尚未在跨性别和性别多样性人群中得到验证。选择它作为研究1和2中的自闭症特征测量工具，主要是为了确保与现有的性别-自闭症文献的可比性，在这些文献中，AQ是迄今为止在大多数顺性别/一般人群个体差异研究和涉及跨性别及性别多样性参与者的病例对照研究中使用最广泛的自闭症特征测量工具。实际上，在已识别的13项成人病例对照研究中，有11项使用AQ来评估自闭症特征。此外，除了之前的一项研究（Thomas等人，引用2025）使用了性别自我报告外，没有其他测量工具被用于一般成人人群的个体差异研究。因此，使用AQ-50使我们能够将我们的发现直接与先前关于性别多样性-自闭症关联的研究结果进行对比，并测试我们的核心论点，即AQ总分在多大程度上反映了非自闭症特异性的方差。未来的研究可以使用在跨性别/性别多样性人群中经验证为心理测量稳健的其他测量工具（例如，综合自闭症特征问卷；English等人，引用2025）来重复这些发现。

关于临床实践，我们的发现强调了在更广泛的心理和社会背景下解读跨性别成年人自闭症筛查得分升高的重要性。具体来说，临床医生应避免孤立地将升高的自闭症筛查得分视为自闭症或自闭症特征的证据，特别是考虑到自闭症筛查工具测量的特征与焦虑、抑郁、共情障碍和压力体验之间的重叠。当怀疑自闭症时，全面的评估包括结构化的诊断评估、发展史以及仔细考虑当前的心理健康和心理社会压力因素是必不可少的。同样重要的是，跨性别成年人中自闭症特征的升高也应促使对内化障碍、更广泛的心理健康问题和潜在的创伤经历进行彻底评估。这种基于创伤信息和情境敏感性的方法有助于准确的鉴别诊断，并确保个体获得适当、量身定制和及时的护理和支持。

伦理批准
所有涉及人类参与者的研究程序均符合肯特心理学研究伦理委员会的伦理标准以及1964年赫尔辛基宣言及其后续修正案或类似的伦理标准。

知情同意
所有参与研究的个人都获得了知情同意。

补充材料
Supplementary Figures and Tables.docx
下载MS Word（657.5 KB）

数据可用性声明
再现此处分析所需的数据将在论文发表后上传到OSF。

热点排行