《Frontiers in Neuroscience》:Evaluating reliability of automated quantitative brain morphometry from fetal T2-weighted MRI
**引言**:从MRI进行胎儿皮层形态的三维评估对于理解早期大脑神经发育至关重要。然而,测量可能受到胎儿影像质量、可用堆栈的数量与选择以及重建方法的影响。
**方法**:研究人员在一个由30名正常发育胎儿[孕周(GA):22–36周]组成的队列中,评估了一种自动皮层形态学分析流程的会话内可靠性。对于每个受试者,两组互不重叠的2D T2加权堆栈(无共享堆栈)分别使用神经切片到体积重建(Neural Slice-to-Volume Reconstruction, NeSVoR)和切片到体积重建工具包(Slice-to-Volume Reconstruction Toolkit, SVRTK)重建为3D体积。提取的指标包括皮层板体积、表面积、平均脑沟深度和绝对平均曲率,并使用绝对百分比差异(absolute percent difference, APD)和组内相关系数(intraclass correlation coefficients, ICC)评估测量可靠性。多重线性回归用于评估平均堆栈质量、子集间质量差异、堆栈数量和孕周对测量可靠性的影响。
**结果**:NeSVoR衍生的指标显示所有测量均具有高可靠性(平均APD < 3%,ICC > 0.99)。SVRTK衍生的指标也具有稳健性(平均APD < 5%,ICC > 0.97)。在NeSVoR中,可靠性随堆栈数量增加和孕周增长而提高;在SVRTK中,可靠性随平均堆栈质量提高而提高。
**讨论**:这些结果表明,在满足最低影像质量和堆栈数量水平的前提下,在所提出的会话内设计中,基于胎儿MRI的自动皮层形态学测量能产生高度一致的体积和表面指标测量结果。本研究提出了自动化胎儿皮层测量的会话内可靠性基准,并强调系统性的可靠性评估对于在胎儿神经影像学中自信地应用自动化流程至关重要。
胎儿脑发育在塑造长期神经发育结局中起着关键作用,这凸显了进行准确宫内评估的重要性。在过去几十年里,胎儿磁共振成像(Magnetic Resonance Imaging, MRI)已成为检测细微和复杂产前脑部异常的强大无创模态,与超声相比,其软组织对比度和空间分辨率更优。此外,定量胎儿MRI能够通过大脑形态的三维(Three-Dimensional, 3D)测量来表征神经发育过程。虽然传统的二维测量在临床上仍然有用,但3D体积和基于表面的指标,如全脑和区域性皮层板体积、皮层表面积、脑沟深度和平均曲率,能够更全面地描述早期大脑生长和脑回形成。先前的研究已经证明了这些指标的相关性,包括皮层板体积在产前的快速扩张、平均大脑曲率与孕周的强相关性、大脑半球不对称性和脑沟成熟度,以及胎儿发育期间区域性表面积的扩张。这类3D定量测量可能对检测非典型神经发育具有更高的敏感性。然而,它们的有意义应用关键取决于用于推导它们的自动化流程的可靠性。
由于胎儿运动、快速变化的解剖结构、低有效分辨率和有限的组织对比度,从胎儿MRI进行准确的定量分析仍然具有挑战性。运动耐受的2D采集序列如半傅里叶采集单次激发快速自旋回波(Half-Fourier Acquisition Single-Shot Turbo Spin Echo, HASTE)减少了层内运动,但不能缓解层间错位,导致3D空间连贯性中断。为了解决这个问题,胎儿成像方案通常在不同方向采集多个堆栈,然后使用切片到体积重建(Slice-to-Volume Reconstruction, SVR)算法将其整合,以生成运动校正的3D体积。因此,下游形态测量的可靠性不仅受胎儿解剖结构的影响,还受采集质量、影响重建方法的堆栈数量以及后续分割和表面提取步骤的影响。尽管自动化胎儿脑形态学的应用日益增多,但对测量可靠性的系统性评估仍然有限。先前的研究主要关注线性生物测量(如双顶径、枕额径或胼胝体长度)或分割重叠指标的可靠性。相比之下,全脑皮层板体积和基于表面的指标的会话内可靠性;特别是在堆栈选择、质量和数量存在现实变异性的条件下;尚未得到全面评估。重要的是,经典的重测信度范式不太适用于胎儿神经影像学。即使间隔几天的短暂扫描间期也可能在皮层体积、脑回形成和曲率方面引入显著的真实生物学变化,尤其是在孕中期生长速度较快时。同一天内重复扫描通常是不切实际的,即使可行,也可能被视为单次成像会话。因此,在胎儿MRI中评估可靠性需要采用替代策略,以将采集和重建相关的变异性与真实的神经发育变化区分开来。
在本研究中,研究人员采用会话内分割样本框架来评估自动化胎儿皮层形态学的可靠性。在单次成像会话中采集的、互不重叠的2D T2加权堆栈子集被独立重建为3D体积,从而能够在现实的采集变异性下评估内部一致性。研究人员检查了关键的影像学因素,包括堆栈质量和堆栈数量,以及孕周如何影响皮层板体积和基于表面的指标的稳定性。神经切片到体积重建(Neural Slice-to-Volume Reconstruction, NeSVoR)作为主要重建方法,切片到体积重建工具包(Slice-to-Volume Reconstruction Toolkit, SVRTK)作为补充参考,它们代表了不同且广泛使用的SVR框架。
通过量化不同重建方法和影像条件下会话内的测量变异性,本研究为自动化胎儿皮层形态学建立了实用的可靠性基准。这些基准为在研究环境中解释定量胎儿MRI测量提供了必要的背景信息,并为未来的方法学和临床验证研究提供信息,同时明确区分了技术可重复性与生物学或诊断有效性。
研究人员招募了30名单胎正常发育胎儿[孕周(GA):29.89 ± 3.56周(均值 ± 标准差),范围:22.00–35.57周;性别:21/8/1 [男/女/未知]]。这些正常发育胎儿是从2014年至2024年在波士顿儿童医院(Boston Children’s Hospital, BCH)进行的先前胎儿研究中回顾性选择的,并获得了机构审查委员会(IRB)批准(IRB-P00008836和IRB-P00040121),并根据机构指南获得了父母同意。超声检查发现有畸形特征、已知染色体异常、已知先天感染或胎儿MRI目视检查发现任何临床显著脑部异常的胎儿均被排除。
MRI使用西门子3T Skyra扫描仪采集,包括重复的多平面T2加权HASTE序列,平面内分辨率为1毫米,视野(Field of View, FOV)= 256–320毫米,重复时间(Repetition Time, TR)= 1,400–2,000毫秒,回波时间(Echo Time, TE)= 100–120毫秒,层厚= 2–4毫米。在定位胎儿大脑后,总共采集了7–31个HASTE堆栈,分布在三个近似正交的方向(轴状、矢状和冠状面)。
为了评估自动化胎儿MRI脑指标提取的会话内可靠性,研究人员在每个受试者内部进行了两次独立的比较。在研究1中,每个胎儿的多个堆栈被手动分成两个互不重叠的子集(子集1和2)。采用使用互不重叠堆栈子集的分割样本设计来量化在现实胎儿MRI采集变异性下的测量稳定性。为了减少对单次随机分割的依赖,研究人员独立执行了相同任务,并在研究2中生成了不同的子集对(子集3和4)。一些堆栈可以在研究间随机重复使用,但在每个研究内,配对的子集是互斥的。这种双分割设计拓宽了子集间平均堆栈质量的分布,并减少了对单次堆栈随机分割的依赖。每对子集被分配到五个预定的堆栈数量条件之一(每个子集3–3、5–5、7–7、9–9或11–11个堆栈)。重要的是,这种设计并不代表真正的重测,而是评估在现实会话内采集变异性下的内部一致性。子集内堆栈数量和质量的变异允许评估它们对测量可靠性的影响。图1A,B总结了受试者在堆栈数量条件下的分布以及研究1和研究2的成像子集分配。目视检查未发现孕周和堆栈数量之间存在系统关系。
接下来,使用先前训练和验证的机器学习模型为每个HASTE堆栈分配一个质量分数,该模型输出一个反映运动变形程度和整体堆栈质量的连续值。该模型最初在两位胎儿MRI专家提供的五点量表质量注释上进行训练(1:质量非常差,因严重运动和模糊而无法用于生物测量分析;2:质量差,仅可用于基本重建且存在明显伪影;3:可接受质量,可用于标准重建,有些模糊但解剖细节得以保留;4:质量好,模糊最小,组织边界清晰;5:质量优秀,解剖细节清晰,运动伪影可忽略)。在本研究中,直接使用机器学习模型的输出作为单个堆栈级别的质量分数。评分为1的堆栈被排除,以维持现实但可分析的影像质量范围。在整个队列中,共有3个堆栈质量评分为1并被排除。对于每个子集(跨研究1和2),计算了其堆栈的平均质量分数。对于每对子集,计算了平均堆栈质量(跨两个子集)和子集间平均质量的绝对差异(“质量差异”),并将它们作为自变量包含在后续的回归分析中,以评估它们对定量脑形态学会话内可靠性的影响。
除了主要的影像学因素(堆栈质量、质量差异、堆栈数量和孕周)外,还探讨了层厚变量(平均层厚和子集间层厚差异)作为测量可靠性的次要贡献因素;结果在补充材料中报告。
胎儿MRI处理和内侧皮层板表面重建使用先前建立的流程进行,该流程包括脑提取、N4偏置场校正。然后使用两种不同的SVR方法将堆栈子集组合起来,生成0.5毫米各向同性分辨率的运动校正3D体积。主要重建方法是NeSVoR,这是一种分辨率无关的SVR算法,使用隐式神经表示将底层体积建模为空间坐标的连续函数。为了检查形态测量对重建变异性的稳健性,研究人员还应用了SVRTK,这是一种迭代超分辨率框架,通过对齐切片执行刚体对齐以去除运动来重建体积。两种方法使用相同的预处理堆栈子集以确保一致性。
皮层板分割使用基于深度学习的方法进行。左右半球的内侧皮层板三角面网格使用拓扑保持的移动立方体算法自动提取。
研究人员量化了全脑皮层板体积和基于表面的指标,包括内侧皮层板表面积(以下简称表面积)、平均脑沟深度和绝对平均曲率(以下简称平均曲率)。皮层板体积计算为皮层板体素数量乘以体素体积。表面积计算为左右内侧皮层板表面上网格三角形面积之和。脑沟深度使用自适应距离变换方法测量为从每个顶点到皮层板凸包的最短路径,并对左右表面取平均。平均曲率估计为所有顶点局部角度偏差的平均值,使用顶点级绝对值。这个符号不变的指标已被广泛用作皮层形状复杂性的定量测量。
为了评估测量可靠性,将指标绘制在孕周上以确认预期的发育趋势并识别潜在的离群值。未应用手动校正,但会对显著偏离的点进行调查以评估自动化处理固有的变异性。
首先使用每个子集对(子集1对2;子集3对4)之间的绝对百分比差异(APD)评估定量皮层测量的可靠性,计算公式为:APD = (|M1 - M2| / ((M1 + M2) / 2)) × 100%,其中M1和M2来自同一胎儿的测量值。使用双向随机效应模型[ICC(2,1)]的组内相关系数(ICC)评估测量的一致性和协议度,将受试者和会话内对均视为随机因素。此外,进行了Bland-Altman分析以评估配对测量之间的一致性,推导出重复性系数(RC),定义为95%一致性限宽度的一半,提供了每个指标原始单位中由重建引起的绝对变异性。RC报告了通过非参数自举重采样(在受试者水平进行1000次迭代)估计的95%置信区间。
为了研究影响可靠性的因素:平均堆栈质量(每个会话内对中所有堆栈的平均质量)、质量差异(子集间平均质量的绝对差异)、堆栈数量和孕周,进行了多重线性回归(分别对研究1和研究2中获得的指标进行),以APD作为因变量。由于胎儿水平的APD值是从两个互不重叠的会话内堆栈子集计算得出的,分析单位是胎儿,模型中不包含每个受试者的重复因变量测量。验证了模型假设(线性、同方差性和残差正态性),并在每个研究内的四个皮层指标中应用了错误发现率(FDR)校正以考虑多重检验。
为了评估回归估计的稳健性,进行了自举重采样分析(在受试者水平进行1000次迭代)。在每次迭代中,受试者被有放回地重采样,并重新拟合完整的回归模型。使用方向一致性量化效应的稳定性,定义为每个回归系数在自举迭代中保持与全样本模型相同符号的比例。
所有分析均使用MATLAB R2021b分别对NeSVoR和SVRTK重建进行。
NeSVoR重建的胎儿皮层指标自动提取显示出高的会话内可靠性,平均APD值低,ICC值高(图2和表1)。皮层板体积在研究1中的平均APD为1.78 ± 1.53%,在研究2中为2.52 ± 1.85%。表面积也显示出高的会话内可靠性(研究1和2中的平均APD分别为0.82 ± 1.45%和0.60 ± 0.70%)。平均脑沟深度和平均曲率表现出稍高的平均APD,在两项研究中范围从1.69%到2.00%。ICC值始终很高,在研究1中范围从0.993到1.000,在研究2中范围从0.996到1.000,表明所有指标均具有强可靠性。表示原始测量单位会话内变异性的RC在研究1中为皮层板体积1.93 cm3 [1.92, 3.31],研究2中为2.81 cm3 [2.88, 4.91];表面积分别为765.2 mm2 [426.8, 1583.5]和449.8 mm2 [415.5, 816.1];平均脑沟深度分别为0.20 mm [0.15, 0.38]和0.14 mm [0.15, 0.24];平均曲率分别为0.02 [0.01, 0.05]和0.02 [0.01, 0.03]。
对NeSVoR重建的测量可靠性的影响因素分析:多重线性回归用于评估平均堆栈质量、质量差异、堆栈数量和孕周对NeSVoR重建测量变异性的独立影响(图3和表2)。更高的平均堆栈质量与更低的APD相关,反映了更好的测量可靠性,在研究1中,皮层板体积(β = ?3.53 ± 1.76, p = 0.056)和平均曲率(β = ?10.14 ± 4.98, p = 0.053),在研究2中,平均脑沟深度(β = ?4.11 ± 2.09, p = 0.061)和平均曲率(β = ?8.49 ± 4.18, p = 0.053),尽管这些趋势均未达到统计显著性(所有p > 0.05)。质量差异与任何指标的APD均无显著关联。堆栈数量增加与APD降低相关,在研究1中,对平均脑沟深度(β = ?0.51 ± 0.19, p = 0.014)和平均曲率(β = ?0.66 ± 0.29, p = 0.033)有显著影响,在研究2中,对表面积(β = ?0.11 ± 0.05, p = 0.042)有显著影响。然而,经过FDR校正后,这些关联均不再显著。在两项研究中,测量可靠性随孕周增长而提高。更高的孕周与皮层板体积(研究1:β = ?0.16 ± 0.08, p = 0.038;研究2:β = ?0.22 ± 0.10, p = 0.039)和平均曲率(研究1:β = ?0.53 ± 0.21, p = 0.020;研究2:β = ?0.40 ± 0.16, p = 0.019)的APD降低相关,尽管经过FDR校正后,这些关联同样不再显著。自举分析证实了观察到的回归模式的总体稳定性。在NeSVoR中,平均堆栈质量、堆栈数量和孕周在指标间显示出高方向一致性(通常在研究1中约85-100%,在研究2中约79-100%,堆栈数量和表面积的值较低),而质量差异在所有指标和研究中均接近偶然(约50-56%),与缺乏稳定效应一致。探索性分析表明层厚变量对测量可靠性的影响有限。在NeSVoR重建中,仅观察到一个FDR校正前的关联(研究1,皮层板体积:β = 1.10 ± 0.45, p = 0.023);然而,这个探索性发现在FDR校正后不再显著。此外,在研究1或研究2中,其他指标均未显示显著关联。
为了提供额外的参考,将相同的会话内可靠性框架应用于SVRTK重建。所有指标的APD值均低于5%,但通常高于NeSVoR重建中观察到的值。比较APD值(NeSVoR—SVRTK)的配对t检验确认了这一模式,显示NeSVoR在皮层板体积上(研究1:t = ?2.55, p = 0.034, Cohen’s d = 0.70;研究2:t = ?2.54, p = 0.034, Cohen’s d = 0.63)、表面积(研究2:t = ?3.42, p = 0.015, Cohen’s d = 0.90)和平均脑沟深度(研究2:t = ?2.81, p = 0.034, Cohen’s d = 0.71)上具有更低的APD。所有p值均在指标和研究间进行了FDR校正。在SVRTK中,皮层板体积显示出最高的平均APD值(研究1:4.07 ± 4.43%;研究2:4.84 ± 4.88%)。表面积显示最低的平均APD(研究1:1.81 ± 2.28%;研究2:1.84 ± 1.81%)。平均脑沟深度和平均曲率显示出中等平均APD,范围从2.52%到3.60%。所有指标的ICC值也很高(研究1:0.976–0.996;研究2:0.984–0.997)。SVRTK重建的原始测量单位的会话内可靠性RC为:皮层板体积,研究1为6.49 cm3 [4.54, 12.84],研究2为8.01 cm3 [6.34, 15.09];表面积为1921.0 mm2 [1148.0, 3944.1]和1542.3 mm2 [1406.2, 2747.8];平均脑沟深度为0.44 mm [0.36, 0.82]和0.43 mm [0.34, 0.86];平均曲率为0.03 [0.03, 0.06]和0.02 [0.02, 0.04]。在所有指标上,RC值均高于NeSVoR重建观察到的值,这与基于APD和ICC的结果一致。评估平均堆栈质量、质量差异、堆栈数量和孕周影响的回归分析揭示了与NeSVoR结果不同的模式。更高的平均堆栈质量在研究1中与表面积(β = ?6.16 ± 2.62, p = 0.027)和平均曲率(β = ?10.53 ± 4.89, p = 0.041)的更低APD显著相关,在研究2中与平均脑沟深度(β = ?10.65 ± 4.45, p = 0.024)显著相关。在研究2中,表面积(β = ?4.17 ± 2.08, p = 0.056)和平均曲率(β = ?6.81 ± 3.43, p = 0.058)也观察到与平均堆栈质量的趋势。质量差异与任何指标的APD均无显著关联。堆栈数量效应不一致:在研究2中,表面积显示出与APD的小正相关(β = +0.24 ± 0.11, p = 0.044),而其他指标则没有。孕周在研究1中与平均曲率的APD降低显著相关(β = ?0.55 ± 0.21, p = 0.016)。经过FDR校正后,这些关联均不再显著。在SVRTK中,预测指标和指标间的方向一致性变化更大,但总体上与主要回归结果一致。在SVRTK重建中,任何指标均未观察到与层厚相关的关联。
本研究使用两种不同的SVR重建方法评估了从胎儿脑MRI衍生的自动化皮层板体积和基于表面指标的会话内可靠性。在所有指标上,NeSVoR重建始终显示出高可靠性(平均APD < 3%,ICC > 0.99),而SVRTK重建也显示出相似的高可靠性(平均APD < 5%,ICC > 0.97)。这些发现扩展了先前主要关注线性生物测量和分割重叠的胎儿MRI可靠性研究,证明了在现实的采集变异性下全脑皮层体积和表面测量的可重复性。它们也与最近一项多中心研究的结果一致,该研究报告称重建相关的偏差小于一个体素大小,且不同中心的体积差异小于3%。作为参考,在胎儿超声中,这是临床产前评估最常用的模态,颅骨生物测量的自动测量显示出良好到极佳的重复性,尽管其性能因解剖目标而异。本研究将这一工作扩展到从胎儿MRI衍生的3D皮层形态学测量,证明了自动化重建和分析流程能够产生稳健的定量测量,可能补充已建立的基于超声的胎儿评估。
这项工作的一个关键特征是使用在单次成像会话中采集的、互不重叠的堆栈子集。选择这种设计是为了有意地将与重建和采集相关的变异性与真正的生物学变化区分开来。在胎儿神经影像学中,经典的重测范式难以解释,因为即使短暂的扫描间期也可能在皮层体积、表面积和脑回形成方面引入显著的发育变化,尤其是在孕中期。虽然同一会话内的重复扫描不能捕捉时间可重复性,但研究人员认为这是评估胎儿环境下自动化流程内部一致性的方法学上有意义的途径。因此,此处报告的可靠性估计应被解释为技术可重复性的度量,而非纵向稳定性。
在评估的变量中,堆栈数量成为影响测量稳定性最一致的影像学相关因素,随着重建中包含更多堆栈,变异性通常降低。这种效应对于依赖局部表面几何形状的曲率和深度测量最为明显,因此它们可能对细微的重建或分割变异性更敏感。一旦满足最低质量阈值,平均堆栈质量与可靠性的关联较弱,这表明在排除严重受损的堆栈后,增加数据量可能比适度提高平均质量更有益。值得注意的是,配对子集间的平均质量差异并未有意义地影响可靠性,支持了自动化形态学在会话内堆栈质量中度异质下的稳健性。鉴于样本量适中且协变量数量较多,这些回归分析应被视为探索性分析并谨慎解释。然而,自举重采样证明了观察到的关联在重采样中方向性稳定,支持了报告趋势的稳健性。
在NeSVoR重建中,孕周与几个指标可靠性的改善相关。这可能反映了孕后期胎儿运动减少、大脑尺寸增大带来更高的有效空间分辨率,以及在较大的大脑中,分割相关变异占皮层总体积的比例较小。尽管在较高孕周时皮层复杂性增加,这通常给表面重建带来更大挑战,但仍出现了这些效应。重要的是,由于本研究评估的是一致性会话内的一致性,跨子集保持稳定的系统偏差仍可能产生高可靠性。因此,孕后期可靠性的提高并不一定意味着更高的生物学准确性,这强调了区分可重复性与有效性的重要性。
指标特异性敏感性也被观察到。表面积在成像条件下表现出最大的稳定性,而平均曲率对堆栈数量和孕周的依赖性最强。皮层板体积和脑沟深度介于两者之间,这可能是由于它们依赖于皮层边界的准确描绘,使其更容易受到由采集相关的重建伪影引起的分割误差的影响。已知其他采集参数,如层厚、对比度和整体信噪比,会影响SVR和表面重建。在该数据集中,层厚在相对较窄的范围内变化(2-4毫米),探索性分析表明其对可靠性的影响有限。更广泛的采集变异性可能会揭示更强的影响,应在更大和更多样化的样本中进一步研究,以建立临床适用性。
虽然NeSVoR和SVRTK产生了大致相似的可靠性特征,但NeSVoR在所有指标上始终显示出更低的APD和更高的ICC。这些差异可能反映了其方法学上的根本差异。NeSVoR将重建体积建模为连续的隐式函数,并显式估计切片级噪声和采集不确定性,这可能使其能够更有效地适应异质的堆栈质量,并受益于增加的数据量。相比之下,SVRTK依赖于迭代刚体对齐和超分辨率框架内的鲁棒异常值处理,这可能使其对平均图像质量更敏感。孕周对SVRTK衍生的可靠性影响极小,而NeSVoR则显示在孕后期可靠性更高。NeSVoR的方法学特征,如对切片采集和噪声方差的显式建模,可能对孕后期可靠性的积极影响更大,受益于更大的大脑尺寸、更高的有效分辨率和减少的胎儿运动。然而,这种仅在NeSVoR中观察到的效应应在将来进一步研究,最好在更大的样本中评估统计稳健性。
需要注意的是,本研究仅评估了两种SVR方法,它们代表了两种广泛使用但不同的胎儿重建方法类别。其他方法,包括NiftyMIC、MIALSSRTK、可变形SVR技术和其他基于神经网络的方法,可能表现出不同的可靠性特征。因此,本研究结果应被解释为比较基准,而非对所有可用重建策略的详尽评估。此外,本研究中的所有皮层表面均使用单一的自动化分割和表面重建流程生成。因此,报告的可靠性反映了重建、分割和表面提取的综合性能。虽然表面提取方法强制了拓扑约束,但表面完整性或拓扑缺陷的显式量化超出了本研究的范围。未来的工作可以基于这些基准,探索替代的分割架构、训练数据集或拓扑强制策略,这可能进一步提高可重复性,特别是对于与模型训练所用数据外观不同的数据集。
从生物学角度来看,观察到的技术变异性相对于先前研究报告的皮层板体积和表面指标的孕周相关变化幅度较小。这表明,在典型的采集条件下,自动化胎儿形态学测量不太可能掩盖大规模的发育效应。然而,本研究并未建立对细微病理偏差的敏感性,也未评估诊断性能。因此,虽然结果提供了必要的定量基准,但其推广到非典型发育人群仍有待评估。
这些发现证明,即使在次优但现实的采集条件下,包括低堆栈数量和中度运动相关退化,自动化胎儿MRI流程也能实现高的会话内可靠性。增加可用堆栈数量能提供最一致的可靠性增益,同时表面积在跨重建方法上是最稳定的指标。同时,微妙的、方法特异的敏感性突显了成像因素和算法设计如何相互作用以塑造测量稳定性。虽然堆栈数量被确定为重要因素,但采集方案的持续发展,包括运动缓解、更快成像和运动鲁棒重建策略的改进,对于进一步提高数据质量并扩展到更广泛的临床和研究场景的可靠性至关重要。未来的工作应将此框架扩展到多站点数据集、更广泛的采集参数范围,包括不同的扫描仪和采集方案,并评估额外的重建和分割方法。重要的是,虽然在我们的工作中,我们将队列限制为正常发育胎儿,以尽量减少与非典型皮层发育相关的生物学变异性,但未来的研究需要确定这些发现是否可推广到病理人群。更大样本量和更多样化的数据集也将允许严格评估协变量效应并提高泛化性。这些努力对于将技术可重复性转化为生物学可解释性,最终转化为临床效用至关重要。
虽然报告的可靠性反映了在单台扫描仪上使用固定方案进行的单次MRI检查内的会话内重复性,但我们的会话内设计为胎儿成像提供了一个实用框架。因此,本研究在现实的胎儿MRI限制下建立了初步的定量基准,并为方法学稳健性提供了参考点,同时明确区分了内部一致性和生物学有效性。