《Forensic Chemistry》:DyeSPY-LINK: The first likelihood-based inference of near-source kinship for dyed hair evidence comparisons
编辑推荐:
摘要
毛发与纤维证据是法医案件中最常见且环境稳定性强的微量物证之一。其中,经化学处理的毛发(如漂白或染色)相较于未处理毛发具有更高的证明价值。当前法医科学正向基于似然比(Likelihood Ratio, LR)的解释模式转变,以实现透明、定量的证据强度评估。
摘要
毛发与纤维证据是法医案件中最常见且环境稳定性强的微量物证之一。其中,经化学处理的毛发(如漂白或染色)相较于未处理毛发具有更高的证明价值。当前法医科学正向基于似然比(Likelihood Ratio, LR)的解释模式转变,以实现透明、定量的证据强度评估。然而,针对染色毛发的LR框架此前尚未建立。本研究提出DyeSPY-LINK,这是一种基于分数的似然比(Score-based LR, SLR)系统,用于概率性评估染色毛发间的近源亲缘关系,即判断两份染色毛发样本是否源自同一种染料。研究基于前期DyeSPY数据库中的17种非氧化性染料与43种氧化性染料,采用表面增强拉曼(Surface-Enhanced Raman, SER)光谱构建已知匹配(Known-Match, KM)与已知不匹配(Known-Non-Match, KNM)样本对,并通过核密度估计(Kernel Density Estimation, KDE)将余弦相似度转化为SLR。结果显示,非氧化性染料的KM与KNM分布分离良好(AUC = 0.9990),对数似然比代价(Log-likelihood ratio cost, CLLR)低至0.0325,表明区分能力与校准性能优异;误导性证据率在各阈值下均低于约1%,且每增加一种共有着色剂,获得强支持同源(LR ≥ 100)的几率提高约2.2倍。氧化性染料的KM与KNM分布亦显著分离(AUC = 0.9616),CLLR为0.3298,误导性证据率低,每增加一种共有着色剂,强支持同源几率提高约2.6倍。DyeSPY-LINK为法医案件中染色毛发证据的概率化、经验验证型解释奠定了基础。
论文解读
研究背景与意义
在法医科学领域,过去二十年证据解释已从定性分类转向基于概率的定量框架,其中似然比(LR)是核心指标,用于衡量观测数据对某一假设的支持程度。这一方法已广泛应用于DNA分析、指纹、笔迹、语音比较及化学微量物证等领域。然而,尽管全球染发剂市场庞大,染色毛发作为犯罪现场常见的转移物证,其化学特征包含外源性着色剂分子,可在角质纤维中持久留存,却一直缺乏基于LR的解释体系。传统分析方法如紫外-可见光谱、红外与拉曼光谱、质谱虽具潜力,但在灵敏度与高通量解释方面存在不足,无法将光谱差异转化为客观的案件相关证据评估。前期开发的DyeSPY平台可识别染料类型、成分及颜色类别,但无法量化两个染色毛发样本是否来自相同染料混合物的证据强度。因此,本研究旨在构建首个针对染色毛发的LR推断系统,填补这一空白,并推动该类微量物证进入可量化、可重复的法庭科学应用阶段。
主要技术方法
研究基于公开可获取的DyeSPY数据库,涵盖17种非氧化性染料与43种氧化性染料,每种染料对应三根毛发、每根采集五条光谱,共计180个独立来源。所有光谱截取450–1650 cm?1区间,采用不对称最小二乘基线校正、Savitzky-Golay平滑及面积归一化处理。相似度计算采用余弦相似度,并利用单变量高斯核密度估计(Gaussian KDE)分别建模KM与KNM得分分布,带宽选择依据Scott规则。性能评估指标包括AUC、CLLR及其最小值CLLRmin,并通过logistic回归分析共有着色剂数量对强支持同源概率的影响。显著性检验采用单侧符号检验(OSST)。模型训练完成后,将KDE参数序列化保存,实现在新案例中的直接应用。
研究结果
3.1 非氧化性染料
非氧化性染料主要由直接染料组成,其在SER光谱中具有线性叠加特性。余弦相似度显示KM样本得分显著高于KNM样本,KM平均值为0.9898,KNM为0.5406,且KM变异度远低于KNM。KDE建模得到的SLR系统AUC达0.9990,CLLR为0.0325,表明极佳的区分与校准性能。KM样本的SLR中位数高达582.97,而KNM样本中位数低于0.001。误导性证据率在多数阈值下低于0.1%。logistic回归分析显示,每增加一种共有着色剂,获得SLR ≥ 100的几率提高约2.2倍,无共有着色剂时该概率为0.26,四种共有时升至0.89。
3.2 氧化性染料
氧化性染料由前体与偶联剂经氧化反应生成全新发色团,光谱特征因配方比例而异。KM样本平均余弦相似度为0.9548,KNM为0.7148。SLR系统的AUC为0.9616,CLLR为0.3298,校准性能良好。KM样本SLR中位数为205.22,KNM为0.180。误导性证据率在阈值≥10时低于1%。每增加一种共有着色剂,获得SLR ≥ 100的几率提高约2.6倍,从零共有时的0.017增至七种共有时的0.933。研究还提出了基于SLR值的证据强度解释量表,与国际法庭科学指南一致。
3.3 DyeSPY-LINK模块化
系统将训练与应用分离,训练阶段基于KM与KNM构建KDE模型,保存为NOX-LINK与OX-LINK两类固定模型文件,可直接加载用于新样本推断,无需重新训练。用户仅需提供样本ID与预测着色剂列表,即可自动计算相似度并输出SLR,降低了使用门槛并保证结果的可重复性与透明度。
讨论与结论
DyeSPY-LINK并非DyeSPY平台的简单延伸,而是将染色毛发分析从分类任务转变为证据评估任务,首次实现了基于SLR的定量推断。虽然当前版本依赖DyeSPY的着色剂预测结果,但其核心SLR计算并不强制依赖前置分类,可独立运行或与其他分析流程结合。研究也存在局限,包括数据库来源于实验室标准条件,尚未涵盖不同仪器、环境与老化因素;此外,该系统仅评估染料混合物相似性,不涉及个体来源推断。未来需扩大染料库规模,开展外部独立样本验证,完善误差率表征。尽管如此,该研究证明了染色毛发证据可被纳入可辩护的定量LR框架,为法庭科学提供了一种新的微量物证解释途径,具有明确的实用前景与推广价值。