《Psychometrika》:High-Dimensional Perception with the Double Machine Learning Lens Model
编辑推荐:
传统知觉模型难以应对现代心理学与人工智能领域中常见的高维数据(如文本嵌入)。研究人员提出双重机器学习透镜模型(DML-LM),该框架利用机器学习方法处理此类数据。研究人员将该模型应用于分析现代人工智能与人类知觉者如何根据1969年11岁儿童撰写的9513篇志向
传统知觉模型难以应对现代心理学与人工智能领域中常见的高维数据(如文本嵌入)。研究人员提出双重机器学习透镜模型(DML-LM),该框架利用机器学习方法处理此类数据。研究人员将该模型应用于分析现代人工智能与人类知觉者如何根据1969年11岁儿童撰写的9513篇志向性文章判断社会阶层。通过对45种分析方法的系统比较,研究人员发现使用降维后语言嵌入的正则化线性模型显著优于传统的基于词典的方法及更复杂的非线性模型。最优模型准确预测了人类(R2CV = 0.61)与人工智能(R2CV = 0.56)的社会阶层知觉,捕获了超过85%的总准确率。这些结果表明,知觉中的"未建模知识"可能是测量工具不足的人为产物,而非不可测量的直观过程。研究人员发现,人工智能与人类使用许多相同的文本线索(如语法、职业和文化活动),其中仅部分线索具有效度。两者均将细微的真实世界模式放大为强有力但可能具有歧视性的启发式策略,即实际社会阶层的小差异会导致知觉上的大差异。
本研究旨在构建一个统一的理论和方法论框架,以解构和比较人类与人工智能知觉者在高维复杂数据上的判断过程。研究背景源于一个核心矛盾:尽管人类与人工智能系统日益依赖高维数据(如文本嵌入)进行快速印象形成,但传统的Brunswik透镜模型(Lens Model)及其统计形式Tucker透镜模型方程(LME)是为低维世界设计的,要求研究者手工选择少量潜在线索,无法处理现代数据固有的"维度灾难"问题。
研究人员引入双重机器学习透镜模型(DML-LM),将双重机器学习(DML)的因果推断原理与经典LME相结合,为分析高维设置中的准确性实现提供了稳健灵活的方法。该框架的核心是一个统一且可解释的统计量:中介准确率比例(Proportion of Mediated Accuracy, PoMA),其量化了给定线索集能够统计解释的总判断准确率的比例,形式上代表间接效应与总效应的比值(1 ?
τ′/
τ),其中
τ和
τ′分别表示总效应和直接效应。
研究数据来源为英国国家儿童发展研究(NCDS),该研究追踪了1958年3月某一周出生于英格兰、苏格兰和威尔士的所有个体。本研究分析了1969年收集的9513篇11岁儿童的志向性文章,参与者被要求想象自己25岁时的生活并撰写相关内容。研究使用父亲职业的Registrar General社会阶层分类(RGSC)作为社会阶层真实性的地面真值,这是一个五点序数量表。人工智能判断通过AWQ Qwen 2.5 32B大语言模型生成,使用适应的MacArthur主观社会地位量表;人类判断则由600名招募的英国参与者完成,每人随机评估10篇文章,最终547篇文章具有完整的人类评级数据。
在技术方法层面,研究比较了三种文本表征方法:基于词典的语言探究与词频统计(LIWC-22)、all-MiniLM-L6-v2嵌入(384维)和NV-Embed-v2嵌入(4096维);五种学习算法:普通最小二乘法(OLS)、岭回归(Ridge)、套索回归(Lasso)、极端梯度提升(XGBoost)和随机森林(Random Forest);以及三种维度水平:完整维度、200个主成分(PCA)和6个最具预测性的主成分。研究采用五折交叉验证进行性能评估,关键指标包括判断一致性(
R2Y)、环境可预测性(
R2X)和PoMA。主要技术特色在于采用Neyman正交化和交叉拟合程序来处理高维混杂变量,通过辅助样本估计残差效应,以获得对直接效应参数的无偏一致估计。
**文本表征方法的性能层级**
研究首先建立了清晰的性能层级。状态最先进的语言模型嵌入在所有关键指标上显著优于传统的LIWC词典方法。最优模型为NV-Embed特征集结合OLS、套索或岭回归及200个主成分,实现了最高的交叉验证环境可预测性(
R2X = 0.11)和判断一致性(
R2YAI = 0.56)。使用MiniLM嵌入的套索模型也表现出高效能,达到NV-Embed嵌入性能的五分之四(
R2X = 0.09,
R2YAI = 0.44)。两种嵌入方法均大幅优于最佳LIWC模型(
R2X = 0.06,
R2YAI = 0.34)。
**正则化线性模型优于非线性和未正则化方法**
在所有特征集上,正则化线性模型(套索和岭)表现出最稳健平衡的性能。相比之下,更灵活的非线性XGBoost模型持续无法泛化到真实标准,产生负的环境可预测性分数(如
R2X = ?0.03)。未正则化的OLS回归在高维数据上遭受严重过拟合,完整NV-Embed特征集产生灾难性的
R2X = ?0.94。而使用PCA降维后NV-Embed嵌入的OLS产生了非常强的性能,与岭和套索模型结果几乎相同。
**简约性与解释力的权衡**
分析揭示了模型简约性与解释力之间的权衡。将NV-Embed的4096维降至200个主成分通常带来的性能损失极小。但仅选择前六个最具预测性的成分时,性能出现明显下降。后续分析选择使用完整的200个成分集合。应用于人类知觉子集时,人类知觉(
R2YHU = 0.61)与人工智能知觉(
R2YAI = 0.56)的解释程度相当,甚至略优,而真实性测量仍被弱解释(
R2X = 0.11)。人类和人工智能知觉的中介准确率比例极大,分别为112.6%(因交叉拟合过程中的随机波动超过100%)和85.9%。控制线索后,人类知觉的直接效应不显著,人工智能知觉的直接效应虽小但显著。人类与人工智能知觉的协方差被这些主成分减少了51.2%。
**线索利用与共意性的微观分析**
通过后套索OLS系数的深入分析,研究人员识别出对社会阶层真实性、人工智能知觉和人类知觉最具预测力的主成分。第二至第五主成分在三者中均具有最大的后套索系数。第二和第三主成分涉及拼写错误(如wood、wen、wont、woud)与足球,与较低社会阶层相关;而教师职业(teacher、teaching、class)与较高感知社会阶层相关。第四主成分区分传统男性和女性兴趣,足球 paradoxically 同时与高低社会阶层感知相关,而护理、医院、女性、女儿、婴儿等主题与较高感知社会阶层相关。第五主成分对比了待家责任与航空专业人员,尽管存在拼写错误,大学提及仍与较高社会阶层相关。
其他主题包括大学、网球、赛车、小马、马厩、马匹、警察、餐食、狗、舞蹈、芭蕾和电影等与较高社会阶层相关;而进球(可能关联足球)、基础词汇(male、female、boy、girl、army、wife、children、school pet、 mum)以及特定职业(lorry driver、train stations)和志向性生活描述(leading good、better pay、leading a good life)则与较低社会阶层相关。特别地,低社会阶层的有效信号似乎与语法错误相关,而高社会阶层的有效信号则涉及高雅文化活动(芭蕾、骑马)以及教师、大学或航空专业人员身份。
**DML-LM揭示人类与人工智能知觉者的相似核心真实机制**
本研究的核心发现是人工智能和人类对社会阶层的判断很大程度上锚定于相同的核心真实,且在使用线索进行知觉的方式上具有令人惊讶的共识水平。研究结果为社会阶层刻板印象准确性的"核心真实"假说提供了强有力证据,表明客观真实性测量的弱信号如何被人类和人工智能放大为巨大的知觉差异。
**大数据时代"未建模知识"的再评估**
高比例的判断准确率被框架解释,这对知觉中"未建模知识"的长期角色提出挑战。历史上,准确率模型中的大残差被解释为知觉是很大程度上模糊和直观过程的证据。然而,本研究结果表明,这一解释差距可能是先前测量限制的产物,而非本质上不可测量的过程。研究发现将"未建模知识"重新框架为"先前测量不足的知识",与Funder的现实主义准确性模型一致,即准确性取决于对有效、情境敏感线索的检测。
**人工智能与人类知觉的深度比较**
研究结论指出,人工智能和人类知觉的关键区别不在于感知的内容,而在于感知的方式。人工智能的判断政策明显稀疏性更低,系统性地整合了比人类更广泛得多的文本线索集,而人类采用更加启发式和简约化的模型。尽管两种知觉者都将细微的真实世界模式放大为强有力的、可能具有歧视性的启发式策略,但人工智能使用更广泛的线索集导致这种放大以特别僵化和有影响力的形式呈现。这意味着,随着人工智能系统日益融入高风险领域,仅仅知道它们通常准确是不够的。DML-LM框架提供了一个必要的诊断透镜,揭示即使当算法的知觉密切模仿人类时,其过程中的细微但显著差异可能导致现实世界中巨大且后果严重的差异。该研究发表于《Psychometrika》,为理解人工智能和开发更准确、公平和透明的决策系统迈出了关键一步。