语音作为一种非语言交流方式,传递的信息超出了话语本身。语音特征传达了说话者的意图和情绪状态,这是文本无法捕捉到的(Ekici等人,2017年)。虽然越来越多的研究通过分析文本消息和转录的对话来识别表明个体类型(Capra,2019年)、情绪状态(Penczynski,2019年)以及行为倾向(如合作倾向(Belot等人,2010年;Moellers等人,2017年)或欺骗倾向(Serra-Garcia等人,2011年;Turmunkh等人,2019年)的语言特征,但这些基于文本的方法必然忽略了自然语音中蕴含的丰富语音线索。本文摒弃了以往以文本为中心的分析方法,专注于语音,探讨了声学特征在高风险、现实世界互动中传递行为信息的程度。
除了其信息价值外,语音分析在自然主义环境中测量行为方面还具有独特优势。与通常需要受控环境和专业设备的眼动追踪或面部识别不同,语音信号在策略性互动中自然产生,并且可以大规模地不显眼地记录下来。这使得语音成为少数几种能够在实验室设备不可行的高风险环境中捕捉决策过程的情感和生理相关因素的过程数据来源之一。因此,语音分析为观察经济相关情境中难以观察到的潜在行为状态打开了一个新的实证窗口。
为了研究语音信号的行为内容——这一领域在经济学中基本上尚未被探索——我们分析了两个来自高风险环境的数据集,在这些数据集中,语音是在有意义的激励下自然产生的。第一个数据集来自英国电视游戏节目“Golden Balls”(GB),参赛者在游戏前进行沟通后玩囚徒困境游戏并面临巨额奖金;第二个数据集是“Real-life Trial”(RT)(Pérez-Rosas、Abouelenien、Mihalcea和Burzo,2015年),其中包含刑事审判中的法庭证词,被告因不诚实而面临重大的法律和道德后果。1 这两个情境都提供了自然主义决策环境中的高风险、非剧本化的互动。现有研究通常分别分析这两个数据集;关于RT的先前工作应用了机器学习方法来分析欺骗行为,而关于GB的研究则主要依赖于语言特征(例如,Ekici等人,2017年;Pérez-Rosas、Abouelenien、Mihalcea、Xiao等人,2015年;Turmunkh等人,2019年;Velichko和Karpov,2021年)。我们通过在一个统一的实证框架内研究这两个情境,并将语音作为主要媒介,将它们联系起来。
我们首先评估语音的声学特征是否包含关于合作和欺骗行为的预测信息。使用分别根据说话者性别在两个高风险数据集中估计的机器学习模型,我们发现仅使用语音的模型始终优于基准预测,准确率提高了5.6%到11.2个百分点。这些结果表明,语音信号在自然主义环境中捕获了与行为相关的信息。2 然后,我们将基于语音的模型与基于文本的模型的性能进行了比较。在两个数据集中,语音在独立预测方面的表现与文本相当,结合语音和文本也只能带来有限的额外收益。仅凭预测准确性无法确定这些媒介是否提供了不同的或重叠的信息。为了直接研究这一点,我们对多模态语音和文本模型中的预测性能进行了基于Shapley的分解。结果显示,在两种情境中,语音都占据了总体预测性能的相当大比例,RT中为63.7%-71.3%,GB中为41.9%-51.7%,表明语音线索提供了文本无法捕捉到的有意义且非冗余的行为信息。
由于机器学习模型并不直接揭示哪些特征驱动了它们的预测,接下来我们使用逻辑回归来识别与行为相关的语音特征。总体而言,RT数据集中的欺骗性语音在性别之间表现出相对一致的语音标志——特别是更高的音高和更低的语调变化性——而在GB中,合作行为仅与男性说话者相关,其特征是更高的音调和更低的谐波与噪声比(HNR)。这些结果揭示了不同情境和性别之间的异质性,说明了语音线索如何根据制度环境和说话者的人口统计特征映射到策略行为中。
最后,利用这两个数据集不同的情境设置,我们进行了跨情境预测分析,以评估语音特征在预测欺骗行为方面的普遍性。基于语音的模型在两个数据集之间表现出一定程度的迁移能力,而基于文本的模型通常不具备这种能力。尽管这些发现表明语音特征在捕捉欺骗行为的某些方面比语言内容更稳定,但语音线索与欺骗行为之间的更广泛映射仍然依赖于具体情境。
我们在几个方面为现有知识做出了贡献。首先,我们展示了仅凭语音就可以预测两种不同自然、高风险环境中的合作和欺骗行为。这一发现证实了语音作为一种过程数据源的有用性,行为经济学家可以轻松且非侵入性地收集这种数据;因此,它为关于非选择数据在社会科学中用途的不断增长的文献做出了贡献(Mullainathan和Spiess,2017年)。其次,我们确定了音高和谐波与噪声比是合作和欺骗的重要预测因子。第三,我们发现了语音的信息价值不仅限于同一情境内的预测:语音信号在不同制度情境中表现出一定的稳定性。据我们所知,之前没有研究探讨过跨情境预测,即使是基于文本的研究也很少尝试这种分析,尤其是在现实世界的高风险互动中。因此,这项研究是此类研究的先驱之一。
这项研究还具有相关性,因为它证明了将语音作为社会科学中有价值的研究工具的系统分析的概念。事实上,尽管大多数现有调查仍然主要依赖文本或分类回答,但越来越多的智能手机和网络平台现在允许参与者提供音频输入。3 在这些情境中,语音分析对于依赖自我报告或敏感信息的研究人员尤为重要,例如测量心理幸福感或经济结果的调查,以及那些回答是二元(“是/否”且无法进行文本分析的调查。
本文的其余部分安排如下:第2节和第3节描述了数据和方法论;第4节介绍了情境内预测模型、特征分解、逻辑回归分析和跨情境预测的结果。第5节总结了这些发现对行为经济学的意义,包括将语音数据应用于减少测量误差和改进实时调查设计的应用。