《Computers in Human Behavior Reports》:Determinants of verification behavior in generative search: Evidence from a conjoint experiment
编辑推荐:
生成式人工智能(Generative AI)正日益被整合进搜索引擎,但其常因生成看似合理却并不准确的内容而受到批评,且此类内容通常以权威性语言呈现。尽管开发者鼓励用户核验系统响应,但关于哪些因素会影响这一决策,目前仍知之甚少。本研究通过一项预注册的联合实验(c
生成式人工智能(Generative AI)正日益被整合进搜索引擎,但其常因生成看似合理却并不准确的内容而受到批评,且此类内容通常以权威性语言呈现。尽管开发者鼓励用户核验系统响应,但关于哪些因素会影响这一决策,目前仍知之甚少。本研究通过一项预注册的联合实验(conjoint experiment)弥补了这一空白。研究以德国参与者(N=1,417)为样本,聚焦于与2024年欧洲选举相关的政治查询。研究在一个3x4x3x3因子设计中,考察了可核验性属性(核验免责声明与引用来源)以及内容属性(内容真实性与主题)对核验选择的影响。结果表明,尽管可核验性属性本意在于促进核验,但与其缺失情形相比,这些属性并未显著提高核验选择的概率;相较之下,内容属性则产生了显著影响。除主要属性外,本研究还考察了影响核验决策的倾向性因素。对引用来源的条件性信任并未显著影响核验概率,但高可信度来源会降低核验可能性,且这一效应不受信任水平影响。此外,当参与者本就对信息准确性持怀疑态度时,其更有可能进行核验。个人主题相关性对核验概率的影响则并不一致。这些结果表明,仅仅提供核验线索,可能不足以促进负责任的人工智能(AI)使用。相反,结果揭示了一种关键性的设计脆弱性:核验线索可能无意中削弱用户审查信息的倾向,因为核验行为似乎更多由既有怀疑所驱动,而非由习惯性的批判性参与所驱动。
该文发表于《Computers in Human Behavior Reports》,聚焦生成式搜索引擎(Generative Search Engines, GenSEs)场景下用户为何会选择对回答进行核验这一核心问题。研究背景在于,聊天式生成式人工智能(Generative AI, GenAI)系统正迅速成为公众获取信息的重要入口,并逐步嵌入主流搜索引擎。然而,与传统搜索通过结果页让用户自行筛选来源不同,GenSEs会将多个来源压缩为页面顶部的单一对话式答案。这种高便利性虽然提升了信息获取效率,却也可能弱化用户对信息来源和内容准确性的主动审查。尤其在政治信息搜寻中,生成式搜索常被发现会输出看似可信、措辞权威、但事实上不准确、误导甚至荒谬的内容。由于公民在民主决策中依赖可靠信息,若用户对GenSEs的事实准确性形成不当信任,则可能对选民判断和公共知识环境造成实质性损害。基于这一现实挑战,研究人员试图回答:在生成式搜索语境中,究竟是界面层面的“可核验性设计”更能促进核验,还是内容本身的真实性与主题特征更能触发核验行为。
围绕这一问题,论文从启发式—系统式模型(Heuristic-Systematic Model, HSM)与认知警觉理论(epistemic vigilance)出发,构建了研究的理论框架。HSM指出,在信息过载和认知资源有限的条件下,个体常以低成本的启发式路径进行快速判断,只有在动机和能力充分时,才会转向更费力的系统式加工。认知警觉理论则强调,当个体察觉来源不可信或内容可疑时,才更有可能启动额外审查。研究据此提出,核验本质上是一种高成本的信息处理行为,不会成为常态,而更可能在怀疑被触发时出现。论文尤其关注两类界面层面的可核验性属性:其一是核验免责声明,即在界面中明确提示系统可能不准确;其二是引用来源,即在回答中嵌入外部信息源链接。研究人员原本希望检验这些设计是否真能促使用户采取核验行动,同时也将内容真实性、信息主题、对来源的信任、对陈述准确性的主观判断以及主题相关性纳入分析。
方法上,研究采用预注册的配对联合实验(paired conjoint experiment),并嵌入在线问卷中实施。样本来自德国16岁及以上互联网用户,最终有效样本量为N=1,417,具有年龄、性别和教育水平上的代表性。实验设置了四个属性:核验免责声明、引用来源、内容真实性和信息主题,总计形成3x4x3x3共108种刺激组合。参与者在五轮任务中反复看到成对呈现的模拟GenSE回答,并被要求在两者中选择“如果必须核验,会更愿意核验哪一个”。研究同时测量了参与者对不同媒体来源的信任、对相关陈述真实性的主观感知以及主题个人相关性。统计分析使用平均边际成分效应(Average Marginal Component Effects, AMCEs)与边际均值(Marginal Means, MMs)估计不同属性对核验选择的绝对效应与相对效应。
主要技术方法可概括如下:研究人员基于预注册联合实验设计,在德国互联网用户样本队列(N=1,417)中开展在线调查;利用高仿真图像化刺激材料模拟生成式搜索回答,在四属性多水平全因子框架下随机配对呈现;以强制选择式核验意向作为因变量,结合边际均值(MMs)评估绝对概率,结合平均边际成分效应(AMCEs)识别各属性相对因果效应,并通过分组方式分析来源信任、感知准确性与主题相关性的条件效应。
在结果部分,论文首先报告了“Absolute effects of verifiability and content attributes”。这部分结果表明,内容属性相较于可核验性属性,对核验选择具有更强的影响力。具体而言,核验免责声明几乎不改变用户核验概率:无免责声明、情境式免责声明与文内免责声明三种条件下,核验概率都接近50%,说明免责声明并未有效推动核验意向。引用来源则表现出有限但值得注意的作用:当回答引用高可信度来源时,参与者更不倾向于核验;引用低可信度来源时,核验概率上升;不提供来源时,核验概率略高于平均水平。相比之下,内容真实性的影响最为显著:包含错误陈述的回答最容易被选择去核验,部分错误次之,完全真实的回答最不容易被核验。信息主题也具有显著效应,与奥运会这一对照主题相比,关于欧盟防务和欧洲移民政策的回答更容易引发核验意向,其中移民政策主题的影响最强。
接着,在“Relative effects of verifiability and content attributes”部分,研究通过AMCEs进一步比较属性的相对影响。结果再次印证,免责声明不产生显著因果效应,从无免责声明切换为任一免责声明形式,均不会显著提高核验概率,这支持了H1。引用来源中,仅“高可信度来源”相对于“无来源”显著降低核验概率,降幅约为6个百分点,说明高可信度来源更像一种降低警觉的启发式线索,而不是促进核验的工具。相较之下,内容主题与真实性的相对效应都很强:与奥运会主题相比,欧盟防务与欧洲移民政策分别显著提高核验概率;与真实内容相比,部分错误和完全错误内容也显著提高核验概率,其中完全错误内容的提升幅度最大。这一结果清晰地显示,在生成式搜索环境中,真正驱动核验选择的并非平台提供的透明性或可核验性装置,而是用户从内容本身感知到的可疑性和主题敏感性。
在“Conditional effects on verification choice”部分,论文检验了三个倾向性因素的条件效应。首先是“Trust in cited media sources”。研究原假设认为,对引用来源信任较低的个体,应比高信任者更愿意核验,但数据并未支持这一点。无论刺激中出现的是高可信度来源、低可信度来源、混合来源还是无来源,低信任组与高信任组之间都没有显著差异,因此H2未获支持。也就是说,个体对媒体来源的既有信任水平,并不足以解释其在具体GenSE回答面前的核验倾向。
其次是“Perceived accuracy of statements”。这一部分结果最具解释力。研究将参与者对陈述真实性的主观判断与实验中对应陈述进行匹配,发现无论陈述客观上是真、半假还是假,只要参与者主观上更确信其不准确,就更可能选择对该回答进行核验。低感知准确性组在所有真实性水平上都表现出更高的核验概率,因此H3获得充分支持。这说明核验更像是“先不信任,后去核验”的过程,即核验并不是常规性的准确性追求,而是在怀疑被激活之后才被选择的一种高成本行为。
最后是“Personal relevance of a topic”。研究原本预期,主题对个人越重要,核验概率越高,但结果仅获得部分支持。只有在奥运会主题上,高个人相关性组比低相关性组更可能选择核验;在欧洲移民政策与欧盟防务主题上,这种差异并不显著,因此H4仅得到部分支持。论文认为,这可能与政治主题在样本中的基线相关性过高、方差较小有关,从而削弱了检测组间差异的能力。但从整体主题主效应来看,参与者总体上仍更愿意核验政治主题内容,说明政治议题本身相较于非政治议题更容易激发核验动机。
讨论部分指出,本研究最重要的理论贡献在于,它将可核验性属性与内容属性置于同一联合实验框架下直接比较,从而揭示在GenSE场景中,界面透明性设计对核验促进作用相当有限。免责声明未能起效,意味着仅靠提示“系统可能出错”不足以改变用户默认相信回答的倾向。高可信度来源反而降低核验概率,则暴露出一种关键设计脆弱性:引用来源在实践中可能被用户当作“可信外观”的捷径,而非真正引导其开展核对。若生成式回答即使附带可信媒体来源仍可能包含事实错误,那么这种启发式信号反而可能制造不当信任,降低审查强度。研究同时从认知警觉理论角度提出一种“distrust-first, verify-second”的动态机制,即用户通常不是出于日常批判性习惯而核验,而是在已有怀疑显著高于进一步核查所需认知成本时,才启动核验行为。这一模式更像是在不确定信息环境中的适应性成本—收益权衡,而非单纯的认知失败。
论文还讨论了若干局限。首先,实验模拟的是静态、单轮查询—回答情境,无法捕捉现实生成式搜索中的多轮追问、请求澄清等系统内核验策略。其次,研究测量的是核验意向而非真实核验行为,因此不能完全排除社会期望效应。再次,参与者在实验前已被测量对陈述真实性的主观判断,这可能在一定程度上提前激活了其对内容真实性的关注。尽管如此,作者认为研究对理解生成式搜索中的信息核验机制仍具有稳健价值。
研究结论部分可译为:随着生成式人工智能(GenAI)日益成为许多用户的默认搜索体验,用户很可能会围绕其单一回答、对话式呈现特征来调整信息搜寻习惯。这种从多来源、超链接驱动的搜索转向单一回答摘要的变化,虽然降低了信息搜寻摩擦,却也可能助长对初始答案的不当信任并抑制进一步审查。久而久之,这可能导致一种认知上的自满状态,即用户逐渐习惯于“一个答案”的便利性,而忽视探索多元视角或批判性评估来源,尽管GenSEs已知存在可靠性问题。本研究结果直接揭示了这一风险。如果核验主要由怀疑所触发,那么那些看似合理、听起来可靠的GenSE输出就常常不会受到挑战。从规范层面看,这对健康民主构成一种张力:民主社会需要公众对信息机构保持基本信任,以维持共享的认知基础;但与GenAI系统进行安全互动,可能又需要采取更具怀疑性的默认立场,以识别技术错误与错误信息。GenSEs及其他GenAI系统并非能够可靠承担认知外包的万无一失的信息来源,尤其是在政治等敏感议题上。批判性参与的削弱,可能增加用户对GenAI进行信息获取与来源选择的依赖,进而侵蚀传统上用于抵御错误信息的认知警觉。因此,用户可能需要发展一种新的能力:算法警觉(algorithmic vigilance),即不仅主动意识到信息是否看似准确,还要意识到AI系统固有的局限、偏差与错误模式。