生成式搜索中核验行为的决定因素：一项联合实验的证据

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computers in Human Behavior Reports》：Determinants of verification behavior in generative search: Evidence from a conjoint experiment

【字体：大中小】 时间：2026年04月03日 来源：Computers in Human Behavior Reports 5.8

编辑推荐：

　　生成式人工智能（Generative AI）正日益被整合进搜索引擎，但其常因生成看似合理却并不准确的内容而受到批评，且此类内容通常以权威性语言呈现。尽管开发者鼓励用户核验系统响应，但关于哪些因素会影响这一决策，目前仍知之甚少。本研究通过一项预注册的联合实验（c

生成式人工智能（Generative AI）正日益被整合进搜索引擎，但其常因生成看似合理却并不准确的内容而受到批评，且此类内容通常以权威性语言呈现。尽管开发者鼓励用户核验系统响应，但关于哪些因素会影响这一决策，目前仍知之甚少。本研究通过一项预注册的联合实验（conjoint experiment）弥补了这一空白。研究以德国参与者（N=1,417）为样本，聚焦于与2024年欧洲选举相关的政治查询。研究在一个3x4x3x3因子设计中，考察了可核验性属性（核验免责声明与引用来源）以及内容属性（内容真实性与主题）对核验选择的影响。结果表明，尽管可核验性属性本意在于促进核验，但与其缺失情形相比，这些属性并未显著提高核验选择的概率；相较之下，内容属性则产生了显著影响。除主要属性外，本研究还考察了影响核验决策的倾向性因素。对引用来源的条件性信任并未显著影响核验概率，但高可信度来源会降低核验可能性，且这一效应不受信任水平影响。此外，当参与者本就对信息准确性持怀疑态度时，其更有可能进行核验。个人主题相关性对核验概率的影响则并不一致。这些结果表明，仅仅提供核验线索，可能不足以促进负责任的人工智能（AI）使用。相反，结果揭示了一种关键性的设计脆弱性：核验线索可能无意中削弱用户审查信息的倾向，因为核验行为似乎更多由既有怀疑所驱动，而非由习惯性的批判性参与所驱动。

该文发表于《Computers in Human Behavior Reports》，聚焦生成式搜索引擎（Generative Search Engines, GenSEs）场景下用户为何会选择对回答进行核验这一核心问题。研究背景在于，聊天式生成式人工智能（Generative AI, GenAI）系统正迅速成为公众获取信息的重要入口，并逐步嵌入主流搜索引擎。然而，与传统搜索通过结果页让用户自行筛选来源不同，GenSEs会将多个来源压缩为页面顶部的单一对话式答案。这种高便利性虽然提升了信息获取效率，却也可能弱化用户对信息来源和内容准确性的主动审查。尤其在政治信息搜寻中，生成式搜索常被发现会输出看似可信、措辞权威、但事实上不准确、误导甚至荒谬的内容。由于公民在民主决策中依赖可靠信息，若用户对GenSEs的事实准确性形成不当信任，则可能对选民判断和公共知识环境造成实质性损害。基于这一现实挑战，研究人员试图回答：在生成式搜索语境中，究竟是界面层面的“可核验性设计”更能促进核验，还是内容本身的真实性与主题特征更能触发核验行为。

围绕这一问题，论文从启发式—系统式模型（Heuristic-Systematic Model, HSM）与认知警觉理论（epistemic vigilance）出发，构建了研究的理论框架。HSM指出，在信息过载和认知资源有限的条件下，个体常以低成本的启发式路径进行快速判断，只有在动机和能力充分时，才会转向更费力的系统式加工。认知警觉理论则强调，当个体察觉来源不可信或内容可疑时，才更有可能启动额外审查。研究据此提出，核验本质上是一种高成本的信息处理行为，不会成为常态，而更可能在怀疑被触发时出现。论文尤其关注两类界面层面的可核验性属性：其一是核验免责声明，即在界面中明确提示系统可能不准确；其二是引用来源，即在回答中嵌入外部信息源链接。研究人员原本希望检验这些设计是否真能促使用户采取核验行动，同时也将内容真实性、信息主题、对来源的信任、对陈述准确性的主观判断以及主题相关性纳入分析。

方法上，研究采用预注册的配对联合实验（paired conjoint experiment），并嵌入在线问卷中实施。样本来自德国16岁及以上互联网用户，最终有效样本量为N=1,417，具有年龄、性别和教育水平上的代表性。实验设置了四个属性：核验免责声明、引用来源、内容真实性和信息主题，总计形成3x4x3x3共108种刺激组合。参与者在五轮任务中反复看到成对呈现的模拟GenSE回答，并被要求在两者中选择“如果必须核验，会更愿意核验哪一个”。研究同时测量了参与者对不同媒体来源的信任、对相关陈述真实性的主观感知以及主题个人相关性。统计分析使用平均边际成分效应（Average Marginal Component Effects, AMCEs）与边际均值（Marginal Means, MMs）估计不同属性对核验选择的绝对效应与相对效应。

主要技术方法可概括如下：研究人员基于预注册联合实验设计，在德国互联网用户样本队列（N=1,417）中开展在线调查；利用高仿真图像化刺激材料模拟生成式搜索回答，在四属性多水平全因子框架下随机配对呈现；以强制选择式核验意向作为因变量，结合边际均值（MMs）评估绝对概率，结合平均边际成分效应（AMCEs）识别各属性相对因果效应，并通过分组方式分析来源信任、感知准确性与主题相关性的条件效应。

在结果部分，论文首先报告了“Absolute effects of verifiability and content attributes”。这部分结果表明，内容属性相较于可核验性属性，对核验选择具有更强的影响力。具体而言，核验免责声明几乎不改变用户核验概率：无免责声明、情境式免责声明与文内免责声明三种条件下，核验概率都接近50%，说明免责声明并未有效推动核验意向。引用来源则表现出有限但值得注意的作用：当回答引用高可信度来源时，参与者更不倾向于核验；引用低可信度来源时，核验概率上升；不提供来源时，核验概率略高于平均水平。相比之下，内容真实性的影响最为显著：包含错误陈述的回答最容易被选择去核验，部分错误次之，完全真实的回答最不容易被核验。信息主题也具有显著效应，与奥运会这一对照主题相比，关于欧盟防务和欧洲移民政策的回答更容易引发核验意向，其中移民政策主题的影响最强。

接着，在“Relative effects of verifiability and content attributes”部分，研究通过AMCEs进一步比较属性的相对影响。结果再次印证，免责声明不产生显著因果效应，从无免责声明切换为任一免责声明形式，均不会显著提高核验概率，这支持了H1。引用来源中，仅“高可信度来源”相对于“无来源”显著降低核验概率，降幅约为6个百分点，说明高可信度来源更像一种降低警觉的启发式线索，而不是促进核验的工具。相较之下，内容主题与真实性的相对效应都很强：与奥运会主题相比，欧盟防务与欧洲移民政策分别显著提高核验概率；与真实内容相比，部分错误和完全错误内容也显著提高核验概率，其中完全错误内容的提升幅度最大。这一结果清晰地显示，在生成式搜索环境中，真正驱动核验选择的并非平台提供的透明性或可核验性装置，而是用户从内容本身感知到的可疑性和主题敏感性。

在“Conditional effects on verification choice”部分，论文检验了三个倾向性因素的条件效应。首先是“Trust in cited media sources”。研究原假设认为，对引用来源信任较低的个体，应比高信任者更愿意核验，但数据并未支持这一点。无论刺激中出现的是高可信度来源、低可信度来源、混合来源还是无来源，低信任组与高信任组之间都没有显著差异，因此H2未获支持。也就是说，个体对媒体来源的既有信任水平，并不足以解释其在具体GenSE回答面前的核验倾向。

其次是“Perceived accuracy of statements”。这一部分结果最具解释力。研究将参与者对陈述真实性的主观判断与实验中对应陈述进行匹配，发现无论陈述客观上是真、半假还是假，只要参与者主观上更确信其不准确，就更可能选择对该回答进行核验。低感知准确性组在所有真实性水平上都表现出更高的核验概率，因此H3获得充分支持。这说明核验更像是“先不信任，后去核验”的过程，即核验并不是常规性的准确性追求，而是在怀疑被激活之后才被选择的一种高成本行为。

最后是“Personal relevance of a topic”。研究原本预期，主题对个人越重要，核验概率越高，但结果仅获得部分支持。只有在奥运会主题上，高个人相关性组比低相关性组更可能选择核验；在欧洲移民政策与欧盟防务主题上，这种差异并不显著，因此H4仅得到部分支持。论文认为，这可能与政治主题在样本中的基线相关性过高、方差较小有关，从而削弱了检测组间差异的能力。但从整体主题主效应来看，参与者总体上仍更愿意核验政治主题内容，说明政治议题本身相较于非政治议题更容易激发核验动机。

讨论部分指出，本研究最重要的理论贡献在于，它将可核验性属性与内容属性置于同一联合实验框架下直接比较，从而揭示在GenSE场景中，界面透明性设计对核验促进作用相当有限。免责声明未能起效，意味着仅靠提示“系统可能出错”不足以改变用户默认相信回答的倾向。高可信度来源反而降低核验概率，则暴露出一种关键设计脆弱性：引用来源在实践中可能被用户当作“可信外观”的捷径，而非真正引导其开展核对。若生成式回答即使附带可信媒体来源仍可能包含事实错误，那么这种启发式信号反而可能制造不当信任，降低审查强度。研究同时从认知警觉理论角度提出一种“distrust-first, verify-second”的动态机制，即用户通常不是出于日常批判性习惯而核验，而是在已有怀疑显著高于进一步核查所需认知成本时，才启动核验行为。这一模式更像是在不确定信息环境中的适应性成本—收益权衡，而非单纯的认知失败。

论文还讨论了若干局限。首先，实验模拟的是静态、单轮查询—回答情境，无法捕捉现实生成式搜索中的多轮追问、请求澄清等系统内核验策略。其次，研究测量的是核验意向而非真实核验行为，因此不能完全排除社会期望效应。再次，参与者在实验前已被测量对陈述真实性的主观判断，这可能在一定程度上提前激活了其对内容真实性的关注。尽管如此，作者认为研究对理解生成式搜索中的信息核验机制仍具有稳健价值。

研究结论部分可译为：随着生成式人工智能（GenAI）日益成为许多用户的默认搜索体验，用户很可能会围绕其单一回答、对话式呈现特征来调整信息搜寻习惯。这种从多来源、超链接驱动的搜索转向单一回答摘要的变化，虽然降低了信息搜寻摩擦，却也可能助长对初始答案的不当信任并抑制进一步审查。久而久之，这可能导致一种认知上的自满状态，即用户逐渐习惯于“一个答案”的便利性，而忽视探索多元视角或批判性评估来源，尽管GenSEs已知存在可靠性问题。本研究结果直接揭示了这一风险。如果核验主要由怀疑所触发，那么那些看似合理、听起来可靠的GenSE输出就常常不会受到挑战。从规范层面看，这对健康民主构成一种张力：民主社会需要公众对信息机构保持基本信任，以维持共享的认知基础；但与GenAI系统进行安全互动，可能又需要采取更具怀疑性的默认立场，以识别技术错误与错误信息。GenSEs及其他GenAI系统并非能够可靠承担认知外包的万无一失的信息来源，尤其是在政治等敏感议题上。批判性参与的削弱，可能增加用户对GenAI进行信息获取与来源选择的依赖，进而侵蚀传统上用于抵御错误信息的认知警觉。因此，用户可能需要发展一种新的能力：算法警觉（algorithmic vigilance），即不仅主动意识到信息是否看似准确，还要意识到AI系统固有的局限、偏差与错误模式。

联系信箱：

粤ICP备09063491号

热点排行