缺陷侦探与质量教练:开发人员对AI辅助IDE工具的心智模型

《Computers in Human Behavior Reports》:Bug detective and quality coach: Developers’ mental models of AI-assisted IDE tools

【字体: 时间:2026年06月18日 来源:Computers in Human Behavior Reports 5.8

编辑推荐:

  AI辅助工具支持开发人员执行认知要求较高的任务,如缺陷检测(bug检测)和代码可读性评估。尽管这些工具在技术特性方面取得了进展,但关于开发人员如何对其形成心智模型(mental models)以及不匹配如何影响信任、控制感和采用率,目前了解甚少。研究人员开展了

  
AI辅助工具支持开发人员执行认知要求较高的任务,如缺陷检测(bug检测)和代码可读性评估。尽管这些工具在技术特性方面取得了进展,但关于开发人员如何对其形成心智模型(mental models)以及不匹配如何影响信任、控制感和采用率,目前了解甚少。研究人员开展了六项协同设计工作坊(co-design workshops),共58名开发人员参与,以引出其对AI辅助缺陷检测和可读性特征的心智模型。研究发现,开发人员将缺陷检测工具构想为"缺陷侦探"(bug detectives),仅在关键问题时向用户发出警告,保证透明性、可操作性反馈和置信度提示;可读性评估工具则被构想为"质量教练"(quality coaches),提供情境化、个性化和渐进式指导。两项任务中的信任均依赖于解释的清晰度、时机和用户控制。研究人员提炼出一组以人为中心的AI(Human-Centered AI, HCAI)集成开发环境(Integrated Development Environment, IDE)设计原则,旨在平衡干扰与支持、简洁与深度、自动化与人的能动性(human agency)之间的关系。
该研究发表于《Computers in Human Behavior Reports》,聚焦于AI辅助IDE工具中开发人员心智模型的实证探索,旨在弥补现有研究过度关注技术性能而忽视用户认知机制的不足。研究背景源于人工智能显著改变人机交互方式,特别是在软件开发领域,现代IDE日益采用AI增强工具,转变了开发人员编写、审查和维护代码的方式。虽然代码编写是最早受益于此演进的开发任务之一,但随着AI模型的改进,更为复杂、认知密集的活动如缺陷检测和代码可读性评估也可获得辅助,从而提升软件质量、安全性和长期可维护性。

然而,实现有效的人机AI协作需要将AI解决方案集成于IDE中,这不应仅限于技术层面。实际上,若此类工具设计存在缺陷、未能考虑开发人员的心智模型,可能带来技能退化(deskilling)、不安全代码以及与开发人员判断冲突时的摩擦等风险。以人为中心的人工智能(HCAI)范式倡导AI系统应通过用户参与来设计和评估,以提升任务表现和满意度。HCAI研究强调,成功的人机AI协作不仅取决于算法准确性,还依赖于用户的心智模型、解释设计及信任构建过程。但在IDE情境中,这些因素尚未得到充分研究,现有研究通常聚焦于提升AI辅助工具的准确性和性能,而对开发人员如何概念化、理解和信任这些基于AI的工具关注不足,这一局限限制了对AI集成如何影响开发人员心智模型、交互模式和能动性感的理解。

研究人员指出,期望(expectations)与心智模型存在本质区别:期望通常描述期望的功能特征或表层用户界面偏好,而心智模型则 capture 用户认为AI如何运作、推理和评估代码的深层认知结构。通过明确调查这些心智模型,研究在理论上推进了从基础可用性到人机AI信任、依赖和委托的基础认知机制的焦点转移;方法论上,揭示这些内隐且通常潜意识的概念化需要超越传统自我报告调查的情境化协同设计引出方法,迫使开发人员通过具体、情境化的交互外化其抽象假设。此外,现有研究在应用领域存在显著空白:关于开发人员如何与AI交互以完成质量中心任务(如缺陷检测和代码可读性评估)知之甚少。这两项任务密切相关,均需要高阶推理过程(如评估影响、理解情境和预判后果),且在开发人员對基于AI的工具的信任建模中扮演核心角色,它们往往相互依赖:可读性差会导致更复杂的缺陷检测过程,而识别缺陷也可能突显需要解决的可读性问题。将二者共同研究能够识别交互设计中的共享挑战(如需要精确、情境化和可适应的系统反馈),同时捕获它们之间的潜在协同效应。

研究人员开展了六项协同设计工作坊,共58名开发人员参与,回答了三个研究问题:(RQ1)开发人员如何心智建模其交互?(RQ2)对解释、个性化和控制有何期望?(RQ3)哪些设计原则能使AI工具与开发人员的心智模型匹配?

研究贡献包括三个方面:一是经验性贡献,首次探索开发人员使用AI辅助工具进行缺陷检测和可读性评估的心智模型;二是概念性贡献,发现开发人员将缺陷检测工具视为"缺陷侦探"、将可读性评估工具视为"质量教练",并识别出信任、控制与可解释性之间的张力;三是设计贡献,识别出适用于两项任务的七项设计原则,将AI输出与开发人员的心智模型相连接。

研究的技术方法主要采用协同设计工作坊(co-design workshops)作为数据收集方法,参与者围绕四种情境展开讨论:缺陷检测—基础情境、缺陷检测—解释情境、代码可读性测量—指标情境、代码可读性测量—解释情境。研究人员采用5W+1H模型(Who、What、When、Where、Why和How)引导结构化讨论以引出心智模型,但故意省略了"Who"问题以避免获得"系统"这类平凡答案。参与者来自意大利南部三所大学(巴里大学、萨勒诺大学和莫利塞大学),包括40名学生和18名专业开发人员,编程经验平均5.9年,涵盖Java、Python、C、C++、PHP、JavaScript和HTML等多种编程语言。数据收集包括研究人员笔记、音频录音和参与者草图,随后两名研究人员独立审查约80%的材料以确保转录的准确性和完整性,并进行反思性主题分析(reflexive thematic analysis),遵循Braun和Clarke的六阶段方法,通过迭代编码、比较和讨论形成共享编码手册,最终通过高阶综合将操作期望聚合为拟人化角色。

研究结果按任务和情境组织呈现。在缺陷检测警报交互方面,参与者期望警报报告错误标识与分类、严重程度与影响评估、精确位置与情境细节、根本原因与诊断解释、可操作性反馈与修复建议、以及来源归因与透明性;显示方式偏好色彩编码、图标与视觉标记、基于证据的高亮、动态呈现以及轻量级非阻塞模态;放置位置偏好内联标记、侧边面板和专用视图、非侵入性定位及动态适应;触发时机偏好即时警报(针对语法或明显关键错误)、按需激活(默认方式)、写作后触发(保存、提交或运行测试时批量呈现)以及情境感知定时(根据开发行为和严重度调整)。在缺陷检测解释方面,期望解释涵盖错误性质理解、影响意识、实用解决支持、文档与参考、AI推理透明性;显示方式偏好内联嵌入选项、可扩展分离视图、交互式呈现和辅助模态;放置位置偏好侧面板/侧边栏、集成代码视图、非侵入性定位和动态混合放置;时机偏好按需交付、关键缺陷自动展开、交互后定时;定制偏好基于经验的细节层次、用户控制偏好、情境适应和AI驱动个性化。

在代码可读性指标交互方面,参与者期望指标报告可读性分数与指标、代码质量指标、指标定位和改进指导;显示方式偏好色彩编码、视觉标记与高亮、图表和图形概览以及模块化用户界面组件;放置位置偏好侧面板与工具栏、嵌入代码视图、非侵入性定位和动态混合放置;触发时机偏好按需激活、写作后触发、实时和情境更新。在可读性评估解释方面,期望解释涵盖代码结构问题、命名规范、风格与格式、注释实践和项目级一致性;显示方式偏好可扩展视图、内联嵌入选项以及图形和视觉辅助;放置位置偏好侧面板和工具栏、嵌入代码视图、非侵入性定位和动态混合放置;时机偏好按需激活、写作后触发和主动显示(仅显著可读性分数下降或违反重要团队约定标准时)。定制偏好包括基于经验的细节层次、用户控制偏好、情境适应和AI驱动个性化。

基于上述发现,研究人员构建了两种心智模型。缺陷检测的心智模型为"缺陷侦探":激活与控制方面,系统应保持静默直至关键安全缺陷出现,次要问题可在自然暂停时处理,推荐混合模式(后台轻量检查+手动触发);可视化与放置方面,平衡精确性与概览,内联标记直接链接问题代码,可折叠侧面板作为缺陷发现中心,界面应适应工作空间;内容与颗粒度方面,警报需报告错误内容、原因和后续步骤,包含位置、简短因果解释和具体下一步,信任通过透明度(严重度标签、置信度指示器、发现来源)建立,颗粒度遵循渐进模式;解释交付偏好方面,解释应靠近代码但非关键发现不自动展开,要求简短理由附带于标记代码,可展开为更丰富解释;个性化与设计需求方面,细节和主动性需适配开发者和项目,支持静态配置和动态学习,控制机制明确且可逆。

可读性评估的心智模型为"质量教练":激活与控制方面,指示符应在支持改进而非构思创意时出现,轻量检查后台运行并在自然暂停显示结果,支持按需调用,自动指示仅特定事件触发;可视化与放置方面,实现精确定位和快速质量概览两个互补目标,内联高亮配合"因素芯片",可折叠侧边栏作为中心枢纽,界面适应编辑器空间;内容与颗粒度方面,系统提供透明渐进流程:突出难读之处、解释重要性、展示改进方式和预期变化,要求客观总体可读性分数分解为多层级和多因素,指示符具体定位,建议可操作且细小,附带预览和团队规范比较;解释交付偏好方面,解释靠近代码且按需展开,简短理由悬停或内联查看,详细解释在侧面板中展开包含因素分解、前后比较和链接,反映更广泛情境;个性化与设计需求方面,细节层次随经验缩放,偏好可配置(如"初学者""专家""团队"配置),动态学习行为,项目标准可调,语言和领域规则适配,提供轻量级控制选项。

讨论部分,研究人员指出核心设计张力包括:主动激活与保持心流的平衡;简洁与详细建议的平衡;可操作性与说教性建议的平衡;简洁与详细解释的平衡;个体与团队基于个性化的平衡;以及角色框架差异(缺陷检测设计为侦探角色、可读性评分框架为教练角色)。研究人员进一步提出人机AI信任的系统框架,将设计维度映射到信任结果:技术透明性维度,缺陷侦探要求证据性深度(如置信度分数、执行轨迹),质量教练要求教学清晰性(如清晰理由、"前后"差异对比),减少"黑箱"怀疑并使能适当验证;自适应定时维度,缺陷侦探需要基于严重度的主动即时警报,质量教练需要情境感知的写作后或按需触发,使AI与开发人员认知流对齐、防止"警报疲劳";可配置控制维度,两种模型均需颗粒化范围设定(行、文件、项目)、暂停功能和可逆操作,培养赋能感和所有权感、缓解自主性丧失恐惧。该框架作为设计诊断工具,指出AI辅助IDE中信任的侵蚀主要源于"心智模型不匹配"——将适合某一角色的设计特征应用于另一角色。

研究结论部分翻译如下:本研究报告了六项协同设计工作坊的结果,旨在调查开发人员与具有AI增强能力的IDE交互时的心智模型,这些能力用于缺陷检测和代码可读性评估。该研究通过展示开发人员如何设计AI辅助IDE作为应仔细平衡用户控制、可解释性和适应性的增强系统,为HCAI中正在进行的人机交互讨论做出贡献。为支持这些系统的有效采用,研究人员需要最小化干扰同时保持人主动性的情境敏感激活方法、改善透明度和信任的渐进解释形式,以及适配个体专业知识和团队实践的个性化机制。此外,开发人员如何感知AI的角色塑造了协作过程,例如在缺陷检测任务中,AI被视为诊断伙伴,而在可读性评分中则被视为教练助手。总体而言,本研究中出现的设计意涵,关于解释深度、建议时机和系统定制,可能超越软件工程领域延伸;这可为提供评估性反馈的交互式AI系统开发提供可迁移指导,如医学决策支持、教育技术和安全监控。

未来工作将通过形成性可用性研究实证验证理论意涵是否转化为有用且受开发人员接受的HCAI工具,基于本研究理论发现构建原型并进行评估,以理解此类工具是否提升开发人员在AI支持任务中的有效性、效率和满意度。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号