从规模到情境化:社会技术想象与算法健康研究的构型

《Sociology of Health & Illness》:From Scale to Situated: Sociotechnical Imaginaries and the Configuration of Algorithmic Health Research

【字体: 时间:2026年06月14日 来源:Sociology of Health & Illness 2.7

编辑推荐:

  当代医疗系统产生海量数据,算法分析有望实现疾病预测、改进诊断和优化治疗。尽管投入巨大,用于算法分析的数据中存在的偏倚持续存在,导致健康结果的不平等。仅凭规模本身无法解决这些偏倚;相反,需要考虑数据的语境化维度。然而,呼吁更多数据以"消除"此类问题的做法十分常见

  
当代医疗系统产生海量数据,算法分析有望实现疾病预测、改进诊断和优化治疗。尽管投入巨大,用于算法分析的数据中存在的偏倚持续存在,导致健康结果的不平等。仅凭规模本身无法解决这些偏倚;相反,需要考虑数据的语境化维度。然而,呼吁更多数据以"消除"此类问题的做法十分常见。基于对英国健康数据研究人员的质性访谈,本研究运用Lucy Suchman的构型(configuration)概念,探讨关于"大数据"的社会技术想象如何导致对更多数据的呼吁,以及这些想象如何在日常研究实践中得以维持、运作和实现。具体而言,研究识别了三个相互关联的、维持这些想象的过程:(1)以风险为导向的叙事,将研究组织为围绕可计算的未来;(2)去情境化的转译过程,使数据与算法需求对齐;以及(3)算法能力与数据可用性之间持续存在的差距。本研究将第三个机制概念化为生产性差距(productive gap),因为它通过将局限性归因于数据不足而不断重申对规模的承诺。研究人员认为,这一差距代表了重构的关键节点,揭示了关于去情境化的假设可能在何处受到挑战,从而为健康数据研究中更为情境化的方法创造空间。
## 研究背景与问题

当代医疗系统已成为 Intensive 数据生产的场所,源自对数据可能解锁新见解的巨大兴奋。基因组测序、数字化健康记录、医学影像、远程监测和可穿戴技术等多源数据不断积累,预期将重塑对健康和疾病的理解。研究人员部署日益复杂的计算方法,包括机器学习(Machine Learning, ML)、自然语言处理(Natural Language Processing, NLP)和人工智能(Artificial Intelligence, AI)技术,以实现疾病预测与预防、诊断准确性提升、人群健康建模、治疗方案优化及药物发现转型等目标。

这一数据密集型健康研究的转向根植于一种规模逻辑(logic of scale),即假设更多数据将产生更稳健、客观和可操作的知识。英国生物银行(UKBiobank)、All of Us 和中国嘉道理生物样本库(China Kadoorie Biobank)等大型国家和全球生物样本库与数据基础设施投资,为构建海量数据集提供了必要基础。尽管大规模数据集中的代表性缺口和算法局限性等挑战已被广泛认识,但主流假设仍认为足够的数据量最终将"消除"这些问题。

然而,尽管数据基础设施和计算能力投入巨大,系统性偏倚仍在健康数据研究中被持续复制和放大。偏倚嵌入数据收集和算法开发的多个阶段:数据集编纂 disproportionately 依赖于医疗服务可及性更高的患者;标准化临床类别掩盖了疾病在不同患者群体中表现的重要差异;算法在此类不均衡数据上训练,导致对代表性不足群体的性能更差。当研究系统性地排除或误表征特定人群时, resulting 知识基础对于满足其健康需求变得不足,反而可能加剧现有的健康不平等。Lopez区分了数据研究中的三种偏倚形式:技术性偏倚,源于测量误差或过时数据;社会技术性偏倚,根植于数据分类或收集中的结构性不平等;以及社会性偏倚,即数据再生产更广泛的社会不公。技术"修复"往往遮蔽了最初产生偏倚的体制和社会动态,可能强化而非解决不平等。

这些持续的结构性偏倚表明,仅凭规模无法塑造健康结果的社会情境,需要更具情境化(situated)的方法——认识到健康嵌入在其展开的社会、文化、环境和政治情境之中。"情境化"强调知识和数据实践并非仅受情境影响,而是通过特定的社会、物质和制度安排主动生产的。尽管此类视角在健康不平等研究中已确立,但必须延伸至健康数据本身的生成、解释和动员方式。然而,健康研究在很大程度上仍坚持一种客观主义理解,将数据视为离散的、完整的、可在跨情境中保持意义的可移动实体。这种客观主义立场持续存在,尽管大量科学技术研究(Science and Technology Studies, STS)已表明数据、科学和技术本质上都是情境化的,由其生产和解释的情境和practices塑造。

社会技术想象(sociotechnical imaginaries)将"大数据"定位为应对医疗挑战的客观和普适解决方案,深刻影响着研究方法论和跨学科合作的条件。Jasanoff和Kim将其定义为"集体持有、制度稳定化并公开表演的关于理想未来的愿景,由对通过科技进步可达成并支持的社会生活和社会秩序形式的理解所驱动"。在医疗领域,这些想象凝聚为数据驱动解决方案的叙事,创造了关于合法研究应如何开展以及科学进步如何展开的 influential 叙事。Gardner通过医院民族志研究表明,这些想象具有"魅惑"品质,在对齐不同利益相关者的同时,为组织合法性提供策略。Hoeyer指出生物医学数据常被投机性积累:其价值在于规模和科技进步最终将产生新见解的预期。这种 promissory 取向通过风险(risk)概念在实践中运作,将健康结果框定为可计算、预测和预先管理的事物。

风险作为医学组织原则的转向并非新事物。Armstrong的历史分析表明,人群层面的风险概率已逐步重组临床实践,将注意力从诊断和治疗明显疾病转向识别和管理未来可能性。Amoore以"衍生的生命"(derivative life)概念描述了根本转变:算法系统并非作用于生命实际展开的方式——包括其具身复杂性、社会情境和不可预测轨迹——而是基于数字数据的部分表征进行运算。这些"衍生品"是计算抽象,声称捕捉生命的本质可操作特征,同时系统性地剥离生命展开的情境脉络。这种从"因果关系到相关性"的转向,使研究优先考虑通过预测性能体现的风险,围绕相关性关系组织数据以实现 preemptive 干预。

Haraway挑战客观性本身的本体论基础,将声称客观知识——她所谓的"无视角"(the view from nowhere)——视为特定历史定位的视角,遮蔽其自身的 partiality。Suchman以" situated practice"(情境化实践)概念延伸这一批判,揭示计算系统预设逻辑与人类行为情境化特征之间的根本错位,区分"计划"(plans)与"情境化行动"(situated actions)。Suchman以构型(configuration)描述技术得以凝聚特定认知和行动方式的社会物质装置,涵盖技术组件、社会意义、制度实践和未来愿景。技术并非仅凭技术属性获得意义,而是源于人们对其成就的预期;同时技术的物质存在帮助稳定和合法化这些愿景。这种 mutually reinforcing 关系意味着想象并非简单投射到技术上,而是通过其设计、部署和日常使用主动维持。

本研究基于上述理论框架,运用Suchman的构型概念分析关于数据驱动医疗的社会技术想象如何通过围绕风险概念组织的社会、物质和制度practices得以组装,并追溯这些想象在健康数据研究中的运作和稳定化机制。

## 主要技术方法

本研究采用定性访谈方法,于2022年1月至3月间对26名英国健康数据研究人员进行半结构化访谈。参与者通过目的性抽样招募,来源包括:UKBiobank资源成功申请公开名单、Genomics England临床实施合作伙伴公开名单、生物信息学期刊、Web of Science生物传感研究关键词检索、英国公私机构数据驱动健康倡议网络搜索,以及滚雪球抽样。26名参与者涵盖不同职业阶段,来自14所大学和公司,学科背景包括临床研究、工程(含AI)、公共卫生与流行病学、数据科学与生物信息学、卫生服务研究、数据管理与策展等。访谈录音逐字转录后,使用NVivo软件进行分析,采用归纳与演绎编码相结合的溯因框架(abductive framework)。

## 研究结果

### 风险叙事

社会技术想象通过多样化行动者和技术的 assemblages 运作,而风险是参与者叙述中的 persistent 核心组织原则。正是"风险"及其可管理性使数据获得意义存在。参与者持续强调数据通过揭示疾病风险因素以转变医学理解和实践的潜力:心血管疾病或糖尿病预测中NHS已有算法应用;通过患者特征预测房颤消融术后复发风险;利用早期青少年特征预测进食障碍症状发展;以及优化治疗选择和预后预测等。

这种风险聚焦体现了Suchman所述的修辞范畴具身化(embodiment)。通过将数据、样本、算法、生物过程和临床结果等多样化社会物质实践围绕风险概念组装,风险被 reified 为似乎独立自然界存在的组织逻辑,遮蔽了其作为管理不确定性的关系性社会建构概念的本质。风险本身成为医学行动的首要对象,而非疾病的物理 manifestation。数据驱动方法聚焦于技术数据整合能力而非领域特定知识,使得替代性组织健康知识的方式——如 foreground 社会情境和情境化理解的方法——相比之下显得不科学或不足够。

### 转译过程

在风险导向的框定基础上,研究考察了使数据与算法分析兼容所需的实际物质工作。参与者描述了将数据转化为算法所需特定格式的 laborious "转译"(translation)过程,即系统性的去情境化(decontextualisation):数据必须剥离其在特定临床 encounter、特定制度实践和地方情境中产生的语境特殊性,转化为机器学习算法所需的标准化"输入变量"。

当数据跨研究网络共享时,去情境化 intensified。参与者描述了从不同方案和情境收集的信息创建一致数据集的挑战:不同实验室对扫描中参与者移动的处理方式不同,pre-processing 协议各异,导致相同数据集产生不同结果。标准 operating procedures(SOP)在成熟流程中可行,但研究探索性工作中难以预先确定分析方向。临床数据虽包含临床上有意义的信息,却缺乏算法所需的精确规格,如心脏病发作的位置和时长信息——人类 cardiologists 仅记录"该患者此处发作",而计算机需要精确参数。

这种 operationalising 风险的过程要求系统性地移除数据 situatedness:从数据清洗到跨机构共享再到算法准备的每个处理阶段,都剥离了嵌入原始生产情境的情境化知识。数据并非客观收集和分析,而是在研究网络 circulation 中经历多重 reconfigurations。

### 数据与算法的差距

上述 gap 不仅是技术限制,更是生成持续参与、投资和乐观主义的重要社会物质空间,即为生产性差距。其维持想象的三种关键功能如下:

第一,它为研究者将研究不足归因于数据缺乏而非质疑算法方法开辟空间。算法"需要足够大的样本量构建可靠模型","算法正越来越先进,……已远超我们数据能捕捉的范围"。深度学习从"不够漂亮"的数据中提取信息的能力增强了算法方法的感知价值,研究者关于"适当"数据的观念随技术发展而转变,每次算法进步都将先前限制 reframe 为临时障碍。

第二,创造持续扩展数据收集的 imperative, justified by 足够体量最终将弥合算法潜力与当前限制的 promise。这驱动数据的投机性积累,即"雨天"数据——无即时应用但通过预期未来 utility 获得价值的数据。然而若"雨天"来临,未来分析师将遭遇与当前研究相同的数据-算法差距。

第三,推动学术界与产业界的更紧密关系。对更多数据的追求重塑了健康研究基础设施,产生对更复杂的共享、存储和访问系统的需求,导致学术机构与拥有更先进计算能力的商业技术提供者 deepening entanglements。云计算(如Google Cloud、Amazon AWS)具有"真正优势",因其投入大量资源优化数据中心;主要科技公司可投入的远超学术机构。这些合作使算法想象的 promise 显得更可 achievement,持续产业投资和连续创新强化了数据驱动研究的乐观主义。

这三种机制共同构成 self-reinforcing 循环逻辑:算法方法需要更多数据→必须收集所有可能数据→丰富性创造处理挑战→需要更复杂算法和更强资源→驱动收集更多数据。此追求似乎是 Sisyphean——随算法演进,"足够数据"的阈值也演进,永无满足之日。

## 讨论与结论

本研究分析揭示了社会技术想象在健康数据研究日常实践中 three interconnected processes 的运作和强化。风险叙事提供组织逻辑,使多样化数据 assemblages 获得意义并 justify 不断扩展的数据集收集;通过算法方法运营这些叙事需要系统剥离语境信息的转译过程;去情境化造成的持续性数据-算法差距作为生产性差距维持想象。

这一生产性差距代表干预的关键节点。Suchman指出,全面理解这些现象需要重构——"必须走向话语、实践和配置的彻底的、甚至令人不安的转型"。若生产性差距不断重申对规模的承诺,则此处应 directed 尝试 short-circuit 循环。这并非要求放弃大规模数据集或算法方法,而是 challenge 去情境化对算法分析必要的假设。关键是如何在数据实践中 value 情境而非 continually 移除。

Gabrys等关于环境感知中"just good enough data"的工作展示了替代构型的可能:挑战传感器数据必须标准化才有效的 convention,将测量与居民的 situated knowledge 整合为"数据故事"——何时何地监测、何种模式 unusual、读数如何与当地活动相关。在此情境成为赋予测量意义的分析材料而非需消除的噪声。

然而,将这些原则转化为健康数据研究面临 distinct 挑战,因其基础设施、算法流程和制度安排已 deeply 确立。创造情境化方法的空间需要使现有配置经验可见的方法:Bates等的"数据旅程"(data journeys)方法追踪数据跨实践场所,揭示语境意义在何处被重新格式化以满足计算需求;Tkacz等的"数据日记"(data diary)方法记录数据 as situated practice;Abildgaard的"感知数据"(sensing data)方法论纳入研究者 positionality,明确具身视角如何塑造解释。这些方法共同将情境视为数据的构成性要素而非可消除的外在信息。

本研究通过追踪社会技术想象在健康数据研究中的运作,识别了 reconfiguration 可能的节点。通过揭示稳定这些想象的三个 interconnected processes,研究表明由去情境化实践产生的生产性差距驱动了持续的数据积累——这一生产性差距代表了干预的关键节点。与其不断 justify 更多数据收集,不如揭示关于去情境化的假设可能在何处受到挑战。在数据密集型健康研究中创造情境化知识的空间需要协作方法,容纳 value 情境而非抽象的认知实践。研究人员得出结论:这一差距为重构提供了关键机会,使得关于去情境化的假设可能受到挑战,从而为更具情境化的健康数据研究方法创造空间。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号