重新排序社交媒体信息流：实地实验的实用指南

《ACM Transactions on Social Computing》：Reranking Social Media Feeds: A Practical Guide for Field Experiments

【字体：大中小】 时间：2026年03月25日 来源：ACM Transactions on Social Computing

编辑推荐：

　　摘要要查看此由AI生成的摘要，您必须具有高级访问权限。了解更多信息请登录。摘要社交媒体在塑造公众意见和行为方面发挥着核心作用，然而在这些平台上进行实验，尤其是在 Feed 算法上进行实验，正变得越来越具有挑战性。本指南为开发并部署专注于实时重新排名社交媒体 F

　　摘要
要查看此由AI生成的摘要，您必须具有高级访问权限。了解更多信息请登录。

摘要
社交媒体在塑造公众意见和行为方面发挥着核心作用，然而在这些平台上进行实验，尤其是在 Feed 算法上进行实验，正变得越来越具有挑战性。本指南为开发并部署专注于实时重新排名社交媒体 Feed 的实地实验的研究人员提供了实用建议。本文围绕两个贡献组织内容。首先，我们介绍了一种使用浏览器扩展程序的实验方法，该方法可以实时拦截和重新排名内容，从而实现自然主义的重新排名实地实验。然后，我们描述了这种范式能够在参与者的实际 Feed 上进行的干预措施和测量方法，而无需社交媒体平台的参与。其次，我们提供了具体的技术建议，以最小的用户延迟拦截和重新排名社交媒体 Feed，并提供了一个开源实现。本文档旨在总结在社交媒体上进行实地实验的经验教训，提供具体的实施细节，并促进独立的社交媒体研究生态系统的发展。最后，我们发布了作为未来 Feed 排名实验蓝图的源代码：https://github.com/StanfordHCI/FeedMonitor.AI

AI 生成摘要（实验性）
此摘要是使用自动化工具生成的，并非由文章作者编写或审核。它旨在帮助发现、帮助读者评估相关性，并协助来自相关研究领域的读者理解该工作。它旨在补充作者提供的摘要，后者仍然是论文的主要摘要。完整文章是权威版本。点击此处了解更多信息。点击此处评论此摘要的准确性、清晰度和实用性。这样做将有助于改进和未来重新生成的版本。要查看此由 AI 生成的通俗语言摘要，您必须具有高级访问权限。

1 引言
社交媒体在形成公众意见和影响个人行为及社会结果方面起着关键作用 [44]。许多人依赖社交媒体来获取新闻和保持信息更新 [6]。这种媒体消费行为的核心是 Feed，它选择并排名用户看到的社交媒体帖子。它是平台引导用户注意力以及用户与内容互动的主要接口。包括 Facebook、X（Twitter）和 Reddit 在内的大多数主要平台都依赖其 Feed 为用户提供相关内容的集中视图。然而，在此过程中，这些平台必须做出算法上的选择 [2]。因此，研究人员特别关注这些 Feed 算法的影响，例如它们提升或降低排名的内容类型和行为 [1]。这些设计选择非常重要，因为它们可能会深刻影响我们的体验和信念。特别值得关注的是那些旨在最大化用户参与度但无意中放大不良内容（如极化 [23, 31]、错误信息 [41] 和反社会行为 [33]）的 Feed 算法。

以生态学上有效的方式研究 Feed 排名的因果影响是具有挑战性的。尽管已经有一些平台排名算法的关键组件被开源 [39]，但由于数据的缺乏 [38]，这些算法的“黑箱”性质使得评估其对个别用户和社会整体的因果效应变得复杂。虽然算法背后的“逻辑”可能是开源的，但算法的输出本质上依赖于封闭的机器学习模型，这些模型会对每篇帖子的各个方面进行评分，并决定哪些内容以及以何种顺序显示在 Feed 中。另一个挑战是对用户帖子库存的访问越来越有限，即那些可能显示在用户 Feed 中的帖子。对 Feed 的关键组件（算法、模型和库存）的不完整访问本质上限制了任何调查的有效性。

本文旨在通过提供实用的指南来填补这一空白，以进行独立的实地实验，研究社交媒体中 Feed 排名的影响，这基于我们自己在设计和部署此类干预措施方面的经验 [30]。这些指南侧重于促进不需要与社交媒体平台直接合作的实验设计，使能够审计 Feed 算法并开发改进在线社交空间设计的干预措施。我们描述了如何使用浏览器扩展程序在社交媒体平台的 Web 界面上实施实验，该功能在所有主要浏览器中都可用，通过拦截和自定义填充 Feed 的网络请求来实现。我们重点介绍了这种方法支持的具体干预措施，包括 Feed 重新排名和内容编辑，并描述了各自的相对优势和劣势。我们并不旨在详尽列出所有可能的实地实验实现方式，但我们确实提供了设计自定义实验的具体构建块。

图 1. 使用浏览器扩展程序进行典型 Feed 重新排名的步骤图。首先，扩展程序识别需要重新评分的帖子（如果包含所有帖子则可选）。排名模型为帖子分配新的分数，然后更新后的数据最终显示在浏览器中。修改后的 Feed 可以添加自定义小部件（如调查），以评估干预措施的影响。

图 1 总结了使用浏览器扩展程序自定义社交媒体 Feed 排名的典型实地实验的主要步骤。本指南侧重于设计不会影响用户在平台上的典型体验的干预措施，旨在减少延迟和可能干扰用户体验的任何界面行为。为了实现这一目标，浏览器扩展程序 (1) 捕获 Feed，(2) 应用任何实验性转换，然后 (3) 插入任何自定义的用户界面元素。首先，它读取 Feed 以根据实验目标识别需要编辑的帖子。例如，实验可能关注 Feed 中的所有内容，或者可能针对特定帖子（如政治或错误信息）。然后，扩展程序可以对选定的帖子（或新插入的帖子）应用所需的干预措施，例如更改它们的排名、重写文本或编辑它们的社交指标。最后，扩展程序可以更改网页的设计或添加增强界面并启用新用户交互的小部件。这样的修改使研究人员能够设计自定义的用户交互或通过添加有针对性的调查来评估特定干预措施的效果。

本文的结构如下。第 2 节总结了与我们的工作密切相关的最新研究进展。第 3 节介绍了使用浏览器扩展程序更改 Feed 排名的机会和挑战，随后概述了测量实地实验结果的可能方法。最后，第 5 节提供了开发 Feed 实验的关键实施细节，从确保用户轻松注册到拦截和编辑 Feed。我们以讨论相关影响作为结论。通过本文，我们发布了所提出框架的开源实现 [37]。

2 背景
在本节中，我们总结了之前通过实验研究社交媒体的努力，并将本文置于当前文献中的位置。在平台上进行的 Feed 实验是推断干预措施对社交媒体因果效应的金标准，因为它们在用户通常会遇到的相同环境中测试干预措施，从而最大化生态学有效性。另一种在平台上进行实验的方法是创建平台的实验克隆并模拟社交媒体环境 [10, 19, 42]。开发自定义的社交媒体 Feed 模拟器是一种有意义的方法，因为它允许对实验设置有更大的控制权，包括用户看到的帖子和网站提供的功能。这种对 Feed 的完全控制具有显著优势，因为参与者可以接触到相同的内容，从而可能进行更受控制的实验，有助于测量微小效应。然而，缺点是参与者的在线体验通常难以复制，且研究结果的普遍性可能受到限制。参与者可能会接触到不同的界面和不同类型的帖子，错过真实的社交信号和动态，或者被迫参与与其日常习惯不符的活动。与自定义平台互动的要求也可能加剧诸如霍桑效应等现象，从而可能以无法完全概括到现实世界情况的方式改变参与者的行为。

先前的工作表明，社交媒体上的实地实验是有效的，并且可以带来有价值的发现。一些例子包括研究在美国大选期间将 Facebook 的 Feed 排名从基于参与度改为按时间顺序排列的效果 [15]、情绪的影响和传播 [22]、政治话语的放大 [18]、换位思考对政治极化的效果 [34]，或者使用广告减少错误信息 [24] 和支持慈善捐赠 [20]。然而，在没有平台参与的情况下设计实时干预社交媒体 Feed 的实地实验面临许多技术挑战 [1, 14, 25]。当前的工作旨在为设计专注于 Feed 排名的实地实验的研究人员提供实用建议。

与本工作精神相似的先前贡献包括关于设计虚假新闻和错误信息研究 [29]、分析浏览数据 [8]、设计在线测量政治行为的调查 [16]、抽样调查参与者 [32]、在 Facebook 上运行分割测试 [28] 以及收集和处理社交媒体数据的软件和技术 [4] 的实用指南。虽然许多感兴趣的实地实验只需要更改参与者的 Feed，但有些实验超出了这种方法的范围。例如，这种方法不能用于执行基于网络的随机实验或其他需要同时改变整个用户群体体验的实验协议 [35, 40]，例如，为了理解均衡效应而不是个体效应。我们的方法也无法轻松访问用户的完整帖子库存，除非实验者实现一个单独的应用层来直接从平台获取它。在本文中，我们将重点关注已经选择显示给用户的 Feed 项的更改。

具体用例。所描述框架的有效性在一个涉及 1,256 名参与者的 X 平台上的大规模实验中得到了验证 [30]。在 2024 年美国总统选举前的 10 天期间，参与者的 Feed 被重新排名，以评估内容曝光对情感极化和情绪反应的影响。参与者的帖子由后端系统处理，最初使用自定义的 BERT 分类器过滤掉政治内容。然后，GPT 使用公认的社会科学框架对政治帖子进行评分，以估计每篇帖子的反民主内容。根据分配的实验条件，帖子随后被提升或降低排名。与 Feed 保持不变的对照组相比，暴露于较少反民主内容帖子的参与者报告了较低的情感极化和暂时的愤怒和悲伤减少。相反，增加对反民主内容帖子的曝光导致了更高的情感极化和负面情绪。鉴于独立研究社交媒体平台影响的紧迫性 [1]，在这里我们总结了从实施此实验中获得的经验教训，以支持社区设计类似的研究。

2.1 关键概念
在本节中，我们描述了理解本指南所需的关键概念。

浏览器扩展程序。本指南侧重于使用浏览器扩展程序修改社交媒体 Feed。浏览器或 Web 扩展程序是通过浏览器特定商店提供的插件，旨在增强浏览器的功能。它们支持开发人员自定义浏览器行为和修改网站内容。这种能力对于开发自定义的社交媒体 Feed 干预措施非常有利，可以实现设计控制试验或 A/B 测试。从实验参与者的角度来看，唯一的技术前提是安装扩展程序并接受权限。经过授权后，浏览器扩展程序可以修改感兴趣的页面以实现所需的干预措施。这些对网页的修改范围从更新内容和其视觉外观到网站的行为（例如对用户交互的响应）。第 5 节提供了实施细节的概述。

平台库存。在本指南中，我们将 Feed 算法使用的所有候选帖子数据库称为参与者的库存。这是一个关键概念，因为根据所关注的平台，对候选集的访问级别可能会启用或限制某些干预措施。当信息流按时间顺序组织时，算法可以根据时间对相关用户（例如，朋友或关注的用户）的帖子进行排序，并返回最新的帖子。当信息流是通过算法策划的，算法必须评估来自焦点用户一级社交网络内外的大量帖子。这个过程通常依赖于多个步骤。例如，Twitter/X的“For you”算法，如开源实现[39]中所述，首先使用高召回率的检索系统扫描大量数据，然后由更精细的模型对这些数据进行评分和排名。

本节总结了浏览器扩展程序在自定义社交媒体信息流方面的潜力。重新排名可以基于新的目标对信息流进行完全重新排序，或者更具体地，提高或降低研究人员或用户[21]认为应该获得更多或更少曝光的内容的排名。在本指南中，我们重点关注这两种用例：提高排名和降低排名，分别使感兴趣的内容更容易或更难被看到，但这些推荐可以适应不同类型的排名调整。这些编辑可以通过结合提高排名和降低排名的操作来实现，这构成了信息流干预的基础。

处理实验的系统的一个关键功能是识别相关内容并根据感兴趣的指标对其进行评分。根据研究目标，这种能力可以在不同的复杂程度上实现，从简单的关键词匹配到依赖于外部AI服务（如大语言模型LLM）的更复杂逻辑。例如，可以对信息流中的帖子进行评分和重新排列，使敌对的政治内容更难被看到，或者使反映积极情绪的帖子更容易被看到。

这些操作提供了一个独特的机会，可以在现实场景中研究排名目标变化的因果效应。我们总结了这两种实现的挑战和局限性。此外，浏览器扩展程序还可以编辑帖子内容。我们在本节的最后讨论了内容编辑以及浏览器扩展程序如何修改文本或社交指标。第5节提供了关于如何在实践中实现这些操作的详细描述。

3.1 降低排名
降低排名的能力使研究人员能够研究替代的审核策略。潜在有害的内容可以在排名中受到动态惩罚，只有当用户有兴趣继续向下滚动信息流时才会显示。鉴于降低排名的标准，这样的干预通常很容易实施。扩展程序应选择需要被惩罚的帖子，并估计每个项目应在信息流中下降多少位。新的位置可以基于固定的偏移量或内容的评分来确定。例如，研究人员可能决定将所有被降低排名的帖子在信息流中向下移动100位，或者使用基于内容的偏移量来确保非常有害的帖子获得较少的曝光。在实践中，扩展程序应跟踪用户已经消费的帖子数量，并在浏览器的视口到达所需位置时插入帖子。在大多数平台上，这可以通过插入之前被移除的相同内容来轻松实现。这种干预提供了关于排名影响的宝贵见解。它可以为社交媒体平台提供具体的建议，以调整其算法来惩罚问题内容并达到预期的效果。这种干预允许测试可以减少某些内容曝光的干预措施，而不会完全移除推荐的帖子——对于反对审核策略的人来说，这可能是一个敏感的话题。

作为一种替代方案，降低排名的极端形式是完全移除特定内容。这种逻辑类似于广告拦截器的工作方式，它基于排除逻辑或指标的定义来指导扩展程序识别应从用户信息流中移除的帖子。这种干预可以提供关于过滤具有特定特征的帖子影响的宝贵见解。这种方法允许研究人员研究诸如更严格的审核方法（减少可能极化社区或情感影响人们的帖子）的影响，以及替代信息流设计（例如移除所有包含视频或图片的帖子）的影响。

最后，在衡量降低排名或移除内容的效果时，考虑用户被替换的内容可能很重要。为了回答这些问题，我们建议跟踪参与者在研究期间接触到的帖子。

3.2 提高排名
在没有访问整个平台目录的情况下，在信息流中提高内容的排名比降低排名更具挑战性。服务器返回的内容是通过评分目录获得的，该目录包括所有可用于显示的候选帖子。如果没有完整的目录或有意义的近似值，干预只能针对已经由策划算法预筛选的预先选定的内容进行操作。例如，当平台的算法根据参与度选择内容时，可用于重新排名的帖子可能只包括高参与度的帖子。访问完整的目录可以显著扩大可用于重新排名的内容范围，从而可能显示出更明显的干预效果。然而，编译完整的或部分目录可能需要平台更积极的支持或数据访问协议，这可能难以设置或成本高昂。可能的方法包括提高网站加载但浏览器视口中不可见的帖子的排名，通过模拟滚动来预获取内容，或者从其他方式获得的平台目录中插入全新的帖子。

插入新帖子提供了一种自定义信息流的方法，使用户接触到策划算法未选择的帖子。这种干预可以帮助研究人员研究依赖于将内容混合到原始信息流中的研究问题。一些例子包括添加更多促进积极情绪的内容，添加外部帖子以打破信息茧房，或添加特定主题的帖子以改变信息流的主题分布。当研究人员感兴趣的帖子类型很少时，这种策略特别有帮助，目标是确保信息流中有足够的相关内容。

从技术角度来看，这种方法需要仔细考虑。插入的帖子可以通过三种方式获得：(i) 生成完全符合实验要求的新帖子；(ii) 监控可能发布合适内容的精选账户列表；(iii) 从另一个信息流中转移符合这些要求的帖子。第一种方法可能会带来挑战，因为它需要复制一个功能齐全的社交媒体帖子，包括用户互动，如点赞、评论和分享。这种方法可能允许完全定制，但需要仔细注意细节，以确保帖子支持现实世界的用户互动。如果未能准确再现所有这些互动（例如，分享按钮不起作用），可能会破坏用户体验，并通过以不可预见的方式影响用户行为，从而损害研究的有效性。

第二种方法是监控可能发布符合干预要求的公共账户列表。这种方法需要运行一个后台进程，持续收集和评分所选账户发布的帖子。这种方法有两个挑战：(i) 单个用户发布的帖子各不相同，对于某些干预来说，有效地策划合适的账户列表可能具有挑战性；(ii) 数据收集可能需要额外的数据访问权限，这可能非常昂贵。

第三种方法是从现有信息流中转移内容。这种方法提供了一个更实用的替代方案，允许研究人员使用真实的帖子。这种技术的缺点是：研究人员必须实施一种机制来找到或生成符合预期干预的帖子，尤其是在没有完整目录的情况下。这可以通过从专用账户中提取帖子、使用之前被移除的同一用户的帖子，或监控实验中其他参与者的信息流来实现。在前一种情况下，研究人员必须确保转移的内容尊重用户隐私，不会无意中暴露私人或敏感信息。最后，使用这种干预的研究人员必须考虑在信息流之间转移帖子时的潜在影响，因为帖子的相关性和接受度可能因其原始上下文而大不相同。

3.3 内容编辑
除了重新排名信息流的内容外，研究人员还可以直接操作单个帖子。这种干预可以涉及对帖子的直接操作，例如编辑可见的社交指标（如点赞、评论和分享）、帖子的外观（例如，使帖子的某些方面突出）、更改附件（例如，替换链接或图片），或修改文本。这些干预对于研究平台设计或内容如何影响用户的问题可能很重要。例如，可以微妙地重新构建现有帖子的基调，以反映更积极的情感或减轻攻击性语言。这种干预可以让研究人员探索社交媒体帖子中的语言选择如何影响用户行为，包括互动、情感体验、话语模式、错误信息或仇恨言论。根据所需编辑的复杂性，修改可以通过简单的字典替换或完全重构来实现，例如，利用大语言模型生成高质量和上下文相关的文本。

总结。本节总结了与降低排名、提高排名和编辑信息流内容相关的机会和挑战。降低排名通常是简单的干预，因为它涉及操作信息流中已有的内容，而在没有访问完整目录的情况下，提高排名可能需要更仔细的设计来识别或生成要提高排名的帖子。内容编辑可以与前面的方法结合使用，是测试社交指标、语言或帖子外观影响的有效策略。此外，得益于浏览器扩展程序的功能，这些修改可以与额外的干预结合使用。一些例子包括使用Twitter/X社区注释标签等小部件扩展平台的功能，或为某些帖子特征添加视觉指示器，例如关于语言毒性的警告。这些干预可以结合使用，以实现与特定研究目标一致的更复杂的实验设计。

最后，所有这些干预都要求研究人员注意目标人群信息流中帖子的分布，这可能会对招募策略产生影响。例如，操纵单个帖子可能会使治疗条件的曝光度最小化，干预的效果可能太小而无法检测到[14]。当用户只与信息流中的一小部分内容互动时[43]，特别是在信息流顶部[3]，或者研究人员打算编辑的帖子类型很少时，这个问题尤其具有影响力。

4 测量
在本节中，我们描述了一组用于测量信息流干预效果的方法。我们总结了三种能够提供不同见解的替代方法：即时测量、纵向调查和参与信号。

4.1 生态即时评估
当研究人员有兴趣测量信息流干预的即时效果时，一个合适的设计是直接在信息流中添加调查。这些信息流中的调查受到了心理学中称为生态即时评估[36]的方法的启发，允许研究人员在应用干预的上下文中直接捕获实时反馈[2]。在社交媒体的情况下，这种策略可以在用户滚动信息流时及时获得关于干预的直接反馈。研究人员可以提出高度情境化的问题，如“你对这个帖子感兴趣吗？”或“这个帖子让你有什么感觉？”。这种方法可以用来测量干预的即时效果，这种效果可能太短而无法通过长期调查来测量，或者在没有上下文的情况下提出问题时难以测量。这些调查的插入可以由特定事件触发，例如当某个特定帖子被显示时、定期添加时，或者在用户浏览信息流时随机显示。调查小工具的外观可能多种多样，从吸引注意力的设计（如弹出窗口或模态窗口，可能会中断滚动）到更隐蔽的设计（作为常规信息流中的特殊帖子）。如果将调查集成到常规信息流中，一个实际挑战是确保参与者能够清楚地看到这些调查，知道这些问题是研究的一部分。如果研究人员希望调查被注意到，我们建议使用与默认设计不同的颜色和动画。设计还必须适应社交媒体平台支持的不同模板（例如暗模式）。最后，在决定将调查放置在哪里时，研究人员必须仔细考虑他们的测量目标。回答调查的参与者将接触到调查之前的内容，并可能受到他们视野中其他内容的影响。

4.2 调查方法
有兴趣测量干预效果累积影响的研究人员可以依赖标准的前后调查设计。在这种设置中，参与者在实验前（前测）和实验后（后测）都会收到相同的调查。信息流干预可能引起的态度变化示例包括情感极化的变化（通常使用情感温度计来测量），或意见变化（通常使用李克特量表调查来测量）。这些调查在研究开始和结束时进行，并需要无缝集成到实验设计中。旨在在实验开始时完成的预调查也可以用来将参与者分配到特定的实验条件中，以确定他们是否有资格参与研究，或者评估继续参与研究的参与者与退出研究的参与者之间的系统差异。注意检查和验证问题可以是识别可能不太注意且提供不可靠数据的早期参与者的有用工具。

一种类似的方法受到日记研究技术的启发[5]，包括在整个实验过程中进行定期评估。这种方法依赖于定期进行调查，例如每天或每周一次。这种设计可能因为几个原因而被推荐，例如测量感兴趣结果的渐进变化，或者对于需要参与者接触不同实验条件的研究设计（例如交叉设计或阶梯楔形设计）。

实施定期进行调查的策略可能会带来额外的挑战，特别是当用户不在社交媒体平台上在线时。研究人员可能需要通过浏览器扩展程序建立通知系统，在招聘平台上发送定期消息，或者通过电子邮件或短信等额外通信渠道分发调查链接。最后一种方法需要参与者的同意来收集可能可识别的信息，我们将在第5.4节中详细讨论这一点。这种设置的另一个挑战是确保参与者在调查之间消费足够的内容，以便有意义地测量干预的效果。一种适用于重复评估的潜在方法是邀请参与者使用社交媒体，并且只在他们在平台上花费了足够的时间或接触了预定义数量的帖子后才进行调查。

4.3 参与度信号
使用浏览器扩展程序实施信息流实验使研究人员能够超越自我报告的测量方法，获得非常详细的行为数据，从而进一步了解干预的效果。这包括诸如花费的时间、参与度（例如点击、点赞/收藏、转发）、导航模式、转化率等指标[9]，这些指标对平台的业务目标至关重要。访问这些测量数据还允许研究人员评估所提出的干预措施引入的权衡。例如，完全移除某些内容（例如所有政治帖子）可能会影响感兴趣的结果（例如情感极化），同时减少对参与度指标的干扰，使社交媒体公司更愿意采用这种方法。

与前一节类似，这些测量方法可以结合起来，以测量多种效果，并在不同时间范围内增加对干预措施的理解。

5 实施浏览器扩展程序
在本节中，我们重点介绍使用浏览器扩展程序运行社交媒体信息流实验的实现细节，并总结各种技术挑战。我们提供实用的建议，并发布了源代码1，可以作为在社交媒体上实施信息流实验的蓝图。本节将以X为例，但同样的技术方法可以应用于任何平台。我们的示例基于Google Chrome，但可以轻松适应其他浏览器。本节的其余部分假设读者熟悉Web架构和扩展程序开发的关键概念。首先，我们提供了关于如何拦截和编辑来自包含信息流的服务器的响应的实现指导。然后，我们涵盖了参与者招募和注册的指南。最后，我们总结了如何通知用户特定事件或发送调查的技术细节。

5.1 信息流干预
在本节中，我们介绍了实现浏览器扩展程序核心功能的关键细节。尽管这些扩展程序可以修改网站的许多方面，但在这里我们特别关注与社交媒体信息流相关的变化。浏览器扩展程序通常使用浏览器支持的语言编写，如JavaScript、HTML和CSS，并可以使用各种方法来修改网站体验。一种常见的策略是通过操作文档对象模型（DOM）来修改渲染的页面。这种方法的优点是简化了识别所需修改的元素的过程，并且允许浏览器扩展程序在前端脚本处理后访问内容。然而，尽管这种方法最直接，但在某些情况下，例如增强信息流时，在网络层面进行干预可能更有效。在这种情况下，我们建议调整XMLHttpRequest以支持服务器请求的定制。这种技术的优点是在数据在页面上渲染之前拦截和修改数据，从而减少了与页面界面的直接交互需求。访问服务器的通信允许记录许多与服务器共享的客户端操作（例如点赞和分享），而无需为每个事件添加监听器。缺点是需要更深入地了解浏览器和服务器之间的通信协议。最后，还有其他方法，例如操作用于渲染内容的内存数据结构，但根据前端框架（例如React）的不同，它们可能会引入特定的实现复杂性。

实施细节。为了定制XMLHttpRequest原生对象的行为，我们需要在主页面加载后立即运行覆盖代码。由于行为定制必须在社交媒体页面的范围内进行，而不能在内容脚本中完成，因此需要将修改脚本直接注入主页面。这需要稍微偏离开发浏览器扩展程序的常见模式，因为脚本必须作为资源而不是内容脚本加载到Manifest文件中。然后内容脚本可以将覆盖代码注入主页面的范围内。注入的代码覆盖了XMLHttpRequest的open和send函数，以调整它们的行为。open函数可以修改连接的属性，如当前URL或HTTP头部，而send函数可以动态定制响应回调（onreadystatechange），如果URL与感兴趣的端点匹配。在这个函数中，有兴趣获取更多数据的研究人员可以模拟用户滚动信息流的过程。注入的脚本可以通过浏览器的消息传递功能与浏览器扩展程序的内容脚本通信，广播服务器的原始响应。根据干预逻辑的不同，当需要修改信息流时，定制的XMLHttpRequest对象可以在等待内容脚本的响应时暂停执行。一旦修改后的信息流准备好，可以通过用更新的内容替换服务器响应来恢复请求。内容可以在客户端进行修改，或者通过调用外部后端来修改。如果逻辑或模型可以与扩展程序一起分发，将修改保持在客户端可能会确保更多的参与者隐私。在其他情况下，如需要复杂的逻辑或大型模型（如LLM）时，将编辑移到后端可能更合适。尽管如此，在这种情况下，研究人员必须特别注意数据安全实践和与第三方服务共享数据的潜在影响。

5.2 参与者招募
招募策略取决于许多因素，如可用性限制、特定的人口统计要求（例如党派支持者或特定年龄组的用户），或研究的持续时间。一些实验可能旨在招募代表平台用户基础的参与者样本，这需要根据平台的用户组成来调整招募策略[14]。例如，在2023年，22%的成年人口使用了Twitter，用户群体偏向于年轻、受教育程度高且观点较为自由的人[7]，而Facebook在这些方面的分布更为均衡，但其活跃用户中女性比例更高。根据研究需求和招募平台的不同，可能首先需要通过简短的调查来筛选参与者。这种初步筛选有助于排除那些不符合招募平台筛选条件的个体，比如他们使用社交媒体的频率。这一步骤对于选择目标人群并确保研究包含所需的参与者以接受干预措施至关重要。研究极端或小众内容干预措施的研究人员需要确保招募到的参与者通常会接触到相关内容。例如，有研究发现，在2016年大选期间，Twitter上的假新闻仅被1%的用户阅读[13]。如果这一步骤是必要的，我们建议保持调查简短以降低成本，并根据惯例对参与者的时间使用给予补偿。其他方法包括在目标平台上直接投放广告[32, 45]、发送私信[14]，或者通过礼品卡或奖品等激励措施进行滚雪球式抽样。

5.3 注册流程
一旦招募到参与者，首要挑战是确保一个低门槛且可扩展的入职流程。复杂的入职流程可能导致高退出率，并增加研究人员因协助请求而负担过重的风险。除了提供清晰的指导外，我们建议通过设计一个简化流程的注册系统来避免常见错误，比如要求参与者手动复制和粘贴信息。我们还建议参与者仅通过点击链接来完成所有入职步骤，以确保流畅的用户体验。由于像Chrome Web Store这样的浏览器扩展程序在安装过程中不支持传递参数（例如参与者ID），因此本节提出了一种解决此问题的方法。这种方法需要一个协调服务，该服务可以与扩展程序的后端集成，以便根据招募平台或初步调查的结果为扩展程序分配特定配置。

图2展示了允许跟踪参与者并向扩展程序传递参数的注册流程。通过这种流程，招募平台可以直接将用户引导至协调服务，或者通过一个预调查来收集运行扩展程序所需的额外信息（如政治意识形态、联系信息、时区等）。像Qualtrics这样的主要调查平台支持在调查完成后通过合并嵌入字段和重定向URL来传输信息。协调服务的角色是设置一个持久性入口（如HTTP cookie），其中包含扩展程序安装后需要访问的信息。此页面在安装浏览器扩展程序之前显示，可用于在将参与者重定向到扩展程序商店页面之前总结说明。最后，在扩展程序安装完成后，打开协调服务器上的新标签页可以访问之前保存的HTTP cookie数据，从而为当前参与者配置扩展程序。这种流程简单有效，但并非研究人员唯一可采取的方法。其他设计选项包括集成自定义登录功能或实现OAuth流程。

5.4 参与者同意
进行任何可能改变用户信息流的实验都需要获得参与者的同意。根据注册流程的不同（是否包含初步调查），应向参与者展示经过机构审查委员会（IRB）批准的描述或其他等效文件的同意内容。尽早展示同意书非常重要，如果参与者不接受条款，则应中断安装过程。一些参与者可能认为安装浏览器扩展程序过于侵入性。除了同意书外，我们建议在说明页面中明确说明收集哪些数据以及不收集哪些数据（例如，“我们无法访问您的私信”）。

5.5 错误恢复
任何事情都可能出错。特别是在进行大规模研究时，实施错误恢复机制以减少研究人员修复错误的工作量非常重要。例如，参与者可能使用与研究期间计划不同的浏览器或计算机开始调查。必须设置恢复检查点，以便参与者能够重新开始流程。一种方法是收集联系信息（如电子邮件地址），并在他们到达说明页面时发送消息。消息中可以包含说明的副本和说明页面的链接，以及URL中的所有必要参数。或者，如果由于IRB限制或未计划进行预调查，研究人员无法获取参与者的联系信息，这一步骤可以通过招募平台上的消息自动完成。

5.6 通知
在整个研究过程中，研究人员必须与参与者建立沟通渠道。参与者可能需要指导、提醒或反馈，以确保他们能够成功参与研究。例如，在需要定期访问社交媒体的纵向研究中，研究设计可以使用电子邮件提醒参与者他们已注册研究或确认他们的贡献已被记录。同样，在研究完成后，用户可能会收到调查后的通知、卸载扩展程序的指示或反馈信息。这一步骤必须谨慎处理，以符合IRB的数据保护标准。或者，可以通过编辑社交媒体页面的DOM直接在平台上发送用户消息。浏览器扩展程序可以将这些消息作为页面内横幅或模态窗口显示，从而减少收集用户联系信息的需要。在研究结束时，当参与者访问社交媒体平台时，如果调查后显示弹出窗口或页面内横幅，研究人员可以立即获得上下文相关的响应，从而可能提高数据质量。

5.5 隐私
浏览器扩展程序为测试社交媒体平台因公司优先级或不符合业务目标而不会尝试的干预措施提供了很好的机会。尽管有更大的自由度，研究人员在设计实验和处理数据时仍必须遵守伦理标准。独立监督机构（如IRB）应审查并批准研究方案，以确保其符合伦理标准。参与者必须了解潜在风险，并被告知浏览器扩展程序收集的数据类型。设计一个要求参与者在收集任何数据之前签署同意书的注册流程至关重要。同时，必须明确告知参与者他们的参与是自愿的，并且可以无惩罚地退出。如果实验收集用户数据，必须采取措施确保数据保密并将数据存储在安全数据库中。根据研究地点的不同，研究人员必须遵守当地法规，例如欧盟的通用数据保护条例（GDPR）。

5.6 实验结束
除非在同意书中另有规定，实验结束时必须实施退出机制，以确保浏览器扩展程序停止收集数据并停止应用干预措施。我们建议指导参与者卸载扩展程序，或者扩展程序本身包含关闭机制。为了告知参与者扩展程序可能仍被安装，建议添加一个明显的视觉提示，如覆盖横幅，并提供明确的卸载说明。这一步骤确保研究人员不会在未经参与者同意的情况下收集数据，并防止未使用的扩展程序与其他参与者可能想要参与的研究产生冲突。

6 讨论
鉴于社交媒体平台在当代社会中的核心作用，保持对其社会影响的独立和批判性理解至关重要。先前的研究表明，这种调查可能是保护民主进程的伦理必要条件[11]。同时，本文提出的方法能够实施显著改变参与者信息暴露的干预措施。通过向信息流中插入新帖子或修改现有内容，这些系统可能会影响用户的情感、态度和认知。因此，研究人员必须严格评估其干预措施的伦理影响。除了之前讨论的隐私问题外，研究人员还应确保向参与者展示的内容反映了有意义的风险-收益权衡。干预措施必须旨在最小化潜在危害，同时提供明确的社会或科学价值。由于这些研究涉及人类参与者并在真实世界的信息环境中进行，所有干预措施都需要适当的IRB审查和批准，并且只能在获得知情参与者同意的情况下实施。最后，在实验结束后，我们鼓励通过遵循既定的伦理标准进行参与者反馈，明确解释研究目的，并披露设计中使用的任何操纵或欺骗手段。

5.6 限制
所提出的框架使研究人员能够在实时社交媒体平台上直接进行实地实验，从而提高生态有效性。然而，这种方法也存在一些限制。首先，实施的稳定性取决于平台API的稳定性，这些API可能会随时间变化而无需预警，从而干扰干预效果。尽管根据我们的经验，前端API在很长一段时间内相对稳定，但建议研究人员实施诊断和监控工具，以确保扩展程序按预期运行，特别是在长期部署期间。其次，研究人员应考虑干预措施与平台推荐算法之间的潜在反馈循环。降低某些类型内容的排名和减少相关参与信号可能会促使算法进一步限制这些内容的推荐。在某些情况下，这种效应可能通过加强不受欢迎内容的排名来支持干预目标。然而，这种算法适应可能会使因果解释复杂化，因此研究人员应仔细评估这些动态可能对其结论产生的影响。最后，当前的浏览器扩展程序实现仅针对桌面设备进行了评估。这一限制可能在研究人群和观察到的行为中引入偏差。参与者可能仍在移动设备上访问平台，而此时不会应用干预措施，从而可能稀释干预效果。可以通过提醒参与者在研究期间避免使用其他设备来部分解决这个问题。此外，研究人员可以询问参与者是否通过不受支持的设备访问平台，或者通过比较记录的用户轨迹与其总体公共活动（例如，通过扩展程序点赞的帖子与参与者所有点赞的帖子）来估计这一点，并将这些信息纳入分析中。重要的是要明确告知参与者，通过其他方式访问平台不会影响他们的参与或补偿。

5.7 超出桌面范围
在移动设备上实施我们的框架面临独特挑战。与桌面浏览器不同，修改官方移动应用程序可能违反平台的服务条款。此外，安全功能（如证书固定）可以防止网络流量的拦截或修改，即使在rooted或jailbroken设备上也是如此。更严格的应用商店政策也阻止未经授权的社交媒体应用程序版本的分发。因此，开发通用且可复制的移动解决方案仍然具有挑战性。有兴趣将此框架扩展到移动环境的研究人员可以考虑开发使用嵌入式网页视图加载移动版本平台的自定义应用程序。由于这些自定义应用程序对网页视图有更大的控制权，它们可以注入与桌面浏览器扩展程序中使用的几乎相同的JavaScript逻辑。与基于浏览器的扩展程序相比，移动设备上的分发面临额外挑战。在Android上，自定义应用程序通常可以作为APK文件在官方应用商店之外分发。然而，在iOS上，分发政策更为严格。一种可能的方法是通过TestFlight进行测试分发，尽管苹果的审核过程仍可能拒绝此类应用程序。一些移动浏览器（如Microsoft Edge for mobile）对浏览器扩展程序的支持有限。不过，在撰写本文时，此功能仅在测试版本中可用。

5.8 结论
社交媒体平台最近在支持独立学术研究方面变得不那么合作[1]。本指南提供了实用的建议，用于设计使用浏览器扩展程序的实地实验，而这些实验无需这些平台的直接参与。我们的建议主要针对社交媒体信息流，但许多内容也适用于其他类似的设置。通过这份指南，我们希望培养一个由独立研究人员组成的社区，他们致力于研究社交媒体对社会的影响，并为创建更健康的在线环境做出贡献。

热点排行