“总结”：利用Multi-BERT分类从在线美容攻击中获取关键洞察

《Expert Systems with Applications》：‘SUMmarize’: Multi-BERT Classification for Obtaining Key Insights from Online Grooming Attacks

【字体：大中小】 时间：2026年04月30日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　杰克·斯特里特（Jake Street）| 伊西博尔·肯尼迪·伊希安莱（Isibor Kennedy Ihianle）| 艾哈迈德·洛特菲（Ahmad Lotfi）诺丁汉特伦特大学（Nottingham Trent University），莎士比亚街50号（50 Shake

　　杰克·斯特里特（Jake Street）| 伊西博尔·肯尼迪·伊希安莱（Isibor Kennedy Ihianle）| 艾哈迈德·洛特菲（Ahmad Lotfi）
诺丁汉特伦特大学（Nottingham Trent University），莎士比亚街50号（50 Shakespeare St），诺丁汉（Nottingham），NG1 4FQ，英国

**摘要**
在线诱骗是一个严重且被广泛记录的问题，影响着社交媒体平台上的儿童。这些掠夺性互动可能对受害者造成严重的心理伤害，在悲剧性案例中甚至导致儿童死亡。已有部分文献研究了用于确定在线诱骗攻击行为特征的聚类方法，以及一些超越二元分类的在线诱骗分类方法。然而，本文的目的是进一步扩展这一研究，通过识别聊天记录中是否包含性内容的传输或是否安排了实际会面来深入分析这一问题。使用Transformer的双向编码器表示（BERT）进行的三种语义分类方法返回了99.7%的相关信息簇，其中核心信息的F1分数分别为：性内容传输（Sexual Semantic, S）0.98、会面安排（Physical Meet Up, U）0.89和媒体传输（Media Transfer, M）0.85，这些构成了“SUM”方法。性内容传输（SM）的关键信息组别的F1分数为0.53。研究表明，通过调整Drop Length和Step Value的值，可以提高这些关键信息组的分类准确性，从而获得不同的信息簇集合。未来的工作将包括改进这种方法，以区分幻想型儿童性犯罪者（Fantasy Child Sex Offenders, FCSOs）和接触型儿童性犯罪者（Contact Child Sex Offenders, CCSOs）。

**1. 引言**
在线诱骗（Online Grooming, OG）攻击是指成年人利用欺骗性手段针对儿童以获取性或情感满足的行为，这类行为在社交媒体上十分普遍，且常常涉及幻想内容的满足。这些攻击会对儿童造成严重的心理伤害，悲剧性情况下甚至会导致儿童死亡（Kloess等人，2015年）。心理学文献详细研究了犯罪者实施的在线诱骗阶段（O’Connell等人，2007年），以及某些可能使儿童更容易成为受害者的脆弱性因素，例如遭受身体忽视或生活在寄养家庭中（政府报告，2021年）。据报道，犯罪者清楚这些脆弱性，其中一位研究者指出，感到不被爱或不受重视的儿童最容易成为受害者（Elliott等人，1995年）。

已有研究从语言学角度尝试理解在线诱骗攻击，例如使用k-means聚类方法（Kontostathis等人，2010年）来识别攻击聊天记录中的语言类别。此外，还有研究观察了不同词型的使用及其之间的关系（Broome等人，2020年；Lorenzo-Dus等人，2019年；Kinzel等人，2019年）。这些研究有助于识别可能用于自动分类在线诱骗攻击的模式，并确定心理学文献中理论化的攻击关键要素（Broome等人，2020年；Lorenzo-Dus等人，2016年；Pérez-Tattam等人，2016年；O’Connell等人）。

目前已有许多尝试对在线诱骗攻击进行二元分类，主要基于两个数据集：Peverted Justice（PJ）数据集和“PAN at CLEF 2012”（PAN12）数据集（Inches & Crestani，2012年）。PJ数据集包含所有被认定为在线诱骗的聊天记录，常用于聚类或心理学研究；但由于缺乏负面案例，不适合传统分类分析。而PAN12数据集包含一些正面和负面的诱骗性信息片段（即非完整聊天记录），分类任务是判断哪些信息片段具有诱骗性以及哪些行为者是犯罪者（Inches & Crestani，2012年）。

除了传统的二元分类外，从分类角度尝试识别在线诱骗聊天记录中的其他关键信息的工作还较为有限。Zuo等人（2018年）区分了“性语言”和“掠夺性语言”，但所有性语言都被视为具有诱骗性，忽略了判断聊天记录是否属于在线诱骗所需的额外背景信息。尽管Zuo等人的研究有助于这种区分，但如果根据信息片段中性内容的数量或严重程度进行分类，可能会产生偏差。因此，在实际应用中，能够独立识别“性元素”和“掠夺性元素”（Zuo等人，2018年）将有助于解决这一问题。

最初对“掠夺性元素”的识别是由Street、Ihianle、Olajide和Lotfi（2025年）完成的，他们使用了“上下文判断”方法来确定成人与儿童之间是否在交流。虽然这种方法可以判断在线诱骗的存在，但建议需要更多信息才能更准确地判断聊天记录中是否发生了在线诱骗行为（Street等人，2025年）。根据《2003年性犯罪法》，如果成人与儿童之间的交流旨在满足性需求、存在性内容传输或随后有实际会面，则属于违法行为。无论是否明确提及性行为，任何在线诱骗后的实际会面都可能违反法律。目前尚未有尝试对直接用于判断法律是否被违反的关键信息进行分类。因此，本文旨在识别潜在在线诱骗聊天记录中的关键信息，对其进行分类，确定违法行为的严重程度，并提取有助于事件响应的细节（如攻击者的地址或会面地点）。

文献指出，实施在线诱骗的攻击者主要有两种类型：接触型儿童性犯罪者（Contact Child Sex Offenders, CCSOs）和幻想型儿童性犯罪者（Fantasy Child Sex Offenders, FCSOs）（Chiu等人，2018年）。这两种犯罪者在动机上有所不同，CCSOs旨在与儿童进行实际会面，而FCSOs则更关注交流过程中的性满足，对实际会面的兴趣较低。因此，本文提出的方法有助于区分这两种犯罪者类型。

本文的总体目标是识别有助于在线诱骗事件响应的关键信息，并提供一种能够有效检测和检索这些关键信息的方法。应检索足够的信息以建立上下文，同时确保聊天记录中的交流内容一目了然。例如，在交流开始时（无论是“正常”交流还是在线诱骗交流），一方可能会请求另一方的照片。这本身可能不是关键信息，但如果该方在请求照片的同时使用了性语言，那么他们很可能是想传输性内容。这对于事件响应者（Incident Responder, IR）来说是非常重要的信息，有助于迅速判断攻击的严重程度。

本文的贡献包括：
1. 对“实际会面”语言和表示“媒体传输”语言的分类，并通过人工审核进行标注。
2. 提出一种方法，可以从聊天记录中提取关键信息块（message blocks），以便在涉及多个参与者的交流中进行分析。
3. 一种综合分析方法，能够从核心信息中形成更复杂的洞察，例如性内容传输（Sexual Media Transfer, SM）和为性行为安排的会面（Physical Meet Up, SU）。

本文首先回顾了相关文献，介绍了本文使用的“SUM”（性语义、实际会面和媒体传输）分析方法及其实验方法。随后将描述研究结果，并在讨论部分提供这些结果在现实世界中的背景。

**2. 理论背景**
通过回顾相关心理学文献，了解在线诱骗攻击的运作机制对于确定有助于事件响应的洞察至关重要。本文将探讨这些洞察对事件响应工作的影响，并识别可能有用的关键法律信息。随后还将回顾关于在线诱骗及更广泛社交媒体环境中这些洞察的分类技术文献。

**2.1 相关心理学文献**
O’Connell（2003年）首次提出了在线诱骗攻击的阶段/阶段。在线诱骗的性阶段可能涉及儿童性虐待材料（Child Sexual Abuse Material, CSAM）的创建和传输，或非CSAM色情内容的传输，这些行为均属于违法行为（《刑事司法法》、《儿童保护法》和《性犯罪法》）。一些社交媒体平台实施了“Lantern”计划，通过该计划存储与已知CSAM相关的哈希值数据库，并对这些平台上传的内容进行分析（2）。虽然这种方法对已知CSAM有效，但无法实时识别自动生成的CSAM，因为相关哈希值不在数据库中。

此外，一些社交媒体平台使用机器学习技术来检测是否发送了非CSAM性内容，从而在接收者查看之前发出警告。在线诱骗聊天记录中常见的现象包括风险评估和管理（Chiang等人，2019年；Grant等人，2019年；Lorenzo-Dus等人，2019年；Kinzel等人，2019年；O’Connell等人，2019年）、获取性满足的不同策略（无论是立即满足还是试图升级/降低敏感性（Chiang等人，2019年；Lorenzo-Dus等人，2019年；Kinzel等人，2019年；O’Connell等人，2019年），以及攻击者评估自身攻击成功率的方法（Chiang等人，2017年；Lorenzo-Dus等人，2016年）。表1总结了心理学文献中观察到的不同现象及使用聚类方法进行识别的研究。需要注意的是，由于概念相似但术语不同，某些现象可能被归为一类。

**表1. 文献中的在线诱骗现象分类/识别尝试**
| 现象 | 方法 | 参考文献 |
| --- | --- | --- |
| 性敏感度降低 | LIW | Lorenzo-Dus & Kinzel（2019年） |
| RoBERTa | RoBERTa Cook, Zilka, DeSandre, Giles, & Maskell（2023年）（源自Liu等人，2019年） |
| n-gram | Edwards等人（2009年） |
| 性满足 | CMDA | Lorenzo-Dus等人（2016年）（源自Herring，2004年） |
| RoBERTa | Cook等人（2023年）（源自Liu等人，2019年） |
| TCA | Elzinga, Wolff, & Poelmans（2012年）（源自Wolff，2011年） |
| k-NG | Gunawan等人（2016年） |
| 风险评估 | RoBERTa | Cook等人（2023年）（源自Liu等人，2019年） |
| k-NG | Gunawan等人（2016年） |
| 隔离 | CMDA | Lorenzo-Dus等人（2016年）（源自Herring，2004年） |
| RoBERTa | Cook等人（2023年）（源自Liu等人，2019年） |
| n-gram | Edwards等人（2009年） |
| TCA | Elzinga等人（2012年）（源自Wolff，2011年） |
| k-NG | Gunawan等人（2016年） |
| 欺骗性信任建立 | CMDA | Lorenzo-Dus等人（2016年）（源自Herring，2004年） |

在线诱骗攻击的核心是攻击者获得性满足的过程（O’Connell等人，2007年）。这可以通过多种方式实现，包括幻想性讨论（FCSOs的情况，Chiu等人，2018年）、发送性内容（可能是自动生成的或其他类型的，O’Connell，2003年），或通过实际会面（Chiang & Grant，2019年）进行性行为（Olson等人，2007年）。虽然这是攻击者的最终目的，但还有多种技术用于评估/增加成功的可能性并降低风险。其中一种方法是性敏感度降低/历史分析（Chiang等人，2019年；Kloess等人，2007年；Seymour-Smith等人，2007年；Hamilton-Giachritsis等人，2015年；Olson等人，2007年；Seymour-Smith等人，2021年；Kloess等人，2021年），攻击者通过交流敏感化策略和重构来降低儿童的敏感度（Olson等人，2007年）。询问性历史可以判断攻击成功率，因为性侵犯的受害者往往会有再次受害的经历（政府报告，2021年）。

Olson等人（2007年）提出的“圈套循环”由四个现象组成。前两个现象分别是“接近”（Approach）和“诱骗”（Grooming），直接涉及性满足的方面。然而，还有两种额外的现象被理论化。第一种是“欺骗性信任发展”，它涉及基于虚假信任建立关系，类似于友谊形成和关系形成阶段（O’Connell, 2003）。第二种现象是“孤立”，攻击者旨在将儿童与支持网络隔离开来，使他们依赖攻击者，并更有可能服从建议（Olson et al., 2007）。另一种常见的行为是风险评估（O’Connell, 2003），攻击者会评估自己被抓捕的可能性，这通常通过观察对话中父母与儿童的接近程度来体现。文献中的一个关键区别在于，如表1所示，包括了“性满足”和“性脱敏”两个概念。这两种现象的目标略有不同：“性脱敏”旨在引入性话题并提高攻击成功的可能性（Seymour-Smith & Kloess, 2021），而“性满足”则是攻击者的最终目的，特别是针对儿童性剥削者（FSCOs）（Chiu et al., 2018）。Borj, Raja, & Bours（2023b）进行的元分析发现，在PAN12数据集（Inches & Crestani, 2012）上，许多方法的准确率超过了0.98（Ashcroft, Kaati, Meyer, 2015, Borj, Bours, 2019, Ebrahimi, Suen, Ormandjieva, 2016, Ngejane, Eloff, Sefara, Marivate, 2021）。Leiva-Bianchi, Castillo, Astudillo, & Ahumada-Méndez（2025）扩展了这项元分析，将这些指标应用于其他数据集，如PJ和PAN13（Rangel & Rosso, 2013）。此外，文献中还总结了机器学习方法在儿童性剥削（OG）主题上的应用频率，其中支持向量机（SVM）和朴素贝叶斯（NB）占主导地位（Leiva-Bianchi et al., 2025）。然而，正如Borj, Raja, & Bours（2023a）所指出的，由于数据集之间的不平衡，某些结论可能无法直接应用于现实世界。

3. 方法论
正如An等人（2025）所提到的，获得一个综合考虑多学科方法的解决方案对于检测儿童性剥削非常重要，因为心理学文献侧重于行为洞察，而技术文献往往将OG攻击视为一个简单的二元分类问题。本研究对这些行为洞察进行分类，重点关注此类攻击的法律后果，主要识别性内容的传播和实际会面的情况。一旦这些洞察被分类，就可以将其与上下文确定（Street et al., 2025）方法结合使用，从而识别行为者是成人还是儿童，进而可以对给定的对话记录进行完整评估。根据文献回顾，我们认为用于信息检索（IR）的最佳信息包括：能否识别是否存在实际会面以及该会面是否具有性性质、会面的时间和地点、是否传输了性内容、以及对话记录中是否存在明确的成人-儿童上下文。这些“核心洞察组”如表2所示。

表2. 核心洞察组
| 洞察组 | 解释 |
|--------------|-------------------|
| 性语义（S） | 攻击者的主要动机之一，涉及使用令人满足的性语言 |
| 面对面会面（U） | 儿童性剥削者（CCSOs）的主要动机，与儿童进行面对面接触 |
| 媒体传输（M） | 与请求、发送或确认接收媒体相关的语言 |

虽然表2中显示的核心洞察组提供了关于OG攻击内容的有用信息，但在建立了成人-儿童上下文的情况下（Street et al., 2025），建议将这些核心洞察组“组合”使用，以提供更详细的洞察。此外，还需要考虑包含这些核心洞察的消息行之间的相对位置，以便进行信息推断。这些组合洞察组的假设语义如表3所示。

表3. 组合洞察组
| 组合洞察组 | 语义解释 |
|--------------|-------------------|
| 性语义和面对面会面（SU） | 表明有意图参与可能构成非法活动的性行为 |
| 性语义和媒体传输（SM） | 表示发送/接收性媒体，可能是儿童性虐待材料（CSAM）或非CSAM色情内容 |
| 面对面会面和媒体传输（UM） | 可能表明创建了CSAM，但应归类为SUM；可能是错误分类 |
| 性语义、面对面会面和媒体传输（SUM） | 可能表明创建了CSAM或讨论性幻想，属于“短信性行为” |

这些组合洞察组为信息检索人员提供了与起诉工作直接相关的信息。例如，在“SM”组合洞察的情况下，可以识别出尚未在签名分析平台中实现的“零日”CSAM（Coalition, 2022）。伴随成人-儿童上下文确定的媒体和SM组合洞察组有可能通过签名分析过程，这些签名可用于追踪CSAM的传播，进而识别与所讨论的对话记录无关的其他犯罪者。由于儿童诱骗案件数量众多，执法部门需要一种方法来区分儿童性剥削者和儿童性虐待者（Chiu et al., 2018）。因此，建议使用表2中的“U”核心洞察和表3中的“SU”组合洞察来进行区分。然而，为了实现这些语义输出，需要对数据集进行处理，确保消息行按照这种方法进行标记，并采用一种方法将消息分组以确定讨论的上下文，而不仅仅是停留在“消息级别”。

图1概述了这项研究的理论方法论，以便对“SUM”洞察组进行消息行判断。

3.1. 消息行标记
作为方法论的一部分，第一个过程是“消息行洞察标记”。该过程涉及随机选择消息行，并根据与消息行匹配的语义核心洞察对其进行标记。对于每个被选中的消息行，可以使用一个、多个或没有核心洞察来对其进行标记。消息行的选择基于两个过程：“假设洞察图”标记和“高频动词”标记。这些过程的目的是准确表示洞察组，以便适当调整模型，同时考虑人工审查（HR）过程的效率。“假设洞察图”标记过程涉及选择与U或M核心洞察组常见的N-gram。选择避免S核心洞察组是因为该语义下的消息行数量太多，因此不需要针对性方法来获得公平的样本。接下来是“高频动词”标记过程，该过程用于在训练集中获得合理的负洞察消息行样本，同时还包括一些在“假设洞察图”标记过程中可能遗漏的正洞察实例。

方程1概述了如何确定给定动词需要标记的消息行数量，其中F表示数据集中该动词的频率，L表示完成“高频动词”标记所需的信息行标签数量。使用随机抽样方法从数据集中选择L数量的消息行。

在标记过程中，一名人类审阅者将每条消息行标记为S、U、M、它们的组合或无。该审阅者接受了关于OG攻击的心理学和法律文献的教育，并获得了关于标记的指导，以确保消息行没有潜在的替代含义或歧义。然而，仅使用一名审阅者是这项研究的一个局限性，多个审阅者对所有消息行的意见可能会提高标签的有效性。

3.2. 训练和预测
在标记过程之后，被标记的消息行被分为每个给定核心洞察的二元分类标签。这创建了n个数据集，其中n是研究中的核心洞察组数量，在本例中为三个。然后使用每个数据集来微调单独的洞察模型，用于每个核心洞察的二元分类。之后，每个洞察模型对OG数据集中的所有消息行进行预测，为每条消息行提供n个预测值，如图1中的“消息行预测”所示。模型微调是在“高频动词标记”和“假设洞察图标记”过程中标记的所有样本上进行的，MLs的洞察类别频率如表4所示。

表4. 训练集的ML洞察组频率
| 类型 | 频率 |
|--------------|-------------------|
| 无 | 23 |
| 核心S | 2 |
| U | 59 |
| M | 20 |
| 组合SU | 65 |
| SM | 8 |
| UM | 2 |
| SUM | 23 |

3.3. 消息块形成
为了使这些预测在事件响应中发挥作用，需要将消息行放在更广泛的上下文中考虑，以便确定表2和表3中讨论的语义。为了获得有用的信息，需要召回显示核心和组合洞察组的对话片段（消息块）。这种洞察组的召回受到几个设计变量的控制，首先是阈值。该值决定了特定核心洞察组的预测分数是否足够显著以进行分类。这个阈值在所有核心洞察组中静态应用。

在为每个核心洞察分配预测值后，整个对话记录将被考虑，以识别旨在召回对话记录中关键信息的消息块，同时尽量减少无关消息行的数量。这样做是为了减少误报和具有歧义的消息块的数量，这些消息块不能为信息检索人员提供表2和表3中讨论的洞察。为了识别潜在的消息块，需要消息行超过任何核心洞察的阈值，因此“超过阈值的消息行”（TPMLs）有助于识别这些消息块在对话记录中的潜在区域。然而，这些TPMLs的频率在这个召回过程中很重要，因此使用了“丢弃长度”（DL），它指定了消息块中返回的TPMLs的数量。但是，仅凭DL无法形成这些单独的消息块，因为如果TPMLs的数量超过DL值，则会返回整个对话记录。因此，需要考虑TPMLs在对话记录中的“集中度”，因此使用了“步长”（SV），它指的是结束当前消息块所需的连续非TPMLs的数量。当由于SV或整个对话记录结束时结束某个消息块时，使用DL值来评估该消息块是否应成为“召回集”的一部分。这些消息块的生成过程利用了DL和SV，具体步骤如算法1所示。下载：下载高分辨率图片（585KB）下载：下载全尺寸图片

算法1. 消息块生成过程。
“召回集”包含通过了DL和SV检查的消息块。这允许信息检索（IR）人员：
- 查看消息块内的所有消息，包括可能提供有用上下文但未被任何模型识别的非TPML（非主题相关机器语言）；
- 按行为者查看TPML的频率，但由于讨论方面的因素，假设攻击者/成年人会拥有所有TPML可能并不准确；然而，在考虑S核心洞察时，这一假设可能更为成立；
- 查看整个消息块集群中包含的洞察，这可以基于表2和表3中的洞察组编码快速推断语义。

3.4 验证
接下来，对数据集中所有被召回的消息块进行另一轮人类审查（HR）过程，使用一组阈值、DL和SV值。该HR过程验证“召回集”中提供的“包含的洞察”标签的准确性。人类审查员利用专业知识将每个被召回的消息块编码为“负面”、“无洞察组”、“核心洞察组”或“复合洞察组”。然后，将这些标签与“包含的洞察”预测进行比较，以根据具体的结果分析目标计算准确率得分。这些单独的结果分析目标如表5所示。

表5. 结果分析目标

结果分析目标
- 相关消息块召回率（RMBR）：确定在所有核心洞察组中召回的消息块的相关性。
- 洞察组检测准确性：确定在消息块中预测的洞察组的准确性。
- 核心洞察准确性：确定在消息块中特定核心洞察的准确性，无论是核心洞察组还是复合洞察组。

除了对一组阈值、DL和SV值进行分析外，还将进行比较，以观察在不同值下召回的消息块频率的差异。

4. 实验方法
本节讨论了上一节中理论方法的实验细节。该过程的第一部分是确定要使用的OG（原始数据）数据集。选择PJ数据集是因为它包含了最多的OG阳性转录本，但需要注意的是，这项研究的局限性在于没有包括OG阴性转录本，这影响了结果对包括非OG互动在内的情境的普遍性，可能会导致假阳性的高频率。

4.1 数据集
PJ数据集包含153条来自蜜罐调查的转录本，内容是一名成年人假装成儿童与在线攻击者进行对话，时间跨度为2004-2016年。这些转录本基于由此类蜜罐活动产生的定罪记录，因此大多数转录本涉及直接导致定罪的实体见面。在这种背景下，蜜罐调查存在一些伦理和社会问题，有些人认为这构成了“诱捕”，但由于转录本中儿童信息的虚构性质，使用该数据集的伦理问题较小。相比之下，“PAN12”数据集（Inches & Crestani, 2012）被广泛用于OG分类任务，但由于“PAN12”不是以完整转录本的形式提供的（即单个消息或消息块），并且包含了OG阴性提取，因此这种方法不可行。为了确保PJ数据集准备好进行图1中描述的标记过程和后续训练，需要进行预处理。该过程包括处理每条消息行，并移除诸如行为者名称、消息时间戳和调查员评论等属性。在此过程中，行为者名称被用来将消息行分配给任意一个行为者（行为者1或0），并存储在新数据集中。

作为“消息行洞察标记”过程的一部分，需要对PJ数据集进行分析，以便进行“频繁动词标记”过程。用于“频繁动词标记”的动词是通过spaCy（Honnibal & Montani, 2017）识别的。

作为该数据集预处理的一部分，从所有消息行中移除了特殊字符以及数据集中存在的一些系统格式错误。移除这些内容后，任何为空、仅包含空格或仅包含数字的消息行都会从数据集中删除。

4.2 方法
在用于进行这些预测的模型方面，使用了来自Transformers的双向编码器表示（BERT）（Devlin, Chang, Lee, & Toutanova, 2019），使用Keras中的“bert_base_en_uncased”和“BertTextClassfier”。选择这个模型是因为它在NLP分类任务中的表现优异（Borj, Raja, Bours, 2023a, Street, Ihianle, Olajide, Lotfi, 2025）。与RoBERTa（Liu et al., 2019）相比，选择BERT是因为BERT在稳健性方面表现更好（Street et al., 2025），使其更适合于试点新方法的研究。

作为本文的一部分，将进行“高级配置分析”，以确定使用不同丢弃长度、步长值和阈值值时的消息块频率。这样做的目的是首先观察这些值如何影响此用例的频率，其次确定可以应用于社交媒体平台的配置。如果阈值对消息块召回率的影响最大，则消息行置信度是召回率的关键因素；如果丢弃长度的影响最大，则需要考虑每个主题在对话中持续的时间长短，即这些核心洞察是否被简要提及，以及这些简短消息块中是否有对事件响应者有用的信息；如果步长值的影响最大，则需要考虑周围的非TPML，以及这些非TPML是否与问题中的核心洞察在上下文上相关，或者它们是否代表了主题的变化/TPML的假阳性。

在实验之后，使用标准配置。这可以生成一致的结果，并为生成的消息块提供一致性。建议虽然配置会改变分配给消息块的洞察组的准确性，但不同配置之间的差异不应显著。然而，预计每个洞察组下的消息块频率会根据配置的变化而有所不同，即配置不应改变洞察组的准确性，但可能会改变组的整体分类。图3展示了这些消息块配置可能变化的理论，绿色表示正确的消息块/行判断，红色表示错误的判断。图4使用同一示例展示了错误判断的影响，其中SV≤2的配置形成了一个正确的（“SU”）消息块和一个错误的消息块（“SM”），而使用SV=3形成的一个消息块（“SUM”）是错误的。

下载：下载高分辨率图片（92KB）下载：下载全尺寸图片
图3. 配置设置改变消息块分类/频率
下载：下载高分辨率图片（92KB）下载：下载全尺寸图片
图4. 配置设置改变消息块分类/频率，其中“M”消息行判断错误

确定召回消息块准确性的两种方法是基于洞察组进行分析和基于核心洞察进行分析。洞察组检测是确定整个洞察组是否正确，即对于“S”真实标签，“SU”判断是错误的。而核心洞察检测则是独立考虑每个核心洞察，即对于“S”真实标签，“SU”判断对于“S”核心洞察组是正确的，对于“U”核心洞察组是错误的。这样做的目的是观察哪些核心洞察组在这些判断中引起的错误最多，以及这些错误是基于给定核心洞察组在消息块判断中的遗漏（FN）还是包含（FP）。

5. 结果
这些结果首先将关注消息块召回的趋势，然后验证SUM方法在一种配置下的有效性。
第一组结果“高级配置分析”将概述在使用不同的DL、SV和阈值值时消息块召回的趋势。这些趋势是指使用这些值时召回的消息块频率，以及不同洞察组比例的差异。这是因为较宽松的SV和DL值可能会导致更多复合洞察组的出现，而不是核心洞察组。

接下来，将使用其中一种配置，并进行进一步的人类审查过程，以提供关于所描述基于洞察的方法的准确性的详细信息。

5.1 高级配置分析
本节将描述通过改变阈值、步长值和丢弃长度来观察召回消息块差异的结果，以及不同洞察组比例的变化。
预计通过降低阈值，消息块召回率会增加，因为更多消息将被视为“符合条件的”，从而允许更多消息块超过使用的步长值和丢弃长度。就比例而言，预计这将增加消息块的大小，导致更多复合洞察组的出现，但这可能会被之前不在召回集中的消息块的包含所平衡。

预计通过减少丢弃长度，可以将较短的消息块包含在召回集中，从而增加召回消息块的频率以及核心洞察组的比例，而不是复合洞察组。预计通过减少步长值，可能会对召回的消息块产生三个主要影响：首先，减少召回消息块的大小，从而增加核心洞察组的比例；其次，减少召回消息块的频率；第三，召回的消息块可能包含更多“直接语言”，这可能比审查与任何洞察不直接匹配的消息行对信息检索人员更有用。

这些结果的第一部分是观察使用不同变量时的RMBR频率差异。如图5所示。

如图5所示，DL对消息块召回频率的影响最大。SV也有类似的影响，但其影响程度似乎与使用的DL值相关。通过将SV从8改为4，最大频率变化百分比分别为DL=2时为-26.0%，DL=5时为-68.4%。需要注意的是，虽然在几乎所有情况下降低SV和增加DL及阈值都会减少消息块召回频率，但也有例外。例如，当阈值分别为0.8和0.9时，与SV为6或7的情况相比，观察到消息块频率有所增加。据推测，这种变化是由于更高SV导致的消息块“合并”率增加，从而减少了返回的消息块数量。有研究表明，在这种配置中，阻止消息块被丢弃的效果对频率的影响比“合并”消息块的效果更大。这种“合并”可以在图3.5.2中看到。在本次调查中，由于需要人工审查所有潜在的阈值、步长、丢弃长度和不同模型，因此采用了DL=3、SV=6和Threshold=0.98的配置，这是基于前一节中对检索到的消息块的高层次分析。选择这种配置是因为假设使用高置信度的消息行将提供对SUM洞察方法的更公平评估，因为其中的错误不太可能是由于预测不准确，而更多是由于洞察的结合。DL=3和SV=6的选择是基于高层次配置分析后的经验性采样，这导致假设这种配置能够召回适合目的的消息块。然而，应该注意的是，其他配置可能会为这个问题领域提供更高质量的消息块。使用这种配置后，消息块的总频率为1,136，消息行的总频率为13,523（消息块平均值=11.9条，标准差=7.1）。在此召回的洞察组在图6中显示。

下载：下载高分辨率图片（133KB）
下载：下载全尺寸图片

图6. 在所有转录文本中召回的消息块洞察组组合（Threshold = 0.98, DL=3, SV=6）。

从图中可以看出，“S”类型的洞察组（无论是核心洞察组还是复合洞察组）的频率更高。有趣的是，“U”核心洞察消息块的频率比“M”核心洞察消息块的频率更高。然而，当将这两种洞察与“S”洞察组结合时，这些频率就颠倒了，即“SM”的频率高于“SU”。

作为使用这种特定阈值、SV、DL配置的一部分，采取了三种方法来确定召回方法的有效性。这些方法是RMBR、洞察组检测准确性和单个洞察检测准确性。

5.2.1 RMBR
RMBR指的是返回的消息块中与任何洞察组匹配的比例，无论预测的洞察组是什么。这是根据方程3计算的，其中H表示方程2下标中显示的人工审查的洞察组数量。

(2) S = {Hs, Hu, Hm, Hsu, Hsm, Hum, Hsum}
(3) RMBR = ∑Hi ∈ SHi + ∑Hi ∈ SHi + Hn，其中Hi表示与每个人工审查的洞察组对应的返回消息块数量，Hn表示不与任何洞察组匹配的返回消息块数量。这种对S的分解使得可以分别检查RMBR对单个和复合洞察组的贡献。使用这种阈值、SV、DL配置，在本次主要配置实验中，RMBR为99.7%。其中有1,133个真阳性结果和3个假阳性结果。

关于RMBR值如何根据不同配置而变化，如图5所示，增加召回消息块数量的配置可能会降低RMBR值的准确性。然而，应该注意的是，这个值对假阳性（FP）的惩罚很大，因此不应仅依赖它来评判给定配置的有效性。然而，在某些情况下，当FP在任何情况下都无法被召回时，这种方法可以适用。在观察比主要实验（1,136）“更严格”的配置时（召回的消息块更少），数据集上的FP召回情况如下表6所示。

表6. 更严格配置下的假阳性RMBR频率

表6显示，影响假阳性RMBR率的关键变量是丢弃长度（Drop Length），因为所有DL > 3的配置都导致假阳性RMBR的频率为零。然而，这里假设的是，随着配置值的严格化，相同的假阳性也会从召回集中被移除，因此不会有其他额外的假阳性被召回。尽管这种情况不太可能发生，但如果配置召回的消息块频率与“主要实验”相似，那么这种情况仍然有可能发生。此外，由于FP RMBR的样本量较小，很难对此做出可靠的结论。

5.2.2 洞察组检测准确性
表7概述了在洞察群组验证HR过程后获得的F1分数。

表7. 洞察组检测准确性（Threshold = 0.98, DL=3, SV=6）

在HR过程中，很明显有一些常见的短语导致了复合洞察组中假阳性频率的增加。为了进一步分类到特定的洞察组，目前这种方法还没有纳入。通过进行HR验证过程，发现了一些模式，例如一些常见的N-gram（如“see you”）可以被归类为三个核心洞察组中的任何一个或全部。这取决于具体的上下文，例如：
- “S”在幻想语境中的使用，例如“I wish I could see you doing...”。
- “U”在“See you in person”语境中的使用，例如“I want to see you on Friday”。
- “M”在媒体请求的后续语境中的使用，例如“Can you take a picture for me. I really want to see you”。

为了识别这些导致假阳性的常见N-gram，从标记的数据集中提取了错误消息行进行分析。

表8概述了最高的FP比率（R），如方程4所详述。此分析中的每个N-gram至少有10个FP实例才能被考虑在内，表中显示了每个洞察组的五个最高FP比率。

表8. 洞察组中的N-gram FP比率

表8显示，在所有洞察组中，有一些常见的语义主题围绕“show”和“see”，这些词在语义上相似，导致假阳性。最高的FP比率N-gram是“cant wait”，这可能是因为它在以下核心洞察语境中经常使用：
- “S”在性幻想语境中的使用，例如“I can’t wait until we can...”。
- “U”在见面兴奋的语境中的使用，例如“I can’t wait to see you on Friday”。
- “M”在发送媒体请求后的回应语境中的使用，例如“I will have to take a picture for you when I get home”，对方回应“I can’t wait to see”。

需要注意的是，表8中显示的FP比率不一定直接导致某个洞察组的假阳性，可能只是与之相关。例如，“can’t wait”这个N-gram可能是由于“we can”、“see you”或“to see”的误解而引起的假阳性。

5.2.3 核心洞察检测准确性
在核心洞察检测准确性过程中，对核心洞察模型做出的预测和消息块人工审查标签进行二进制转换。例如，在形成“S”核心洞察的结果集时，如果预测或HR标签“包含”核心洞察（即S、SU、SM或SUM），则将其转换为阳性（1）；如果核心洞察不在预测或HR标签中，则转换为阴性。图7展示了这种转换过程和随后的结果分析。

表9、10和11显示了在主要配置下，通过图7所示的消息块人工审查过程，考虑每个核心洞察时的F1分数。将核心洞察的F1分数与洞察组进行比较时，这些F1分数要高得多，尤其是对于复合洞察组。这是因为这种核心洞察检测方法允许将“部分正确”的核心洞察标记为TP。例如，如果预测为“SU”，而HR标签为“SUM”，对于洞察组准确性方法来说这是不正确的，但对于核心洞察方法来说，这将是“S”和“U”的阳性（TP）和“M”的阴性（FN）。

表9. “S”核心洞察混淆矩阵
表10. “U”核心洞察混淆矩阵
表11. “M”核心洞察混淆矩阵

本节将讨论一种提出的实施方法，该方法突出了从不同法律视角（如《刑事司法法》、《性犯罪法》）来看，对于信息检索（IRs）的关键信息。从表7的分析来看，当考虑洞察组检测准确性方法时，除了“UM”洞察组外，所有洞察组中的FN频率都超过了FP频率。FN的百分比从91.9%（“U”）到67.2%（“SM”）不等，忽略了“UM”洞察组。由于FN频率高于FP频率，这减少了非相关信息被召回到IR中的比率，但代价是可能会忽略相关信息。

应该注意的是，只有在这个“主要实验配置”中召回的消息块才进行了人工标记，因此FN的真实频率可能高于表7中给出的数字。因此，从这些数据得出的假设可能忽略了未被召回的消息块。在FN的情况下尤其如此，因为这些消息块的真实规模是未知的。由于数据集中可能的消息块组合数量众多，无法人工审查所有可能的组合。尽管如此，使用洞察组准确性方法评估性能时，RMBR值仍然证明了被召回消息块的相关性。

可以建议，在这种方法中省略“S”核心洞察可能会使IRs能够更准确地定位关键信息，因为这种洞察在二元层面上可能很有用，尽管每次IR审查这种洞察并没有提供太多额外的价值。此外，这也是因为“S”核心洞察作为召回的洞察组的一部分在数据集中的频率很高，如图6所示。因此，在实施这种方法时，建议将“S”组作为二元或模糊度量来使用，类似于成人-儿童语境确定（Street等人，2025年）的方法，而不是将所有洞察组平等对待。然而，这并不意味着IR应该忽略所有“S”核心洞察的实例。在“SM”洞察组的背景下，它仍然可以为IR提供详细的语义信息，因为“M”和“SM”之间的差异本身可能构成起诉的理由。尽管如此，仍需要改进以减少这些复合洞察组中的FP频率。有建议指出，在预处理步骤中从转录文本中省略表8中描述的N-gram可以降低误报（FP）的频率。这是基于这样的假设：这些具有歧义的N-gram会导致多个模型都给出正面分类结果，但实际上这种情况不太可能发生。与其采用省略的方法，不如选择从‘U’和‘M’中提取置信度最高的核心洞察信息，当两者都被预测出现在同一条消息线上时。这是因为‘S’组可以与‘U’和‘M’结合，而在实际交流中同时出现‘U’和‘M’的情况非常罕见，因此这个洞察组不太可能为信息检索（IR）提供来自被召回消息块的有意义信息。这是对实际应用的另一个建议，即基于上述理由将‘UM’洞察组从IR的考虑范围内移除。此外，由于这个原因，‘SUM’复合洞察组也需要以类似的方式进行处理。然而，这个洞察组很可能实际上包含‘SU’或‘SM’洞察组，因此不应立即考虑将其省略。不过，有观点认为‘SUM’洞察组的普遍性表明某些消息块包含的信息线条过多，对于IR来说可能没有实际用途。

图8展示了基于不同阈值（Threshold）、信号值（SV）和深度学习（DL）预测的‘SUM’洞察组所占的比例。由于如图5所示，RMBR（Recall-Metric-Bias Ratio）在不同配置下存在变异性，因此这里考虑的是比例而非频率。在分析这些结果时需要考虑到这一点，因为尽管随着DL、SV和阈值的降低比例有所下降，但这些实例的真实频率实际上可能在增加。因此，在使用这些数值时，请务必参考图5中显示的RMBR值。

图9采用多变量方法研究了在不同阈值（‘T’）、信号值（SV）和深度学习（DL）下‘SUM’洞察组的比例。分析表明，在给定的实验中，‘SUM’预测比例的最大影响似乎取决于深度学习（DL）。对于那些核心洞察组之间快速转换的情况，这是可以预期的；然而，对于那些本身就被确定为‘SUM’的消息线，这种情况不会产生影响。其背后的原因可能是数据集中较短消息块的频率增加，而这些消息块不太可能包含‘SUM’复合洞察组，因为据假设这类消息块更可能包含所有三个核心洞察组。另一个可能的解释是，这些‘SUM’消息块被分割成了不同的消息块，而不是被归类为‘SUM’组。尽管如此，仍需进一步调查这一现象背后的原因，以减少‘SUM’复合判定的错误数量，因为表4中描述的模糊N-gram可能会导致消息线的错误分类。这是一个重要的挑战，因为选择忽略‘SUM’消息块的方法可能会遗漏其中的关键洞察信息。

6.1 结论
在实际应用和未来工作中，有理论认为‘SUM’洞察识别可以用于区分儿童性犯罪者（CCSOs）和家庭性犯罪者（FCSOs）（Chiu等人，2018年），因为这种分类问题是执法部门面临的关键挑战（Chiu等人，2018年）。这种分类有助于区分不同类型性犯罪的严重性，因为据理论认为CCSOs对儿童的威胁更大，他们更有可能再次犯罪（McCarthy，2010年），并且存在认知扭曲，导致他们对自身行为的否认（Chiu等人，2018年）。由于图7中‘SUM’洞察组的F1分数较低，未来的工作需要考虑其他方法来缓解表8中所示的类似N-gram问题，同时观察将信息密度作为深度学习部分而非消息线频率来考虑的方法的结果。然而，表9、表10和表11中展示的核心洞察组策略的结果显示出了一些有希望的结果。这项研究的一个关键局限性是其对现代性犯罪的普遍适用性，因为用于微调模型的训练数据可能无法准确反映当前的语言使用情况（Beck，2025年）。因此，该模型可能过度适应了蜜罐调查时使用的语言特征或蜜罐调查员常用的语言模式，因为同一个蜜罐调查员可能会处理多个转录文本。此外，随着社交媒体功能的进步（例如发送媒体的便利性），这些功能有可能被系统捕获。这些功能可以用于确定‘M’洞察，同时发送的链接可以与映射应用程序结合使用，以帮助构成‘U’洞察。此外，未来的工作应该考虑在不同配置（阈值、信号值和深度学习）下进行更深入的分析，因为目前只对其中一种组合进行了深入研究。因此，这个结论的局限性在于其他配置可能会在核心洞察组和复合洞察组之间产生不同的结果。

**CRediT作者贡献声明：**
Jake Street：概念化、方法论、调查、写作——原始草稿。
Isibor Kennedy Ihianle：监督、写作——审阅与编辑。
Ahmad Lotfi：监督、写作——审阅与编辑。

热点排行