《Information》:Multi-Strategy Improvement and Comparative Research on Data-Driven Social Network Construction in Edge-Deficient Scenarios for Social Bot Account Detection
Junjie Wang and
Minghu Tang
编辑推荐:
研究人员针对社交机器人检测中标注数据稀缺导致的模型泛化能力不足问题,提出了一种融合人类-机器人交互偏好与改进真实不完整网络驱动策略的合成社交图生成方法。该方法首先构建包含度分布特征与人类-机器人交互偏好的边生成概率模型,通过公式(2)实现非随机连接;其次改进R
研究人员针对社交机器人检测中标注数据稀缺导致的模型泛化能力不足问题,提出了一种融合人类-机器人交互偏好与改进真实不完整网络驱动策略的合成社交图生成方法。该方法首先构建包含度分布特征与人类-机器人交互偏好的边生成概率模型,通过公式(2)实现非随机连接;其次改进Rejection-Controlled Metropolis-Hastings(RCMH)采样策略,基于节点类型(人类/机器人)与度区间差异化加权,修正原始采样对高人类节点的偏向性;最终结合扩散模型生成保留真实拓扑结构与交互特征的合成社交图。实验基于TwiBot-22数据集验证,改进方法有效平衡采样节点的人类-机器人比例,提升合成图与真实网络的拓扑一致性,为低资源场景下社交机器人检测提供高质量训练数据支撑。
研究背景与意义:社交机器人检测面临真实标注数据稀缺的瓶颈,现有合成社交图生成方法多聚焦通用拓扑恢复,忽视人类-机器人交互特征保留,导致检测模型难以捕捉机器人集群行为模式。研究人员以TwiBot-22数据集为基础,针对原始RCMH采样+扩散模型框架的两大缺陷——采样偏差(高人类节点过采样、低中度机器人节点遗漏)与扩散失真(拓扑稀疏性与交互比例偏离真实网络)——开展改进研究。
关键技术方法:研究采用三阶段技术路线:1. 边生成概率建模:融合度乘积与交互偏好双重约束,公式为t(j)t(i)×M×ωt(i)ωt(j)(t(i)、t(j)为节点i、j类型,M为度乘积权重,ωt(i)、ωt(j)为类型交互偏好权重);2. 改进RCMH采样:将节点按度划分为5个区间((0,10)、(10,100)、(100,1000)、(1000,10000)、(10000,∞)),对机器人节点在低中度区间施加正增强权重,对人类节点在高区间增强、低中度区间削弱,权重经归一化后融入转移概率公式α′(u→v)=min(1,(deg(u)deg(v))α)×ω(v)(α=0.95,ω(v)为节点v重要性权重);3. 扩散模型优化:基于采样节点集生成合成图,保留真实人类-机器人交互比例与拓扑稀疏性。
研究结果:
2.1 边生成概率建模:通过公式(2)证明融合度分布与交互偏好可消除随机连接,物理意义验证合成图更贴近真实交互模式。
2.2 真实不完整网络驱动策略改进:
2.2.1 原始RCMH+扩散模型逻辑:定义节点总度为出度与入度之和(公式(3) deg(v)=∑u∈VAv,u0+∑u∈VAu,v0,A0为邻接矩阵),随机游走转移接受概率(公式(4) α(u→v)=min(1,(deg(u)deg(v))α),α∈[0,1]控制对高度数节点的偏好;重启机制(公式(5) unew={vRandom(V?S)if α(u→v)≥?,?~Unif(0,1)if idle steps≥maxidle)避免游走停滞。
2.2.2 核心缺陷:TwiBot-22数据显示97.69%的高度数节点(deg>105)为人类,96.09%的机器人为低中度节点,原始采样导致机器人特征丢失;扩散模型未保留人类-机器人交互比例,稀释机器人集群连接密度。
2.2.3 改进RCMH采样:通过差异化权重平衡人类-机器人比例,转移概率融入节点重要性权重,实验验证采样集机器人占比提升,拓扑稀疏性与真实网络一致。
讨论与结论:研究证实改进策略有效解决原始方法采样偏差与拓扑失真问题,合成社交图保留人类-机器人交互特征,为低资源场景下社交机器人检测提供可靠数据基础。研究成果发表于《Information》,对提升社交网络虚假账号识别鲁棒性具有重要应用价值。