《Computational Statistics & Data Analysis》:Scalable Signed Exponential Random Graph Models under Local Dependence
编辑推荐:
传统网络分析集中于二元边,而现实世界的关系更为细致,包含合作、中立和冲突。社交媒体讨论中负边的兴起激发了研究人员对分析有符号互动(signed interactions)的兴趣,尤其是在极化辩论中。然而,数字网络产生的大量数据给传统方法(如随机块模型(SBM)
传统网络分析集中于二元边,而现实世界的关系更为细致,包含合作、中立和冲突。社交媒体讨论中负边的兴起激发了研究人员对分析有符号互动(signed interactions)的兴趣,尤其是在极化辩论中。然而,数字网络产生的大量数据给传统方法(如随机块模型(SBM)和指数族随机图模型(ERGM))带来了挑战,特别是由于同质性假设和全局依赖,随着网络规模增长,这些假设变得越来越不现实。为解决这一问题,研究人员提出了一种新颖方法,该方法结合了SBM和ERGM的优势,同时通过引入基于非重叠块的局部依赖来减轻它们的弱点。该方法涉及两步过程:首先,使用SBM近似将网络分解为子网络;其次,使用ERGM方法估计参数。该方法在大规模合成网络上进行了验证,并应用于一个包含数千名编辑者的有符号Wikipedia网络。通过使用局部依赖,研究人员发现了与结构平衡理论(structural balance theory)一致的模式。
**论文解读文章**
**研究背景与问题**
传统网络分析多聚焦于二元边(如存在或不存在),但现实社会关系往往包含正(合作、友谊)和负(冲突、敌对)两种类型的互动,形成有符号网络(signed network)。随着社交媒体和数字平台的发展,大规模有符号网络数据不断涌现,如Wikipedia编辑者间的协作与撤销行为。然而,经典模型——随机块模型(Stochastic Block Model, SBM)和指数族随机图模型(Exponential Family Random Graph Model, ERGM)在处理这种大规模有符号网络时存在显著局限:SBM假设边条件独立,忽略了三元组等局部依赖结构;ERGM虽能刻画复杂依赖,但其全局依赖假设在大网络中不现实,且基于马尔可夫链蒙特卡洛(MCMC)的估计过程因网络规模增大而面临退化、耗时长等问题。为此,研究人员提出一种新框架,旨在融合SBM的块结构优势和ERGM的局部依赖刻画能力,实现对大规模有符号网络的可扩展建模。
**研究内容与结论**
研究人员开发了局部依赖下的有符号指数随机图模型(Signed Exponential Random Graph Model under Local Dependence, 简称局部依赖SERGM)。该模型假设网络可划分为若干个不重叠的块(block),块内边遵循复杂的ERGM结构(可包含度分布、三元组等统计量),而块间边则假设为条件独立(仅受协变量影响)。基于此局部依赖结构,研究人员设计了两步估计流程:第一步,利用有符号随机块模型(Signed SBM, SSBM)近似将网络分解为子网络,通过变分近似(variational approximation)和极小化-极大化(Minorization-Maximization, MM)算法估计节点块归属;第二步,基于估计的块分配,使用最大伪似然估计(Maximum Pseudo-Likelihood Estimation, MPLE)估计ERGM参数。为量化块分配不确定性,研究人员进一步引入基于多次采样的多重插补方法。该方法在合成网络(节点数N∈{1250,2500,3750,5000},块数K∈{25,50,75,100})上验证了块恢复和参数恢复的准确性,优于二元谱聚类;并应用于一个包含2115名专家编辑者、50个话题块的Wikipedia有符号网络。研究发现,模型识别出与结构平衡理论(structural balance theory)一致的模式:共享共同敌人的用户更可能相互恢复编辑(GWESE
+为正且显著),但共享共同朋友时撤销行为(GWESF
?)也显著,提示该专家网络中结构平衡理论并非完全适用。该论文发表在《Computational Statistics》。
**关键技术方法**(不超过250字)
主要关键技术包括:①局部依赖假设:通过潜在块结构将网络分解为条件独立的子网络,块内使用有符号ERGM建模,块间使用条件独立模型;②两步估计流程:第一步采用变分贝叶斯和MM算法(基于Vu et al., 2013)近似有符号SBM,实现块分配估计;第二步在给定块分配下,使用MPLE估计ERGM参数(基于Stewart and Schweinberger, 2025);③不确定性量化:从近似后验分布中多次采样块分配,聚合估计结果并计算标准误(基于Taylor近似)。样本来源:Wikipedia编辑网络数据来自Lerner and Lomi (2019),筛选出在50个主题页面上添加至少100词且编辑不超过10页的2115名专家编辑者。
**研究结果**(保留每个小标题)
**5. Simulation Study**
模拟研究1(N∈{1250,2500,3750,5000},K∈{25,50,75,100})表明,所提方法在块恢复(以Yule’s φ系数衡量)上一致优于二元谱聚类,且参数估计(基于MPLE)随网络规模增长保持准确;模拟研究2通过控制块间稀疏性参数λ考察块恢复能力,结果显示当块间连接增强(λ降低)时块恢复性能下降,符合预期。
**6. Wikipedia Network**
**6.1 Model Specification**
研究人员假设每个Wikipedia页面为一个块(共50块),并采用留一法交叉验证(舍弃一个块,基于其余49块估计模型,再模拟被舍弃块)比较四种模型(独立模型、含度分布模型、部分三元组模型、全三元组模型)。最终选择全三元组模型(Full Triad),其充分统计量包括:正/负边数(Edges
+、Edges
?,均乘以log?N
k以考虑块大小)、几何加权度(GWD
+、GWD
?,衰减参数ω=0.2)、几何加权边共享伙伴(GWESE
+、GWESF
+、GWESE
?、GWESF
?)。
**6.2 Results**
不确定性校正后(T=100次采样)的估计结果(表1,原文)显示:负边效应(Edges
?)系数低于正边,表明块内负边更频繁;块大小项(log?N
k)系数为负,说明大块密度更低;GWD
+和GWD
?均为负,反映对高度数节点的弱化倾向,尤其正边更均匀;GWESE
+显著为正(1.599,标准误0.208),符合结构平衡理论(共同敌人促进合作);但GWESF
?系数(0.808)显著大于GWESF
+(0.095),显示“朋友的朋友被撤销”模式更常见,与理论预期不符,可能反映任务分歧而非群体对立。全三元组模型的ΔAIC最低(相对于独立模型降低1382),表明拟合最优。
**讨论与结论**
**讨论部分总结**:所提模型适用于具有明显块结构的有符号网络,尤其当块间依赖较弱时。局限性包括:块数K需要预先指定(SBM领域开放问题);块分配估计不准确时参数恢复会退化;模型继承ERGM的退化风险。未来方向包括:从数据推断K,采用混合成员模型(mixed-membership)允许节点属于多个块,以及引入度修正有符号SBM。
**研究结论翻译**:研究人员提出的有符号网络模型结合了随机块模型和指数随机图模型的优势,同时可扩展至数千个节点。该模型适用于块结构能够准确捕捉主要依赖来源的有符号网络,即节点聚类成组,使得组内和组间的交互模式存在系统性差异。随着网络规模增长和全局同质依赖假设变得不现实,该模型的实用性增加。完整的估计流程已实现为开源R包bigsergm(Schalberger and Fritz, 2026)。