广义STATIS方法在多视角数据分析中的应用:SDG指数国家间与指标间异质性的联合建模

《Sustainability》:A Novel Three-Way Approach to the Analysis of the Sustainable Development Goals in the EU Countries Laura Bocci and Donatella Vicari

【字体: 时间:2026年03月20日 来源:Sustainability 3.3

编辑推荐:

  本研究提出一种广义STATIS(Generalized STATIS, GSTATIS)方法,用于在多表(multi-table/multi-block)数据分析中对研究对象(国家)与变量组(SDG Indices)同时进行类划分与加权,以构建能反映异质结构的

  
本研究提出一种广义STATIS(Generalized STATIS, GSTATIS)方法,用于在多表(multi-table/multi-block)数据分析中对研究对象(国家)与变量组(SDG Indices)同时进行类划分与加权,以构建能反映异质结构的共识(compromise),并应用于联合国可持续发展目标(Sustainable Development Goals, SDGs)指数数据集,探讨各国可持续发展进程中的共同趋势与组内差异。经典STATIS(Structuration des Tableaux à Trois Indices de la Statistique)通过RV系数矩阵的特征向量确定各数据表的权重并构建加权共识,但其假设所有数据表地位相同(isotropic),无法区分研究对象或变量组间的系统性相关性差异。本文扩展STATIS至GSTATIS框架,引入国家分类矩阵U(K×C)与SDG指标分组矩阵V(J×G),及相应类权重向量α(G)与指标组权重w(G),使共识S+(G)=Σk=1KΣc=1Cukcαc(G)XkW(G)Xk?,其中W(G)=diag(Vw(G))对SDG指标组进行差异化加权。该方法允许在存在C个国家类别与G个SDG指标组的情形下,分别捕捉国家间相关性结构与指标间相似性结构,通过双分区(double partitioning)获得更具解释力的共识空间(compromise space),继而在第二步对共识做主成分分析(PCA)并将各原始数据表投影以评估个体与共识的拟合度(intra-structure)。研究以多国SDG指数为实证对象,展示GSTATIS较经典STATIS更能揭示国家集群在可持续发展路径上的趋同与分化,以及不同SDG指标组对整体共识的贡献差异。
论文解读:广义STATIS(GSTATIS)在多视角SDG指数数据分析中的应用
研究背景与问题提出
多表(multi-block)或多视角数据分析广泛应用于社会学、生态学及可持续发展评估中,旨在整合若干观测同一组对象但变量不同的数据矩阵。经典方法如STATIS(Structuration des Tableaux à Trois Indices de la Statistique,亦称"结构分析法"或"多表共识分析法")通过构造RV系数(RV coefficient,衡量两矩阵间相似性的平方余弦)矩阵C,取其首特征向量α(S)作为各数据表的权重,进而构建加权平均交叉积矩阵——即共识(compromise)S+(S)kαk(S)XkXk?(假定各Xk已按Frobenius范数归一化使‖XkF2=1,此时chk=RV(Xh,Xk)∈[0,1])。随后对共识做PCA得到共识空间,再将各原始表投影以考察其个体结构(intra-structure)。然而标准STATIS对所有K个数据表赋予由RV矩阵导出的相同形式权重(isotropic method),隐含假设所有研究对象(如国家)或变量组(如不同SDG维度)在相关性结构上无系统差异,当数据中存在明显的国家簇群分化或SDG指标分组异质性时,单一共识可能掩盖子群体特征,且无法区分"哪些国家类群"或"哪些SDG指标组"对共识贡献更大。针对此局限,本文提出广义STATIS(Generalized STATIS, GSTATIS),允许同时对K个国家进行C-类划分(通过隶属矩阵U∈{0,1}K×C,Σcukc=1)和对J个SDG指标进行G-组划分(通过V∈{0,1}J×G,Σgvjg=1),并引入类权重αc(G)(国家类c的权重)与组内指标权重wg(G)(第g组SDG指标权重,经diag(Vw(G))形成加权矩阵W(G)),使共识定义为S+(G)k=1KΣc=1Cukcαc(G)Xkdiag(Vw(G)) Xk?,从而兼顾国家侧与指标侧的异质性结构。论文发表于《Sustainability》。
主要关键技术方法
研究人员采用多块数据分析框架,以K个国家(或年份/时间点)×J个SDG指标(分属G个概念组别,如社会、经济、环境维度)构成的三维数据展开为K个n×J数据矩阵Xk(n为观测单元数或时间点数)。首先计算两两矩阵间RV系数构造K×K相似性矩阵C,其首特征向量给出经典STATIS权重。GSTATIS扩展中:(1) 依据领域知识或预聚类将K个国家划分为C个类别,构造二值隶属矩阵U;(2) 将J个SDG指标按主题划分为G个组别,构造二值分组矩阵V;(3) 设定各类别国家权重αc(G)(通常由类内矩阵一致性决定或等权)和各指标组权重wg(G)(可由组内变量解释方差或等权),构建加权共识S+(G);(4) 对共识做PCA获共识空间(compromise space),将各Xk投影得个体因子得分以评估各国家/指标组与共识的符合程度(intra-structure analysis)。若C=1,G=1则GSTATIS退化为经典STATIS。
研究结果
3.1. STATIS(经典方法回顾)
研究人员回顾STATIS通过RV系数矩阵C={chk=RV(Xh,Xk)}的特征分解获取首特征向量α(S)作为各数据表权重,构建共识S+(S)kαk(S)XkXk?(当各XkFrobenius范数为1时chk=RV即为矩阵相关系数),再对共识做PCA获共识空间,各原始表投影评估个体与共识关系。指出经典STATIS为isotropic(等权对待所有表的相关性结构差异),未考虑国家簇或SDG指标组的系统异质。
3.2. Generalized STATIS(GSTATIS)
研究人员提出GSTATIS,假设K个国家可依相关性相似度划入C个类(类指示矩阵U,ukc∈{0,1},每行和为1),J个SDG指标可依相互关联划入G个组(组指示矩阵V,vjg∈{0,1},每行和为1)。共识定义为S+(G)k=1KΣc=1Cukcαc(G)Xkdiag(Vw(G)) Xk?,其中αc(G)为国家c类的权重(通常取该类内平均RV一致性或外部设定,Σcαc(G)=1),w(G)=[w1(G)… wG(G)]?为G个SDG指标组权重(常依各组在共识PCA中的惯量inertia比例或等权),diag(Vw(G))是对角加权阵对J个SDG指标按其所属组赋予对应权重。由此共识同时反映国家类结构与SDG指标组结构。结论:当C=1且G=1时GSTATIS等价于经典STATIS;引入双重分区使用户可探究"哪几类国家达成共识"及"哪几组SDG指标驱动共识",特别适用于具内在簇群结构的多国SDG评估。
讨论与结论
研究人员指出,传统STATIS作为isotropic方法将所有K个数据表等同处理,无法分辨国家间相关性分化与SDG指标组间差异,易导致共识偏向多数或强相关子群。GSTATIS通过在共识定义中嵌入国家类隶属矩阵U与SDG指标组矩阵V,及相应权重αc(G)w(G),实现对研究对象侧与变量侧异质性的联合建模,所得共识更贴合数据的真实分层结构。对SDG指数数据的应用表明,GSTATIS可识别在可持续发展进程中行为相似的国家簇群(如发达国家组与发展中国家组可能呈现不同相关模式),并可量化不同SDG维度(如环境组vs社会经济组)对整体共识的贡献度,弥补了经典STATIS在此方面的不足。该方法亦适用于其他领域的多视角(multi-view)数据整合分析,如感官评价、omics多平台数据融合等。论文总结:GSTATIS是STATIS在自然分区存在时的合理推广,通过双重加权共识构建增强了对多表数据异质结构的解释力,为可持续发展评估中的多指标多国比较提供了更灵活的多块分析工具。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号