局部内在维度作为随机生成器均匀性的评估指标

《Astronomy and Computing》:Local Intrinsic Dimensionality as an Estimator of Random Generator Uniformity

【字体: 时间:2026年04月27日 来源:Astronomy and Computing 1.8

编辑推荐:

  随机数生成器的空间均匀性通过局部内在维度(LID)分析评估,比较了Sobol序列(低离散度确定性生成器)与PCG64(高质伪随机生成器)在高维(2D/3D/10D)空间中的LID方差与偏差。结果显示确定性生成器在降低局部维度估计方差方面更优,验证了其高维空间覆盖的鲁棒性。LID方法作为新基准,可灵敏检测生成器的局部空间一致性差异,为宇宙学等高维应用提供新评估工具。

  
Ashot Chilingarian
亚美尼亚埃里温物理研究所,Alikhanyan Brothers街2号,埃里温36

摘要

随机点分布的均匀性对于所有类型的模拟、数值积分和高维空间中的数据挖掘都至关重要。在这项研究中,我们建议使用局部内在维度(LID)估计的参数作为敏感且可扩展的指标,来评估随机数生成器的空间均匀性。我们在单位N维超立方体内选取了10,000个固定参考点来估计LID,以比较确定性生成器和伪随机生成器对抗边界效应的鲁棒性。基于LID分布的偏差和标准差,我们开发了一个指标,该指标可以根据随机样本的大小来指示生成器的均匀性。我们的研究结果表明,确定性生成器的性能明显更好,能够准确地覆盖特征空间。与传统的基准测试方法(如谱测试和差异分析)不同,这些方法测量的是全局均匀性,而我们的方法通过分析LID估计的方差和偏差来评估局部几何规则性。这为评估高维域中随机数生成器的空间均匀性提供了一种高度敏感的方法。所提出的方法在模拟、优化和维度分析等应用中尤其有价值,因为在这些应用中空间一致性至关重要。

引言

随机数生成器(RNGs)支持计算科学中的多种数值方法,包括蒙特卡洛模拟、数值积分和随机优化。虽然传统的生成器质量评估标准侧重于随机性、独立性或周期长度,但许多应用不仅需要统计上的随机性,还需要多变量点分布的高质量空间均匀性,特别是在天体物理学背景下。
宇宙的大尺度结构——宇宙网——是一个由高密度星团、细长的丝状结构、宽阔的片状壁和广阔的稀疏空洞组成的复杂网络。在星系调查中识别和测量这些结构元素是宇宙学中的一个关键挑战。传统的统计工具(如两点相关性和功率谱)可以量化聚集强度,但无法直接分类局部形状。一种有前景的方法是使用内在维度作为结构指标。在3D星系分布中,一个密集的星团在局部应表现为三维(各向同性),一个细长的丝状结构为一维(线性),一个壁状结构为二维(平面)。最近的研究表明,局部内在维度(LID)可以在数据集中发生变化,检测到这种变化可以揭示有意义的子结构。这种方法表明,估计LID可能成为一种无监督分离宇宙网组成部分的强大方法。
然而,实现这一目标首先依赖于准确和稳定的LID估计。在局部估计内在维度是具有挑战性的:它需要确定一个点附近的分布维度,通常只使用与有限数量的最近邻点的距离。现代宇宙学通常使用蒙特卡洛随机目录——合成的点分布。这些随机点填充空间的均匀程度的变化可能会影响科学结果,例如聚集测量或维度估计。因此,内在维度应该不是从星系点来估计,而应该从均匀覆盖宇宙网的点序列来估计。在这种情况下,这些序列的均匀性是首要考虑的因素,而在N维流形中比较测试点均匀性的方法——其中检查内在维度以揭示复杂结构——至关重要。
在两项最近的研究中,我们强调了随机生成器质量在天体物理应用中的影响。在Chilingarian(2025)中,使用了一个低差异的确定性序列来采样稀疏的3D星系点云进行内在维度分析,强调了采样方案的选择可能会影响维度推断的稳定性。在Chilingarian(2026)中,我们引入了一种多重随机搜索方法来分析球状星团数据,说明了鲁棒的随机采样程序如何帮助发现高维特征。分布不均匀的“随机”点集可能会引入人为的各向异性或聚集,从而扭曲LID等指标。因此,这项工作的目标是通过基于LID的诊断来定量评估随机生成器。
低差异确定性序列,例如Halton(1960)和Sobol(1967)提出的序列,就是为此目的设计的,并且与纯伪随机生成器相比提供了更好的覆盖范围。Halton和Sobol序列都旨在均匀填充单位超立方体;然而,它们在构造和分布行为上存在根本差异。Halton序列依赖于互质基数的 radicals 反数(例如2、3、5),从而在更高维度中揭示相关模式。相比之下,Sobol序列使用优化过的基于2的定向数来均匀分布点,尤其是在样本大小是2的幂时。尽管这两种序列都实现了低全局差异,但它们的局部结构和均匀性有所不同,影响了最近邻统计和内在维度等指标。现代高质量伪随机生成器,如PCG64(O’Neill,2014),在NumPy(Lam等人,2015)等平台上实现,由于其计算效率和出色的统计特性而受到欢迎。为了从几何角度比较生成器的性能,我们采用了一种基于局部内在维度(LID)的新指标,该指标由局部维度算法计算得出。
Braams(1974)引入了这种算法,它通过分析邻域半径与其内部点数之间的关系来估计局部维度,从而能够准确地映射非线性流形。1989年,A. Chilingarian改进并实现了这种方法,以改进实证数据集中的局部维度估计(Chilingarian和Harutunyan,1989;Chilingarian,1992)。他的更新版本(TIDIM算法)取消了严格均匀性的假设,使得该方法可以应用于现实世界的数据,如高能宇宙射线或对撞机中的多粒子产生。
随机数生成器通常使用众所周知的标准进行评估,如谱测试、差异度量、统计均匀性测试和晶格结构分析。例如,谱测试检查多维空间中包含生成点的超平面之间的间距(Knuth,1997)。差异理论应用于低差异序列(如Sobol和Halton),通过覆盖间隙来衡量序列与均匀性的偏差程度(Niederreiter,1992)。其他测试包括卡方检验、Kolmogorov–Smirnov检验和序列相关性检验(Marsaglia,1968),这些测试评估生成器输出的统计特性而不是它们的几何分布。
与传统的基准测试(如差异度量或谱测试)不同,我们的方法是局部的、可扩展的,并且具有几何意识。它使用LID方差和均方根误差(RMSE)作为质量指标来衡量生成器填充邻域的均匀性。据我们所知,这是第一次将内在维度作为生成器均匀性的定量基准。
我们选择了两种均匀点生成器进行分析:Sobol序列,这是一种广泛使用的低差异确定性生成器;以及NUMBA的PCG64生成器,这是一种高质量的现代伪随机生成器,包含在Python的数值计算生态系统中。这些选择涵盖了从全局结构化(Sobol)到统计均匀(PCG64)的范围,使得两种方法可以进行有意义的比较。参考点是使用另一种确定性均匀参考集(Halton,1960)在不同样本大小下生成的,然后比较了LID分布的结果方差和偏差。
最近关于内在维度和局部ID的研究在机器学习和统计学领域迅速发展。为了可复制的基准测试,现在有几个社区工具包实现了并在合成和真实数据集上比较了许多估计器(例如,Bac等人,2021)。除了传统的kNN对数比率估计器之外,最近基于似然的局部ID方法提供了明确的不确定性估计和跨尺度的更大鲁棒性(Tempczyk等人,2022;Denti,2023)。大量近期工作总结了各种估计器的优点、局限性和超参数敏感性(Binnie等人,2025)。我们的贡献补充了这些努力:我们没有引入新的估计器;相反,我们研究了采样方法(伪随机与低差异)如何影响流形上局部均匀性诊断的方差和偏差。
与此同时,蒙特卡洛方法已经朝着随机化、以应用为中心的设计发展,这些设计在实践中提高了鲁棒性,现代方法强调有效维度、打乱和投影特性(Keller,2022;Paulin等人,2021)。这些发展激发了我们对基于方差的局部均匀性诊断的关注:即使两个生成器显示出相似的整体差异,它们的局部邻域统计也可能不同,这在分析稀疏结构时至关重要。在宇宙学中,提取大尺度结构依赖于对采样不规则性和空洞及丝状结构拓扑敏感的局部统计。最近的研究通过基于聚类的技术明确评估了宇宙网的拓扑(Kelesis等人,2022),强调了理解点生成器的选择如何影响用于结构检测的局部均匀性度量的重要性。

章节片段

理论和估计器定义

LID通过分析点到其最近邻点的距离来测量数据附近的有效维度。它在数据集中的方差表明了底层点分布的均匀性。了解LID方差如何依赖于随机生成器的属性为评估生成器的质量提供了一个有价值的指标。
为了评估随机点分布的空间均匀性,我们在一组固定的10,000个参考点上计算了LID分布的参数

选择邻域大小k:固定k和k序列中位数

为了提高LID估计的稳定性,我们使用了一种基于中位数的方法来处理一系列k值。如图5所示,虽然LID估计的方差最初随着k的增加而减小,然后开始上升,但在整个k范围内,中位数LID估计始终导致比任何单个固定k值更低的均方根误差(RMSE)。这种方法减少了对k选择的敏感性,并捕获了稳定的几何结构,这对于不规则或稀疏的情况特别有用

多维测试

在本节中,我们将测试扩展到10个维度,这比宇宙的3个空间维度高出一个数量级,以在严重稀疏的情况下挑战该方法。实际上,宇宙学结构分析通常在更高维的特征空间中进行(例如,位置结合红移、速度或光度/派生属性),因此10D提供了一个超出纯2D–3D几何的现实压力测试。我们均匀生成了一个N点的云

讨论与结论

在这项研究中,我们引入了一种新颖的方法来通过检查局部内在维度估计的方差和偏差来基准测试随机点生成器的空间均匀性。我们的实验在2D、3D和10D中进行,使用了受限和非受限的点云,揭示了影响随机生成器性能的几个关键趋势和机制。结果表明,低差异确定性序列(如SOBOL)的性能优于伪随机生成器

数据可访问性

本研究使用的数据可以通过公共数据集档案获得,所有链接都已提供。
A. Chilingarian:撰写——原始草稿,可视化,形式分析,概念化。

数据可用性

数据将根据请求提供。

CRediT作者贡献声明

Ashot Chilingarian:撰写——原始草稿,可视化,软件开发,调查,形式分析,概念化。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号