6G-Bench:一个开源基准测试工具,用于评估AI原生6G网络中基于基础模型的语义通信和网络级推理能力

《IEEE Open Journal of the Communications Society》:6G-Bench: An Open Benchmark for Semantic Communication and Network-Level Reasoning with Foundation Models in AI-Native 6G Networks

【字体: 时间:2026年04月08日 来源:IEEE Open Journal of the Communications Society 6.1

编辑推荐:

   摘要:新兴的第六代(6G)网络越来越多地被视为基于人工智能(AI)的系统,这些系统以意图驱动为核心,其中基础模型作为标准化网络功能之上的高级推理和协调层。然而,目前对大型语言模型(LLMs)在无线和网络领域的评估主要集中在孤立的任务上,或将网络视为数值约束,导致对网络层面的语义

  

摘要:

新兴的第六代(6G)网络越来越多地被视为基于人工智能(AI)的系统,这些系统以意图驱动为核心,其中基础模型作为标准化网络功能之上的高级推理和协调层。然而,目前对大型语言模型(LLMs)在无线和网络领域的评估主要集中在孤立的任务上,或将网络视为数值约束,导致对网络层面的语义推理、意图理解、策略制定以及多智能体协调等方面的研究不足。本文介绍了6G-Bench,这是一个用于评估基于AI的6G网络中语义通信和网络层面推理能力的开放性基准测试工具。6G-Bench定义了30个决策任务(T1–T30),这些任务来源于3GPP、IETF、ETSI、ITU-T和O-RAN联盟正在进行的6G及AI智能体标准化工作,并将它们分为五个与标准化标准对齐的能力类别。我们从113,475个场景中生成了10,000个难度较高的多项选择题,这些问题通过任务条件化的提示来强制在不确定性环境下进行多步骤定量推理,并实现最坏情况下的遗憾值最小化。经过自动化筛选和专家人工验证后,最终保留了3,722个问题作为高置信度的评估集,而全部问题集则被公开以支持6G专用模型的训练和微调。利用6G-Bench,我们评估了22个基础模型,这些模型涵盖了密集型架构、专家混合架构、短上下文和长上下文设计(最多100万个标记),以及开源和专有系统。在不同模型之间,确定性单次准确率(pass@1)的范围从0.22到0.82不等,显示出语义推理能力存在显著差异。领先模型的意图和策略推理准确率在0.87–0.89之间,而在推理密集型任务上的选择性鲁棒性分析显示,pass@5值的范围为0.20到0.91。为了支持开放科学和可重复性,我们公开了……
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号