无维变换器:用于异构序列建模的半张量积方法

《Expert Systems with Applications》:Dimension-Free Transformer: the Semi-Tensor Product Approach for Heterogeneous Sequence Modeling

【字体: 时间:2026年06月05日 来源:Expert Systems with Applications 7.5

编辑推荐:

  刘玉轩|周荣培|刘切根|王宇豪|刘新志摘要尽管Transformer在序列建模领域取得了革命性突破,但它们对固定形状张量的依赖带来了严格的维度限制,并且对于变长序列需要使用效率低下的零填充技术。为了解决这些问题,我们提出了无维度Transformer(DFT)。通过用半张量积(S

  
刘玉轩|周荣培|刘切根|王宇豪|刘新志

摘要

尽管Transformer在序列建模领域取得了革命性突破,但它们对固定形状张量的依赖带来了严格的维度限制,并且对于变长序列需要使用效率低下的零填充技术。为了解决这些问题,我们提出了无维度Transformer(DFT)。通过用半张量积(STP)替代标准的点积注意力机制,DFT打破了查询/键/值(Q/K/V)投影之间的维度匹配要求。此外,我们还引入了投影填充(Projection-Padding)技术,该技术能够将变长序列线性映射到固定长度,从而消除了人工填充令牌带来的干扰。在字符级语言建模中,DFT支持灵活的异构设计(例如非对称的QKV结构),并且在处理变长数据时比零填充方法表现出更快的收敛速度。分析表明,投影填充有效减少了填充位置上的计算开销。虽然目前DFT还只是一个需要进一步优化的概念验证阶段,但它为开发灵活且无需填充的注意力机制指明了方向。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号