EKAMG:针对稀疏数据目录的增强型知识辅助元数据生成技术

《IEEE Women in Engineering Magazine》:EKAMG: Enhanced Knowledge-Augmented Metadata Generation for Sparse Data Catalogs

【字体: 时间:2026年05月27日 来源:IEEE Women in Engineering Magazine

编辑推荐:

   摘要: 数据目录在支持高效的数据发现、集成和重用方面发挥着重要作用。不幸的是,许多现实世界中的数据目录往往数据稀疏,缺乏足够或一致的元数据,这降低了它们的整体实用性。现有的自动生成元数据的方法,如基于规则的系统、大型语言模型(LLMs)、检索增强生成(RAG)框架和知识图谱技术

  

摘要:

数据目录在支持高效的数据发现、集成和重用方面发挥着重要作用。不幸的是,许多现实世界中的数据目录往往数据稀疏,缺乏足够或一致的元数据,这降低了它们的整体实用性。现有的自动生成元数据的方法,如基于规则的系统、大型语言模型(LLMs)、检索增强生成(RAG)框架和知识图谱技术,都存在各自的局限性。这些模型通常难以处理不完整或多样化的目录,可能会产生错误甚至产生幻觉,并且通常依赖于结构化输入或大量的人工干预才能正常运行。然而,它们的性能可能还会受到覆盖范围有限、可扩展性和集成复杂性等挑战的进一步限制。为此,提出了一种增强型知识增强元数据生成(EKAMG)框架。该框架利用机器学习、语义丰富化和外部知识库从稀疏数据集中自动生成高质量的元数据。通过基准测试和真实世界的数据目录集对所提出的方法进行了评估,并将其与几种当前的先进元数据生成模型进行了比较。与现有方法相比,EKAMG框架在元数据完整性方面提高了25-30%,在语义对齐准确性方面提高了20%,并将幻觉错误减少了近10%。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号