定义:利用大语言模型(LLM)生成的词汇表进行基于锚点的无监督词义归纳
吉川翔太(Shota Yoshikawa)与佐佐木实(Minoru Sasaki)
《Applied Sciences》:Definition-Anchored Unsupervised Word Sense Induction Using LLM-Generated Glosses
Shota Yoshikawa and
Minoru Sasaki
【字体:
大
中
小
】
时间:2026年04月14日
来源:Applied Sciences 2.5
编辑推荐:
词义诱导研究提出定义锚定重分类框架,利用LLMs生成显式语义定义优化聚类分配,平衡实例级对齐与全局结构一致性,有效缓解主导词义偏差并提升少数词义识别,在多个指标上优于传统方法。
摘要
词义归纳(Word Sense Induction, WSI)旨在从上下文使用中自动发现单词的不同含义,而无需预先定义的含义列表。然而,现有的分布式聚类方法常常受到主导含义偏差的影响,难以正确识别少数含义。在本文中,我们提出了一种基于定义的重分类框架,该框架利用大型语言模型(LLMs)生成明确的语义描述,并优化聚类分配。与纯粹的分布式方法不同,我们的方法将语义定义整合到归纳过程中。通过引入全局结构一致性与实例级对齐之间的权衡,我们的方法改进了实例级对齐效果,因为它将决策过程从几何聚类转变为基于定义的语义匹配。在SemEval-2010和SemEval-2013数据集上的实验表明,所提出的方法在结构指标(NMI和V-measure)和实例级指标(F-B3和Fuzzy-F-B3)方面,始终优于传统的聚类基线和现有的WSI系统。特别是,我们的方法有效减轻了主导含义偏差,并通过将少数含义作为独立的聚类来改进它们的恢复效果,同时正确地分配了这些含义的实例。这些结果表明,由LLMs生成的明确语义表示为解决无监督词义归纳中的长期挑战提供了一个有前景的方向。此外,与纯粹的分布式聚类方法不同,我们的方法明确引入了LLMs生成的语义定义作为锚点,从而更有效地减轻了主导含义偏差,并提高了少数含义的召回率。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号