意义相似性(meaning similarity)与可混淆性(confusability)的交互作用解释词级及亚词级(subword level)形义映射(form–meaning mapping)中的规律性

《Nature Human Behaviour》:The interaction of meaning similarity and confusability explains regularity in form–meaning mappings at and below the word level

【字体: 时间:2026年06月16日 来源:Nature Human Behaviour 15.9

编辑推荐:

  摘要:语言在意义如何映射到词形(form)方面表现出显著的跨语言规律性(cross-linguistic regularity),然而亚词水平(subword level)的类似模式仍缺乏充分探讨。本研究基于超过1900种语言的数据,对词级及亚词级的共表达(c

  
摘要:语言在意义如何映射到词形(form)方面表现出显著的跨语言规律性(cross-linguistic regularity),然而亚词水平(subword level)的类似模式仍缺乏充分探讨。本研究基于超过1900种语言的数据,对词级及亚词级的共表达(co-expression)规律性进行了大规模跨语言分析。研究发现,尽管两个层级的语义共表达均具高度系统性,但反复参与两种层级共表达的意义(meaning)有所不同。然而,词级与亚词级的规律性均可由同一潜在原理解释:词汇压缩(lexical compression,倾向复用相同形式表达相似意义以助学习与加工)与词汇分化(lexical differentiation,倾向使用不同形式以避免歧义)之间的张力(tension)。上述发现为世界语言的词汇组织提供了统一解释,当完全词级复用(full word-level reuse)存在误解风险时,亚词级的形式复用(form reuse)作为一种原则性折中(principled compromise)而出现。
论文解读:《意义相似性与可混淆性交互作用解释词级及亚词级形义映射中的规律性》
本文发表于《Nature Human Behaviour》。现有语言学研究表明,语言在将意义映射到整个词形(即完全共词化,full colexification,又称同形多义共指或一词多义式共用)上存在跨语言规律性——语义相近的概念更倾向共用同一词形(如"树"与"木"共用一词)。然而,对于亚词层面(subword level),即复合词或派生词中词根或词缀被部分共享的现象(称为部分共词化,partial colexification,如grandfather与grandmother共享grand-),其是否具有系统性跨语言规律、与完全共词化的关系及其背后的统一解释尚不清楚。本研究旨在填补这一空白,通过对全球近2000种语言的大规模数据分析,检验部分共词化是否具跨语言规律性,其与完全共词化所涉意义是否不同,以及二者是否可由统一的功能性原则——词汇压缩(lexical compression)与词汇分化(lexical differentiation)的权衡——共同解释。
研究人员使用Lexibank标准化多语言词表库(涵盖1982种语言、192个语系),识别至少出现在4个语系的完全共词化和部分共词化意义对。以语义联想度(associativity,基于Small World of Words英语联想范式经随机游走算法处理)作为语义相似性(semantic similarity)的代理,以fastText词向量余弦相似度作为语境相似度(contextual similarity,即语境可混淆性confusability的代理)。通过构建意义共词化网络并计算调整兰德指数(adjusted Rand index, ARI)与调整互信息(adjusted mutual information, AMI)评估网络结构相似性;采用贝叶斯多项回归(Bayesian multinomial regression)建模共词化类型(无共词化/部分共词化/完全共词化)受语义联想度、语境相似度及其交互项的影响,并以语系作为随机效应;模型比较采用留一法交叉验证(leave-one-out cross-validation, LOO-CV)。

Lexicalization patterns differ in the meanings they recruit(词汇化模式所征用的意义存在差异)
研究人员将意义作为节点、共词化频次作为边权重构建完全共词化网络、部分共词化网络和无共词化(经重抽样匹配数量)网络,用InfoMap算法检测网络社群结构,以ARI和AMI量化网络间社群分配相似性。结果显示:部分共词化与完全共词化网络的ARI约0.06(平衡后约0.18),二者均远高于它们各自与无共词化网络的相似性(低三个数量级);而各自网络内部分裂重测或跨语系比较的ARI(0.35–0.85)显著高于二者间比较,表明部分与完全共词化所征用的意义集合存在系统性差异。此外,部分共词化网络跨语系同质性低于完全共词化网络(贝叶斯βpartial显著为负),说明部分共词化在跨语系分布上更具异质性。结论:完全共词化与部分共词化虽都区别于无共词化,但二者所涉及的语义关系类型确有区别,为后续假设检验提供前提。
Cross-linguistic lexicalization patterns are predicted by the interaction of similarity and confusability(跨语言词汇化模式可由相似性(similarity)与可混淆性(confusability)的交互作用预测)
研究人员拟合含截距模型、单变量模型(仅语义联想度或仅语境相似度)、双变量加和模型及含交互项模型。LOO-CV显示含语义联想度×语境相似度交互项的模型拟合最优。边际效应分析表明:(1)语境相似度越高,部分共词化相对于完全共词化的概率越大,完全不共词化概率降低——即高语境可混淆性抑制完全共用同一形式;(2)语义联想度越高,完全共词化相对部分共词化概率越大——语义紧密相关的意义倾向完全共用词形;(3)交互效应显示,随语境相似度升高,中等至高等联想度的意义对从倾向完全共词化转为倾向部分共词化。模型预测的最可能模式分区为:高联想度+低至中语境相似度→完全共词化(如'breast'–'suck');高语境相似度+中高联想度→部分共词化(如'ten'–'fourteen','ankle'–'wrist');低联想度+低语境相似度→无共词化或偶有部分共词化(如'beard'–'two')。结论:词级与亚词级形义映射规律性可由语义相似性驱动的词汇压缩压力与语境可混淆性驱动的词汇分化压力之交互统一解释;部分共词化是当完全共词化因高语境混淆风险可能导致交际失败时的折中策略(middle-ground strategy)。

讨论总结(翻译研究结论部分)
本研究结果为部分共词化(partial colexification)中存在跨语言规律性提供了大样本证据,并阐明塑造这些规律的力量。部分共词化是一种独特而系统的跨语言形义映射策略,受语义相似性(semantic similarity)与语境可混淆性(contextual confusability)交互作用的支配,这补充了已充分记载的完全共词化(full colexification)规律性。相同的潜存力量——对相似意义进行词汇压缩(lexical compression)与对可混淆意义进行词汇分化(lexical differentiation)——在各级词汇化模式中均起作用。因此本研究扩展了对世界词汇组织普遍原则的理解,通过二者交互作用对词级与亚词级规律性给出了统一解释。具体而言,当完全共词化在重叠语境中存在造成歧义的风险时,部分共词化作为中间道路策略(middle-ground strategy)出现。部分共词化跨语系异质性高于完全共词化,可能源于形态能产性(typological variation in morphological productivity)与音系制约的差异,或与导致部分共词化的不同过程(派生vs复合)及不同语义类别与形态单位组合有关。未来研究应区分派生(affixation)与复合(compounding)、纳入屈折词库(inflected lexicon)及非语素单位(non-morphemic units)的部分共词化,并在具体语言类型背景下考察不同形态过程的作用。完全共词化内部亦含多义(polysemy)、同形异义(homonymy)与欠指定(underspecification),本研究语义联想度对同形异义之压缩性代理力有限。领域特异性复杂性不在本域通用方法中体现,限于至少在数语系中出现且具英语代理值的意义对。总体而言,本研究为词汇中完全与部分共词化的跨语言分布提供了认知基础的解释,后续区分不同现象将深化对词汇中压缩–混淆权衡(compressibility–confusability trade-off)变异的理解。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号