今日动态 返回首页
会员注册 登录 生物通快讯免费订阅
  • 首页 今日动态 人才市场 新技术专栏 中国科学人 云展台
    BioHot
    • 定制我的BioHot
    • 进入我的BioHot
    • 进入我的集采
    • 肿瘤癌症研究
    • 免疫/基因/细胞疗法
    • 神经生物学
    • 健康与疾病
    • 衰老机制与长寿
    • 单细胞技术
    • 基因编辑-CRISPR
    • RNA研究
    • 肠道菌与人体微生态
    • 细胞代谢
    • AI生物信息学
    • COVID
    云讲堂直播 会展中心 特价专栏 技术快讯 免费试用

  • 生物通官微
    陪你抓住生命科技
    跳动的脉搏

生物通首页  >  今日动态  >  正文

在索马里对可解释的攻击性语言检测方法进行基准测试,并附上人工标注的合理性解释

《Scientific Reports》:Benchmarking explainable offensive language detection in Somali with human-annotated rationales

【字体: 大 中 小 】 时间:2026年05月29日 来源:Scientific Reports 3.9

编辑推荐:

  摘要网络上的攻击性语言带来了重大挑战,需要强有力的内容审核机制。然而,这种审核的有效性往往取决于为每个分类提供清晰且易于理解的依据。不幸的是,许多现有的数据集缺乏注释性的理由说明,而大多数检测模型的可解释性和透明度都有限。这些限制阻碍了可信系统的开发以及有效内容审核策略的实施。在

  

摘要

网络上的攻击性语言带来了重大挑战,需要强有力的内容审核机制。然而,这种审核的有效性往往取决于为每个分类提供清晰且易于理解的依据。不幸的是,许多现有的数据集缺乏注释性的理由说明,而大多数检测模型的可解释性和透明度都有限。这些限制阻碍了可信系统的开发以及有效内容审核策略的实施。在本文中,我们提出了SomOffXplain,这是一个用于检测索马里语中攻击性语言的可解释框架,它能够为其预测生成人类可理解的解释。SomOffXplain在单词和短语层面进行理由提取,从而能够突出显示支持其预测的文本片段。鉴于索马里语是一种资源较少的语言,我们首先构建了一个新的基准数据集,包含10,175个样本,每个样本都附有由人类提供的理由说明。我们使用局部可解释模型不可知解释(LIME)技术,将我们的方法与五个经过微调的预训练模型进行了对比评估。此外,我们还通过少量样本和零样本提示的方式对四种大型语言模型(LLMs)进行了适应性训练,以评估它们理解和生成索马里语理由说明的能力。我们的模型在可解释性和预测准确性方面表现出优越性,与基线模型相比具有更高的合理性和忠实度。此外,我们的研究结果表明,半数最先进的语言模型无法生成与人类注释的真实理由相一致的高质量理由说明,而基于LIME的方法在解释索马里语文本方面也存在不足。我们相信,我们的贡献有助于维护在线安全、防止资源匮乏语言社区中的骚扰行为、提升语言模型的可信度,并促进人工智能系统的透明度。

相关新闻
生物通微信公众号
生物通新浪微博
微信
新浪微博
我要投稿
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热搜:索马里语攻击性语言检测与可解释框架|LIME 技术|预训练模型|数据增强|语言模型评估贡献|可解释性提升|助消除网络骚扰|保持内容精准|让验证结果更真实可靠

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号