基于多维文本特征融合的BA-RILA中国古代诗歌主题识别方法

《Scientific Reports》:Multi-dimensional text feature fusion-based BA-RILA for ancient Chinese poetry theme recognition

【字体: 时间:2026年05月30日 来源:Scientific Reports 3.9

编辑推荐:

  传统文化数字化凸显了对精确诗歌主题识别的需求,这是自然语言处理(NLP)的一项关键任务。然而,专用古汉语语料库的匮乏以及通用模型的适应性差阻碍了该领域的进展。为解决这些问题,本文提出一种名为BA-RILA(BACM-注意力-格律-意象-双向长短期记忆网络辅助框

  
传统文化数字化凸显了对精确诗歌主题识别的需求,这是自然语言处理(NLP)的一项关键任务。然而,专用古汉语语料库的匮乏以及通用模型的适应性差阻碍了该领域的进展。为解决这些问题,本文提出一种名为BA-RILA(BACM-注意力-格律-意象-双向长短期记忆网络辅助框架)的新型古诗主题识别方法。研究人员设计了一个“语义-格律-意象”三维多维文本特征融合框架。语义向量通过优化的BERT古汉语预训练模型(BACM)提取,同时提取11维格律特征和75维意象特征。为互补地融合这些异构特征,本研究首先对齐它们的维度,然后应用注意力加权方案。接着,融合后的特征被输入到一个双层双向长短期记忆网络(BiLSTM)中,以捕获文本内深层次的时序-语义依赖关系。最后,一个8头多头注意力(MHA)机制通过动态强化最显著元素的权重来优化特征。最终,一个四层全连接分类器将增强后的特征映射到六类主题空间,并通过Softmax输出类别概率分布。实验验证表明,该方法显著优于基准模型,并在跨唐、宋朝代数据集上展现出强大的泛化能力。
中国古代诗歌主题的准确识别对于文化传承、学术研究和创新转化至关重要,也是NLP技术在古典文本领域应用的典范实践。目前,古汉语NLP面临语料库资源稀缺和通用模型对古典语法及意象表达适应性不足的双重瓶颈,严重制约了古诗主题识别准确率的提升。传统的基于规则或统计机器学习方法虽然取得了一定进展,但在处理古诗特有的格律、意象等复杂特征时存在局限。近年来,深度学习凭借其强大的语义表征能力成为文本分类的主流,但针对古诗主题识别任务,仍存在特征表示单一、模型对古汉语适应性弱等问题。

为解决上述问题,研究人员开展了基于BACM和多维文本特征融合的古诗主题识别研究。研究首先构建了一个专用数据集,从互联网上爬取了涵盖唐、宋、元等多个朝代的约10,000首古诗,将其标注为六个主题并进行预处理,填补了古汉语NLP语料库的空白。其次,设计了“语义-格律-意象”三维特征融合系统:通过BACM提取语义向量;提取11维格律特征(包括平仄合规性、押韵句比例、韵部编码、平均句长等);提取75维意象特征(基于25类核心意象,每个意象包含出现频率、情感倾向、意象强度三个维度)。最后,构建了BA-RILA模型框架:使用特征融合交互(FFI)模块对齐和融合异构特征;采用双层BiLSTM捕获文本的时序依赖关系;引入8头多头自注意力机制增强核心特征;通过全连接分类器完成主题预测。研究得出结论:BA-RILA模型在最佳参数(Dropout率为0.5,BiLSTM层数为2)下,在自构建数据集上取得了97.48%的F1分数,显著优于BiGRU-CNN、BERT-TextCNN等基准模型。消融实验证实了模型中各模块(BACM、FFI、BiLSTM、MHA)的必要性。跨朝代实验显示,模型在唐诗数据集上平均F1分数为94.99%,在宋诗数据集上为90.91%,证明其具有较强的泛化能力和历史适应性。论文发表于《Scientific Reports》期刊。

本次研究用到的主要关键技术方法包括:1)构建了包含约10,000首古诗、涵盖六大主题的专用数据集,样本来源于互联网爬取的唐、宋、元等朝代诗歌。2)设计了“语义-格律-意象”三维多维文本特征融合框架,其中语义特征由基于BERT优化的古汉语预训练模型(BACM)提取,格律特征和意象特征通过量化计算分别得到11维和75维向量。3)构建了BA-RILA模型架构,核心包括特征融合交互(FFI)模块、双层双向长短期记忆网络(BiLSTM)、多头自注意力(MHA)机制以及全连接分类器。

研究结果部分基于以下主要方面得出:
**参数分析**:研究人员通过实验确定了模型的关键超参数。对于Dropout率,实验发现当其值为0.5时,模型在正则化强度和特征学习能力之间达到平衡,F1分数达到峰值97.48%。对于BiLSTM层数,实验表明采用双层结构时性能最优(宏观F1分数为95.5%),单层结构时序建模能力不足,三层结构则因参数过多和特征冗余导致性能下降。
**对比实验与分析**:研究人员将BA-RILA与BiGRU-CNN、BERT-TextCNN、BERT-BiLSTM等六个基准模型进行了对比。结果表明,BA-RILA在精确率、召回率、F1分数和准确率四项核心指标上均排名第一,平均比次优模型BERT-TextCNN-BiLSTM高出3.8%。混淆矩阵显示模型对所有六个主题的识别准确率均超过89%。t-SNE可视化进一步揭示,BA-RILA模型能将不同主题的特征聚类成边界清晰、结构紧凑的独立簇。
**消融实验与分析**:为验证各模块贡献,研究人员进行了消融实验。结果显示,移除任何一个模块(BACM、FFI模块、双层BiLSTM、MHA)都会导致F1分数显著下降(下降幅度从12.03%到15.28%不等),其中BACM模块的移除对性能影响最大,证明了其核心作用。这验证了模型各组件设计的合理性和协同增效的必要性。
**跨朝代性能对比实验**:为验证模型的泛化能力,研究人员在平衡的唐诗(3,600首)和宋诗(3,600首)数据集上进行了实验。结果表明,BA-RILA在唐诗数据集上平均F1分数为94.99%,在宋诗数据集上为90.91%,均领先于其他模型。性能差距的原因分析指出,宋诗在句长、有效词密度上略高于唐诗,且其格律特征(如押韵规律性)的规范性显著弱于唐诗,这种更松散的文本结构给模型识别带来了更大挑战。然而,BA-RILA的三维特征融合架构通过格律和意象特征弥补了纯语义特征的不足,从而在更具挑战性的宋诗数据集上展现出更明显的优势。

讨论与结论部分总结:本研究聚焦于古诗主题的准确识别,系统地解决了专用古汉语语料库缺乏、模型适应性不足、单一特征表示局限性等问题。通过构建大规模标注数据集,填补了领域空白;提出的BA-RILA模型创新性地融合了语义、格律、意象三维特征,并整合了BACM、双层BiLSTM和多头注意力机制。实验验证了模型在多个数据集和跨朝代场景下的优越性能和强泛化能力。研究的核心贡献在于构建了多模态特征体系、优化了预训练模型对古汉语的适应性、并设计了高效的特征学习机制。未来研究可进一步扩充数据集规模与质量,增强BACM模型对古诗领域知识的理解,并探索融合书法、注释等多源数据的文本内多模态融合模型,以推动古典文献NLP研究的协同发展。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号