《Information》:Constructing an Ontology-Driven Knowledge Graph from Unstructured Texts: A Semi-Automatic Methodology Applied to Moroccan Intangible Cultural Heritage
编辑推荐:
摩洛哥非物质文化遗产(Intangible Cultural Heritage, ICH)是一个丰富但难以形式化建模的领域,原因在于文本描述的异质性和所记录文化实践的多样性。研究人员提出了一种半自动化且可适应的框架,用于从非结构化文本构建本体驱动知识图谱(on
摩洛哥非物质文化遗产(Intangible Cultural Heritage, ICH)是一个丰富但难以形式化建模的领域,原因在于文本描述的异质性和所记录文化实践的多样性。研究人员提出了一种半自动化且可适应的框架,用于从非结构化文本构建本体驱动知识图谱(ontology-driven knowledge graph),并将其应用于摩洛哥ICH。该方法首先利用词汇、语义和混合方法将文档分类至联合国教科文组织(United Nations Educational, Scientific and Cultural Organization, UNESCO)预定义的五个类别中,随后进行类别内语义聚类(intra-category semantic clustering),以识别指导本体建模的主题子结构。结果表明,混合方法在文档分类中取得最佳性能,而聚类需要对每个类别采用自适应策略。基于这些阶段,生成了ICH Onto,这是一个与国际文献工作委员会概念参考模型(Conceptual Reference Model, CIDOC CRM)对齐的本体,并通过UNESCO类别、专家验证的子类别以及从文本中提取的实体和关系进行了丰富。所得到的资源通过逻辑一致性、形状约束语言(Shapes Constraint Language, SHACL)合规性以及基于能力问题(Competency Questions)的功能评估进行了验证。评估证实,ICH Onto为表示、组织和查询摩洛哥ICH提供了一个连贯、可操作且可互操作的语义资源。其模块化结构也支持将该框架应用于其他基于非结构化文本数据的遗产语料库或领域。
研究背景方面,非物质文化遗产(Intangible Cultural Heritage, ICH)包含世代相传的实践、表达、知识及技能,在传承文化身份中起关键作用。摩洛哥拥有极为丰富的ICH,但相关描述多以非结构化文本形式分散于机构门户、专项数据库和科学报告中,限制了自动处理、语义互操作及数字化集成,阻碍了智能系统的开发。现有本体构建依赖人工建模且难以规模化,而针对ICH的文献多聚焦于物质遗产,或仅覆盖知识工程中分类、聚类或本体生成等单一环节,缺乏整合从语料分析到标准对齐本体的完整流水线。为此,研究人员提出了一种半自动化方法论框架,通过文档分类、类别内语义聚类及本体工程三大阶段,将非结构化文本转化为结构化、可操作、可互操作的语义资源。研究通过对比多种分类方法(关键词、词频-逆文档频率(Term Frequency–Inverse Document Frequency, TF-IDF)、最佳匹配25(Best Matching 25, BM25)、句子双向编码器表示(Sentence-BERT, SBERT)及混合模型)和聚类算法(K均值(K-Means)、凝聚式层次聚类(Agglomerative Clustering)和高斯混合模型(Gaussian Mixture Model, GMM)),最终生成了对齐国际文献工作委员会概念参考模型(Conceptual Reference Model, CIDOC CRM)的本体ICH Onto。论文发表在《Information》。研究证实,结合专家词汇与统计/语义表征的混合方法在分类中表现最佳,而聚类策略需因类别而异;生成的ICH Onto通过逻辑一致性、形状约束语言(Shapes Constraint Language, SHACL)合规性及能力问题测试,证明是连贯、可查询的语义资源,并具备扩展至其他领域的模块化潜力。
关键技术方法上,研究人员构建了包含237份法文文本的摩洛哥非物质文化遗产(Intangible Cultural Heritage, ICH)语料库,数据来源于机构平台和专家验证的黄金标准。首先,采用关键词(基于专家验证的词表)、词频-逆文档频率(Term Frequency–Inverse Document Frequency, TF-IDF)、最佳匹配25(Best Matching 25, BM25)、句子双向编码器表示(Sentence-BERT, SBERT)及混合模型(关键词+TF-IDF、关键词+BM25、关键词+SBERT)对文档进行联合国教科文组织(United Nations Educational, Scientific and Cultural Organization, UNESCO)五类别分类。随后,在每类内部使用句子嵌入(跨语言(paraphrase-multilingual-MiniLM-L12-v2)和法语专用(dangvantuan/sentence-camembert-base)模型)加主成分分析(Principal Component Analysis, PCA)降维,比较K均值(K-Means)、凝聚式层次聚类(Agglomerative Clustering)和高斯混合模型(Gaussian Mixture Model, GMM)三种算法进行语义聚类。最后,基于专家修正的黄金标准(GOLD文件)生成ICH Onto本体,与国际文献工作委员会概念参考模型(Conceptual Reference Model, CIDOC CRM)对齐,并利用形状约束语言(Shapes Constraint Language, SHACL)及能力问题(Competency Questions)进行评估。
在文档分类结果方面,研究人员对比了七种方法,发现专家关键词方法(Accuracy=0.874)表现稳健,而混合方法尤其关键词+SBERT在评估更多文档(230份)下保持相同准确率,关键词+TF-IDF获得最高宏F1(0.836)。单项方法中,TF-IDF虽准确率高(0.884)但仅覆盖18.1%的文档;SBERT和BM25单独使用时表现最弱。类别层面,传统手工艺因技术词汇独特而最易识别,口头传统与表达因与其他类别重叠而最难区分。混合方法在不同类别上各有优势,表明专家词汇与文本相似度方法的结合是分类的关键。在语义聚类结果上,通过网格搜索对每个类别优化嵌入模型、主成分分析(Principal Component Analysis, PCA)维度、聚类数及算法,发现无单一算法普遍最优:高斯混合模型(Gaussian Mixture Model, GMM)在知识与实践以及口头传统类别中最佳,凝聚式层次聚类(Agglomerative Clustering)在表演艺术、社会实践与传统手工艺类别中胜出,K均值(K-Means)均未进入最优配置。口头传统类别因文档少且主题分明取得完美调整兰德指数(Adjusted Rand Index, ARI)和归一化互信息(Normalized Mutual Information, NMI)分数,而传统手工艺的结构更复杂导致性能较低。本体评估分为三部分:逻辑一致性通过Pellet推理机验证,确保联合国教科文组织(United Nations Educational, Scientific and Cultural Organization, UNESCO)类别、国际文献工作委员会概念参考模型(Conceptual Reference Model, CIDOC CRM)类与子类之间无矛盾;形状约束语言(Shapes Constraint Language, SHACL)合规性证明实例和关系(如P70_is_documented_in、P7_took_place_at等)满足所有约束(0违规);功能评估通过24个能力问题(Competency Questions)转化为SPARQL查询,证实本体支持机构元数据、事实关系、概念组织及时间维度的多粒度查询。
论文结论部分指出,本研究提出了一套半自动化的方法论框架,从非结构化文本构建摩洛哥非物质文化遗产(Intangible Cultural Heritage, ICH)本体并丰富为基于本体的知识图谱。该方法基于三个互补阶段:按联合国教科文组织(United Nations Educational, Scientific and Cultural Organization, UNESCO)五类别进行文档分类、类别内语义聚类以识别主题子结构、以及生成与国际文献工作委员会概念参考模型(Conceptual Reference Model, CIDOC CRM)对齐的本体。结果显示:混合方法(结合专家词汇与语义表征)在文档分类中最有效;类别内聚类能识别连贯的主题子结构,但性能因类别而异;且不存在适用于整个流水线的单一最优方法,最佳结果取决于研究领域特征。对ICH Onto的评估进一步确认了其逻辑一致性、符合形状约束语言(Shapes Constraint Language, SHACL)约束以及回答能力问题(Competency Questions)的能力。该流水线具备复用于其他遗产语境或基于非结构化文本的任意领域的潜力,但需调整分类类别、专家词表、参考语料库和本体模型。论文承认局限性:语料库规模有限且主要依赖机构来源,可能低估地方实践;专家生成的词表可能引入选择偏差;使用的通用嵌入模型未充分捕捉遗产特定语义、本地术语及隐式文化关系。未来工作包括扩展ICH Onto以纳入更多摩洛哥ICH元素,将其与其他遗产资源(如MedinaOnto)互联以构建互操作遗产知识生态,以及探索面向ICH的领域自适应语言模型以改进分类和聚类效果。