《Digital Applications in Archaeology and Cultural Heritage》:Digitizing historical Kannada: An OCR approach for Yakshagana scripts based on glyph-to-Unicode dictionaries
编辑推荐:
罗帕·G·K. | P·桑蒂·蒂拉加姆 | 安纳帕·B.印度卡纳塔克邦苏拉特卡尔国立技术学院计算机科学与工程系摘要雅克沙加纳(Yakshagana)是卡纳塔克邦沿海地区的一种民间戏剧传统,其剧本创作风格深受《摩诃婆罗多》和《罗摩衍那》等印度史诗的影响。由于缺乏可靠的卡纳达语光学字
罗帕·G·K. | P·桑蒂·蒂拉加姆 | 安纳帕·B.
印度卡纳塔克邦苏拉特卡尔国立技术学院计算机科学与工程系
摘要
雅克沙加纳(Yakshagana)是卡纳塔克邦沿海地区的一种民间戏剧传统,其剧本创作风格深受《摩诃婆罗多》和《罗摩衍那》等印度史诗的影响。由于缺乏可靠的卡纳达语光学字符识别(OCR)和自然语言处理(NLP)工具,雅克沙加纳剧本的数字化工作一直进展缓慢。现有的OCR系统常常无法识别复杂的连字(vattaksharas),因为这些连字在标准的Unicode资源和训练数据集中表示不足。本研究通过从雅克沙加纳剧本图像中构建自定义数据集,并为特殊连字建立字形到Unicode的映射来解决这一问题。开发并训练了一个基于深度卷积神经网络的OCR框架,专门用于处理雅克沙加纳风格的字符。实验评估显示,该方法的验证准确率稳定在91.4%以上,证明了其有效性。这项研究为具有文化价值的卡纳达语文化遗产剧本的数字化和保护提供了实用方案,也为未来面向文化遗产的语言处理技术发展奠定了基础。
引言
卡纳达语可分为三个历史阶段:古卡纳达语(公元450–1200年)、中卡纳达语(公元1200–1700年)和现代卡纳达语(公元1700年至今)。雅克沙加纳剧本通常使用中卡纳达语书写,因为这种戏剧表演主要使用卡纳达语。剧本以散文形式呈现,包含对话和舞台指示。传统的雅克沙加纳剧本还可能包含歌词和节奏模式(“talas”),以指导音乐家和表演者。雅克沙加纳剧本通常遵循一种结构化的格式,包括Prasanga、Prasanga Prasthava、Padas和Abhinaya等元素(Hegde和Hegde,2022年)。
为雅克沙加纳歌词创建数据集面临诸多挑战,涉及语言复杂性、剧本变体以及数据质量、版权和文化敏感性等问题。以下是中卡纳达语到英语机器翻译所面临的挑战。
数据收集:雅克沙加纳剧本分散在各种来源中,如图书馆、私人收藏和文化机构。将这些来源整合到一个中央数据库中可能非常困难。许多雅克沙加纳剧本通过口口相传和手稿代代相传,导致版本众多,难以建立标准化的语料库。许多剧本仅以实物形式存在,通常是手写或用旧格式印刷的。对这些剧本进行数字化需要先进的光学字符识别(OCR)技术。由于缺乏可靠的卡纳达语特征集,OCR设计也面临挑战。如果仅使用图像信息(形状和结构)进行字符识别,由于卡纳达语的结构复杂性,OCR容易产生错误结果。后续处理步骤用于纠正识别结果并提高识别准确性。
黏着语特性:与使用独立词素的屈折语不同,卡纳达语是黏着语。一个单词可能由两个或多个词素组成。一些雅克沙加纳歌词包含超过10个或20个词素才能表达一个明确的含义。例如,下图中的卡纳达语单词包含五个不同的词素。
卡纳达语的字符集非常庞大,包含17340种可能的字符组合。如果将每个字符视为一个独立类别,设计分类器来识别这些字符将非常复杂。许多卡纳达语字符在结构上非常相似,因此训练分类器以准确识别这些字符非常繁琐。卡纳达语中不同字符和单词的大小也不均匀,这给分割带来了困难。图2展示了一个句子分割的例子。
早期的卡纳达语写作软件(如Baraha)使用自定义的ASCII字体,仅渲染自己的卡纳达语字形,而不是正确的ASCII字形。虽然这种解决方案适合在纸上打印卡纳达语文本,但不适合在线传输或在网页或移动设备上显示卡纳达语文本。需要一个通用的编码标准。Unicode使用16位(具体来说,UTF-16使用16位)来表示世界上现存语言和历史文字(如婆罗米文)的字符。UTF-16为每个字符分配一个唯一的16位标识号(代码点),由软件负责字符的渲染。卡纳达语字符的代码点范围从0x0C82到0x0CF2。这一代码点范围专门用于卡纳达语字符,而在ISCII中,不同印度语言的相同字符可能被分配相同的代码点。图3展示了卡纳达语字符的Unicode编码(Krizhevsky等人,2012年;Shetty等人,2024年;Singh等人,2023年;Yang等人,2024年)。
众多复杂的连字严重阻碍了古代雅克沙加纳剧本的数字化和理解。现有的光学字符识别(OCR)系统难以准确识别这些独特的连字,因为它们的字形到Unicode的映射尚未定义。本研究通过为1000多种连字开发全面的字形到Unicode映射,直接解决了这一关键问题,从而实现了更有效的数字化和未来对这些珍贵历史文献的利用。
本文的其余部分安排如下:第2节讨论相关研究;第3节阐述研究动机;第4节介绍问题描述和目标;第5节提出方法论;第6节展示实验结果和讨论;第7节评估所提出框架的局限性,并指出未来研究的潜在方向以进一步提高系统的稳健性;第8节总结全文。
章节片段
相关研究
由于结构复杂性、庞大的字符集以及复合字符的广泛使用,印度文字的光学字符识别(OCR)一直是活跃的研究领域。特别是卡纳达语,由于其丰富的元音、辅音以及通过辅音组合和元音修饰形成的复杂连字,带来了独特的挑战。本节回顾了四个关键领域的先前研究:传统的卡纳达语OCR方法、深度学习等。
动机
在数字时代,保护文化遗产是一项重要责任。雅克沙加纳作为卡纳塔克邦的一种充满活力的传统戏剧形式,不仅以其表演闻名,还因其古老的手写和印刷卡纳达语手稿而受到重视,这些手稿体现了历史叙事、文学成就和语言独特性。然而,这些手稿往往以脆弱的物理形式存在,容易因时间、处理和环境因素而退化。
虽然主流OCR技术
问题描述
分析和翻译雅克沙加纳剧本具有重要的文化和语言意义。将这些中卡纳达语剧本翻译成英语有助于保护这一文化遗产,并使其为更广泛的受众所了解。这一努力促进了地区艺术形式的欣赏,确保了它们为后代所传承。此外,通过将这些剧本转换为英语,我们可以弥合古典文学与现代读者之间的差距,促进更深层次的交流。
提出的方法论
光学字符识别(OCR)系统设计涉及创建一个流程,能够准确检测、处理并将图像中的文本转换为机器可读格式。该流程通常包括图像预处理、文本分割、特征提取以及使用机器学习或深度学习模型进行分类的组件。设计重点在于处理各种文本类型、字体和噪声条件,以确保高准确性。一个结构良好的OCR系统能够高效地
实验设置
实验在配备16 GB RAM和11 GB内存的NVIDIA RTX 2050 GPU的系统上进行。计算设置还支持贝叶斯优化等高级技术,用于超参数调整和K折交叉验证,而不影响速度或性能。模型保存为.h5(分层数据格式)文件,一个文件反映初始训练后的状态,另一个文件反映微调后的状态,以确保可重复性并便于进一步实验。
局限性和未来工作
卡纳达语OCR的合成数据生成与增强:现代OCR系统越来越依赖合成数据生成来应对数据稀缺问题。对于卡纳达语,符合Unicode标准的字体可以通过编程方式在多种字体和风格中渲染字符图像,从而实现大规模的标记字符图像生成。额外的增强技术(如旋转、缩放、弹性变形和噪声注入)可以提高系统的稳健性。然而,雅克沙加纳剧本
结论
本研究提出了一种定制的OCR框架,用于识别雅克沙加纳剧本中的复杂卡纳达语连字,解决了现有数据集和识别模型的局限性。通过关注独特的字形结构并引入专门的字形到Unicode映射,所提出的方法有效捕捉了这种传统艺术形式的视觉和语言特征。尽管存在挑战,但定制的CNN架构的使用仍实现了可靠的字符级识别。
罗帕·G·K.:撰写——审稿与编辑、初稿撰写、可视化、资源整理、方法论设计、调查、数据分析、概念化。P·桑蒂·蒂拉加姆:撰写——审稿与编辑、验证、方法论设计、监督、概念化。安纳帕·B.:监督工作。
利益冲突声明
作者声明他们没有已知的可能会影响本文工作的财务利益或个人关系。