人工智能助力古彝文识别，推动传统文化传承

阿里云国内75折回扣微信号：monov8

阿里云国际，腾讯云国际，低至75折。AWS 93折免费开户实名账号代冲值优惠多多微信号：monov8 飞机：@monov6

人工智能助力古彝文识别推动传统文化传承

0. 前言

古彝文作为世界上最古老的文字之一记录了人类几千年来的发展历史。古彝文识别研究能够将珍贵的古彝文文本文献转换为电子文件更加便于其保存和传承。但由于历史发展、区域限制等诸多要素针对古彝文识别的研究工作一直进展缓慢。本文介绍了如何将新颖的深度学习技术应用于古老文字的识别上介绍了合合信息如何解决古彝文识别中的困难与挑战。依托于合合信息在古文字识别领域的积累相对于传统古彝文识别模型合合信息携手上海大学提出的基于深度学习的古彝文识别模型能够以更高的精度识别古彝文手写体极大的提高了古彝文识别的准确率。

1. 古彝文

1.1 古彝文介绍

彝族有着古老灿烂的文化它记录并保存了卷帙浩繁的典籍是中华传统文化宝库中的重要组成部分。

据 1980 年发布的四川规范彝文共有 819 字2012 年发布的滇川黔桂通用彝文共有 5598 字而与这些演化到现代的规范彝文不同古彝文是指民间流通使用的原生态彝文据《滇川黔桂彝文字集》统计这些古彝文多达 87046 字。由于古彝文典籍通常记录于石刻、岩画、木牍和纸书之上由于年代久远通常较为模糊甚至有所残缺这为古彝文的识别带来了极大的挑战。

古埃及象形文字字义	鱼	鸟	旗	箭	瓶
古埃及象形文字(约 3200 BC—AD 400)
象形文基础上演化的古埃及僧侣体草书
象形文基础上演化的古埃及僧侣体草书
古彝文字义	鱼	鸟	月	马	首
古彝文字

1.2 古彝文识别的重要意义

随着时间的流逝许多古文字都渐渐消失在历史的长河中而古彝文是少有仍在使用的文字。对古彝文高效的识别对于古彝文的整理和翻译工作而言都有着重要意义不仅能够帮助理解尚未被翻译为汉文或者并不规范的古籍而且能够更实际的保护传统文化。目前古彝文的相关整理工作仍然主要依靠手工进行不仅会占用大量的人力成本且效率较低、成果的重复利用存在困难例如对《西南彝志》的整理与汉译罗国义、王兴友等人耗费了 10 年时间才完成为了对初版译本进行完善和修正王运权、王仕举等又耗时 17 年才完成再版。
随着人工智能特别是深度学习的发展可以为古彝文识别提供更加高效工具为其保存和传播提供了强有力的支撑。古彝文识别不仅仅是人类知识的延续和传承同时也是推动知识发展的关键合合信息携手上海大学的“原生态古彝文”研究项目将成为抢救、整理、保存、传播和利用彝文古籍的有效途径。

1.3 古彝文识别的挑战

相对于其他更具标准化的文字古彝文的书写更为随意并无通用的统一性规范标准因此其识别难度也随之增加。尽管目前文本识别技术已经有了突破性进展例如合合信息自研的文字识别技术覆盖文字、文档、表格、印章、二维码、公式等多种通用场景能够进行快速、精准的检测和识别支持中文、英文等超过 50 种语言同时支持印刷体、手写体、倾斜、折叠、旋转等但由于版式的多样性、字符集的庞大性和图像质量差等原因当前对于古彝文识别的研究仍然寥寥无几并且现存的古彝文大多为手写体这进一步加深了古彝文识别的难度总结而言古彝文识别的挑战性主要集中于以下几个方面

缺乏完善的手写古彝文数据集数据集通常是训练神经网络最为关键的因素之一数据集的质量直接决定了模型的效果。当前对古彝文的研究多集中在文献整理上而尚未有完善的古彝文手写数据集并且在传承过程中通晓古彝文文字的人越来越少导致数据集标注工作量大而人手少数据集样本严重不足这是古彝文识别最为关键的挑战之一。合合信息研究人员通过与古彝文传承人建立良好的关系获取大量典籍弥补了古彝文识别项目训练样本不足的情况
版式多样性古彝文典籍排版风格具有多样性字符间距、行距等有较大差异且存在加字、替字、整句倒置等现象这种情况对文字定位与识别造成了诸多干扰。而依托合合信息在智能文字识别领域的领先技术包括图像复杂版式识别、图像扭曲矫正等优秀成果为古彝文识别奠定了技术基础
图像质量较差除了数据集在样本上的不足外在数据质量上也存在诸多问题多数古彝文典籍都因历史保护的原因出现了或多或少的缺失或污迹严重影响了数据集的质量增加了文字识别的难度。得益于合合信息智能文字识别技术通过利用图像增强技术可以显著提高图像质量进而提高古彝文文字识别的精度和效率

图像质量较差

字符集庞大古彝文拥有庞大的字符集在上文中我们已经提到仅仅是 2004 年出版的《滇川黔桂彝文字集》就包含 87000 多个字。对如此庞大的字符集进行分类是一项十分艰巨的任务。借助合合信息在甲骨文、金文等古文中的研究经验文字间的识别有相通之处为古彝文识别打下了坚实基础
字形变化较多古彝文字体、字形的变化较多没有统一的手写规范且不同地区书写规则不同存在大量的变形字和异体字例如如下图所示表示“种类”的古彝文就有四种不同的写法并且存在大量字形相似甚至在视觉上没有太大差别的字在意义上毫无联系这为古彝文的识别增加了难度。针对这一问题上海大学的古彝文研究人员提出了四字节编码方案用于描述每个变体和形近字符之间的细微差别根据这种编码方案能够更好的建立深度学习数据集

变形字

2. 古彝文识别国内外研究进展

在古彝文识别领域研究的主力仍然是民族类高校和研究所且研究成果的应用和转换率较低。王嘉梅等利用图像分割技术实现古彝文识别首先通过预处理对彝文字符应用细分、归一化、二值化等经典图像处理技术然后对预处理后的图像使用模板匹配方法进行识别。朱华龙等人提出了基于特征提取的分类方法是经典的传统机器学习方法利用人工对古彝文提取方向线素特征、笔画密度特征和投影特征等然后利用多分类投票法确定文字的最终类别。
除此之外也有许多其他国内外学者对多种不同古文进行研究例如北京大学的“识典古籍”项目利用文字识别、自动标点和命名实体识别等技术对古籍进行识别阿里巴巴的“汉典重光”项目利用人工智能技术数字化了一批珍藏在加州大学伯克利分校的中文古籍。

3. 基于深度学习的古彝文识别

3.1 深度学习简介

近年来深度学习 (Deep Learning DL) 在多个领域中都取得了突破性进展尤其是在图像识别、目标检测以及自然语言处理等领域。神经网络由具有权重和偏置的人工神经元组成这些权重和偏置会在模型训练过程中进行调整以得到一个性能优异的学习模型。每个神经元可以接收一组输入以某种方式对其进行处理后输出一个或多个值。如果我们通过堆叠多层的神经网络它就被称为深度神经网络处理这些深度神经网络的人工智能分支称为深度学习。
传统全连接神经网络的主要缺点之一是它们忽略了输入数据的结构所有数据在输入网络之前都被转换为一维数组。这对于简单的数字数据而言可能并没有什么问题但当我们处理图像数据时全连接网络就表现出不足之处。以灰度图像为例这些图像是二维结构同时像素的空间排列包含很多隐藏信息。如果我们忽略这些信息而将图片转换为一维结构我们将失去很多潜在信息。而这也正是卷积神经网络 (Convolutional Neural Network, CNN) 的优势所在CNN 在处理图像时会考虑图像的 2D 结构。
CNN 也是由权重和偏差组成的神经元组成这些神经元接受输入数据进行处理后输出处理后的值。网络的目标是从输入层的原始图像数据到得到输出层的正确结果不同任务中网络的目标并不相同在图像分类中网络的目标是得到图片类别在目标检测中网络的目标是定位目标的位置。普通全连接神经网络和 CNN 之间的区别在于使用的神经网络层类型以及我们如何处理输入数据假设 CNN 的输入是图像那么可以使用 CNN 提取图像的特征。除此之外CNN 的输入并不仅限于图像也可以为文本等数据。

CNN 是一种经典的深度学习网络它通常用于图像识别等任务。与任何其他神经网络一样为图像中的元素分配权重和偏置并能够将这些元素彼此区分开来。与其他分类模型相比CNN 中所需使用的数据预处理较少。
CNN 架构的基本形式可以比作人脑中的神经元和树突它的灵感来自视觉皮层。单个神经元只对视野受限区域的刺激作出反应这个视野区域被称为感受野 (Receptive Field)这些感受野相互重叠后覆盖了整个视野范围。
循环神经网络 (Recurrent Neural Network, RNN) 是另一种经典的神经网络架构可以将 RNN 视为一种内存保存的机制如果网络能够提供一个单独的内存变量每次提取词向量的特征并刷新内存变量,直至最后一个输入完成此时的内存变量即存储了所有序列的语义特征并且由于输入序列之间的先后顺序使得内存变量内容与序列顺序紧密关联。RNN 架构可视化如下

RNN架构

右侧的网络是左侧的网络的展开后的结果。右侧的网络在每个时刻接受当前时刻输入以及上一时刻网络状态并在每个时刻提取一个输出。
在每个时刻 $t$ 网络层接受当前时刻的输入 $x_t$ 和上一个时刻的网络状态向量 $h_{t−1}$ 根据网络内部运算逻辑 $h_t=f_{\theta}(h_{t-1},x_t)$ 计算得到当前时刻的新状态向量 $h_t$ 并写入内存状态中。在每个时刻,网络层均有输出 $o_t$ $o_t = g_{\Phi}(t)$ 即根据网络的当前时刻状态向量计算后输出。
网络循环接受序列的每个特征向量 $x_t$ 并刷新内部状态向量 $h_t$ 同时形成输出 $o_t$ 。这种网络结构就是循环神经网络 (Recurrent Neural Network, RNN) 结构。

3.2 基于深度学习的古彝文识别模型架构

手写文字识别已经成为人机交互最便捷的手段之一拥有广泛的应用前景。在识别图像中手写文字的问题中我们需要同时处理图像数据和顺序数据。在传统的古彝文字识别方法中设计的解决方案通常需要人工参与。例如在图像上使用滑动窗口窗口大小是字符的平均大小以便可以检测每个字符然后输出它检测到的具有较高置信度的字符。然而窗口的大小或滑动窗口数量需要进行人工确认。因此这本质上属于一个特征工程问题。
为了降低人工时间成本可以通过卷积神经网络 (Convolutional Neural Networks, CNN) 提取图像特征然后将这些特征作为输入传递给循环神经网络 (Recurrent Neural Network, RNN) 的各个时间戳以便在各个时间戳提取输出。因此我们将组合使用 CNN 和 RNN通过这种方式解决手写文字识别问题我们不必人工构建特征只需要优化模型得到 CNN 和 RNN 的最佳参数。经典的文字识别架构如下所示

模型架构
相对于传统古彝文识别模型基于深度学习的方法对古彝文手写体的识别精度更高且具有更高的效率。

4. 古彝文识别进展与展望

在 2022 年 12 月合合信息与上海大学社会学院签署了校企合作协议其将以完成“贵州古彝文图像识别及数字化校对项目”为目标结合合合信息在智能文字识别领域的雄厚基础与上海大学在古彝文研究的丰富经验赋能海量古彝文原籍数字化的道路对于民族传统文化的保护与传承具有重要意义。
合合信息是行业领先的人工智能集大数据科技企业智能文字识别技术更是合合信息的核心技术之一先后在 ICDAR、ICPR 等人工智能国际竞赛中斩获 15 项冠军在 CVPR、AAAI 等顶会上均有学术成果发表合合信息的智能文字识别技术主要包括智能图像处理、复杂场景文字识别、自然语言处理三大核心模块通过在智能文字识别和商业大数据领域的积累的优势通过智能图像处理技术解决了影像采集不规范问题能够极大的优化影像质量为项目后续的文字信息提取与识别奠定基础复杂文字识别适用于多语言、多版式、多样式等多种复杂场景结合自然语言处理技术能够获取识别结果的语义信息。
尽管古彝文识别研究仍处于起步阶段但基于合合信息前期在甲骨文、金文等古文研究中的积累通过引入强大的智能文字识别技术建立规范统一的数据库能够极大的增强古彝文研究的可用性与连续性减少繁琐的人工检索工作合合信息联合上海大学推进的“原生态古彝文”研究项目将填补国内外在古彝文数字化研究领域的空白。
建立起古彝文数据库与翻译系统后将能够显著提高古彝文识别的效率和准确率对于小语种保护与古文化传承具有重要的里程碑意义。

小结

目前针对古彝文识别的研究仍处于起步阶段且大多数研究仅针对书写规范的古彝文受限于字符库的匮乏大部分模型仅能对常见的古彝文进行处理因此可以说针对古彝文是别的研究非常稀少。合合信息基于深度学习的古彝文识别项目将填补当前国内外研究的空白将深度学习技术引入古彝文识别将对文化保护和发展做出更多有益探索让传统文化绽放更加绚丽之花。

人工智能助力古彝文识别，推动传统文化传承