据第一财经消息,合合信息近日与上海大学、华南理工大学联合发布了业内首个古彝文基础编码数据库。该数据库利用人工智能技术,对云贵地区传承的古彝文字符进行数字化编码,并编制成类似于大字典的数据库,以方便相关人士更便捷地查询古彝文的读音和释义。
根据介绍,古彝文是指民间流传使用的原生态彝文,包含了87046个字符,远多于汉字。其中,《西南彝志》是目前已发现的篇幅最长、内容最丰富的古彝文典籍。然而,古彝文存在着大量的异体字,一个字可能有几十种不同的写法,这给古籍数字化带来了巨大挑战。
为了克服这一难题,项目组采用了智能图像处理、文字识别等人工智能技术,对超过7万6千个样本进行了训练,建立起了古彝文统一的数字编码。发布后,用户只需输入一个编码,就可以查询到相应字的读音、释义等信息,从而大大降低了阅读古籍的门槛。
合合信息表示,这个数据库的发布是一项基础性工作,有助于更多人了解和研究古彝文,并为语言文明的保护提供了新的途径。当前,数字化已成为文化传承的重要途径。该数据库项目表明,人工智能可以发挥重要作用,助力传统文化走向数字化。
暂无评论...