合合信息发布业内首个编码数据库，利用AI技术抢救古彝文

据第一财经消息，合合信息近日与上海大学、华南理工大学联合发布了业内首个古彝文基础编码数据库。该数据库利用人工智能技术，对云贵地区传承的古彝文字符进行数字化编码，并编制成类似于大字典的数据库，以方便相关人士更便捷地查询古彝文的读音和释义。

根据介绍，古彝文是指民间流传使用的原生态彝文，包含了87046个字符，远多于汉字。其中，《西南彝志》是目前已发现的篇幅最长、内容最丰富的古彝文典籍。然而，古彝文存在着大量的异体字，一个字可能有几十种不同的写法，这给古籍数字化带来了巨大挑战。

为了克服这一难题，项目组采用了智能图像处理、文字识别等人工智能技术，对超过7万6千个样本进行了训练，建立起了古彝文统一的数字编码。发布后，用户只需输入一个编码，就可以查询到相应字的读音、释义等信息，从而大大降低了阅读古籍的门槛。

合合信息表示，这个数据库的发布是一项基础性工作，有助于更多人了解和研究古彝文，并为语言文明的保护提供了新的途径。当前，数字化已成为文化传承的重要途径。该数据库项目表明，人工智能可以发挥重要作用，助力传统文化走向数字化。

暂无评论

暂无评论...