我国现存古籍约有20万种 人工修复需要300年

2022-04-22 15:58:08

北京大学数字人文研究中心、北京大学-字节跳动数字人文开放实验室、北京大学人工智能研究院联合主办的“古籍智能信息处理”系列研讨会日前在线上举办。

在研讨会上,北京大学数字人文研究中心主任王军算了一笔账:我国现存古籍约有20万种,从1949年到2019年,共修复整理出版近38000种,照此速度,要将现存古籍全部修复整理出来,可能需要300年的时间。不过,若利用人工智能技术辅助修复整理,二三十年就能完成。

王军所说的“利用人工智能技术修复古籍”,并非遥远的科学设想,它正在成为现实中的生动实践。“古籍智能信息处理”系列研讨会第一讲开讲后不久,字节跳动宣布向北大教育基金会提供捐赠,支持北京大学-字节跳动数字人文开放实验室研发“古籍数字化平台”,利用智能技术加速中华古籍资源的数字化建设,预计3年内完成1万种精选古籍的智能化修复整理。

“信息技术的发展,尤其是人工智能和大数据技术的出现,为古籍的修复整理带来了革命性变化。”王军说,近年来,包括北京大学在内的不少高校、科研机构在古籍数字化上开展了不少开拓性工作,在OCR(光学字符识别)、AI句读、实体识别等方面积累了比较成熟的技术和经验。以OCR应用为例,用电子设备对纸本古籍一扫,古籍上的内容就会转录到计算机中,并生成相应的数字文档,效率比人工录入提升了不止千万倍。

据了解,利用人工智能和大数据技术,北京大学数字人文研究中心在从先秦到明清跨时代的大规模古籍文本语料整理上,已实现对古文本的自动句读,平均准确率达到94%,同时还实现了对人名、地名、时代名、职官名、书名的自动识别,在中古史料上的准确率接近98%。

王军介绍,“古籍数字化平台”将进一步提升古籍整理的准确率、智能化水平和开放度。一方面,可以对重点文本进行精校,满足专家学者对资料准确度的要求;另一方面,利用智能平台上的文字识别、校对工具,学者和古籍爱好者可以在线上一站式完成古籍整理工作,而不用像以前那样先在Word文档中进行整理编辑,再传递相关文档,在提高效率的同时,也方便公众参与。

关键词: 北京大学 数字人文研究中心 字节跳动 人工智能