激活数字服务平台,给“养在深闺”的古籍注入新的生命力
古籍,即1912年之前经过刻印、抄写等方式所生产出版的图书和文献,用来传承文明、普及教育以及记载历史,承载厚重的历史和文化。相关统计数据显示,我们已完成普查的270多万部古籍中,仅有7万多部可供线上阅读,更多海量古籍文化资源亟待数字化,这也是当下古籍保护、传承与开放的重要课题之一。目前上海古籍出版社推出的“汇典·古籍数字服务平台”引起业界关注,该平台聚合上海、长三角乃至更广泛地区出版社的优质古籍资源,利用最新光学文字识别(OCR)、自然语言处理、大规模语料库和机器学习标点等古籍智能算法技术,建设面向传统文化与古籍行业的知识服务平台。
“北方有中华书局‘籍合网’,南方有上海古籍出版社‘汇典’。”复旦大学图书馆副馆长、中华古籍保护研究院常务副院长杨光辉表示,古籍数字化对于中华古代文明的传承、保护和利用有着积极的促进作用,这一平台一方面可以把上海古籍出版社多年积累起来的古籍文化资源通过数字化的方式向大众普及,另一方面也可以加速古籍数字转化和出版的流程,推动相应出版产业领域的数字化发展。
经历数十年发展的古籍数字化之路任重道远
《上海市全面推进城市数字化转型“十四五”规划》指出,要“深化文化大数据体系建设,推进文化资源数字化”,在媒介大融合、知识大融通的时代背景下,实现以数字技术推动优秀传统文化的传承创新。古籍数字化,是保护和合理利用古籍的方向。复旦大学古籍整理研究所研究员石祥在接受记者采访时说,“古籍的‘用’和‘藏’之间是矛盾的,谁都想来翻一翻,时间久了必然影响古籍的保护”,而数字化之后,古籍“母本”就不用冒着各种风险“抛头露脸”了。同时,“养在深闺人未识”的古籍可以在数字化之后走出“深闺”,可不受时间、地域限制满足更多读者的阅读需求,实现一对多、点对面、虚对实的变化。
从“将纸质书变为电子扫描版”的“采集侧”到“将电子扫描版变为文字版”的“生产侧”,再到“将文字版变为古籍研学系统”的“应用侧”,古籍数字化流程并不复杂。在数十年历史发展中,有两个分水岭。其一是上世纪80年代,美国华裔学者陈炳藻提出用计算机统计《红楼梦》的字词,计算机技术和人文研究逐渐开始结合。其二是1999年,被誉为“大型中文电子出版工程的典范书”文渊阁《四库全书》电子版问世。
在数十年的发展中,我国的古籍数字化取得一定成效——国家图书馆的“中华古籍资源库”已在线发布超过3.3万部古籍影像;中华书局的“中华经典古籍库”已发布3000多种、15亿字的点校本古籍;爱如生公司的“中国基本古籍库”收书1万种,既有可供检索的全文,又有古籍原版图像。但与此同时,古籍数字化推进之路也铺满荆棘。究其原因,一方面源于古籍成本,据上海古籍出版社数字出版中心负责人侯君明透露:“大多古籍获取成本不菲,此外制作、版权、平台开发以及版权保护技术研发等方面费用高昂。相对而言古籍数字化回报周期却又比较漫长。”另一方面,根据全国古籍普查工作要求,要对全部古籍鉴定编目,具体包括书名、卷数、作者、版本、存卷、册次、藏印等项目,须逐一厘清,工作量巨大,对编目鉴定者的业务水平要求颇高。
事实上,我国目前尚存在大量现有的古籍数字化资源呈黑白影像,分辨率较低,难以满足读者和研究人员的需要。
加速古籍数字转化,利用新技术整合海量古籍知识体系
上海古籍出版社总编辑吕健表示,古籍整理是一项古老的事业,而数字化则属于当下,数字化转型代表着产业的前沿。在古籍亟待数字化的当下,“汇典·古籍数字服务平台”的出现犹如一道曙光。这一平台的OCR系统、自动标点与自动标引技术开发都已初见成效。其中OCR技术可以迅速识别一本书,准确率达93%。达到理想准确率的机器标点后,剩下的疑难问题通过专家学者可以较快完成,把学者从大量简单重复的劳动中解放出来。
有着OCR的文本生成技术、自然语言处理的文本整理与标引等先进技术的加持,大量优秀古籍可以在准确权威的平台上与公众、专业研究人员面对面,使用效率大幅提高,有力促进海量优秀传统文化信息便利快捷有效利用。这一平台还通过解析上海古籍出版社海量古籍资源内容,对其进行知识结构化揭示,重构原有的古籍内容组织形式,并创建全新的知识模块,实现古籍资源的知识化、专业化服务。
1/2 1 2 下一页 尾页
上一篇: 良渚:一粒稻谷穿越五千年【组图】
下一篇: 3月12日金星“合”火星,“维纳斯”约会“玛尔斯”
【相关文章】
版权声明:文章观点仅代表作者观点,作为参考,不代表本站观点。部分文章来源于网络,如果网站中图片和文字侵犯了您的版权,请联系我们及时删除处理!转载本站内容,请注明转载网址、作者和出处,避免无谓的侵权纠纷。