中华民族有着数千年的历史,创造了灿烂的古代文明,为后人留下了大量的、宝贵的文化遗产,其中包含大量的文字典籍。古籍是人类文明的历史记载,是历史的产物,是文明的历史标志。 古籍记录了不少鲜为人知的历史,为今天研究人类历史、社会发展以及自然环境留下了珍贵史料。古籍的传播是需要大众参与。中国是全球拥有古籍最多的国家,国内现存汉文古籍300万部,散居在海外的古籍超过40万部。 但是,由于人为与自然因素,我国古籍的损坏较为严重,特别是大量的纸质古籍。据统计,全国公共图书馆和博物馆总计保存古籍3000多万册,其中1000万册由于历经岁月侵蚀、火烧、水浸、虫蛀而损坏严重。 从印本文献的损坏类型来看,可分为酸化、老化、霉蚀、粘连、虫蛀、鼠啮、絮化、撕裂、缺损、烧毁、线断等几种,写本文献还有较为严重的印章或字迹的褪色和扩散现象。 20世纪50、60年代形成的档案,都有字迹褪变、模糊不清、纸张发黄老化现象出现,有的已经到了无法提供利用的程度。 然而,纸质古籍损毁是不可逆转的,虽然古籍原生性保护有很大改善,“纸”的脆弱却依然无法改变,因此,古籍保护工作仍然任重道远。据统计,我国目前亟需修复的古籍数量达到1000万册件。 2022年3月,字节跳动与北京大学联合成立“北大——字节数字人文开放实验室”,双方协作研发推出古籍数字化平台——识典古籍。 对古籍采用识别技术,即使用OCR以及人工智能技术对古籍的影印版文字进行单个切分、文字识别、顺序识别。结合文字内容和文字位置,获取整张古籍扫描件的阅读顺序。人工智能识别的工作完成后,再赋予不同的格式! 近期上线的“识典古籍”平台测试版,便是这一合作的最新进展。据项目负责人介绍,该平台主要使用了三种技术,即文字识别、自动标点、命名实体识别。 该平台测试版已免费向所有用户开放,在数字化文本内容之外,提供足够权威的影印底本作为参照,同时提供主题词检索和繁简体转换功能,方便专业研究人员、古籍爱好者以更加高效便利的方式获取古籍内容。喜欢古籍的朋友们,可以关注下“识典古籍”平台!