自己动手丰衣足食古籍数字化形成自己的知识库

忘间宠物 2022-12-10 07:05:58

前两天介绍了几个下载古籍扫描本的网站,具体点击下方链接查看:

喜欢古籍 这几个网站值得收藏

等下载完以后,若是不加以整理归纳,其实相当于堆砌了一堆杂物,想到的时候还得翻阅查找。将一些内容提取出来,归纳总结,相互链接才是更有效的办法。

但若是一些如:《史记》、《资治通鉴》、《老子》等书,已经有大量现成的文字内容,没有必要再去提取其中文字,只需将这些文件归纳到相应处即可。上述网站中,北大与字节跳动数字人文开放实验室做的识典古籍已经将一部分古籍文字化,提供了简繁体切换。但是很多都是粗校。(AI识别,不是100%准确率。)他们官网首页挂着永乐大典图片,看介绍已经在对这部巨作内容文字化过程了。

可遇到诸如《永乐大典》这类,虽然网上可以查找到相关书籍内容的文字版,但是仔细校对过,错误率挺高的。都是用AI自动扫描识别,经常出现漏字、多字、错字的情况。这时候,若是对其中某本内容感兴趣,得自己将文字内容识别出来,逐个校对。

这个工作量非常繁琐,可以作为阅读过程中的一部分,一遍阅读同时一遍校对内容。若是只是一心求快想将内容迅速文字化,不仅错误率高,很容易半途放弃。

老外做的,全免费,识别出来的繁体中文效果

如果校对识别很简单,将下载PDF文件,导出PNG或是JPG格式的图片,然后用识别软件将内容识别出来。尝试过一个老外做的免费识别,但是对竖排繁体字识别简直简直惨不忍睹。还是找了收费的软件白描,30买断了终生会员。有网页版和App提供下载。用的网页版进行识别。普通会员每天可以免费识别5张。一般用用其实也够了。是会员,可以一次性上传多张同时识别,并且可以将内容合并识别。

后面的工作就是将内容导出或者复制出来或者直接导出Word格式的文件。后面的工作就是慢慢品读,同时对照扫描件进行逐字校对。校对完毕,若是不习惯繁体字显示,Word自带繁体转简体的功能。

平时阅读一些古籍,之所以看不懂,一部分原文是没有注释。一些文章结合古文的注释,理解起来没有那么困难。下载的很多古籍都是有注释的,但是相互分散在不同版本中,若是有现成文字版内容,可以直接找到复制出来。建议阅读的过程中,一点点将散落在各奔中的注释逐个汇总。正文内容用大一号的黑色字体,注释部分用小一号的红色字体。

做的《聊斋志异》原文+注释笔记内容

自己将这些内容汇总到印象笔记,其他笔记软件也能实现类似的效果。等到内容积累到一定阶段,可以对笔记内容进行相互链接。这样好处方便后期阅读和查找过程中,可以相互关联。这些笔记软件都是支持打标签功能,就是方便将相似内容进行自动的汇总。

最近翻看了手上几本《史记》:三全本、二十四史点校本、《史记汇注集考》、《史记笺证》,发现一些解读是值得商榷的,有些就是明显错误或者毫无根据,完全有点想当然的感觉。这些内容后期一点点分享,有些个人解读,不一定正确。

0 阅读:4