在八年级上册语文课本的《三峡》一文中,有这样一句优美的描述:
绝巘多生怪柏,悬泉瀑布,飞漱其间,清荣峻茂,良多趣味。
想必学过这篇课文的朋友,对其中的意境印象深刻。但当大家试着在弹幕中打出“巘”字,或是在手机输入法里通过拼音寻找它时,是不是发现困难重重,甚至压根找不到,最多只能找到一些相似的字。
其实,像这样看似熟悉却难以打出的字,是因为它们还未被收录进如今的常用文字系统。
你或许难以想象,仅仅半个世纪前,计算机已经能够流畅打出所有的英文,可面对中文,却连一个简单的“人”字都无法录入。
那时,中文在数字化的道路上,仿佛陷入了绝境。
这一切究竟是如何峰回路转的呢?
故事要回溯到1946年,世界第一台计算机诞生,起初它仅仅服务于纯粹的数学计算。
随着科技的飞速发展,晶体管和集成电路相继问世,商用计算机逐渐走进人们的视野并开始普及。
1967年,美国信息交换标准码诞生,让计算机之间实现了信息互通。然而,这个由美国研发的标准码,有着极大的局限性,它只能处理西文,对于中文等其他文字,完全无能为力。
当时,科技巨头IBM和foton公司为了攻克汉字录入难题,不惜投入上百万人力以及数千万美元资金,精心研制卡德维尔汉字打字机、福建式汉字打字机。
但遗憾的是,这些耗费巨大心血的项目,最终都以失败告终,几乎没有取得任何实质性的进展。在这样的困境下,一些极端的观点开始在国内甚嚣尘上。
一方面,有人重提百年前废除汉字、改用拼音文字的旧主张,认为汉字太过复杂,难以适应数字化时代;另一方面,甚至有人建议将官方语言直接改成英语,彻底放弃中文书写体系。
这两种方案一旦实施,后果不堪设想,我们丰富多彩的中文世界,将会在如今的互联网时代彻底消失,中华文化的根基也将被撼动。
就在这危急存亡的关头,一位“名不见经传”的小研究员挺身而出,他就是王选。他宣称自己找到了让汉字顺利进入计算机的“金钥匙”,给陷入困境的汉字带来了一线生机。
在深入了解王选的伟大创举之前,我们先来看看当时计算机录入汉字面临的巨大阻碍。
电脑的显示画面基于二进制原理,每一个点对应一个二进位信息,无笔画处记0,有笔画处记1。以常用的五号字为例,大约需要一个100×100,也就是1万个方格的点阵来呈现,而大号字更是夸张,需要1000×1000,足足100万个方格。如此算来,仅仅常用汉字的字体和字号所包含的信息量,加起来就高达数千兆。
可当时计算机的最大存储容量仅有64KB,两者之间的差距非常大,根本无法完成汉字的存储,录入汉字似乎成了一个遥不可及的梦。
王选究竟施展了怎样的魔法呢?
1976年,国家748工程向技术研发组提出了一项测试,给出了11个具有代表性的汉字,它们涵盖了汉字的主要笔画结构,从简到繁,用于检测不同风格与框架下汉字的压缩率以及复原后的文字质量。要知道,如果压缩方法不当,汉字缩小后笔画容易中断,放大时则会出现难看的马赛克。
王选的思路别具一格且精妙绝伦。他洞察到汉字是由撇、捺、横、竖这些基本笔画构成,于是创新性地提出了“轮廓加参数”的方法。对于撇、捺、点、钩等不规则笔画,通过选取几个关键的点,就能精准确定其形状与位置;而横竖折等规则笔画,则依据笔画的长度、宽度、笔锋以及起始位置等要素,用参数来表示。
这种天才般的构想,直接将每个汉字所需附带的信息压缩了500到1000倍,成功攻克了汉字存储难题,使得整个中文字库得以完整存入计算机。
不仅如此,在当时的测试条件下,无论是黑体、宋体、楷体,还是各种特色字体,汉字都能精准无误地显示。这一突破,为后续中文在电脑上的多样化呈现,包括各种绚丽字体的诞生,奠定了坚实的基础。
自此,信息化的大门向中文轰然敞开。
汉字的显示与快速输入问题得到解决后,犹如多米诺骨牌效应,汉字信息压缩、机器词典建造、计算机辅助文本校对、汉语语音自动识别等一系列相关技术,如雨后春笋般纷纷取得显著成就。
每一个中国人都能便捷地在信息时代使用自己的母语,数字化的汉字成为了人们表达思想的得力工具,承载着我们心灵深处的情感与智慧。
但时代的车轮滚滚向前,汉字在数字化进程中又面临新的挑战。就像开篇提到的生僻字问题,在数字时代愈发凸显,困扰着众多民众。
幸运的是,就如同当年王选引领汉字迈入计算机时代一样,如今又有一批有识之士致力于将汉字的使用权益普惠给更多人。以阿里巴巴普惠体为例是中国企业推出的首款永久免费商用字体。
在科技浪潮的冲击下,汉字没有被湮灭,反而愈发熠熠生辉。
它承载着中华民族数千年的文化底蕴,在数字时代续写着辉煌篇章,继续滋养着每一个中华儿女的精神家园。
让我们共同期待,在未来的日子里,汉字能在数字化的天空中绽放更加绚烂的光彩。#历史#\u0002#汉字#\u0002
文字来源@ 二二酸酸 的视频内容