世界最古老文字之一,迄今为止持续时间最长的文字,被西方称之为失落的“上帝母语”,殊不知,却也被看作最早的“人工智能”!
具备拼音文字没有的特殊优势,是公认众多文字中信息密度最大的文字。
等了几千年,汉字等来了AI,又是因何说,AI程序中,汉字基本可以看作“母语”的存在?
今天【雾哥】就带大家一起了解背后故事。感兴趣的朋友不妨给大国迷雾点点关注,既方便回顾往期精彩,又不会错过最新内容。
西方人的赞称,早在18世纪便有所盛行,甚至在彼时将“破译”中文当成一场运动,更是将此称呼为一场“浪漫”,而“崇拜汉字”一直令西方世界着迷。
一方面是汉字几千年的文化魅力,而另一方面,汉字实在字母语言存在较大差别。
以常闻的电报、打字机和计算机便是为字母语言设计,但偌大的中国市场便是“字母语言走不进”,如何将产品“汉化”却是成为其中关键,虽然而后在中国流行,但却也显露汉字同字母语言的区别。
而不夸张的说,汉字具备着拼音文字所没有的特殊优势。
简单地说,字母文字是用来记音,而汉字除去记音功能之外,同样“表意”。
不管是英文日文俄文法文等等,无一例外都是字母文字,唯有汉字因为是“表意文字”,所以汉字可以看作是众多文字中信息密度最大的文字。
且汉字在电脑上输入极为容易,单是汉字输入法便有多达十几种,另外这汉字的关键便在于“篇幅虽短,但却可意会其中含义”。
那这和AI又当如何牵扯进关系?
首要的问题便是,AI模型制作的高效率。
AI的模型编码,保障信息密度的同时,又要考虑成本问题,而相较于字母语言,此时汉字的优势便发挥的极为明显。
英译汉
比如,读一本英文译本,翻译过后的中文往往要比英文短上很多,但是意思却又与原文相同,从文字占比空间大小,了解作者表达的主旨,篇幅上汉字大约只占英文的二分之一、日文的三分之二。
所以使用汉字,省钱。
这另外,从文字视觉来说,汉字极为方便阅读。
很早之前国外便有生理科学家指出,在人眼的个地方,当有物像落在上面也看的更清楚。这时候相较于字母语言,汉字方块形的字体也最是令人体视觉受到感知。
因为人体眼部结构的关系,人体视野呈面相,而非线相,相较于字母语言,汉字不仅更利于文字的直观认识,且从形状工整角度来说,汉字垂直向密度大于水平密度,更容易识别。
阅读效率高,加上篇幅窄小便可顺利解码,对于AI模型来说,使用汉字作为模型文字,终是省钱之外,达到了便利。
这也不难理解,为何DeepSeek一款中国制造的开源模型令世界震惊,低成本高效率,550万的成本美元却做出国外训练成本高达5000亿美元的东西。
当然,汉字同AI的“神奇结合”并非如此。
21世纪科技时代,人工智能的诞生又是为何,除去宏观促进人类世界的进步,微观来说,便是要便利大众的生活,成为人类生活、学习、工作的“左右手”。
所以“听懂指令,明白意思”便成为人类同AI合作的关键。
而纵览于字母语言这些表音文字,单是从思维方式上来说,汉字这种发散性立体式的表意文字,便已经超出字母语言一大截。
更不必说,汉字源于象形,但用于会意,而不管是象形字、形声字、会意字等等,本质上来说,实际都是“会意字”。
这也是为何说,有些字虽然不认识,但并非影响你读音正确,通过“形”来判断“字”,简单的例子,比如“从”字,便是“人跟着人,向前走,所以表示跟从”。
“三个木”形成“森”,寓意树木多的地方;“妇”字为一个女子推倒一座大山,是因为曾有说法,妇女推倒大山得到解放......
汉字的魅力,表露的含义,文字结构的组成,偏旁加单字,组合型字体等等,最重要的是传达出其意,却是字母型语言难以切身体会的。
所以这也是为何说,500年前莎士比亚的文字,对美国人来说读来晦涩,甚至看不懂彼时年代表形文字传达的意思。
但中文,600年前的唐诗,即使在现代的中国人,却是可以读懂其中含义,意会作者其中的感情。
而同理,应用于人工智能同样如此,汉字信息密度大,在形成AI模型,便可达到“简短语言,释放全意”,且优化指令成本,而更重要的也是,在这个基础上,传达出的“含义”,人们可以看懂。
所以既优化了AI模型制作成本,且便利于人工智能同人类的交流,甚至达到“准确含义的”表达。
即“傻瓜式领会”并非是学不会,而是一学就会,随便学就会,简单学就会。
如此之来,以汉字开源模型作为基础,再进行英语、俄语等字母型语言的优化也更为便利,但这想要节省成本又创造出高效率的AI模型,只得说,汉字终究是占据极大优势。
而如今DeepSeek在国内外大火,除去我国AI技术进步之外,汉字几千年文化的累积,终是国外创造AI嵌入文字编码难以匹敌的存在。
也便不难理解,为何十八世纪,国外称呼汉字为失落的“上帝母语”,迄今为止持续最长使用的文字,汉字终是一个妙字了得!
清末列强甚猖狂,几欲废除难商量。灭亡汉字尘嚣中,文人强说拉丁强。字繁俗体扶正后,电脑输入路茫茫。五笔一出谁争锋,汉字智能又辉煌。
汉字根基在书契。上古结绳而治,后世圣人易之以书契。伏羲始作八卦作结绳,开创了数千年的结绳而治,黄帝尧舜氏易穷则变,则之洛书,易为书契。八卦结绳与书契同出于易,太极两仪四象八卦洛书五行连贯构成易的象。不是其它符号文字所能比拟的[呲牙笑]
胡扯,汉字汉语属于偷换概念,无论繁体还是简体都不是汉朝发明的,正规叫法,繁体的是华语,简体的是中文。我们现在用的都是新中国的标准发音 简体字中文,拼音是1958年左右正式开始用。小时候用字典也都叫新华字典或新华大字典, 区别于民国那一套的。现在的字叫简体中文字simplified zhongwenzi
思考一个很有意思的问题!设想一下,在宇宙中,两颗相距甚远的星球几乎同时孕育出文明与科技。这两颗星球上的外星人,基于各自独特的文明、语言、文字、思维方式、审美观念和信仰,发展着自身的科技。 后来,他们都研发出了高性能计算机。那么问题来了,这两个星球所开发的计算机系统,也会采用拉丁字母和阿拉伯数字进行编码吗?他们的民众,也会全民学习英语吗?