汉语等了几千年,终于等来AI了!英语法语日语都将变成“方言”!

是百科密码 2025-02-15 09:48:59

新年伊始,网上最火的自然是 DeepSeek,外国人已经从惊叹转变成为了偷偷抄代码。

但是他们很快发现,即使偷到了技术,由于语言限制,他们在使用中也不能将技术充分发挥出来。

有人已经断言,未来AI时代真正开启后,世界上除了汉语以外,其他的字母语言都只能算是边缘化了的方言!

低硬件设备、高效率输出的秘诀:汉语

先换一个角度来讨论,为何DeepSeek 完全不输于美国的AI产品呢?

它的训练成本极低,训练周期很短,训练所用的硬件设备完全是低配版。

美国人一度认为中国掌握了什么更好的新科技,但回头却发现,真正的问题其实出在语言文字上。

中国AI产品高效率的根源,是因为汉字和汉语的信息密度远远超过了拼音字母的信息密度。哪怕不是AI时代,汉字比英语简练也是众所周知的事情。

同样一份文本内容,用汉语书写可能只有薄薄的几张纸,但如果是用英文书写的话,可能就需要几十张甚至上百张。英语出版的书籍动辄就是大部头,不是因为内容有多充实,完全是因为用字量和信息的密度太低。

眼下,在AI的训练和使用上,汉语和英语以及其他拼音字母的差异表现就更突出了。汉字可以精练语法,在训练速度和效率上,比拼音字母要高很多。

斯坦福大学针对语言已进行了专门的差异性研究,研究人员发现,汉字的信息密度比英语的信息密度高出了3.7倍。

正因为如此,在AI的训练上,中国的产品由于更加高效率,哪怕硬件设备稍微逊色一些,也不会妨碍AI产品真正的发挥。

相反,美国的AI训练,其借助的语言模型主要是英语。由于英语的信息密度比汉语要低很多,这就导致在训练中需要更大规模的硬件设施来承载海量的数据。

如此一来,美国的AI训练就不得不提高成本,尤其是在硬件设施的投入上,需要搭建更高效、规模更大的产品来保证AI的运行。

特朗普上任后,火急火燎的要开启所谓的星际之门计划,主要目的就是搭建和扩建围绕AI训练的硬件设施。

为什么美国人如此着急?不仅仅是因为害怕中国超越他们,更是因为语言上的低效率,导致他们的AI训练已经遇到了硬件设施的天花板。

换句话说,美国在AI领域的巨大投入,还真的不是有些人从中把钱贪污了,真的是因为他们的语言效率低下,不得不花钱搭建更大规模的硬件设施。

下一步,在AI产品的不断更新迭代中,如果汉语的优势被更多地发挥出来,英语的短板也就会被更多的暴露。而且不光是英语,包括法语、西班牙语、葡萄牙语、俄语在内,所有拼音字母文字,在AI领域都会遭遇相同的问题。

AI的训练和学习成本会进一步降低

成语,中国人几千年来的独特语言。在AI时代,成语的作用就相当于是压缩包,四个字就能表达出一段话、一篇文章,甚至是一个历史事件的意义。

比如鸿门宴,只有短短的三个字,它背后蕴含的历史事件,可以书写成一本厚厚的历史书籍。当AI产品遇到成语,所有的成语在语言模型体系中就可以成为一种数学公式,AI的训练和学习就能进一步降低成本,学习效率也能得到极大的提升。

这就相当于电脑系统中的压缩包,可以轻松的把海量的内容压缩成一个小的体积单位。未来的AI产品发展还要面临海量的文本内容,越精炼的文字,越高效率的表达,越能让AI学习起来更快。

比如让AI产品处理长文本内容,如果以英语为基础,所使用的模型需要进行压缩,以及分段。

汉语效率高、精炼的句式,尤其是像成语这样的文本,有时候一句话就能解决英语一大堆内容的问题。

之前,美国的一些高校针对语言处理以及消耗进行过测试。研究人员发现,AI产品根据不同的文字,最终的消耗存在差异。在英语和汉字的对比上,英语模型的整体消耗比汉语高了42%。

汉语不光精炼,其高效的信息密度还能衍生出更多的语法语义。

高效率将赢得AI的未来

汉语的信息密度不光高,而且一句话、一个词甚至一个字就能衍生出更多的语法语义。这样一来,在AI产品中,那些复杂的关联,就能利用这种特有的深度,来保证AI产品的更精准和更智能。

英语等其他语言完全做不到。不光做不到,在信息的浓缩度上,英语的低效率往往还会产生大量的歧义。

正是因为有这种差异,在语法、语义的理解上,中国的AI产品比美国开发的产品更具备优势。之前,国际上曾使用不同的AI产品进行翻译实验。

研究人员发现,如果使用中文模型,在翻译其他语言的时候,准确率可以提升13%。对比之下,英语不具备这种优势。无论是翻译哪种语言,由于在语法、语义上会产生歧义,准确率和精度完全比中文模型低。

所以,未来AI的发展其实就是一种效率革命,人类社会的所有信息需要浓缩,而这些信息的载体以及表达方式正是语言文字。

哪个国家的语言文字更具有效率,在未来AI的发展中就能把握真正的本质。说的简单一点,汉语的精简高效,可以更多、更快地将人类社会乃至整个地球所有的文本、内容、信息都交给AI去训练、学习和处理。

下一步围绕AI的发展,实际上不是让AI有智能,也不是让AI拥有所谓的自主意识,而是要让AI掌握真正的高效率输出以及训练学习。

只要掌握了效率,AI就能掌握海量的内容,只要提前学习并掌握了海量的内容,AI最终就能经过这种量发展转变成质发展。

从这个角度去看,未来的AI世界,其母语是汉语这种说法也不算是空穴来风,因为汉语能让AI真正的高效运作和学习,只有汉语,才能让AI完成真正具有自主意识的蜕变。

这样一来,未来的世界,AI成为了各种信息处理以及内容学习的同理,其他语言将会被逐步边缘化。

因为,其他语言训练出来的AI产品不够聪明,不能真正解决问题,在优胜劣汰中自然也就会失去竞争乃至进化的作用。

在这样一种大的背景下,为了适应进化和发展,很多西方国家的研究者不光会重新看待汉语,甚至会进一步推动汉语的学习。这种情况在以前是完全想象不到的。

因为人们过去一直认为,主导一个民族和国家发展的是科学技术以及其他领。但谁能想到,像语言这种基础性的东西本身就蕴含着巨大的能量,一旦时机合适,语言产生的优势才是一个民族真正爆发的动力。

汉语经历了几千年的发展,而且从来没有出现过中断。从本质上来看,汉语的发展实际上也是民族个体的发展,人们的大脑发育以及思维意识都建立在语言的基础之上。

从语言到文字,传承六千年

中国成熟的文字,也是最古老的文字,便是甲骨文,距今的历史有3600多年,还有比甲骨文更长的古老刻画符号,距今历史有6000多年。

文字虽然是语言的载体,和语言同是一个部分,但是语言应该比文字的历史更加长远。但是语言是抽象的概念,是看不见只能听得到的声音,所以我们现在无法确定汉语是什么时候产生的。

不过,科学界根据人类的演化以及生理特点,推断出语言的产生至少在10万年以前,成熟的语言体系产生于4万年以前,所以汉语也应该出现于这个时间段内。

同样,现在的人类也无法去考证,当年的祖先为什么会产生这样一种表达方式和方法。或许古人乃至原始人能够理解语言的高效,但是这种理解也仅限于对语言和文字的运用。

不过古人完全没有想到,几千年乃至几万年以后,他们当初靠进化选择的语言文字,现在却成为了一个新时代发展的基石。

对比之下,拼音文字自始至终就没有这样的能力,而且还会导致阅读障碍。无论是英语还是法语,都属于不透明文字。一个词汇的拼写虽然大体上代表音位,但是却存在一个字母对应多个发音,或者多个字母对应同一发音的情况。

随着AI时代的来临,下一代的产品越来越智能化,在迭代中不光光是人类自己的抉择,同样也是AI产品自身的进化。换句话说,AI在接续不断的发展中,会选择更高效的表达及输出方式。

结语

历史上汉语也经历了不同时期的分化,所以现在围绕汉语也出现了各种各样的方言。不过在文字的书写上,汉语言体系依旧保持了一致性。

对比之下,像英语这样的字母文字,他们的发音一旦出现分歧差异,未来在书写中也会逐步出现差异。这就是为什么西方的字母文字本质上看起来一样,但是却各成体系的原因。

因此,从整体来看,未来AI产品在训练和学习中,面对西方社会的字母、文字及语言,AI产品本身也要在他们内部进行整合和选择。

由于美国的产品在西方占据主导地位,所以英语在接下来的一段时间内依旧会是西方AI产品的语言模型基础。

但显而易见的是,西方还有其他国家。从别的角度考虑出发,西方的其他国家绝不会放任英语在它们的发展体系中处于主导位置。

不管是法语体系,还是西班牙语乃至俄语体系,在接下来的AI发展时代,都会试图去推动自己的语言体系和AI智能的结合。

所以,围绕AI,围绕语言和文字,未来几十年的时间还会有更颠覆性的现象出现。

0 阅读:1

是百科密码

简介:欢迎关注!