中国在AI领域的飞速发展,使西方开始反思,是不是该学中国话了

施涛说 2025-02-21 15:50:47

中国在AI大模型领域的飞速发展,使得西方开始反思,是不是该开始学中国话了。

在过年期间,以DeepSeek为代表的中国AI大模型,给了国人相当大的,欢欣鼓舞的原因。我们看到,我们的大模型,在投入资源有限的情况下,以更优的效率,能够达成国外大模型相似的性能。可以说,这是我们向国外,向世界展示了我们的硬实力。在西方,特别是欧洲,这些国家,最近又开始了一波新的反思,反思一下,为什么AI大模型,它诞生在了美国,诞生在了中国,却偏偏无法诞生在欧洲。有的欧洲国家突然意识到,原来是我们使用的语言有问题,这话怎么说?在目前的,世界排名前30的大模型,大家拉一个清单就会发现,要么它使用的是英语,要么它使用的是中文,就极少有这两种语言之外的AI大模型出现,这样是一个巧合吗?

恐怕并不是,英语大模型它的繁荣与蓬勃,一方面是由于互联网上,英文语料极大的丰富,因此能够提供更好的训练集。二方面,很简单,西方国家投入更多的资金,特别是以美国为首的这些西方国家,还有更强大的计算算力作为支撑,因此他们做出大模型,不足为奇。而在中国,中国一方面,中文的互联网的语料,其实相对来说是匮乏的。而二方面,中国又受到计算卡的相关的,出口的限制,没有办法得到充足的算力,那为什么中文的大模型,能够如此的进步,特别是DeepSeek这样的大模型,还能取得如此的进展?有欧洲的语言学家就分析,其实原因也很简单,就是因为中国人使用的是中文,进行思考。

中文,它是一种,非常适合进行大模型研究的语言。一方面中文,是以每一个汉字为单元的,这每一个字,其实都能够代表相当深远的意义,这样的一种分字的方法,极其适合于大模型的使用。TOKEN,这样的一个,切词的单元,TOKEN在大模型里面可以叫做词元,这一个词元,它可不是一个英语单词,它甚至有可能是一个音节,一个很长的英语单词,它会被分解成多个TOKEN,多个词元。但是在中文,这样的切分是简单明了的,我一个汉字,可以作为一个TOKEN来进行输入,甚至,我可以一个词作为一个TOKEN来输入,中文在大模型的输入上,自然它就有一个相当高效的切分方式,使得大模型需要处理的数据量,本身就下降。

而另一方面,中文又是一种意义非常压缩化的一种文字,就比如说咱们,随便甩出一个成语,四字成语,那后面都可以跟上几千字的背景介绍。也就是说,中文本身它就是语义文字的一个压缩包,通过一个压缩包的解析,其实大模型理解和生成效率,都会大大提高。如果我们再考虑到中文,有沉淀下来的,大量的纸质的历史文件可以学习,中文在训练方面的难题,也是迎刃而解。因此我们能看到DeepSeek,它由于有大量的中文,古文语料的支撑,再加上它切分的,就TOKEN的便利化条件,它的训练效率非常高,而且输出的质量非常之高。

反观欧洲,无论是法语还是德语,它们在TOKEN的切分上,都与英语是别无二致,都会相对的复杂。而单词,它有时候非常的冗长,而且有很多的语意之间,是没有任何关联的。比如说,英语的1月、2月、3月、4月,如果不说,大家根本不明白,它怎么会是跟月份相关的,它与中国的这种直接表义是不同的。再比如说,在世界上,绝大部分使用拉丁语系语言的国家,他们都不清楚,葡萄干是葡萄晒的干。原因很简单,葡萄干和葡萄,是两个,看上去完全没有任何关系的单词,因此在这样的语义勾勒下,包括了英语、法语、德语在内的拉丁语系,都出现了很大的问题。如果我们考虑到像类似于德语,有这种叠床架屋式构词法的一个单词,动辄就是十几个字母这么长,那它的表达效率就更低了。

因此,从这几个维度出发,似乎,中文确实是更适合于发展人工智能,发展大模型使用的语言。也确实,有西方的大模型开始,使用中文来进行大模型的训练,原因也很简单。节约资源,提高效率,未来我们是否会看到,在大模型领域的语言,呈现英语与中文两极分化,这是我们要观察,后面大模型发展的一个很有意思的点,而这也将成为中国的人工智能企业,我们的研究机构,我们能够跻身世界先进水平的一个,非常好的机会。毕竟他们再怎么学,不如咱们中国人懂中文。

0 阅读:293