面对这份“大礼”,美国却一点都高兴不起来,一个个面面相觑,尴尬得不行。
有个技术人员忍不住感慨:“这简直就是先天优势,妥妥的降维打击啊!”另一个也附和道
“怪不得人家DeepSeek大模型只用1/3的参数量就能把我们的GPT - 4给比下去。”大家沉默了好一会儿,突然有人灵魂发问:“这样的底层逻辑,我们还能跟吗?敢跟吗?” 要搞清楚让美国技术人员如此感慨的DeepSeek底层逻辑,咱得先聊聊硅谷科技公司里一个有趣的新职位——产品命名师。
这职位的诞生啊,和一款“可穿戴脑波监测设备”有关。
2014年,一家硅谷科技公司好不容易研发出这款产品,结果在取名的时候犯了难。
没办法,只能招来一堆创意人员,开了37次头脑风暴会,最后整出个“NeuroSync Wearable Cognitive Interface”这么个拗口的名字。
这名字,普通人念一遍得换三次气,还完全不知道啥意思,非得看详细的产品介绍才行。
再看看咱们深圳的同行,人家在立项会上直接一拍桌子,“智盔”俩字就搞定了,多简单明了,就是智能头盔的简称嘛。
从那以后,产品命名师在硅谷科技公司里就成了标配。
这背后,其实是英语科技词汇量每年以11%的速度疯狂膨胀。
现在的英语单词,已经超过百万了,普通人一辈子都记不完。
OpenAI的工程师就曾半开玩笑半抱怨地说:“训练GPT - 5最费时间的不是优化算法,而是教AI认识各种新冒出来的词,为了让AI搞懂这些词啥意思,工程师们得做海量的备注。” 为啥会这样呢?原因就在于英语单词之间没啥关联性,很难简化扩充。
就说车吧,自行车、小轿车、小货车、货车,在英语里分别是Bicycles,cars,van,trucks,都是车,可单词却完全不一样。
再看鸡这一家子,公鸡是cock,母鸡是hen,小鸡是chicken,从单词上根本看不出它们之间的关系,也分不清公母大小。
在这个科技飞速发展、信息爆炸的时代,新概念、新产品层出不穷,像元宇宙、区块链啥的。
英文为了跟上这信息量,只能不停地扩充词库,结果就搞出了超难学的专业英语。
再瞧瞧咱们中文,就简单多了。
基本不用发明新汉字,靠着原有的汉字组词就能表达各种新事物。
《大英字典》里上百万的英文词汇,咱中文四千个汉字就能全部拿下。
比如飞弹(missile),英文是新造的词,咱中文就是“会飞的巨型子弹”,组词就搞定;自慰器(Masturbator)也是,中文就是“会自己慰藉的小机器”。
你要说英文也能组词,确实能组,但组出来的词那叫一个长。
飞弹要是用英文组词,就成了“Flying - bullet”,自慰器则是“Self - comfort - equipment”。
这些还算好的,看看新冠疾病的英文缩写,全称是coronavirus infection disease,这第一个单词还是新造的呢,要是旧词,长度起码还得翻倍。
这么一对比,是不是感觉英语有点“笨笨”的,中文超厉害? 可谁能想到,曾经有那么一段时间,中文差点被废弃,还遭到了大家的口诛笔伐呢。
20世纪初,甲午战争,满清惨败,全世界都惊掉了下巴。
这么个泱泱大国,居然被弹丸之地给打败了。
于是,全球都在讨论一个问题:“中国为啥会落后?”美国学者约翰·杜威和英国的罗素研究后说,中国落后是因为人口太多,负担重,把努力都抵消了。
咱们中国的知识分子们也在分析,最后得出结论:中国失败是因为文盲太多,不利于新技术推广。
顺着这条线深挖下去,他们把阻碍中国进步的“罪魁祸首”指向了汉字,说汉字有“三多五难”的缺点:字数多、笔划多、读音多;难认、难读、难记、难写、难用。
在当时那种“病急乱投医”的救国浪潮里,这个观点很快就得到了大家的认同。
陈独秀、刘半农、瞿秋白、鲁迅、蔡元培等民国精英,都成了废除汉字、改用拉丁字母的坚定拥护者。
好在国民政府还算清醒,严厉查禁了拉丁化运动,结果文化界还把这事儿当成国民党“反革命”的罪证之一。
苏联和美国看到中国这废除汉字的“热闹”,出于扩大自身影响力的目的,也积极响应。
苏联公开号召:“采用罗马字也是民主主义革命的一部分。”朝鲜就废除了汉字。
中国这边也闹得厉害,要不是后来跟苏联关系闹僵了,说不定真就改成拉丁文了。
美国呢,对自己控制的韩国和日本也要求禁止汉字。
日本态度还算温和,半推半就。
韩国这边,总统朴正熙把废除汉字当成“投名状”,不仅成立了“汉字废止会”,还强行把国内所有的汉字招牌都给换了,不换就严惩。
很长一段时间里,韩国偌大个国家,只有3所大学开设中文系。
可有意思的是,朴正熙的长女,也就是后来的韩国总统朴槿惠,个人介绍里写着“精通汉语,喜欢中国哲学”。
汉字废除的争议在20世纪50年代到80年代消停了一阵,可到了90年代,随着互联网和个人电脑的普及,汉字又遭遇了一次“生存危机”。
电脑键盘是按拉丁字母设计的,汉字笔画多、同音字多,输入困难。
于是有人断言:“中国会因为汉字被互联网浪潮抛弃。”
所以在90年代初,废除汉字的呼声又达到了高潮,各大高校里汉字的必修课都改成选修课了。
2010年后,随着汉字输入法的智能匹配和习惯用语自动提示,汉字输入大大简化。
再加上中国国力蒸蒸日上,国民自豪感增强,全球掀起了汉字热,汉字终于在近代第一次“挺直了腰杆”。
不过在计算机技术上,西方早就用拉丁字母在编程领域建立起了坚固的护城河。
虽然咱们国人一直在努力让汉字电脑化,可汉字编程后不能直接用,得通过编码器转化成汇编语言。
而且在转化过程中,因为汉语太博大精深了,词义容易出现误差,比不上直接用英文字母输入准确,所以汉字在计算机编程里一直地位不高。
但现在AI时代来了,情况就不一样了。
这是一个不需要一个个敲字母的时代,汉字一下子成了“香饽饽”,不仅是沟通工具,还成了文明演化的超导体,一跃成为中国AI碾压西方的底层逻辑和关键密匙。
英语世界因为单词量的问题,在AI领域陷入了困境。
牛津词典每年得收纳4000多个新词,芯片内存都被海量字符给吞噬了,西方AI公司每年都得因为新单词扩充服务器。
反观中文,优势就太明显了,组几个词就搞定。
AI模型要是用英文,得掌握上百万个单词,用中文呢,几千个汉字就够了。
《新华字典》收录了13万词汇,可核心始终是3500个常用字,谁优谁劣,一目了然。
这种优劣在AI模型的自主思考和深度学习上体现得特别明显。
英语单词没法通过字面意思理解,AI深度学习的时候犯难,得人为干预,给每个单词做备注,这“博大”的英语反倒成了AI发展的阻碍。
中文就不一样了,因为“精深”,言简意赅,教会AI几千个单个字的意思,它就能自己理解词语的意思了。
所以GPT - 4的训练成本才会那么高,26个字母没法有效联动,需要大量的计算、检索运行……GPT - 4一次训练消耗的电量高达2.15亿度,相当于3个三峡水电站一天的发电量,这都是英语单词先天不足造成的。
西方技术人员研究发现,中文字的原理天生就适配神经网络分布式表征。
在中文机制里,每个字就像单个神经元,思考的时候能快速联动、自由组合,特别灵活。
GPT - 4模型的生成式团队破解DeepSeek后发现,DeepSeek模型的底层逻辑很大一部分就是AI技术的汉字化,人家就靠3500个汉字,实现了量子纠缠般的算力,让模型参数效率呈指数级提升。
经过比较,中文比英文能节省43%的神经认知资源,在增加27%算力的情况下,还能节省18%的能耗。
可以说,在AI模型运算上,中文排列组合一下就能对英文实现降维打击。