大语言模型的崛起,正在逼迫语言学界面对一个老问题:语言的“结构”是否就藏在词与词的排列之中?数学家Tai-Danae Bradley正试图用范畴论给出一个“是”的答案。
她不是传统语言学家,也不是AI工程师,而是一个深谙抽象代数、拓扑与范畴论的数学人。她的切入点非常规——不是统计语言模型,也不是语法生成树,而是语言的范畴结构:将词语、短语等语言单位视为范畴中的对象,词与词之间的条件概率关系视为态射(morphism)。
这听起来极端抽象。但抽象正是范畴论的武器。
范畴论的核心思想是把不同数学结构“抽象到同一模板”下审视,不看具体细节,只研究“结构的结构”。函数是集合之间的态射,线性映射是向量空间之间的态射,连续映射是拓扑空间之间的态射。换句话说,只要找到“什么对象”与“它们如何彼此作用”,就能建一个范畴。
Bradley做的,是把语言也塞进这个框架。

每一个词是一个对象,不同词之间的共现概率就是态射。态射不再是“是否存在”的判断,而是带数值的概率关系。这种范畴叫强化范畴,是带数标签的结构。比如,“cat”到“meow”的态射是0.84,而“cat”到“helicopter”的态射可能是0.003。
范畴论在这时派上用场,不只是为了建模,而是为了引入工具。只要把语言形式转化成范畴,几十年来数学家为其它领域开发的工具——functor、limit、colimit、natural transformation——就都能拿来用。
一个重要例子是函子(functor):它可以将一个范畴中的对象和态射“翻译”成另一个范畴中的对象和态射,且结构不变。这意味着,语言范畴可以被映射到另一个更“可计算”的范畴,比如向量空间。原本难以比较的语言单位,变成了可以直接比较维度的向量。结构保留,计算简化。
这个操作最早在拓扑学中被用来比较空间的“洞”,后来推广到各种数学对象。Bradley把这个机制套用到语言上,得到了一个惊人的发现:语言范畴在通过某些函子变换后,其结构复杂性可以对应到信息论中的熵。换句话说,某种语言的“范畴体积”能量化为一串信息熵表达式。
而这正好接上了语言建模的另一路线:统计语言学。这几十年,大语言模型正是靠词的共现频率构建概率图谱,从而完成对上下文的建模。但它们缺少结构解释。Bradley的方法用范畴论为这些共现频率提供了一个结构性语义基础。
这不是偶然。
语言的组合能力本身就像代数的乘法:“the big dog”是“the”与“big dog”的合成,“big dog”又是“big”与“dog”的合成。范畴论中一个最基本的结构就是合成性:态射可以复合,f∘g∘h形成新的路径。语言的“句子”正是态射复合后的产物。
更进一步,Bradley构造的范畴中,某些词组合后的概率分布,可以被视作新的态射产生。例如,“big”和“yellow”各自可以形成自己的范畴子结构,合并后,会得到一个聚焦于“big yellow things”的结构。而这个结构中,诸如“big yellow sun”出现频率高,“big yellow ruby”则极少。数学上,这对应的是某种限制态射集合上的卷积操作,这类操作范畴论早有定义。
语言中的组合能力,也就是“多词构念”,在此成为结构操作,不再是启发式地胡乱拼接,而是可以用态射演算来描述。更重要的是,这种结构组合能力正是LLM隐含的强项之一。
但LLM的运作细节仍是黑箱,transformer架构的注意力机制到底捕捉了什么,没人完全说得清。Bradley的研究提供了一个可能方向:LLM也许并非在“理解”语言,而是在对某种隐藏的范畴结构进行近似模拟。它们不是直接建模“意义”,而是在建模“结构的稳定复合”。
这与Chomsky学派从规则生成解释语言不同,也与Harris的分布式假说不同。这是第三条路:语言不是逻辑树也不是共现表,而是结构自指的系统,其自洽性来自范畴层级上的稳定映射。
这让一个语言学界争论几十年的问题再次复活:意义是否可以只从形式中推导? Bradley的工作隐含给出了“可以”的可能性:如果范畴结构可从共现概率中复建,并通过函子转化成有意义的空间结构(比如熵),那么语言的“组织能力”本身就包含了隐性语义,不需要外部世界模型辅助。
这也许会开启新的语言研究范式:从统计语言学跃迁到结构语言学2.0,不再从“语言如何使用”出发,而是从“语言如何复合”切入。语义,不再是解释的终点,而是结构自组织的副产物。
Bradley没有声称这是人脑工作的模型。她也不假设语言的深层结构必须对应神经结构。她只是指出,哪怕从纯粹的语言使用数据出发,某种“结构性构念”的能力就已经开始显现。而范畴论刚好为这种能力提供了一种可以普适、可比较、可运算的框架。
这不是简单的数学建模语言,也不是用AI工具生成语言。这是数学与语言的真正结合点:当语言本身成为数学对象,它暴露出的结构特征,或许比任何心理学、语料统计都更接近那条深层生成之路。