学清路“堂吉诃德”，凭什么挑战大模型的风车

用1000万美元能做一个革新Transformer架构的大模型吗？

文｜游勇徐鑫

编｜周路平

北京学清路的一个园区，里面有四只有名有姓的小猫，它们被养得乖巧温顺。这些猫的“日常工作”就是负责安慰彩云科技几十个焦虑的算法工程师。

焦虑的源头来自国内大模型赛道的内卷和不易，经历了一轮资本的催熟和热捧之后，大模型“六小虎”如今也是境况各异，有些在开拓海外市场，而有些在逐步放弃预训练模型，有些在想方设法进行商业化。

然而，这家只有猫、但还没有成虎的创业公司，却想着在没有超级算力的情况下，去挑战当下大模型公司用到的最核心的Transformer架构。这种压力和焦虑，或许只有他家的猫知道。

几天前，彩云科技正式发布了首个基于DCFormer架构的通用大模型云锦天章，除了具备其他模型的问答、数学、编程等基础能力，其特色是在虚构世界观的基础上，赋予小说人物编程、数学等基础能力，可以高速针对大量文字进行扩写、缩写，针对文章风格进行大容量更换。

距离ChatGPT发布快两年后，彩云科技突然发布通用大模型，让很多人感觉新鲜又费解：当大家都把目光放在如何落地和如何做AI应用，甚至有不少大模型创业公司放弃基础模型的研发时，为何还有创业公司从头开始来自研通用大模型？

一条区别于Transformer的大模型之路

2024年7月，彩云科技CEO袁行远和合伙人肖达被邀请去维也纳参加机器学习顶会ICML会议，台下乌央乌央坐满了AI从业者，他们对模型结构的研究得到了组委会的认可。

其实，第一次审稿，组委会给他们的论文评分是7.66，没有进入Top1%，无法上台演讲，后来袁行远和肖达重新做了一些实验，回复了很多问题，最后评分改为了7.77，他们收到了参会邮件，并且成为可能的受邀演讲者。之所以说是可能，因为组委会还邀请了其他人，如果别人接受了邀请，就意味着他不会有上台的机会。

但最终他们获得了登台的机会，也成为国内唯二受邀参加维也纳ICML 2024登台演讲的企业，另一家是华为。

为了台上的20分钟，彩云科技已经在Transformer架构上研究了6年，完成了从最早的NLP理论研究，到现在的模型实践。

而他们被邀请去演讲，是因为彩云科技提交的一篇名为《Improving Transformers with Dynamically Composable Multi-Head Attention》的论文，它从底层架构层面革新了谷歌在2017年发布的Transformer架构，并提出了一个新的架构DCFormer。

众所周知，当下的大模型浪潮起源于谷歌2017年发布的《Attention Is All You Need》论文，其中提出的Transformer架构成为后来席卷全球的一系列通用大模型如ChatGPT、Gemini的底层技术支撑。

当其他厂商都在基于Transformer架构训练大模型时，袁行远却决定走另外一条路，提出了一个新的模型架构DCFormer。它通过改进Transformer的注意力机制，相比Transformer性能提升1.7-2倍。彩云科技提到，在相同训练数据和算力下，用DCFormer改进后的69亿参数模型效果超过120亿参数模型。

云锦天章正是彩云科技基于DCFormer训练而成的一个7B量级的通用大模型。从理论推导到真正推出一个可被大众使用的通用模型，袁行远认为，这是逐渐去证明DCFormer是更有效率模型架构的一种方式。

目前，大众可以在彩云科技的官网web端免费体验云锦天章的产品。发布会现场，袁行远也演示了云锦天章的几大能力。比如，给它一个开头，在内容续写上，云锦天章大模型能给出一段有起承转合和明显情节的回复，相比GPT-4o，它的回答更有内容和情节。除了文本创作，这个通用模型还具有编程和数学等通用模型具备的能力。

不过，相比逻辑推理等能力，彩云科技和袁行远本人更愿意给这款大模型贴上“最懂小说创作”的标签，这与市面上各类大模型产品的主打方向形成差异。

赛道选择背后，袁行远有诸多考量。一方面他认为，从各类爆款作品频出能看到，大众对故事消费始终有强烈的需求。他本人也是《三体》迷，对故事创作能承载巨大想象空间兴致满满，“（创作让）人可以生活在不同的平行宇宙。我们可以生活在光速30万米每秒的宇宙，也可以生活在光速只有十米每秒的宇宙里，所以创作这件事可以一直做下去。”

同时，故事创作的能力，也被袁行远认为是当下主流AI应用主打的角色扮演和陪伴类场景里的核心能力，在这两个场景里遵循着相同的基础逻辑。

另外，这个赛道上，困扰大模型落地的幻觉问题并不会成为一个负面因素，脑洞大开甚至对创作而言是正向利好。加上彩云小梦此前作为在AI创作领域已有长期的积累，围绕着创意写作有大量语料数据上的独特优势。因此云锦天章也成为了当下非常独特的一款大模型产品。

在云锦天章发布后，彩云科技旗下AI RPG平台彩云小梦也升级到了基于DCFormer架构的V3.5版本。据彩云科技透露，在新模型架构之下，彩云小梦V3.5比上一个版本的整体流畅性和连贯性提升了20%，支持前文长度由2000字提升至10000字，故事背景设定最长长度高达10000字。

从Paper到App

云锦天章大模型的核心创新在于模型架构层面的优化。

2019年开始，彩云科技核心技术团队，在研究Transformer这颗人工智能行业里冉冉上升的新星时，做了一系列的实验，逐渐能理解这一架构里自注意力机制（Self-Attention）核心组件——QKV矩阵的运行链路。

QKV矩阵使模型能够捕捉序列中不同词元间的依赖关系，并且能够动态调整每个词元对其他词元的关注度，这也是Transformer架构能够有效处理序列数据的关键。

而此后海外大厂的一系列动作，比如Anthropic公司的博客文章以及谷歌研究团队公布的《Talking-Heads Attention》论文，验证了他们的一些设想。“对模型架构的研究是有意义的，弄清模型如何运转和工作，提升了大模型的可解释性，为模型底层架构的优化带来了空间。”袁行远说。

随着研究的持续推进，他们发现Transformer架构里的QKV矩阵里还存在一种优化的可能。具体来说，用可动态组合的多头注意力（DCMHA），替换Transformer核心组件多头注意力模块（MHA）。

比如，北京这个词，跟中国首都有关联，也跟城市有关联，这就是两组注意力关系。此前生成一个结果时，查找关系和变换是绑定的，存在计算上的浪费。替换之后，解除了MHA注意力头的查找选择回路和变换回路的固定绑定，让它们可以根据输入动态组合，就能提升模型的表达能力，提升模型效率。

这个思路是DCFormer在Transformer架构层进行创新的核心。它能叠加其他层面的模型提效工作，为大模型训练效率的提升提供了更多可能。比如，行业里今年流行MOE混合架构，就可以与DCFormer在注意力层的工作结合，在参数量不变的基础上进一步提升模型智能程度。

袁行远透露，DCFormer在架构层的革新，在更大模型上表现出的提速效果更为明显，目前他们也在训练一个14B的模型，预计能达到同等规模的大模型四倍左右的效能。未来他们预估基于底层架构优化，叠加上其他层面的效率提升努力，有机会以十分之一的参数规模与其他模型PK智能程度。

这种尝试，一方面打破‘国外做技术层，国内做应用层’的刻板印象，另外也给彩云科技这样的创业公司提供了新的可能性——用更小的成本，留在大模型牌桌上。

“现在如果我自称大模型公司，不给大家一个通用的玩意儿，大家始终会认为我们是一个套壳公司或者是做Transformer的。”袁行远很清楚，现在发布通用大模型，他必须先自己跑通整条链路，才有可能开辟Transformer之外的另一条路。“我们不卷GPU数量，我们卷模型结构优化。”

这条路注定非常孤独，好在这家公司的产品有个特点，除了基础功能，其他都是收费的，这也使得相比于之前的AI“四小龙”和大模型“六小虎”依赖资本的输血，彩云科技本身就有很强的造血能力。现在，彩云科技近亿元的收入里，有1/3来自于用户订阅，1/3来自于广告，1/3来自于API调用。

袁行远喜欢这样的创业路径，他提供一个服务，你愿意为这个服务付费，然后他通过技术努力提高这个服务，然后你就一直为这个服务付费。

这样的创业惯性也在彩云小梦这款产品上得以延续。相比于ChatGPT或者文心一言直接卖token，他更喜欢抽成模式。他提供由AI来辅助生成内容的平台，创作者在上面生产批量的网文，让用户来订阅，而他从中抽成，不用担心用户骂你，因为你并不生产内容。

在彩云科技自研大模型之前，彩云小梦大概有500万下载，但留存率不高，活跃用户已经下降到几十万的量级。他需要面临很多免费软件的竞争。他给彩云小梦定的生死线是100万DAU。他测算过，彩云小梦作为一个社区创业平台，百万DAU足以每年给他带来数亿元的收入，这些收入能让他持续进行大模型的研发。

目前，彩云科技旗下有三款产品：一是做分钟级天气预报的彩云天气，二是做中英翻译的彩云小译，最后一款是做网文生成的彩云小梦。随着通用大模型的发布，这些App的智能化能力将会得到提升。

“这个公司表面看起来是App公司，但实际上它是一个追寻智能是什么的公司。所以就尽最大可能的钱投入在追求智能是什么这上面，然后剩下的钱维持公司的运转。”袁行远说，做App只要能养活自己，养活团队就够了。

头铁的中二青年

在彩云科技决定推出通用大模型时，这只是一家不到百人的创业公司。

十来位记者挤在一个不到30平的下沉空间里，听他讲一个新模型架构的发布。现场没有任何特殊的布置，两三只猫在随意走动，而且整个过程还伴随着各种意外，比如电脑投屏连不上，PPT频繁出错。

但主讲人袁行远，一个小时前刚从上海出差回来，穿着运动鞋和内搭有褶皱的浅绿色衬衫，刘海贴着额头，站在逼仄的角落里，满怀热忱地讲述着他的星辰大海，讲述着他的技术路径会如何改变世界。

没有技巧，全是感情。

这一切都会让你看起来有些不真实，尤其是他要做的事情，需要昂贵的支出，而牌桌上都是估值数十亿的创业明星或者千亿美元的巨头，每一次的模型训练都要投入数以百万甚至千万美元的资金。

但这家公司又比绝大多数创业公司更加幸运，创业10年，有稳定的收入来源，每年近亿元的收入，融资到了B轮，投资人的名单里包括了快手创始人宿华，宽带资本的田溯宁和五源资本等。

袁行远一直觉得自己非常头铁。他和清华博士肖达用神经网络来做天气预报时，两个人就想着做一些看起来虚无缥缈的东西。在当时还不富裕的时候，他们就决定拿出相当一部分比例的钱去做人工智能的研究，包括后来的模型结构研究。

其实，这些底层的研究并不能直接带来商业上的收益。“如果是纯粹的商业关系，根本就不需要自研大模型，我们就不要做NLP的业务，全力以赴做天气，然后进行全球广告投放，这才是正事儿。而现在做那么多奇奇怪怪的事情。”袁行远说。

事实上，袁行远的做法并不是所有投资人都理解，尤其是新股东，“大部分人不相信作为一个中国初创公司能做出什么技术创新，所以你就去抄美国就完了。而且美国初创公司现在做得也不咋地，比如CharterAI谷歌也没要，很多团队也解散了。”

巨头们也在说，没有百亿美元，就不要来做大模型。他并没有被巨头们设置的门槛所吓退。“你不自己去做一下，始终是盲人摸象的感觉。”袁行远一直觉得自己非常头铁，“如果事情是这样的话，是不是个人创业者或者一个中等水平的创业者也能来玩这个游戏，那这世界会更加丰富多彩。”

他尝试的结果是，从数据到模型到模型架构到SFT到最后应用全链路，1000万美元搞定了，不需要100亿。彩云科技从2019年开始从底层模型架构进行突破，前后投入了数千万美元，在Transformer的千军万马之外，探索出另外一条模型架构优化的路。

其实，袁行远和肖达反复讨论过，要不要也学其他家拿Transformer训练一个大模型出来。当时ChatGPT火爆全球，紧接着被称为“大模型六小虎”的企业先后成立，拿到了大额融资。

这对袁行远产生了不小的刺激，“你在做这个时候，你发现又一个公司融资那么多。你真的会怀疑自己到底在干什么，为什么就这么头铁，一定要去做新一代的模型，这个就非常堂吉诃德。”

2019年，彩云科技就在做Transformer的模型结构研究。两年后，他推出了能够用AI进行文本创作的彩云小梦，文本创作在当时还是一个非常寂寞的赛道，很多人都以为他们的内容都是网上抄的。

直到2022年，彩云科技开始训练第一个模型，只有0.3B的参数量，智能度一般。

他后来也在反思，一是在2022年时，没有硬着头皮去训练更大参数量的模型，因为钱不够，只训练了一个1.3B的模型，很难看到模型的效果。二是模型还需要数据集进行SFT，而这个数据集要请人标注，这是一个门槛，彩云也没有下定决心做这个事。

“如果一开始不去追求角色扮演这些酷炫的功能，而是去追求模型的智能度，可能就能赢。”袁行远说，这两个门槛决定了他们没能做成ChatGPT。

但袁行远认为，云锦天章已经把训练通路打通了，再迭代两三个版本，能够达到GPT4o的水准。DCFormer证明了模型结构调优有前途，用更少的卡得到了相同的效果。“现在我还是很骄傲的，至少有结果，没有浪费。至于将来能不能挣钱，先不管，对人类文明肯定是有帮助的。”

他曾做过一个诙谐的比喻：“ChatGPT推出后，业界有三条路，我们称之为普文二路线。普通青年选择堆砌算力和数据，相信scaling law；文艺青年选择搭建Agent，检索增强、提示词工程等。这两条路都是把Transformer当作黑盒，不用了解具体原理。还有一条二B青年之路，就是打开黑盒，研究Transformer这个积木块内部结构。”

但中二青年的路，会让他莫名得到一些尊重，也会有投资人为他们的精神而感动，为这种可能性买单。他当年曾拿着PPT进行了100多次路演，一次都没有成功，成功的融资都是投资人主动找上门来的。

他很庆幸，通过对Transformer进行优化来自研模型这条路还是坚持下来了，虽然比ChatGPT晚了两年，也没有得到太多的鲜花和掌声，但他坚持认为这样做的意义，“我们不是说把原来的东西做了一个复制，然后去融了一笔钱。我们是真正做了一些对智能科学有认知、有提升的事情。”

他希望彩云小梦的小说创作能力，能在DCFormer架构的大模型推动下，做到一个中等网文作家的水准。而他也希望小说创作，能成为云锦天章大模型的一个记忆点，就像人们提起Kimi就会想起长文本这个标签一样。

“我有一个私心，有一天我用彩云小梦写一篇文章，能够拿到雨果奖。”袁行远说。

玩酷网

学清路“堂吉诃德”，凭什么挑战大模型的风车

数智前线