超声波俱乐部：AI应用大爆发前夜，场景、闭环与LLM进化

7月13日，第十九期超声波俱乐部内部分享会在北京望京举行，本期的主题是：AI应用大爆发前夜，场景、闭环与LLM进化。

到场的嘉宾有：超声波创始人杨子超，超声波联合创始人、和牛商业创始人刘思雨，豆神集团副总裁&CTO阎鹏，紫辉创投创始人&CEO郑刚，中国国际经济交流中心研究员、文化与旅游部中国建筑文化研究会理事徐曦，APUS AI实验室首席科学家张旭，APUS副总裁邓小波，天浩盛世总经理、风聆嘀咕创始人王一山，北京水木清氢新能源科技有限公司副总裁闫洋，上海非著名资深程序员兼AI爱好者靠谱的老马（马劲柏）、Startup Shares Web3.0全球首创去中心化数字资产&美元双币基金创始合伙人、香港宝源国际控股集团董事长张帆，节律科技创始人&CEO马波，MyTwins.ai合伙人周政，小叶子音乐科技合伙人&CTO夏雨，紫辉创投合伙人张执彪，紫辉创投合伙人罗文龙，伽利略资本舒鑫，资深公关专家何子萱，意动蔚来创始人陈磊等。

AI产品的底层逻辑

相比互联网及移动互联网时代，AI产品的底层逻辑是否改变了？杨子超认为，传统的产品逻辑是围绕人性，对场景和刚需做细分（聚焦），路径是通过人设计出产品，然后满足人的需求。AI产品逻辑，是用AI重构产品解决方案，路径变成了用AI去设计产品并满足人的需求。

AI是一种能力，而非人类本身。我们首先要明确AI的能力，这样才能让它更好服务我们的产品。AI之所以被大家关注是因为AI的能力一直在变强，因此我们无法评估AI的能力边界到底会到哪里。

现阶段把AI看成一个刚刚毕业的大学生就好，大学生能做什么，AI只会做得更好。AI设计产品有两个不同于人设计产品的点：

第一，简单粗暴直达目标。人因为能力的局限，所以解决问题时需要一步一步流程化地解决场景问题，而AI则没有人的那么多考虑，直接可以去除中间环节，直接生成目标。这也是为什么很多App可以重做一遍的原因，因为AI可以让很多不必要的流程简化、直达目标。

第二，自我不断优化。人类设计出来的产品，一般情况下如果我们不去修改产品，产品不会自我更新和修复。而在AI设计的产品当中，AI可以通过场景数据的分析来不断调整自身的产品设计不足和参数不足，这也是人设计的产品和AI设计的产品的最重要的区别，即AI产品可以自己进化，不断调整自己的不足，不断优化自己的算法。

很多AI创始人认为，因为存在前面所说的两点区别，所以AI产品的底层逻辑和传统的产品底层逻辑是不一样的。但在杨子超看来，虽然以GPU为核心的暴力计算让AI可以摆脱冯·诺伊曼的if else的情景遍历逻辑，但我们的世界目前还是以人为核心的世界，而不是以AI为核心的世界，最终很多场景依然是已知场景的优化。当然如果五到六年后，具身智能机器人普及，也许那时候大部分产品要遵循AI设计产品的这些逻辑。

目前来说，人依然是最终产品的使用者，所以依然遵循人性的底层逻辑，因此我们拆分出来人的食欲、性欲、精神（兴趣）、时间这几个维度。这里要说一下时间，因为人每天的时间是确定的，那么如何利用有限的时间做更有价值的事，是人的刚需，这也是为什么把时间维度单独拉出来作为人性的几个永恒不变的要素一起分析。

食欲是人最基本的欲望，数据的AI化在这里也是AI产品的基础。然后是性欲，这一点可以展现出交互的个性化，这也是AI最重要的一个特征：AI服务的数据颗粒度比移动互联网时代更加精细化。

再往下是精神层面的，也就是AI发展到更高一级，场景的多模态化数据处理、交互、分析和创造，都是在移动互联网时代不曾拥有的，都是全新的人的场景。

最后也是最重要的一点就是时间，如何通过AI来让产品的内容更专业，服务更高效，这也是永恒不变的主题，即如何提升效率的问题。人性是永恒不变的，只要这个世界依然是人类掌控，所以在子超看来，虽然AI在处理数据上更精细化，但依然遵守食欲、性欲、精神、时间的人性底层逻辑。

驶向深蓝，AI应用大爆发前夜的算法和数据工程

7月初，微软开源了一个新的基于知识图谱构建的检索增强生成（RAG)系统，GraphRAG。与传统的 RAG 方法相比，GraphRAG 极大增强了 LLM 在处理私有数据和复杂语义时的性能。作为一种革命性的AI技术方案，项目上线即爆火。阎鹏团队作为几个月前就开始业务实践的微软合作伙伴，做了本次业务落地分享。

“去年的这个时候，大家都说大模型无所不能。今年大家又在说，切口要小，要聚焦某个具体问题。面对任何新生事物都是如此，大家都会有一个从预期过高到慢慢收敛的过程。这个过程只能通过实践，痛苦是绕不过去的。”在《驶向深蓝，AI应用大爆发前夜的算法和数据工程》的主题下，阎鹏开始了他的分享。

从大模型应用的三大基础来看，去年让大家比较焦虑的算力紧缺的情况，今年已经得到了缓解，尤其对于不追求AGI的大模型应用来说。所以本次分享的重点在算法和数据层面。

显性的文本空间，我们称为显空间，即每个字的组合关系。隐空间，指的是词语背后的含义。比如这个词语在什么场景下会产生什么样的语义关联。尤其是中文，隐空间非常复杂。

语言学的专家认为，中文本质上不是一个工具性语言，而英语、法语这种拉丁语系的语言，歧义会特别少，每个词准确性都很高。所以在训练中文时遇到的最大问题，就是隐空间无法解开的问题。同时，还有古汉语、文言文，这种让人又爱又恨的存在。

举个例子，《桃花源记》结尾处的“南阳刘子骥，高尚士也”，这里的“高尚”在晋代是指住在高处、品德高洁、不跟别人来往的隐士。他们不参加朝廷的派遣活动、不给皇帝打工。但现在的大模型很容易搞错，因为它们训练的语料大多是现代汉语。

我们搞汉语言教学的，就经常遇到类似的隐空间问题，表层信息和里层信息相差很大，失之毫厘谬以千里，没有办法通过训练直接解决掉。

注意力机制产生的多样性能力还不错，但算法本身不适合处理长文本，因为它其实是反复在局部卷积对比这么一个玩法，一旦文本太长了，它的卷积量就指数变高了，指数变高后，一定会产生内存抛弃问题。

吴军博士曾说过，他理解的大模型是液体，而我们传统的已知业务是固体。举个例子，我们的课程一般是这样：一个课件、一个大纲、100堂课，然后12345排下来，每堂课里可能包括N个视频、N道练习题等，就像拼积木一样。

业务上、技术上、产品上、用户认知上，就得做成这样一个积木，因为好理解、好生产、好交付、成本低。拼积木其实是一种固体化的方案，并不符合真正的用户预期。用户真正想要的是下一堂课能不能基于我上一堂课掌握的情况，比如哪些知识点没掌握好、哪些知识点已经烂熟于心等，来定制化一节课，而不是给我一个预设好的组装模块。如果我们能通过大模型真正把这个问题解决掉，才能实现真正的因材施教。

大模型可以随机捏成各种形态，适应各种场景。你想让这个地方长一点、短一点、深一点、浅一点，都可以。它已经不是我们原来固体化的业务组装逻辑了，已经变成一个液体逻辑了。我们不要看到一个需求后，马上就想到一个方案，那个方案可能往往是我们习惯性的固体方案，而液体方案可能是我们以前没有见过的。

基于Workflow的编排，应该是目前最成熟、应用最多的。我们去年很早的时候就开始用了，但做着做着还是发现有问题，先不提效率和成本，液体化的业务和流程化的方案之间是有矛盾的。Workflow有着很强的限制和预设，这导致它变得比较生硬，抵消掉了很多大模型的优点。

于是我们后面大量的思考就变成了Function calling，举个例子是适时四驱，它有时候是四驱车的状态，有时候不是。有时候它是基于我们流程化的方案，有时候根据语义理解需要调起搜索，一个API组件，它根据当下的需求和prompt的运营调起一些功能。这就比单纯的Workflow好一些，变得更灵活。

但我们发现它比较适合做Agent，比较小的自给自足的智能体，不太好和外界做强沟通，成为大系统的一部分。优点和缺点都非常明显，所以它更适合做聊天机器人或者角色机器人这样的角色，比如客服。如果想做大规模的生产和推理，还是不太对味儿的。

我们遇到一个非常大的业务问题，中文阅读理解里有大量的写作和修辞手法，像比喻、拟人、夸张等。这个要怎么处理？我们一开始考虑的是分而治之，类似于MoE框架，把问题化繁为简，小范围解决问题。结果遇到一个悖论，比如“我的双腿像灌了铅一样沉重”这句话，它在结构上特别像比喻，但其实是夸张。

如果我的MoE框架的最开始那个Router理解错了，或者我这个特征抽样得比较一般，那可能就被分配到了一个比喻修辞的辨析里面。最终变成一个睁眼说瞎话的输出结果。MoE下面挂载的各种专家混淆性太大的时候，如果你分别错了就挂掉了。理论上来说，它们每个出来之后应该并行跑，跑完后再来个选举，然后排序，接着打分才行。

于是我们又加了一层反思和选举排序，速度更慢了。然后我们发现最上面的那个Router其实没有用，但完全砍掉的话，就变成了有多少个修辞，就要跑多少个并行，已知的修辞有100-120种，这事也行不通。所以不能完全砍掉，要有所取舍。

要把相关的、局部的领域都跑掉，非相关的东西全抛掉，这样这个架构就慢慢产生了。即把跟它紧密相关的那些可能性的都召回进行运算，并行完之后产生一个结果，然后选举排序。现在排序出来的结果就是一个综合了尽可能相关章节的运算推理的一个结果，这就是现在GraphRAG的一个方案。

这个过程里面的坑还是挺多的。第一个坑就是如何把文本中的实体和实体关系提取出来，这就是一个典型的知识图谱构造问题。传统的知识图谱构造是需要人工标注的，但我们用大模型做了一个实体提取工程，通过大模型的prompt 的一个工程流，把里面的实体和实体关系提出来，但是提不干净。因为大模型没有办法一次性地处理海量信息，所以最开始要分块、分文本、分章节，不仅分还要反思。

微软和我们一起做这个工程时，他们叫“gleanings”，它要质疑自己的提取结果，然后多次提取，换不同角度不同思路提取。一旦提取了东西，反思完之后再验证是不是提取出了新的实体来，还要奖励这个 feature 到一个新的 prompt 里面做并行运算，所以这个地方的编写会非常复杂，好处就是它最后会变成一大堆的一个单元型的实体跟实体关系。

到这为止，实体和实体关系直接变成一个网图也是OK的，但中间还要处理一下。我们不想把东西直接存到图网络结构数据库里面去，直接存进去的话，用的时候没法用。

所以在存之前，我们要做顶层到底层概要的抽取工作，相当于我们要给它做很多快照，全局的、局部的，一层层的，一直到叶子节点，都要做很多的summary，把这些summary都存下来。这个是以后去做向量化运算的时候大模型需要的东西。所以我们把所有的东西一堆堆切片，而这个切片的角度、视角还是比较多的。如何做切片的抽取，然后切片的去重也是一个工程。

这个架构的优点一个是用户每次请求的知识准确性特别高，因为它的大边界是整个知识图谱。第二个是全面性比较强，因为它把每一个相关社区基本上都跑过了，然后综合地进行打分。

缺点也非常明显，第一就是架构非常ugly，非常长，耗算的token也特别多。第二个缺点是方案的多样性非常低。相当于一个老专家在你面前快速翻一本书，不太可能做扩散性的创新。

所以综合优缺点来看，它是分场景的。在教育或者医疗场景里，会很好用，但在艺术创作等需要发散创新的领域，可能不一定好用。其实任何新出的架构，任何方案，都不一定适合所有业务的需求。

市面上可能有两种思维，一种是发挥知识图谱的优势，希望你在图谱中遍历。虽然能遍历出一个准确答案，但依然会出现大量以偏概全跟思维跳脱的问题。所以如果整个技术方案是在图谱中遍历的话，它是比较假的一个GraphRAG。我们实践完后比较好用的Graph方案，没有对Graph本身这个存储的依赖，只是借用了Graph这个思维的一些向量对象的方法，把里面的摘要算出来了。

数据问题也比较棘手。像Scaling Law这种规模法则，其实是跟传统的Rag方案配套的，大力出奇迹。但中文互联网的数据污染太严重了，特别是语文的推理，面临中文语义的多样性和信息折叠等天然问题，不太可能指望能通过海量数据堆砌出Rag方案来。

就我们自己的业务而言，数据不是越多越好。我们刚开始也搞了很多数据，前期该做的工作都做了，但效果很有限。我们现在是用比较少的数据，但通过比较合适的架构来解决问题。

大语言模型是有自己的能力边界的。大语言模型做了大量的合规化、去主张化、去倾向化的工作，只保留了基础能力，就像纯净水，没有污染。而我们的业务有自己的数据、主张、价值区间，也有信息折叠的方案、归并排序等打分的方案，这些东西都是糖浆和色素，最终二者结合产生一瓶饮料。就像PaaS和SaaS的组合关系，大模型团队思考的上限是PaaS层，我们的上限是SaaS层。

从技术上讲，memory是内存、是存储，但放在业务上，就不太对了。当我们以业务液态化的视角去看，会发现用户真正需要的是一个人，而不是AI。或者本身就不应该存在AI这个词，当“拟人”的手法足够好，用户分辨不出来对方是人还是非人的时候就成功了。这个时候，memory不是内存，而应该是记忆，这样我们的思路就会豁然开朗。

抛去技术视角，第一层思考：人类对于自己定义的、有名字的、有主张的、有行为逻辑的东西，很容易发生情感投射，会自动把它拟人化。

举个例子，之前我接触过一个航天项目，手册里明确要求在太空任务中，人的蛋白质来源是黄粉虫。主要原因是黄粉虫的蛋白质提取率比较高，同时还有一句话，大概意思是人类很难跟黄粉虫产生共情，人类吃它的时候不会产生心理负担。

我看到这个句子非常纳闷，于是就问了一个专家，专家说在太空中人很孤独，当你面对一个没有生命的很像人，或者有生命的能互动共情的生物的时候，你很容易产生情感投射，你会把它理解成一个人，尤其是当那个东西有一双大眼睛，或者能走路、能反馈的时候。

曾经有一次太空失火的事故，一个宇航员抱起一个扫地机器人就跑了，因为他觉得这是他的伙伴，不是机器人。之前在太空中养鸡是成功过的，但后面不允许了，因为宇航员可能给每个鸡起名字，起完名字后，就舍不得吃它了，甚至关心它超过关心自己的时候任务就出问题了。

回过头来看，你会发现其实大模型拟人化的时候没有那么难，因为人类的想象力非常丰富，一旦把对方拟人化，之后的业务开展就好办了。

第二层思考：人和非人的边界在哪里。最开始我的理解是价值观，但现在看来是memory。如何确定对方是人还是非人，不取决于它，而是取决于你，取决于你和它共同的记忆。其实外界所有的东西都是我们脑海里的投影，所以只要你的脑子里产生了共同记忆就够了。

比如有个神奇的法术，将你脑海里的今天抹除掉，那你就没有来过望京，也没有听过我的分享，所以我在你的心里是不存在的。反之你的脑海里被植入了一段虚幻的记忆，那么你也会跟别人分享得头头是道。《攻壳机动队》里也表达过类似的观点，记忆造就了一个人。

连幽默这门艺术也是如此，只取决于接收方。陈佩斯大师说过，幽默的本质是优越感，喜剧人通过一系列方法在受众心目中构造优越感。比如说我是个胖子，我经常跟人开玩笑，开胖子的玩笑，我以为我在自嘲，但是对方万一有一个胖子，甚至他曾经是个敏感的胖子，那么效果只会适得其反。而拟人比幽默简单多了。

第三层思考：我们如何大规模去构造共同记忆、如何唤醒共同记忆，如何通过记忆的方式让用户认可产品，而不是通过功能的方式认可产品？所以我们现在做的大量一对一的老师，实际上是带记忆的老师，他会反反复复勾起你的记忆：“我们之前是怎么学的？”“我刚才是怎么讲的？”背后有积极心理学、行为认知学，但核心抓手还是记忆。

所以我们的产品用户体验好的原因，不在交互手段，而在于记忆。让用户认可记忆中的自己，然后投射到产品上，他就会觉得产品特别好，这是拟人产品的最大优势。

AI赋能更多行业变革

马波博士已经在AI材料分子领域有过成功案例了，目前正在计划深入探索医药行业：“我们主要还是Deep Reinforcement Learning（深度强化学习），就是以前 AlphaGo 和 AlphaGo Zero的那一套方法。用两个词来总结这个方法的特点就是：左右互搏和迭代改进。AlphaGo读了人类所有的棋谱，到了AlphaGo Zero的时候，它可以自己和自己下棋，一夜下十万盘。这是最原始和最本质的学习方法，即trial and error，试错法。‘左右互搏’既可以下围棋，又可以平移到材料生成领域和制药领域的药物发现应用。”

周政深耕数字人领域多年，分享了他的行业观察：“数字人技术主要是视觉和声音两块。目前我们视觉这块是自己的算法，声音的话市面上有很多种选择，比如达摩院的、火山的等等，目前在中文语音克隆这块，国内AI技术已经非常成熟，而且成本低。原来我们需要在密闭环境下录二十到三十分钟，要求高点的，去录音棚录四个小时。但现在拿着手机、录一两分钟就行了。”

郑刚分享了自己对AI时代音乐教育的理解，他认为自己比较“离经叛道”：“音乐的本质应该是让大家开心愉悦的，但现在绝大多数的音乐教学过程是让人痛苦的。估计99.99%学钢琴的小孩，长大后不会把弹琴作为谋生手段。那么学音乐的目的是什么呢？根本上是为了激发人的想象力、创造力和对美的感知能力。在人工智能时代，我们应该重新思考我们习以为常的事情，包括学琴这件事，它不应该是机械的、痛苦的重复，比谁弹的音更准、谁模仿得更像是没有意义的。我们应该把自己释放出来，投入到更有价值的事情。”