2024年7月27日,第三届超声波俱乐部AI Open Day“2024垂直引爆:AI教育引领AI应用大爆发”在北京360总部成功举办。本次峰会聚焦AI教育领域,二百余名教育与AI领域的创始人,投资人,知名教育集团的创始人、CTO、AI负责人等现场出席。
豆神集团副总裁、CTO阎鹏进行了一场精彩的分享,以下为阎鹏的分享整理:
主题:重新认识AI教育中“人”的价值
嘉宾:阎鹏 豆神集团副总裁、CTO
在大语言模型刚出来的时候,我就跟团队预言:有可能真正打败我们的,或者给我们带来足够威胁的,不一定是现在的教育公司,很有可能是一个完全没有教育背景的公司。
那么既然是“前浪”了,就要脸皮厚一点,尽可能多学习、多实践。作为“一名人工智能领域的小学生和教育领域的前浪”,我跟大家汇报一下我们的经验和踩过的坑。
28 岁的史蒂夫・乔布斯1983 年在阿斯彭国际设计会议上的演讲中抛出了一个问题:计算机的Magic是怎么产生的?乔布斯举了个例子,假设我跟大家变个魔术,那么我的流程是先走下台,跑到外面买一束花,再擦擦汗走上台,打个响指,把一束花从背后拿了出来。你们会说这太不优雅了。
但是如果我的速度足够快,快到你根本看不到,你只看到我打了个响指,拿出了花,你会惊叹:这就是Magic。计算机的Magic就是如此。
世间所有的Magic并不是你看到的结构、流程、设计、硬件、软件这些东西,这些都是工科生拆解世界的工具。Magic本质只有速度和效率,当速度足够快的时候,就会产生Magic;当你理解不了的时候,就会产生Magic。
去年我们看大模型的时候也是如此,觉得这是Magic,它怎么有这么强的语言输出能力?强到我们不可理解、不可掌控。但经过一年多的实践我明白了,这和乔布斯当年解释计算机原理的时候一模一样,本质上是一个速度问题。
在有限的时间内做足够复杂的事情,然后压缩呈现在用户面前,用户无法理解发生了什么。当眼前发生的一切超出了用户的认知和以往的体验的时候,就是Magic,也是商业价值所在。这也是我们的业务逻辑。
现阶段来看,首先我认为AI应用的差距和机会大于基础模型的差距和机会;基础模型的差距和机会大于基础算力的差距和机会。我们之前担心的算力被“卡脖子”、基础模型不够好等问题,和业务实践比起来,根本不算什么大问题。
现状是我们的AI应用并没有做得那么强,我们并没有充分利用好基础的大模型。这也是我们最大的机会,这个机会远远大于基础大模型和算力的机会。
其次,技术生产力在多大程度上被有效转化成了业务生产力,才是我们应该关注的事情。技术生产力包括大模型的生产速度、生产效率、准确性等因素。在教育领域,家长和学生作为用户,他们关心的并不是底层的技术,而是交付的课程、习题和批改服务,这些才是业务生产力,也是AI应用破局的核心点。
孔乙己-窦老师,超声波,3分钟
现场展示音频
从图片上的文字内容,到音频的声音,都由大模型生成,没有任何人工校对和修改。团队最开始做的版本,文稿内容有很多bug,用词非常机械和枯燥,声音也总有一股机器味儿。
现在的版本我们都比较满意了,效果也被很多人表扬过。重点在于我们要给用户呈现的是一个没有AI味儿的产品。
今天揭秘这个是怎么做出来的。第一个点是用了GraphRAG,我们从3月份就开始研究这个技术了,直到今年上半年微软团队找到我们说,你们的业务实践和我们写的论文特别像,要不要署名?我才知道这个技术被命名为GraphRAG。
最难的点在于知识图谱,每个点都是实体节点,花了我们大概8个月的时间搭建,是个苦差事。但如果没有大模型的话,可能需要20年。我们把不管小学中学还是大学的,大家能接触到的文史知识、语文常识等都进行了知识图谱的萃取、加工、反思,最后做成了一个目前国内最大的语文知识图谱。
怎么解决大模型的幻觉问题?可能在通往AGI的过程中,可以通过大量优质数据的训练来解决。但2024年怎么用到业务里,是我最焦虑的问题。所以今年我们用的方案是自己实践的结果,用一个巨大的知识图谱,将所有内容生产的原材料,包括给用户解析的原理都进行了封装和边界化,边界在一个图谱内,解决了信息准确性问题。虽然ugly,但是useful。
我们用图谱的模型化方案,做了很多的global search。右侧这张图是global search response,是我们做的数据摘要。我们根据知识的query进行了一次模型的推理和总结,把知识图谱里的东西变成了大模型能推理的文本。像这个摘要,我们的库里有几百万个。没有这个的话,就没办法解决大模型如何像老师一样输出内容的问题。
第二个问题来了,有了GraphRAG就好使了吗?也不行,它是一个大模型数据萃取和数据摘要生成的架构,除了这个架构外,还要做课程内容的生成系统。截止到这周,我们的课程内容生成系统正好开发到了第5代。
每一次迭代,都在让一群产品经理和研发学习如何当老师,如何营造课堂气氛,如何引发学生兴趣,如何让学生有互动感,保持注意力,如何将话题自然衔接到下一个重点等。这是师训,也是一个模型化和系统化的过程。
老师们都很惊讶,说你们这个东西是怎么搞出来的?是拿我们的数据做训练的吗?我说,这个东西是我们磨出来的,硬是把产品和技术人员都变成了老师才磨出来的。
解决了文字输出的问题,接下来是声音。市面上有不少团队开源了很多超拟真语音合成模型,我们发现这些demo虽然都很真实,但实际用的效果并不好。因为demo的时候是实验室环境,他们的case和训练基本上匹配过拟合的,我们的实际业务不可能这么做。如果想让人听不出来声音里的机器味儿,就得需要大量的参数训练和模型训练的过程,也是相当麻烦的过程。
,时长05:02
现场展示视频
这个demo是线上版本,所有的推理、语音合成和互动都是实时在线进行的。里面还有一个东西没有在demo里展示出来,就是学情数据这些记忆,学生回答的前后文、错题解析知识点的问题,也会做成一个小的graph放在学生客户端的账户里。
老师的推理是实时生成的,但也会照顾到学生的盲区、易错点,在讲解过程中全照顾进去,这也是GraphRAG的好处,可以图谱化地非常照顾真人的情绪和信息的状态来生产实时的交互状态。
我们跟微软已经达成了应用创新的最佳实践方案,最迟9月份会在微软的云上开放豆神版的GraphRAG一些插件和套件,到时候大家可以在微软功能云上通过实地安装的方式使用和体验。
,时长01:47
现场展示视频
这是一位国外的老师在支教过程中,用GPT-4生成了每个学生未来几十年之后、根据自己描述的梦想的照片。每个孩子看完之后都特别激动,眼神中充满了喜悦。
作为一名80后,我的感触很深。小时候老师也会问我们这个问题,长大后想干什么。但当你把自己稚嫩的梦想说出来之后,老师的表现很平静,最多说句“好吧加油”。当时看这个视频的时候我就想,当时我怎么没有遇到这么一位老师,这位老师尊重每个孩子的梦想,甚至会给你描绘一个梦想中的未来。
回顾这一年多的大模型产品研发过程,我们的目标很简单也很难,就是让用户感觉不到你在用大模型。我们的目标是把大模型藏起来,把科技藏起来。
我跟UI同学、产品同学传达的也是这个意思,尽量不要出现穿着赛博朋克风的小孩形象在界面。教育是门人学,不是物学。现在我们的业绩很好,从投资人角度来看,确实是AI的业务卖得很好。但实际上我们知道,用户不会为AI买单,他们只会为体验很好、效果很好的教育产品来买单。
三个月前,我们的产品后台经常有人问:你们用的什么模型,这个模型解决的是什么问题。但现在没有人问了,大家都在回归教育真正的问题,比如老师的下一堂课什么时候在日历里显示出来,这堂课的知识点有没有在线答疑。看到这些反馈,我很开心,我觉得我们做到了把高科技藏起来,真正把大模型用在了教育上。
回归一下去年年初的时候,我做豆神AI的初衷:
我们相信我们能带领青少年找到更好的他,成为更好的他,我们相信有教无类,因材施教。
我们相信“人改变世界”的力量,我们尊重规则,我们也打破规则。
我们相信教育,育人为先,教研并举。
我们相信少年强则国强,我们相信教育是一道光,是一颗星点亮另一颗星,是引领这个历经磨难与荣誉的民族驶向深蓝,是大海,是星空。
是百年屈辱无人忘,是往圣绝学有传承。
其实做AI教育的同学都知道,其中的痛苦一万字是写不完的。包括很多重要的抉择,去年年底的时候很多同学跟我说,我们要不要做一个兜底方案,做个视频兜底、做个录播课兜底。我说不行,当从录播课跳到AI画面的一瞬间用户就出戏了,知道你在敷衍我。这个难受的感觉比单纯的录播课还难受,我们一定要坚持下去,坚持做原生的、基于AI的全流程的教学产品。
摸爬滚打好几个月,很多时候团队还要加班通宵,包括很多快四十岁的同学。他们问我,这么熬有尽头吗?我说尽头不敢保障,但我觉得我们做的是对的。我们能坚持这么长时间的信念,就是相信一定能做出一个真正解决孩子教育的产品。什么是好的AI教育产品?当时我们的产品同学写了这么一段话:
育人为先,教研并举。把孩子当人,把孩子的父母当人。
人自有改变命运和改变世界的权利。
尊重孩子,让孩子见世界,见众生,见自己。
带领孩子体验世界,体验情感,获得历练,获得品质。
从中找到一生要追求的目标和理想。
这也是我们产品同学今年的OKR,他说:现在的产品虽然还可以,但离最终的目标还很远。教育是教+育,我们现在的产品把技术藏了起来,让大家感觉它是一个教育产品,但它还是“教”,离“育”还有距离。育是要引导灵魂的,是要引导善念的,这是我们努力的方向。
听完他说的话,我很欣慰。按照这个目标来做,可能年底或者明年,我们能做出更好的AI产品来。那时候可能大家看到这个产品更不像AI了,但我觉得离教育更近了。谢谢大家!
阎鹏
豆神集团副总裁、CTO
峰会现场
超声波俱乐部目前拥有超过300位AI领域的顶级创业者,连接超过2000位AI领域的创始人、CTO、产品经理、风险投资人。
超声波俱乐部定期组织成员开展内部分享会,也会举办不定期的开放交流活动,分享内容涵盖AI行业趋势、技术创新、产品及商业等方向。