随着科技的快速发展和各行各业需求的不断变化,传统的教育模式和方法已经渐渐无法跟上步伐。一方面,我们仍然需要通过公平公开公正的中考和高考来筛选人才,才能在国际竞争中立于不败之地,但另一方面,教育资源随地区经济差异所带来的不公平也是事实,所以,优质且公平的基础教育是未来改革的重点,想要人才在全国各地都落地开花,实现教育平权,教育型人工智能的出现或许就是点燃“星星之火”的希望。

01
教育类大模型涌现,厚积三年而薄发
早在2021年7月,教育部等六部门就发布了《推进教育新型基础设施建设构建高质量教育支撑体系的指导意见》,表示要完善智慧教学设施,“有条件的地方普及符合技术标准和学习需要的个人学习终端,支撑网络条件下个性化的教与学。支持建设满足教学和管理需求的视频交互系统,支撑居家学习和家校互动。”可以说为人工智能硬件后续的铺开打下了行政指导的基础。
而到了2023年7月,中国互联网协会智慧教育工作委员会发布的《个人消费类教育智能硬件发展报告(2023 年)》显示,预计2023年中国个人消费类教育智能硬件的市场规模为500 亿元人民币左右,从2019年至2026年,相关市场的预期复合年均增长率为15.14%,与手机、PC等其他智能消费终端市场挤牙膏一般的表现形成了鲜明对比,也从侧面印证了教育型硬件获得了行业和家长的高度认可。

原本就身处教培行业的企业,AI转型动作都很快
简单起底当下的教育大模型不难发现,2021年不仅发布了指导意见,也是“双减”政策落地的第一年,校外教培机构纷纷从线下课程转移到信息化赛道,也就催生了学而思、猿辅导等K12教育机构发力教育型硬件和线上资源,而在词典笔、手写板等语言领域深耕多年的网易、科大讯飞、汉王也乘着这股东风扶摇而上。
当时间来到2023年,人工智能刮起的浪潮让这些企业和机构在这几年的积累直接变成了人工智能训练的绝佳素材,比如网易推出的“子曰2.0”大模型就覆盖了全科答疑、口语训练、文档速读等各个领域,体现了人工智能大模型在自然语言处理上的优势。所以在2024年,教育人工智能大模型百花齐放就是必然。

教育型人工智能已经可以实现英语一对一教学功能
不过,人工智能大模型虽然可以在一定程度上激发教育硬件行业的活力,但这并不意味着所有教育硬件相关产业都能顺势而起,因为训练素材的趋同化也注定教育硬件的内容不会有特别大的差异,所以市场规模布局,理论上还是会落脚到具体产品形态上,比如在大多数家长心目中,词典笔因为不带屏不伤眼且价格更低,就会获得比学习平板更高的购买优先级。
02
市场蓝海初现,新鲜脸孔扎堆
既然是一个全新的赛道,那玩家必然不可能只有教育行业传统老兵,今年我们也会看到很多陌生,或者原本在其他领域的品牌跨界,比如在1月初昆明举办的AIAED智适应教育大模型学术研讨会上,国内科技创新型独角兽企业松鼠Ai就发布全球第一个“智适应”教育大模型,而阿里旗下主打智能搜索的夸克,也在1月中旬推出了“AI讲题助手”功能,它们的共性都是以沟通、理解、讲解为主要方式,熟悉对话型人工智能的读者朋友可能对这个过程并不陌生,只是训练素材从通用素材变成了教育素材,这就让它具备了很强的教育特化属性。

批改作文已经成为中文教育大模型的“基本功”
理想的人工智能模型就应该全程引导孩子,通过和孩子的对话以及对孩子功课的检查来检测知识结构的薄弱点,建立符合孩子当前学习需求的学习路径,可以针对不同的孩子制定不同的学习策略,回答针对性的问题,在一定程度上为家长和学生带来类似校外培训教师的1对1的专业教学服务,而其年化成本可能只有真人教师的十分之一。

美国的教育大模型助教Khanmigo以引导性文字对话为表现方式
事实上教育型人工智能大模型不只是在我国爆发,在以“快乐教育”为主的欧美也同样开始加快脚步,比如美国在线教育组织Khan Academy于2023年4月发布的基于GPT-4的教育大模型AI助教Khanmigo,就具有辅导教学、教案生成、写作训练、编程练习等功能,可以主动解释答题思路,并引导学生进行答题的思维训练,直至学生自己计算出正确答案。
此外还可以作为写作指导老师,根据人物特征、故事背景等具体细节,提示和建议学生以不同的切入点进行写作、辩论等,虽然不像国内这般卷,但也是实打实地在根据自身所处环境进行演化。
03
人工智能井喷,数字基建发挥关键作用
教育型人工智能的涌现和其他人工智能一样,既基于前些年线上教育素材提供的丰厚训练素材,也同样需要扎根强大的算力数字基建,它们的关系就像食材和炊具,两者缺一不可。
根据数据公司IDC与浪潮信息发布的《2023—2024年中国人工智能计算力发展评估报告》显示,2023年我国智能算力规模达414 EFLOPS(每秒百亿亿次浮点运算次数),预计到2027年我国智能算力规模有望突破1117 EFLOPS,智能算力规模年复合增长率将高达33.9%。算力基础建设成为新基建的重要内容之一,国家统筹建立的“东数西算”八大枢纽、国家超算中心就相当于高速公路的国道,各个地方建立的算力中心等则相当于省道,正因为国家做好了算力新基建,包括教育型人工智能大模型才有了腾飞的可能。

我国算力增速虽快,但仍供不应求
不过,受制于算力芯片,目前的算力依然处于供不应求的状态,企业算力成本压力不小,大模型前期训练成本很高,一次超过百万美元,这个费用不仅涵盖了模型的架构、算法和训练数据的选择,还包括了模型训练所需要的大量计算资源和时间成本。
而随着模型上线部署后使用量的增加,推理成本可能远超训练成本,尤其随着大语言模型不断升级迭代,参数量突破万亿、模型能力越来越强、用户使用量激增,推理成本也会呈几何式增长。
vivo副总裁、AI全球研究院院长周围就曾透露,目前手机调用云端大模型一次成本1.5分,三亿用户每天用十次,一年下来就是一百亿元左右。这也是目前教育类人工智能硬件价格普遍较高的原因之一,唯有算力供需开始平衡之后,成本才会逐渐趋向合理。

对于教育型人工智能大模型与教师、学生之间的关系,同济大学校长、教授郑庆华在接受央视网数智频道《观澜》栏目采访时表示“以ChatGPT为代表的大模型将改变人类获取知识的方法,过去是老师和学生的二元结构,今天,机器在很多领域比老师干得还好。
因此,未来的教学模式可能会拓展为老师、机器、学生三元结构。”那么这一天什么时候能到来呢?当下的教育型人工智能硬件又做到什么水准了呢?
04
多邻国
年轻人的“佛经”,无基础入门必备
专攻语言学习的科技企业,恐怕是教育界最早拥抱生成式AI的机构组织之一。
在主流教育界还没接受“AI不会消失”这一现实前,科技企业就已经在忙着把GPT接入产品中。去年3月中旬,OpenAI发布GPT-4,可汗学院、多邻国、Chegg等海外教育机构几乎同时推出由GPT-4驱动的学习辅助工具——与其说是“辅助工具”,不如说多邻国们正在创造一个既高效又准确,并且能让用户更主动地决定学习什么的“超级辅导员”。

其实在ChatGPT横空出世之前,教育企业也没少在AI上下功夫,当时的目标是让通用型课程更符合个性化的需要。比如自适应教育,也就是通过收集、分析学习者的学习进度、注意力动态信息等,结合相关教育知识,为学生调整授课难度和学习节奏,来达到所谓的“精准学习”;或者像曾经依靠算法推荐的“AI家教”,根据学生学习进度,推荐不同的、录制好的教学视频和解题方法,而无法针对视频和方法中的某些细节给出解答。
专注于语言学习的多邻国,原来就有自己的AI模型“Birdbrain”:通过收集用户学习信息,为其匹配更合适的新材料和练习题目,让用户在每天闯关式的学习中保持动力。融合了GPT-4之后,多邻国推出“Duolingo Max”订阅版本,多了两个值得关注的功能,一个是“角色扮演对话练习”(Roleplay),一个是“解释我的答案”(Explain My Answer)。

多邻国开发的多邻国英语测试(DET)就是由AI出题并由AI监考
多邻国联合创始人兼CEO路易斯·冯·安曾提到, 多邻国的自有AI模型“Birdbrain”和GPT-4并不矛盾,“GPT-4是一个多模态模型,它其实是从互联网上获取相关的数据来使它产出的内容更像自然对话的文本;Birdbrain则是基于多邻国用户的数据来优化教学内容和教学质量”。
05
GPT-4接入后,用户感知仍是基础教学为主
实际应用效果又是怎么样?到底谁比较适合使用新版的多邻国?先说我们使用后的结论:国内的多邻国依然是基础教学为主,用户想精通一门外语的最佳选择不一定是多邻国。
基于GPT-4的“角色扮演”功能,主要优势是可以与虚拟的母语者(native speaker)进行日常场景下的对话。比如在法国酒吧跟酒保讨价还价,对方甚至会有生气的表现;如果你表示自己将要去土耳其游玩,那么对话将会完全围绕土耳其展开……这种完全随机生成、“没有两个对话是完全相同”的对话练习,能让用户觉得真实有趣,而这正是生成式AI才能达到的效果,

AI可以解释用户的语法错误,直到用户真正明白
“解释我的答案”功能,不仅能分析用户日常单元学习中的错题,用户也能在和虚拟母语者对话中,随时要求AI解释语句中为何正确或为何错误等,直到你满意为止。值得注意的是,以上两个基于GPT-4的功能都包含文字和语音,也就是说用户既可以通过AI的回应和解释,学习和使用正确的语法、单词和句子结构,也可以提高口语能力,告别哑巴英语。
当然,有些家长也会担心多邻国AI功能会不会沦为作弊工具,这一点GPT-4的可操作性(steerability)保证了它在教育过程中的界限。OpenAI曾明确,只要API参数要求GPT-4扮演一个不能直接回答答案的英语老师,那么无论学生如何提问、怎么绕着发出特定指令,也没办法得到某些具体考试题目的答案。
另一方面这也决定了,多邻国max订阅版本只能够定位于“辅导”“陪练”,不可能跃升为更具主动性的“老师”。

多邻国Max版本只有小部分用户可用,且订阅价格较高
不过,想尝试AI对话、解释功能的国内用户可能还要再等一等,现在多国 max订阅版本仅支持用英语学习法语、西班牙语时使用,而且目前只上线了英国、美国等少数几个市场。国内用户可以尝试的只有Super订阅版本,角色扮演和解释答案这两个功能暂时还用不了,但是也会接触到由GPT生成的大量教学语句,和多样化的闯关题目。
不过需要注意的是,一般的语言学习过程,需要在掌握语法规则的基础上,扩大词汇量并进行大量的练习后,才能真正走进一门语言。而多邻国的每日学习任务是游戏化的,所有的知识点被分2—5分钟的小关卡,就算每天连续练习,也会在很长一段时间里徘徊在基础知识领域,距离真正的应用还很远。
06
星火语伴
有局限的陪练,应试元素多
国内用户或许更容易接触到的AI口语陪练,是在“星火语伴”上。“星火语伴”是科大讯飞去年年中推出的一款AI口语陪练App,用户可以根据自己的教育背景和学习目标选择不同的场景练习口语,也可以直接跟AI虚拟人物Catherine进行随机多轮对话。这个练习可以是语音对话形式,也可以直接跟AI虚拟人物打视频电话。

星火语伴可以选择语音或视频通话
和多邻国的想法类似,星火语伴也是基于科大讯飞自家的AI大模型“星火认知大模型”,保证了AI可以有一定逻辑地进行多轮对话,尽量做到不重复。

在设定场景中的对话AI表现尚可
但在实际应用中,还是能感觉对AI的随机对话局限性。尽管回应速度和ChatGPT不相上下,但我们随机反问的问题对方基本不会展开太多,一定会把话题再引回到设定的范围内。比如在聊某地的旅行时提到足球运动,如果反问对方喜不喜欢足球,AI虚拟人是不会就“足球”拓展,而是会将话题引回到“旅游”上。这一点会反复提醒用户:你并不是在跟真人对话。
星火语伴在上下文推理上还有提升的空间,但如果是在App提供的18种场景或300多个话题中选择,也就是在既定范围内练习,星火语伴或许是个值得考虑的选择。
在App内,用户每一次开口说话,系统都会给出发音分数评价和语法纠错,如果不熟练还可以把实时翻译功能打开。点开语法纠错,系统会给出用户语音中的语法错误点以及正确说法;点开发音分数可以听到自己的发音,也可以听到语法纠正后的标准发音。语法和语音纠错功能,应该是星火语伴目前最大的优势。

语法纠错和语音纠正功能比较实用
在最新版本中,星火语伴还加入了“模考”和“翻译助手”功能。在“模考”中,有同学、考官两种虚拟人形象,支持剑桥通用英语一二级(原KET)、大学英语四六级、雅思、托福的口试环节模拟考试,并在模考结束后进行智能评价反馈。
这些考试基本囊括了小学、大学再到出国需要的几类重要英语考试,对于有应试需求的用户来说可以当成辅助练习,比如剑桥通用英语,在口语模考后会给出综合评价、作答建议以及细节点评,可以作为参考。
07
结语:从质疑、排斥到接受
AI语言教学产品足以胜任“陪练”角色
国内用户如果近期没有考试需求,只是出于兴趣或保持语感的需要,那么多邻国免费版或super版本的课程安排和对话练习已经可以满足;如果有明确的考试需求,那么中国厂商推出的星火语伴或许更具有实用性。
总的来说,两者都在一定程度上将AI融入了课程中,重点解决语言学习中“开口难”的问题。但是通过一线英语教师和家长的评价我们也能看到其中的不足,比如对语法规则的浅尝辄止。

星火语伴虽然可以点出语法错误,但是并没有进一步的解释功能;多邻国max版本又太“佛系”、推广过慢,大部分用户还没办法使用GPT-4来详细解释自己的语法错误。AI语言教学产品的交互性、可靠性、准确性都还在完善中。