从云栖通道三个案例,看通义千问开源大模型如何赋能AI应用

电科技 2024-09-21 15:30:45

自去年ChatGPT火爆以来,人工智能(AI)大模型迅速成为科技领域的热门话题。

然而,就像 5G 通信一样,技术跑在应用前边,让多数人觉得 AI 似乎也是“雷声大雨点小”。

很多人对于人工智能的认知只停留在手机语音助手、拍照一键消除路人的阶段。实际上,人工智能大模型的潜力远远不止于此。

9 月 19-21 日,2024 云栖大会在杭州西湖区云栖小镇举行,20 日,云栖通道如约开放,为广大 AI 产业从业者、创业者以及大模型开发者提供了一个交流平台。

与以往参加的很多技术交流会议不同,这次的云栖通道上的演讲没有飞溅的行业黑话,也没有讳莫如深的技术秘闻,反倒是格外地深入浅出,既有最新人工智能行业动态、开创性新产品的展示,也有行业大佬分享的深度思考,算是近年来少有的令人越听越兴奋的行业会议。

活动展示了许多令人惊叹的应用落地场景,充分展示了通义千问开源大模型对于 AI 各领域的赋能。

今天,我就与大家分享三个给我个人触动最多的人工智能应用场景,并附上一些我自己的思考,希望能够抛砖引玉,大家也可以把你们自己的看法写在评论区,一起讨论。

私有数据打通垂直领域:精准学AI助力教育创新

教育内卷始终是父母们无法回避的话题,孩子们面临着巨大的学习压力。教科书的难度不断增加,往往难以通过学校的课上时间完全掌握,因此,许多孩子在学校的学习时间之外,还需要参加家教或课外班来提高成绩。

这些传统的解决方案存在着诸多问题,如费用高昂、效果难以保证等。

作为两个学龄儿童的父亲,这真的是我每天都在面对的问题,因此精准学的“AI 家教”概念一出场就抓住了我的眼球。

过去所有的学习工具,包括尺子、橡皮、词典、电子书、学习机,都是自学型产品,而类似被授课、被指导、被答疑等被动学习的场景,过去是没有技术手段能做到的,必须要真人来完成。

精准学AI科学家张宁在云栖通道活动中展示了他们的超拟人一对一AI老师,这位AI老师不仅能像GPT一样讲解题目,更重要的是,它能够像一对一私人老师那样,有规划、有体系地对孩子进行学习辅导,并根据孩子的学习情况实时调整教学内容。

这给当下的教育难题提供了一个全新的思路——与其卷家长、卷老师、卷教培,不如卷 AI,这何尝不是“科技平权”理念的完美展示呢?

那么,为什么没人使用 ChatGPT 或者通义千问 API 来做这样的事?因为互联网上缺少类似教育、法律等垂直领域的数据和素材。这些素材大多处于行业垄断私有的状态,形成了垂直行业的数据壁垒。

例如精准学的知识图谱,就是来自其 2018 年成立的时候,超过 200 位老师做的数据标注,积累了大量关于教师和学生一对一授课过程的数据,而这些数据对于训练出适配教育场景的模型至关重要。

作为全球唯一中文领域开源,拥有从 0.5B 到 7B 所有尺寸基础模型的公司,通义毫无疑问是合作的最佳选择。

精准学的超拟人一对一AI老师是在通义千问的基础大模型上,利用私有数据训练出的教育垂直大模型——心流大模型。

通义千问为精准学的AI老师提供了强大的技术支持。通过在通义千问的基础上进行定制和调优,还为AI老师的语音识别与语音合成技术提供了优化,使得AI老师与学生的交互更加自然流畅。

与传统的教育方式相比,精准学的AI老师优势明显。

它能够为学生提供个性化的学习辅导,根据每个学生的学习特点和需求制定专属的学习计划,提高学习效率。

同时,AI老师永不疲倦,不需要休息,可以随时随地为学生服务,不受时间和空间的限制,为学生提供更加便捷的学习体验。

不难想象,未来 AI 老师可能会成为很多学生的“标配”,让老师和家长得到“解放”。

自然语言交互重塑汽车智舱:斑马智行打造元神AI

汽车智能化的步伐一日千里,座舱中的人机交互正在变得越来越“懂你”。

目前,汽车智舱中最常用的交互方式是Touch(触屏)和命令式语音,但这些方式存在着诸多问题。

毫无疑问,Touch在行驶过程中非常危险,因为驾驶员很难在同时操作触摸屏和关注道路情况;而命令式语音则被许多人调侃为“人工智障”,因为它往往无法准确理解用户意图,导致交互体验不佳。

只要开过近几年新推出的新能源智能汽车,你肯定知道我在说什么。

相比较过去传统汽车,现在开车时新增的交互包括驾驶模式更改、动能回收档位调节、辅助驾驶开关等等,很多功能都需要车机安装应用,然后藏在车机触控屏中的 N 级菜单下。

当然不是说如今手机、电脑的交互就不存在问题,只是涉及到人身安全的驾驶座舱,交互上的任何一点弊端都被无限放大了。

斑马智行联合通义发布的全新智能座舱 AI 技术品牌——元神 AI,就是要解决这些问题。

元神 AI 的核心建构是“1 + 3”技术体系,以AliOS和广泛的芯片生态为基础设施底座。

其中,“1”是自然交流,旨在实现人与车交互如同人与人交流一样自然。“3”包含感知场景(Echo AI)、组织服务(Eco AI)和认知成长(Evo AI),通过自然语言人机交互方式,取代传统的Touch和命令式语音交互。

这种交互方式大大降低了用户的学习成本,使用户能够更加自然、便捷地与汽车进行沟通。

例如,你可以通过简单的语言指令来控制汽车的各种功能,而无需在触摸屏上寻找复杂的菜单选项。此外,自然语言交互还能够更好地理解用户的意图,提供更加个性化的服务。

与阿里的通义大模型合作,斑马智行能够充分利用通义大模型的强大语言理解和生成能力,为元神AI提供更加智能的交互体验。

为什么自然语言交互如此重要?斑马智行也给出了答案。

斑马智行在汽车软件操作系统和AI领域深耕了十多年,已经服务了30多家车厂,累计量产出货700余万辆车。截至今年本月之前,又新增量产出货80余万辆,目前累计的斑马月活跃车辆数达到370万。

斑马智行首席产品官蔡明在演讲中分享了几组数据,移动互联网里的应用总数有200多万, DAU(日活)100万以上的应用也有600多个。但实际上每辆车上平均安装大概也只有十几款。

并且,在应用的使用频率上,车上跟全端相比只有1/3到1/5,而且对于全端的数据影响非常小。

这说明传统的Touch+命令式语音的使用是有问题的,用户不愿意在这样的交互方式下使用应用,所谓的智能座舱,也就无从谈起了。

这不禁引发我更多的思考,那些你我日常根本离不开的应用和功能,因为交互问题,却让我们因此避退三舍,不愿意在汽车上使用他们。那么,如果我们手机、PC 端的应用和功能,也能更换成为学习成本更低、操作更无感的自然语言交互,我们的日常生活又会发生哪些变化?

斑马智行志正在此。蔡明表示未来目标是 AI IN ALL,用一整个服务 Agent 来替代 AI 的生态,让每个用户都变成钢铁侠,拥有自己的“贾维斯”。

为机器注入灵魂:基于通义大模型的人形机器人

工业革命两百多年来,我们制造了许多机器,但这些机器还需要人脑来操控。

虽然我们已经能够制造惟妙惟肖的人型机器人,它们在关节灵活度、力量强度等方面可能比真人强大,但却没有自我思考大脑,无法像人类一样灵活地理解和响应各种指令,比如就连婴幼儿都会的站立行走,现在的机器人都实现得很勉强,以至于现在的机器人还需要固定起来,防止它们自己摔坏,就像是一具没有灵魂的躯壳。

人工智能,可能正是机器人所缺少的那个灵魂。

在云栖通道活动现场,个人开发者、知名技术博主张子豪展示了基于通义大模型的人形机器人。

这些机器人能够听懂复杂指令,完成唱跳RAP、搬运货物、踢足球等复杂动作,展现出了强大的智能和灵活性。

这一切听起来很简单,事实上也一点也不容易。

听懂复杂指令涉及到前文提到过的自然语言识别,而将语言转换为动作,进一步转换为每个伺服电机、每个机械关节能够识别的电信号,中间需要复杂的“翻译”工作。

过去,要让机器人看起来有多智能,就需要多少的人工。强如1999 年的索尼,也无法让电子狗 Aibo 看起来不那么“智障”。

但在人工智能时代,B 站 UP 主也能轻松手搓“有灵魂”的机器人。

张子豪的人形机器人是基于幻尔TonyPi人形机器人,通过开源AI推理框架OpenVINO,在笔记本电脑上本地部署端侧AI开源大模型通义千问Qwen2 - 7B – Instruct就能让机器人“聪明”起来。

张子豪在本地端侧设备上写好了提示词,给机器人规定了23种原子动作函数,让智能体能够自主选择接下来要调用哪些函数,根据人类的指令,把人类说的人话翻译成机器才能听懂的机话——JSON,这个JSON里面既有要执行的动作列表,也有AI要说的话。

其中动作列表的参数是由大模型生成,所以它具备非常强的通用泛化性,能够让机器人真正理解海量的先验知识。

张子豪表示,对于自己的 TonyPi机器人来说,使用本地部署开源大模型有八个理由,包括不需要联网、不用担心花钱买Token、不用担心隐私外泄等,让机器人设计和操作更加自主可控。

总而言之,本次云栖大会上,通义千问开源大模型在各个领域的应用展示了其强大的赋能能力。

它不仅为教育带来了创新的解决方案,减轻了家长和老师的负担,为学生提供了更加个性化的学习体验;还重塑了汽车智舱的交互方式,提高了驾驶的安全性和便捷性;更为机器人注入了灵魂,使其具备了更强的智能和灵活性。

相信在未来,通义千问开源大模型将继续发挥其优势,推动AI技术的落地应用,为我们的生活带来更多的便利和创新。

0 阅读:3