2024云栖大会归来,阿里云从云到端揭示全新战略

科技看门道 2024-09-25 19:17:15

“其实机器人已经是一个非常成熟的行业,为什么最近一年这么火?因为大模型出现了,能够真正给机器人注入灵魂。”

9月20日,在2024杭州云栖大会展厅现场的“云栖通道”,知名技术博主“同济子豪兄”的现场演示让人脑洞大开。

知名技术博主张子豪

与展厅到处都是的钢铁感十足的人形机器人不同,张子豪演示的机器狗非常小巧灵活,灵气十足。“之前的机器人,不管它多么复杂,能打乒乓球也好,能搬东西也好,都是根据固定的指令去完成固定的动作,没法实现泛化性、多样性、通用性操作和对指令的理解。”张子豪解释说,而大模型的最大好处就是AGI通用人工智能的知识领域非常广泛。

举个例子 ,比如让机器狗得到一个全新的指令,把黄色香蕉叼到小猪佩奇照片那里。机器狗通过AGI天然就知道小猪佩奇是谁,而不必再通过模型训练认识小猪佩奇,而且还可以轻松理解自然语言的意思,完成一个之前从未完成过的动作。是不是很震撼?!

GenAI落地多模态

“人类输入模糊语音指令,智能体Agent就能自主思考,调用23种原子动作Function Call,编排生成依次执行的动作列表及函数参数。”张子豪把他的机器人平台解释得非常通俗易懂。

据了解,张子豪就是在轻薄笔记本上本地部署端侧AI开源大模型通义千问Qwen2-7B-Instruct,使用AI编程助手“通义灵码”辅助编程开发和文档撰写,基于Qwen2后台的开源AI推理框架OpenVINO,完成了开发。据悉,通义千问Qwen2模型全球累计下载量超过4000万,全球衍生模型数量高达5万!今年的云栖大会上,通义千问升级到Qwen2.5,其姊妹模型通义万相视觉生成模型也全面升级为Diffusion Transformer框架,同时结合通义千问复杂提示词解释能力,在提升画面表现力、语义理解能力、可控生成能力,其文生视频、图生视频功能等方面,更贴近真实世界的画面表现力。

所谓多模态,可以理解为涵盖语言、图像、音频、视频等各种模态的AGI。换句话说,如今借助多模态大模型,机器人天生就具备理解常识性知识的能力,人们可以跟机器人完全自然语言交互,说任意的指令它都可以理解。于是,泛化性能已经成为当前机器人发展的新方向。

值得一提的是,张子豪提到的“通义灵码”,甚至可以让不懂代码的人,也能轻松开发应用。实际上,新升级的“通义灵码”从以前只能完成基础的辅助编程任务,进化到用自然语音就能完成需求理解、任务拆解、代码编写、修改BUG、测试等开发任务,最快几分钟可从0到1完成应用开发,提升数十倍开发效率,形成多模态能力。

如今,“通义灵码”已经进入Gartner首个AI代码助手魔力象限,成为唯一进入挑战者象限的国内科技公司,与GitHub Copilot、CodeGeeX、Bito、Amazon CodeWhisperer等同台竞技。

换句话说,有了多模态,用户体验变得更符合真实世界,机器人也被赋予了大脑和灵魂。人们可以通过简单的自然语音指令,在“通义灵码”的辅助下,指令会自动转换为机器人程序里的编码,这样机器人就跟真人一样作出回馈反应,而不再拘泥于搬箱子或倒咖啡这类功能性机械臂了。

全尺寸覆盖

其实除了“机器人”的多模态,无论是“自动驾驶”还是“智慧课堂”,都在推行多模态AGI。因为我们知道,今天的“特斯拉”、“小鹏”等已经开始将大屏的触摸体验,逐渐转化到全场景语音交互的操控上。

“为了做到更好的情绪识别,我们还在通义千问开源大模型上重新训练了语音-语音端到端的大模型,不经过语音-文字的互转,这将成为未来我们的主要模型。”精准学AI科学家张宁解释说,超拟人一对一AI老师也被赋予了大脑和灵魂,可以个性化地辅导学生,因材施教了。

值得一提的是,为了方便企业和开发者以低成本的方式用上大模型,通义千问如今也尝试提供满足不同类型开发者和企业用户的需求,比如Qwen2.5如今形成了Qwen-VL、Qwen-Math、Qwen-Coder、Qwen-Plus、Qwen-Max、Qwen-Turbo等模型阵列,而且Qwen2.5开源了7个尺寸,0.5B、1.5B、3B、7B、14B、32B、72B,满足不同场景的需求。

阿里云CTO周靖人举了个例子,3B是适配手机等端侧设备的黄金尺寸;32B可在性能和功耗之间获得最佳平衡,整体表现超越了Qwen2-72B;而旗舰模型Qwen2.5-72B性能超越Llama 405B,Qwen-Max表现接近GPT-4o,数学能力、代码能力则超越了GPT-4o。

阿里云CTO周靖人

实际上,多模进化的不仅仅是大模型,更考验底层的数据库。阿里云副总裁、数据库产品事业部负责人李飞飞在主题演讲中宣布阿里云瑶池数据库发布首个一站式多模数据管理平台DMS:OneMeta+OneOps。该平台由Data+AI驱动,兼容40余种数据源,实现跨云数据库、数据仓库、数据湖的统一数据治理,帮助用户敏捷、高效地提取并分析元数据,业务决策效率可提升10倍。

为此,云原生数据库PolarDB今年首次提出基于“三层解耦, 全面池化”(存储、内存、计算)、AlwaysOn架构的多主多写和秒级Serverless能力,解决了多主架构中冲突处理和数据融合、以及Serverless秒级弹性租户隔离的难题。在高并发场景下,PolarDB性能为业界同类数据库3倍。

从云到端揭示全新战略

有了阿里云强大的弹性计算产品家族、云数据库产品家族、通义大模型产品家族,我们大致上已经能够理解为什么今年的云栖大会展厅里会以机器人和各种汽车的“自动驾驶”为主角了。因为这里的“人”和“车”代表了端,代表了阿里云的未来核心客户在哪里。

“有人说未来会‘ALL IN大模型’,我反过来希望是‘AI IN ALL’。”斑马智行首席产品官蔡明几乎说出了所有人的梦想,就是希望在整个座舱的每一个环节,AI都能更好地提升用户体验。据蔡明介绍,未来斑马智行会推出全自研自然语言交互方案,来代替Touch交互,并联合生态伙伴一起推动智能座舱应用AI化。

另一个层面,阿里云也在推动基于阿里云无影技术开发的云电脑的普及推广,甚至在今年年初将无影从产品的定位和组织的架构做了全新的升级,成为战略意义上的产品体系。

什么概念?结合斑马智行所说的推动智舱生活服务应用AI化,那么未来汽车屏幕的联网就成为每个人关心的问题,因为现状是乘客只能用手机联网看大片打游戏,跟电视大屏的体验还是有差别,特别是还有“黑神话·悟空”这样的游戏在手机上无法体验,而云电脑却能够解决这一问题。

“未来的5到10年大家会发现品牌电脑厂商可能就会变成各种终端的代工厂。”阿里云智能集团无影事业部总裁张献涛博士语出惊人,其实核心特征就是显示屏里边有个芯片,接上云可以使用24小时,它可以是大屏,也可以是眼镜,基于阿里云的无影技术,就可以把云和AI的强大能力赋能到眼镜上面来。

阿里云智能集团无影事业部总裁张献涛博士

“云电脑和虚拟桌面VDI、云桌面不同,云电脑可以随时随地去升级性能或降低性能,想挂哪档挂哪档,并且随档更换计费费用。”张献涛解释说,“我们其实是把无影当做一个未来的终端平台来打造,不仅仅是电脑的替代,伙伴也可以在无影平台上基于云电脑构建自己的智能体,进行二次创新。”

更重要的是,过去几年无影团队和达摩院及阿里内部其他团队一起,打造了ASP网络协议2.0,真正实现大数据和高清视频的超低延时。

而现阶段,无影的需求更多来自于对数据安全更敏感的研发生产型企业和欠发达地区的教育系统,对原有的VDI都会是非常好的替代,因为VDI后台的几台服务器本质上没办法做好分布式存储,而云上则天然是分布式存储,可以有效解决了安全备份和系统稳定问题,再加上全新的超低延时网络技术和随时换挡性能和计费便利,优势非常明显。

更值得一提的是,在阿里云无影云电脑与“黑神话·悟空”合作之后,很多游戏公司都来找到无影,甚至Office、Adobe等企业软件巨头也在启动合作,因为云电脑天然杜绝了盗版,采用一个低廉的随需而用的使用价格,可以很好地拓展新的业务模式。

由此,2024云栖大会现场带给我们的,是一个充满想象力的云端未来。这就应了阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭在主题演讲时所说的“AI未来接管数字世界,改变物理世界”的话,不是吗?

文/余文

《科技看门道》坚持深度报道,希望能通过资深媒体人对IT产业热点新闻的深入思考,挖掘其背后的商业逻辑和创新模式——不仅看热闹,更要看门道!

《科技看门道》主笔在行业渠道媒体拥有20余年的从业经历,不仅对IT消费类和企业级软件、硬件、云计算、大数据、人工智能、区块链均有较深入的理解,同时见证了中国IT产业链上下游合作生态圈包括分销、零售、SI、ISV和CSV的进化历程,见证了金融、能源、制造、医疗、教育、政府、零售、高科技等行业的信息化和数字化转型之路。

《科技看门道》相信,IT产业在供给侧的改革——包括云计算、大数据、移动互联、人工智能、区块链等,将会成为推动各行各业“新质生产力”发展进步的核心力量。

2 阅读:15

科技看门道

简介:挖掘商业逻辑和创新模式——不仅看热闹,更要看门道!