11月18日,第五届声博会暨2022科大讯飞全球1024开发者节在合肥奥体中心盛大开幕,科大讯飞董事长刘庆峰在发表题为《因为看见,所以坚信》演讲时表示,未来机器人会像水、电一样走进每个家庭,人工智能赋能机器人要解决4大核心问题。
一是多模感知,不仅是语音感知,还要有视觉、有眼神、有面部表情、有肢体语言、有环境的综合感知,包括味觉触觉等;二是要有深度理解和学习能力,可充分理解我们所面对的物体、人物和环境等;三是可多维表达,不仅能用语音读出来,还要有虚拟形象、背景画面等;四是运动智能,行动平稳,能够灵活避障,适应各种复杂地形。截止目前,科大讯飞在上述关键技术领域均取得重要突破。其中,在深度理解方面,知识推理技术再创里程碑,科大讯飞承建的认知智能全国重点实验室在科学常识推理挑战赛OpenBookQA上夺冠。。在多模感知方面,语音是人类最自然的沟通方式。语音的交互既包括了语音听写,将语音立刻变成文字。语音识别最难的是高噪音场合下的识别能力,借助将语音识别和嘴型识别多种模式识别相融合,科大讯飞在高噪音复杂场景的识别正确率位于头部全球,现在奔驰、宝马、法拉利等很多的国际汽车品牌都在跟讯飞进行合作。
在多维表达能力方面,刘庆峰表示,目前科大讯飞的语音合成已经实现从超过普通人发音水平到高表现力个性化。虚拟主播已广泛用于媒体传播,虚拟主播在主流媒体和各类场景中广泛使用。科大讯飞通过个性化真人捏脸系统,可以快速实现虚拟人生产。虚拟客服、虚拟医生、虚拟老师、虚拟员工,以及虚拟志愿者、虚拟偶像等,可以在虚拟现实中对人类产生更切实的帮助。今年,数字员工正在加速进入到人机协同新阶段,利用人工大脑,再结合IT工作流程的自动化,可以迅速完成人们在日常办公和生产中的财务、电子合同管理、招聘等方面的工作。最后是运动智能,目前,使用了讯飞AI算法的四足机器狗已经可以轻松应付各种复杂场景,在不同地形上行动自如。
有了运动能力加持,刘庆峰表示,未来人工智能赋能整个实体经济、赋能每个家庭将变得更加容易实现。让人工智能懂知识、善学习、能进化,让机器人走进每个家庭,是科大讯飞一直以来的愿望。为了这一愿望最终实现,科大讯飞于今年1月份正式启动“讯飞超脑2030计划”。按照规划,该计划共分三个重要节点:第一阶段是2022-2023年,科大讯飞将掌握仿生机器人本体技术、多模态感知及表达技术和主动对话技术,发布软硬一体化机器人可养成的宠物玩具以及专业虚拟人家族。第二阶段是2023-2025年,将专注多传感融合运动控制技术、多模态情感理解及持续学习技术和深度知识理解及运用技术,发布自适应行走的外骨骼机器人和陪伴虚拟人家族。第三阶段是2025-2030年,将攻坚复杂场景融合决策与柔性驱动、跨模态融合自主学习技术和常识推理及联想决策技术,发布懂知识会学习的陪伴机器人和能够自主学习的虚拟人。从目前的进展来看,科大讯飞正在朝这个目标稳步迈进。