百度文小言官宣支持多模型调度，全面升级端到端语音大模型与图片问答能力

近日，百度旗下新搜索智能助手文小言宣布了一项重大更新，正式支持多模型调度，并全面升级了端到端语音大模型和图片问答能力。这一消息在2025年3月31日的新一期百度AI DAY上正式公布，引起了业界的广泛关注。

据百度官方介绍，文小言此次升级的核心亮点在于“多模型融合调度”。通过整合百度自研的文心X1、文心4.5等顶尖模型，并接入DeepSeek-R1、可灵等第三方优质模型，文小言实现了多模型间的智能协同。用户只需选择“自动模式”，即可一键调用最优模型组合，或根据需求灵活选择单一模型完成特定任务，这一功能的大幅提升了响应速度与任务处理能力。

除了多模型调度的支持，文小言还升级了全新的端到端语音大模型。这是百度在业界首个推出的基于全新互相关注意力（Cross-Attention）的端到端语音语言大模型。该模型不仅具备极低的训练和使用成本，还拥有极快的推理响应速度。在语音交互场景下，用户的等待时长从行业常见的3-5秒降低至1秒左右，极大提升了交互的流畅性。此外，该模型还支持重庆、广西、河南、广东、山东等特色方言，进一步拓宽了语音交互的应用场景。

在图片问答功能方面，文小言也进行了全面升级。用户可以通过拍摄或上传图片，以文字或语音提问直接获取深度解析。例如，拍摄一道数学题可实时生成解题思路与视频解析；上传多款商品图可对比参数、价格，辅助购物决策；拍摄杯子设计图后，AI可自动解析风格并生成同款手机壳、支架等周边产品。这一功能不仅为用户提供了更加便捷的信息获取方式，还进一步增强了AI的实用性和趣味性。

值得一提的是，文小言此次升级还新增了“图个冷知识”功能。用户可预设“历史学者”“科技达人”等人设视角，为同一图片赋予多维解读。这一功能不仅丰富了图片问答的应用场景，还为用户带来了更加多元、有趣的交互体验。

玩酷网

百度文小言官宣支持多模型调度，全面升级端到端语音大模型与图片问答能力

太平洋科技