阿里开源视觉理解模型Qwen3-VL Agent和空间感知能力大幅增强

上证报中国证券网讯（记者杨翔菲）在9月24日举行的2025云栖大会上，阿里开源新一代视觉理解模型Qwen3-VL。该模型在视觉感知和多模态推理方面实现重大突破，在32项核心能力测评中超过Gemini2.5-Pro和GPT-5。同时，Qwen3-VL大幅提升了视觉Agent、视觉编程和空间感知等关键能力，不但可调用抠图、搜索等工具完成“带图推理”，也可以凭借一张设计草图或一段小游戏视频直接“视觉编程”，所见即所得地复刻图表、网页和复杂程序。

Qwen3-VL可支持扩展百万tokens上下文，视频理解时长扩展到2小时以上。这意味着，无论是几百页的技术文档、整本教材，还是长达数小时的会议录像或教学视频，都能完整输入、全程记忆、精准检索。Qwen3-VL还能根据时间戳精确定位“什么时候发生了什么”，比如“第15分钟穿红衣服的人做了什么”“球从哪个方向飞入画面”等，都能准确回答。

据了解，千问视觉理解模型已实现广泛落地，比如国家天文台联合阿里云发布的全球首个太阳大模型“金乌”，正是基于Qwen-VL等模型以超过90万张太阳卫星图像为样本完成微调训练。未来，Qwen3-VL模型还将开源更多尺寸版本。即日起，用户可在通义千问QwenChat上免费体验Qwen3-VL，也可通过阿里云百炼平台调用API服务。

玩酷网

阿里开源视觉理解模型Qwen3-VL Agent和空间感知能力大幅增强

热门分类