让你的模型可以听和说

3月27日凌晨，阿里巴巴宣布推出并开源其首款全面支持端到端处理的全模态大模型——通义千问Qwen2.5-Omni-7B。这一模型能够同时处理文本、图像、音频和视频等多模态输入，并支持实时生成文本以及自然语音合成输出。在多模态融合任务权威测评（如OmniBench）中，Qwen2.5-Omni刷新了全球记录，其性能显著优于同类模型（如Google的Gemini-1.5-Pro）。Qwen2.5-Omni以近似人类的多感官方式实现对世界的「立体」认知，并可实时进行交互。同时，该模型具备情绪识别能力，可结合音视频输入在复杂场景中提供更加智能和自然的反馈与决策。目前，开发者和企业可免费下载并商用该模型，且其能够轻松部署到如手机等智能终端设备上运行。

Qwen2.5-Omni采用了由通义团队首创的创新技术，包括Thinker-Talker双核架构、音视频融合的Position Embedding技术以及时间对齐多模态位置编码算法TMRoPE（Time-aligned Multimodal RoPE）。通过这种双核架构，Qwen2.5-Omni能够同时具有类似人类的“大脑”与“发声器”，形成完整统一的端到端模型架构，支持实时语义理解与高效语音生成。该模型支持多种输入形式，例如文本、图像、音频和视频，能够同时进行多模态感知，并以流式处理的方式实时生成文本和语音响应。

依托以上技术创新，Qwen2.5-Omni展现了在同等规模单模态模型中的全球领先性能。在语音理解、图片处理、视频解析和语音生成等方面的权威测评中，该模型的表现全面超越了专用的Audio或视觉语义模型。其中，语音生成测评分数达到4.51，与人类水平相近，展现出行业内的技术卓越性。

相比动辄数千亿参数的闭源大模型，Qwen2.5-Omni以仅7B参数的“小体积”实现了在产业中广泛应用的可能，即便是在性能有限的手机上也能轻松运行。目前，这一创新模型已在魔搭社区和Hugging Face平台完成开源，用户可以直接在Qwen Chat中体验使用。

自2023年以来，阿里通义团队已陆续构建了覆盖从0.5B到110B参数的多种规模大模型，累计推出了包括文本生成、视觉理解与生成、语音生成与识别，以及文本生成图片和视频的「全模态」模型种类。这些模型真正让个人用户与企业能够负担得起并有效使用AI大模型。到目前为止，Qwen相关模型已经被衍生出超过10万种版本，数量超越了美国Llama系列模型，稳居全球开源模型的领先地位，被广泛认可为业内的第一开源模型。

玩酷网

让你的模型可以听和说

Magicflu小小汪