作者 | 程茜
编辑| 漠影
临近年关,国产大模型的春节大礼包让人应接不暇!
就在这几天,从全场景深度推理模型Baichuan-M1-preview到医疗增强开源模型Baichuan-M1-14B,百川智能大模型频繁上新。
而今天新鲜出炉的全模态模型Baichuan-Omni-1.5,更称得上是“大模型通才”。
这一全模态模型不仅能同时支持文本、图像、音视频全模态理解,还支持文本、音频双模态生成。与此同时,百川还开源了两个评测集,助力国内全模态模型研发生态蓬勃发展。
从综合的测评结果来看,Baichuan-Omni-1.5的多模态能力整体超越了GPT-4o mini。在百川智能深耕的医疗领域,其医疗图片评测成绩更是大幅领先。
可以看出,百川智能作为国产大模型的明星玩家,在模型本身的技术探索以及深耕医疗行业落地上正一往无前。
模型权重地址:
Baichuan-Omini-1.5:
https://huggingface.co/baichuan-inc/Baichuan-Omni-1d5
https://modelers.cn/models/Baichuan/Baichuan-Omni-1d5
Baichuan-Omini-1.5-Base:
https://huggingface.co/baichuan-inc/Baichuan-Omni-1d5-Base
https://modelers.cn/models/Baichuan/Baichuan-Omni-1d5-Base
GitHub地址:
https://github.com/baichuan-inc/Baichuan-Omni-1.5
技术报告:
https://github.com/baichuan-inc/Baichuan-Omni-1.5/blob/main/baichuan_omni_1_5.pdf
一、文图音视频“通杀”,多项测评超越GPT-4o miniBaichuan-Omni-1.5的亮眼表现可以集中概括为“全面且强大”。
首先,该模型最突出的特点就是拥有全面的理解和生成能力,既包括对文本、图像、视频、音频全模态内容的理解,还支持文本、音频的双模态生成。
图片的理解层面,Baichuan-Omni-1.5在MMBench-dev、MM-Vet等通用图片评测中,其中通用测试集MM-Vet定义了识别、OCR、知识、语言生成、空间感知和数学计算六大核心VL能力,对于模型性能的表现呈现较为全面。图片的理解层面,Baichuan-Omni-1.5在MMBench-dev、TextVQA val等通用图片评测中领先领先GPT-4o mini。
值得一提的是,除了通用文本、图像、音视频能力外,百川智能的全模态模型更是在医疗赛道上一骑绝尘。医疗图片评测数据集GMAI-MMBench、Openmm-Medical的结果显示,该模型已经大幅超越GPT-4o mini。
音频的理解与生成层面,Baichuan-Omni-1.5不仅支持多语言对话,还能基于其端到端音频合成能力,拥有ASR(自动语音识别)和TTS(文本转语音)功能,并且在此基础上支持音视频实时交互。具体的测评指标上,Baichuan-Omni-1.5在lamma question和AlpacaEval数据集上整体表现远超Qwen2-VL-2B-Instruct、VITA-1.5和MiniCPM-o 2.6。
视频理解层面,百川智能对该模型在编码器、训练数据和训练方法等多个关键环节进行了深入优化,其整体性能同样大幅领先GPT-4o-mini。
综上,Baichuan-Omni-1.5不仅在通用能力上整体超越GPT4o-mini,并且实现了全模态理解、生成的统一。
百川智能同时还开源了两个评测集:OpenMM-Medical、OpenAudioBench。
OpenMM-Medical用于评估模型的医疗多模态能力,包含了来自42个公开医学图像的数据集,如ACRIMA(眼底图像)、BioMediTech(显微镜图像)和CoronaHack(X 射线),共计88996张图像。
OpenAudioBench则用于高效评估模型“智商”,包含5个音频端到端理解子评测集的平台,其中4个来自公开评测集(Llama Question、WEB QA、TriviaQA、AlpacaEval),还有1个是百川自建的语音逻辑推理评测集,该自建评测集共有2701条数据。
一直以来,百川智能在繁荣国内开源生态上都扮演着重要角色。这类开源模型评测数据集为研究人员和开发者提供了统一的标准数据,方便其对不同模型的性能进行客观、公正的评估,同样有助于催生一系列新的语言理解算法和模型架构。
二、全方位优化数据、架构、流程,破解大模型“降智”难题从单一模态模型到多模态融合,再到全模态模型的进阶,这一技术发展历程为实现模型在千行百业落地应用提供了更多可能性。
然而,随着AI技术的不断发展,如何实现理解和生成的统一,已然成为当下多模态领域研究的一大热点与难点问题。
一方面,理解和生成的统一使得模型能模仿人类交互方式,让计算机与人类的沟通更加自然、高效,这也是通用人工智能(AGI)实现的关键环节;另一方面,不同模态的数据在特征表示、数据结构和语义内涵等方面差异巨大,很难做到既能有效地提取多模态特征,又能实现跨模态的信息交互和融合,这也被业界公认为训练全模态模型的最大难题之一。此次Baichuan-Omni-1.5的发布,意味着百川智能应该已经找到了解决上述难题的有效路径。
训练全模态模型的过程中,为解决全模态模型“降智”难题,其研究团队从模型结构、训练策略以及训练数据等多方面进行了全流程的深度优化,真正实现了理解生成统一。
首先是模型结构方面,模型输入部分支持各种模态通过相应的Encoder/Tokenizer输入到大型语言模型中;输出部分则采用了文本-音频交错输出的设计,其中Text Tokenizer和Audio Decoder可以同时生成文本和音频。
其中,Audio Tokenizer由OpenAI发布的开源语音识别翻译模型Whisper增量训练而来,同时具备高级语义抽取和高保真重建音频能力。
为了让模型理解任意分辨率图片,Baichuan-Omni-1.5还引入了能处理最高分辨率可达4K且支持多图推理的NaViT,使得该模型能全面提取图片信息,准确理解图片上的内容。
其次是数据层面,百川智能构建了包含3.4亿条高质量图片/视频-文本数据和近100万小时音频数据的庞大数据库,并使用1700万条全模态数据进行了SFT(监督微调)。
与其余模型的数据不同,全模态模型不仅数据要丰富,还需要更多元化的交错数据。一般而言,现实生活中的信息通常以多种模态同时呈现,且不同模态的数据包含互补的信息,这类多模态数据的融合有助于模型学习到更通用的模式和规律,增强其泛化能力,这也是构建全模态模型的关键之一。
为了加强跨模态理解能力,百川智能还构建了高质量的视觉-音频-文本交错数据,使用1600万图文、30万纯文本、40万音频数据以及跨模态数据对模型进行对齐。并且为了让模型能够同时实现ASR、TTS、音色切换和音频端到端问答,在对齐数据中还专门构建了相应任务的数据。
第三大技术要点就是训练流程,这是让高质量数据真正提升模型能力的核心。
百川智能在预训练和SFT阶段均设计了多阶段训练方案,以整体提升模型效果。
其训练过程主要分为四个阶段,第一阶段以图文训练为主,第二阶段增加音频预训练,第三阶段加入视频数据,最后一个阶段是对齐阶段,最终实现模型对于全模态内容的理解。
在此基础上,Baichuan-Omni-1.5的能力相比于单一的大语言模型或者多模态模型,实现了质的飞跃。
Baichuan-Omni-1.5的发布标志着AI正在从模型能力向落地应用方向发展,此前,模型能力多侧重于语言理解、图像识别等基础能力的增强,这一模型强大的多模态融合能力,将会让技术与实际场景之间结合更为紧密。
百川智能一方面提升了模型在语言、视觉、音频等多模态信息处理上的能力,使其能够应对更复杂、更多样的任务;另一方面全模态模型强大的理解、生成能力,在医疗行业可以用于辅助医生诊断,提高诊断准确性和效率等,对于将AI落地到医疗场景也是非常有益的探索。
或许在不久的将来,百川智能可以让我们清晰看到AGI时代医疗应用的雏形。