从“价格战”到“性能战”，发布豆包视频大模型

9 月 24 日，火山引擎 AI 创新巡展盛大举行。

会上，火山引擎可谓大放异彩，不仅发布了豆包视频生成 - PixelDance、豆包视频生成 - Seaweed 两款视频生成大模型，还推出了音乐模型以及同声传译模型。同时，对通用语言模型、文生图模型、语音模型进行了全面升级，豆包全模态大模型家族璀璨亮相。

据大力财经了解，火山引擎总裁谭待在会上强调，视频生成面临诸多难关，而他们的两款模型将持续演进，在关键问题上探索更多可能，加速拓展 AI 视频的创作空间与应用落地。

字节跳动发布的豆包视频生成模型无疑是全场焦点。其视频生成质量卓越，在多个维度实现对传统技术的全面超越。精准的语义理解能力，让其能遵从更复杂的 prompt，解锁多种复杂动作指令与主体交互。全新的扩散模型训练方法攻克了多镜头切换难题，保持主体、风格等一致性，使用户能快速讲述精彩故事。基于高效的 DiT 融合计算单元，生成的视频动作灵动，镜头语言丰富，表情细节饱满。在视觉效果上，它支持影视级生成，细节逼真，具备专业级色彩调和光影布局能力。此外，还优化了 Transformer 结构，提升泛化能力，支持多种风格和视频尺寸比例，满足多样化创作需求。

字节跳动在推出豆包视频生成模型时，遵循了一贯的大模型发展路径，先通过面向消费者的产品打磨模型能力，待模型具备竞争优势后再向企业市场拓展。其早期版本已在在即梦等平台应用与迭代优化，最终推向企业市场。同时，字节在视频生成模型领域的成果离不开丰富的业务场景积累和深厚的算法领域积累。

豆包大模型自今年 5 月发布以来，发展迅猛。语言模型日均 tokens 使用量猛增 10 倍，多模态数据处理量大幅增加。豆包月活用户规模达 3042 万，是国内用户量最大的 AI 原生应用之一。

除了视频生成模型，火山引擎还发布了豆包音乐模型。它能根据用户输入生成高品质音乐作品，得益于先进算法和丰富音乐库。演唱方面表现出色，能根据风格匹配音色，真实呈现细节，支持高质量音质听感体验。

豆包同声传译模型具有超低延时、边说边译的特点，在多种场景下翻译水平接近甚至超越人类同传水平，还支持音色克隆功能。

此外，火山引擎还对通用语言模型、文生图模型、语音模型进行了全面升级。通用语言模型综合能力提升，文生图模型推理效率和性能大幅提升，语音模型升级引入超强混音功能。

从 “价格战” 到 “性能战”，大模型为云服务带来重要变革和发展机遇。火山引擎正成为 AI 时代云服务的重要力量，引领大模型降价，发起智能终端、汽车、零售大模型联盟，推动行业 AI 应用创新。在产品能力完善的同时，豆包大模型的使用量也在极速增长。

据大力财经分析认为，火山引擎在 AI 领域的一系列举措，展示了其强大的技术实力和创新能力。从发布多款先进的模型到全面升级现有模型，再到引领行业变革，火山引擎为 AI 技术的发展注入了新的活力。未来，随着技术的不断进步和应用场景的不断拓展，AI 将在更多领域发挥重要作用，为人们的生活和工作带来更多便利和创新。

玩酷网

从“价格战”到“性能战”，发布豆包视频大模型

说的商业不一般