火山引擎2024冬季原动力大会纪要

一、豆包模型家族

5月15号，当火山引擎正式的发布了豆包大模型家族之后，凭借着更强的模型能力，更低的应用成本和更易落地的解决方案，豆包大模型在各行各业都得到了广泛的应用，豆包大模型的日均调用量也在高速的增长。

5月份我们刚推出的时候，模型的日均tokens调用量1,200亿，到7月份的时候涨到5,000亿，到9月份1.3万亿，截止12月15号突破4万亿，在7个月的时间里增长了超过33倍。

豆包大模型的调用量的高速的增长，是市场快速发展的一个缩影。从另外一个角度，我们也十分兴奋地看到说，大模型它在各个场景里面都在全面的开花，特别是在和企业生产力密切相关的场景里面，比如信息处理场景，最近三个月豆包调用量增长39倍，它帮助企业更好的去分析和处理内部和外部的数据。在客服和销售场景，豆包大模型的调用量增长16倍，帮助越来越多的企业更好的服务客户扩大销售。在硬件终端场景豆包增长13倍，在AI工具场景增长9倍，随着模型的能力越来越强，模态增多，我们也相信它会不断解锁越来越多的新场景，不断增加的调用量和各种各样场景的深度覆盖，也让豆包大模型越来越好，越来越全面。

新模型：豆包视觉理解模型，迈向多模态应用的关键一步，能够让大模型解锁更多的应用场景。豆包大语言模型，豆包Pro也会迎来升级，新版本在各项能力上都有大幅的提升。此外我们还会对多个垂直领域模型进行更新和发布。

1、豆包视觉模型

通过豆包视觉理解模型，用户可以同时输入文本和图像的相关的问题，模型能够综合地理解，并且给出准确的回答，从而去解锁更多的价值场景。我们可以把豆包的视觉理解模型用在图片问答、医疗、健康、教育、科研、电商、购物、生活助手等诸多场景。

能进一步的分析图表、处理代码、诊断流程，帮助企业去解决更加复杂和专业的问题；

我们在座的家长辅导我们的孩子做作业的时候，不用再那么痛苦；

我们逛公园的时候，我们可以把孩子们喜欢的玩具放在一起拍张照片，让豆包去编一个精彩好玩的故事，孩子们一定会非常喜欢；

旅游也是一个非常实用的场景，我们可以把照片分享给大模型，比如说一张美丽的海滩的照片，模型帮你推荐类似的旅游目的地；

在异国他乡旅游，我们可以让豆包帮我们去看外文的菜单，在国外点菜的时候，当我们去参观一些知名的建筑的时候，我们可以让豆包去告诉我们的相关的背景知识，还能去识别建筑上的异国文字，比如说复杂的拉丁文。

电商营销也是一个非常实用的场景，利用豆包视觉理解模型的强大的能力，商家可以通过模型来非常方便地去构建出多模态的AI搜索和推荐能力，能够帮助用户很容易的去实现拍照来找同款。基于已经购买的商品，可以去进一步的推荐适合的穿搭，让客户的购物体验得到全面的升级。同时我们对于我们想要推销的商品，也可以直接让模型根据它的外貌形状生成对应的营销词和直播话术。商家想要快速的上架商品，发布营销文案，通过视觉理解模型效率都会得到大大的提升。

模型的定价：今年是中国大模型应用落地的元年，其中一个非常重要的因素就是5月份当火山引擎推出豆包大模型的时候，我们把整个行业的价格降低了99%，降低到了一个合理的水平，让企业可以放心大胆的去基于大模型做应用创新。今天当我们正式去推出豆包视觉理解模型的时候，我们希望用一个合理的可持续的，而且关键是一步到位的价格，让企业和开发者可以放心大胆的去使用多模态去做多模态的应用的创新。

视觉模型市场定价依然是基于tokens，因为模型首先会把图像编码转成对应的tokens，再和文本的tokens一起来计费。claude定价它是每千token 0.21元，GPT 4O的定价是每千tokens 0.17元，阿里定价是每千tokens 0.2元。豆包视觉理解模型定价是每千tokens 0.03元，我们比行业的平均价格降低85%，用这样的价格相当于用一块钱就可以一起同时处理284张720P的图片，所以今天视觉理解模型也正式的进入到了厘时代，好的模型就是要让每一家企业都用得起。

2、豆包视频生成模型

将在1月份在火山引擎正式对外服务。

3、最强模型豆包Pro

模型效果好，迭代速度非常快，每个月都要更新，12月份豆包Pro再次完成新版本的迭代，相比过去又有了大幅的提升。

以公开和内部的评测集为标准，挑选对企业应用来说最关键的几个指标，首先在专业知识领域，豆包Pro相比5月份的版本提升了54个百分点，这一效果也略微领先于GPT4O。在综合的任务处理能力上，豆包Pro提升了32个百分点，和GPT4O持平，在指令遵循提升9个百分点，在逻辑推理上提升13个百分点，在数学上大幅提升43个百分点。豆包Pro已经全面对齐GPT4的能力，而且在部分复杂场景和复杂任务中表现更好，而且使用价格只有GPT4O的1/8。

在教育场景里面，有大量的企业在使用豆包Pro，比如说打造更加智能的NPC，辅导作业，做AI质检等等，他们的调用量在过去的几个月里也有大幅的提升。一家专注在绘画智能领域的科技公司通过豆包Pro模型的角色扮演和指令的遵循能力，让客户们取得非常显着的业务，新人入职上手时间大幅的降低了50%，平均成单的时长缩短22%，平均人效提高了31%。

在法务的领域，维科使用豆包PRO，它从海量的判例中能够根据指令准确实现各种判定结果的信息抽取，抽取精度高达95%以上，有效的降低成本。威科的豆包使用量也上涨800倍。

赛力斯汽车创新的通过豆包Pro，实现公域和私域内容的风险识别、标签分类和摘要总结。重要的舆情内容可以实现分钟级触达到业务的关键决策者，从而实现对客户声音的快速响应和应急处理。

4、垂类模型

音乐模型：9月份火山推出豆包音乐模式的第一个版本，今天迎来音乐模型新版本升级，升级后的音乐豆包音乐模型能够支持三分钟的完整的音乐作品的呈现，而且能实现一个非常复杂结构的音乐的创作。

新的模型能够运用旋律、节奏、和声这些复杂的信息，而且能够使全曲保持一个完整的音乐上的连贯性。如果对生成的歌词不满意，还能开启局部的修改模式，让音乐的创作更加自由和灵活。

vivo手机在2024年10月份正式发布的orange os five中采用了豆包音乐模型，为相册用户的一键成片提供了音乐创作能力。杜邦音乐模型会根据用户提供的素材进行AI词曲的创作，为用户生成一个独一无二的个性化影片。

文生图模型：新版本是一键P图和一键海报，一键P图是对于用户来说，只需要输入简单的自然语言的描述，就能够通过模型直接对图像进行换装、美化、涂抹，还有风格转换等修图的工作，它相比传统的通过涂抹的方式来进行P图，通过模型我们可以用语言来精准的控制目标，避免误伤，而且能够一次性执行多个P图的任务，效果更好。这个能力的本质就是豆包文生图2.1模型，它打通了llm和dit架构，构建一个高质量的文字的渲染能力，从而让文字与整体的画面的融合更为自然和实用，让最后作品的呈现也更加有商业的价值。

新模型——豆包3D生成模型：采用了3Ddit等算法的技术，生成能够通过文本来生成高质量的3D的模型。火山引擎和英伟达一起推出的veOmniverse平台，一个非常出色的数字孪生平台，我们如果把文生3D模型和veOmniverse结合在一起，我们就实现了一款AIGC世界的仿真模拟器。这两者的方案还实现了非常好的云上的协同，因为我们在整个场景的构建过程中有不同的角色，模型师可以通过文生3D模型来快速的批量的生成模型，并且上传到veOmniverse模式的云空间。布局师可以快速的应用这些生成的模型，实时的调用并且完成场景的设计，从而显著的去提升协作的效率和创新的速度。通过豆包3D模型和veOmniverse的结合，整个团队就可以高效地完成智能的训练、数据合成和数据资产的制作，从而进一步的加速虚拟与现实的深度融合。

二、豆包应用

以前在做移动互联网产品的时候，尤其在做产品早期阶段，我们的心得是把一个最关键的用户需求解决得非常好。比如说抖音是视频创作和分享，头条是看新闻，飞书是协同办公，但对于大模型产品好像很难定义清楚哪一个是最关键的用户需求，因为他天生就是一个通用型产品，每个用户打开它时想要解决的问题都不太一样，因此我们需要满足好不同用户在不同场景下的各种需求。

在豆包的发展过程中，我们和很多用户做了访谈，发现了各式各样的不同的下载理由以及使用场景。Ai产品很神奇的地方就是它真的能够满足这些看上去非常不同的用户需求。比如在日常生活中各种知识问答跟经验问答，豆宝总能很快速的为用户解答疑惑。

最近是上海的银杏季节，有用户就会问豆包，上海哪里可以看银杏？豆包很快就列出了市中心和郊区的银杏观赏地，并列举了每个观赏地的特点，并配上了银杏树的照片和路线视频攻略，非常的方便。

今年黑神话悟空特别的火，带动了山西的旅游。很多用户都去了山西看佛像，我们在用户访谈的时候就发现说，大家在山西逛博物馆时就会请豆包来介绍一下北魏的佛像风格，再让豆包讲讲中国佛像艺术在历史的演化过程。借助豆包，我们对历史文物的了解就不再局限于展牌上的简短介绍，而是可以深入的了解产品背后的历史故事和文化内涵。

年末身边很多朋友都安排了体检，昨天我碰到一位媒体老师就和我说，前两天刚做完心电图检查，拿到报告，报告里都是一些专业术语和符号，比较难理解。这个时候他就用豆包拍图功能，让豆包先帮忙解读一下报告，把医学术语翻译成浅显易懂的语言，这样就能很好地理解自己的健康情况，并安排下一步的复诊。

生活之外，很多用户反馈豆包也能很好地满足在学习和教育场景的各种需求。最近这几年来我身边有不少的朋友都成为了新手爸妈，小朋友的成长在给家庭带来欢乐的同时，也带了不少新的家庭教育难题。我的一位朋友的小朋友最近刚刚就在学奥数，题目是比较复杂，小朋友也没有什么解题思路，家长也不太知道该如何入手去讲解，于是家长就拍题发给了豆包，请豆包给小朋友讲解。豆包不仅快速的给出了正确答案，还提供了详尽的解题步骤，一步一步的引导小朋友理解题目的解法，家长发现小朋友可能对此类题目掌握还不太牢固，又请豆包再给小朋友出了5道类似的知识点的考查的这种题目进行巩固练习。

也有用户用豆包练习英语口语，使用豆包的实时通话功能和豆包一起准备接下来的英语面试。用户反馈说豆包的发音、词汇量、句型都远远超过自己，和豆包这样一来一回一起练习英语毫不尴尬，还省了老师辅导的开销费用。此外生成的英语对话还配有字幕，退出后还可以反复练习，用豆包练习英语，英语越说越好，也越来越有自信。

读论文是很多用户在问问豆包的高频场景，不仅让豆包可以帮忙总结，解释专业名词，还可以不断追问，让豆包用通俗易懂的语言讲解观点跟理念。最近豆包大模型团队发表了一篇关于图像编辑的论文，论文比较专业，对于非技术背景的同学来说，阅读起来就有点吃力。这个时候我们就可以打开豆包电脑版上传论文，点击我们预设的提示词，豆包就可以生成一份条理清晰的脑图，帮助我们快速理解论文的框架，也可以输出一份格式清晰的总结，快速提炼论文的核心信息。此外如果有看到陌生的专业术语，只需要划词问豆包，就能看到简洁的凝练解释论文里经常出现的图表和实验数据，也可以截图问问豆包，豆包就会给出清晰的图表解释和实验含义。有了豆包的帮助，阅读论文的门槛就大大降低了。

豆包还是很多创作者的工作神器，他们在图片、音乐、视频生成上也都会问豆包。前一段时间豆包上线了，支持一键生成带有指定文字的图片，我们的新媒体设计同学就用这个功能直接生成一张海报，发在了我们的豆包官方微信公众号上，效果还真不错。

很多设计师朋友也在告诉我，他们现在在做设计的时候，第一反应也都是问问豆包，豆包能够高效地完成工作，也不会因为最后重新选回了第一版设计稿而表示不满。虽然有时候给的方案可能并不完美，但是提供了很多思路和灵感，能够减少非常多的前置工作，大大提升工作效率。

用户的故事还有很多，我们问自己为什么用户在遇到问题时都愿意选择豆包呢？我觉得这个答案可能应该就是问豆包最快。

1）在产品设计上我们一直在努力，让用户的输入更快更方便。我们非常注重多模态的输入和打磨，尤其是语音输入，从输入速度角度来说，普通人的打字速度大概是每分钟60~80个字，而普通人的语速每分钟可以说250个到350个字，如果你有主持人华少的说话速度，甚至可以达到每分钟400个字，所以一般情况下语音输入效率至少是键盘输入的三倍以上，效率大大提升。同时豆包的语音能够准确转录各种语音信号，识别不同语言方言和口音。我们有一位产品同学是广东人，他就很喜欢给豆包讲粤语，豆包识别的也不错。豆包对于人名、生词能够结合上下文做出准确的分析。这背后都是基于豆包语音识别大模型的强大能力，这个语音模型也在火山引擎发布了。

豆包有了这样的能力储备，用户才能像开口问身边的朋友一样，方便快捷的和豆包沟通，真正的做到什么都问豆包。

我们也上线了视觉理解模型，读心电图拍奥数题都是依靠视觉输入的，人和世界的沟通视觉是很重要的一环，比语言描述各种复杂信息，不如直接拍下来问问豆包肯定是更方便的。

2）豆包离用户更近。我们在今年发布了AI智能耳机，OLA friend这样轻便的可穿戴设备，让豆包成为用户耳边伴随的朋友，可以直接跟豆包对话。在运动在逛街在旅行时用户也无需拿出手机或者其他设备，直接通过耳机就能跟豆包对话，快速获取想要的信息。这种无缝连接的交互方式，让豆包真正成为了用户身边的智能伙伴，陪伴用户度过了每一个需要支持和帮助的时刻。

今年我们还重点建设了豆包电脑版，用户可以用豆包电脑版当成一个浏览器来使用，直接打开各种网页，在浏览的过程中遇到需要提问、翻译或者总结内容时，直接点击右上角的问问豆包，就能轻松唤起豆包获得及时的帮助。无论是在撰写报告，阅读资料、查找网页，还是进行在线学习，视频浏览，豆包都能随时为用户提供支持。

我们也即将上线一个全新的文档编辑器功能，这种新的交互方式是当你生成文档之后，可以在编辑器内自由编辑，你还可以针对特定的词语和段落进行优化改写，也可以一键调整长度进行全文润色。

不仅如此，还能全网搜图，并插入AI配图，让编辑更高效，让创作更轻松。

3）模型能力能让我的豆包变得最快。当用户提出较为复杂的搜索或者写作需求时，豆包在背后快速识别用户意图，推理并拆解用户的查询内容。豆包能够进行多步骤的分析和推理，同时调度搜索能力，自己浏览大量的搜索结果之后，再给出总结的答案。同时豆包还能够将搜索到的文本信息与相关的视频内容相结合，为用户提供更丰富更直观的信息体验。

在快的背后是模型帮助了用户做了意图识别，信息收集处理整合和分析。虽然用户是带着不同的需求打开了豆包，但是因为大模型应用能够解决非常广泛的广问题，我们观察到随着用户对产品的使用，也会逐渐发现和解锁新的场景，意识到在这些场景中也能快速获得豆包的帮助。

三、企业端落地

企业要落地好AI不仅需要大模型，也需要有平台能支持他们做好AI应用的开发，火山引擎提供了火山方舟、扣子和hiagent的这三款产品，帮助企业能够构建好自身的AI能力中心，高效地开发AI应用。

1、火山方舟平台

提供了全栈的能力，支持模型、推理、评测等全方位的功能，也提供了丰富的插件的能力，扩展API和高代码的解决方案。

今天搜索引擎内容推荐、电商、游戏、办公助手等等产品，也都在致力于打造更懂你的专属APP体验。我们也即将看到众多大模型原生应用即将发展出千人千面的个性化体验，记忆或者说个性化体验的构建是一个产品问题，而非纯粹的技术问题。不同的企业会对个性化有不同的定义和要求。想把大模型的记忆和个性化体验做好，有两个工作是普遍必须的。其一是充分用好大模型的上下文窗口，其二是对记忆进行高效率的选择和加工。

火山引擎融合了更好的上下文缓存技术和it技术，帮助我们的客户更高效的提取短期记忆，更精准的挑选关键信息，更好的构建长期记忆，助力个性化的产品体验。

火山引擎的记忆方案可以通过更快的响应速度，更低的使用成本，更精准的效果，以及数亿数10亿级别的记忆片段基础设施能力，来帮助我们的客户构建更有效的记忆方案。

如果要做到类似的产品企业，在技术上我们应该如何实现呢？仅仅提供更长的模型上下文窗口是不够的，因为我们的客户还要兼顾推理的成本和响应速度，上下文缓存就是解决问题的关键。针对多轮对话，场景我们推出了session cache，企业客户可以为每一位独立的用户创建一个专属的上下文缓存环境。火山方舟上的系统会不断的追加更新对话历史到kv cache，下一条用户请求到来的时候，就不用再重复计算上文了，可以加快处理速度。在大量我们见过的真实案例中，在上下文窗口放大数倍的情况下，延迟依然可以做到比原先降低50%以上。

此外，在数据分析和信息提取的场景，企业客户通常需要传入一段专业很长很复杂的system prompt，用来描述他们的具体要求。针对这类客户，我们推出了prefix cache的方案，来优化重复出现的前缀和指令，降低延迟和成本，提高产品一致性。这也是国内云厂商首次同时提供prefix cache和session cache API，欢迎大家前来使用。

同时对于命中缓存的tokens，我们也给予了一个极具竞争力的定价。用户使用了我们的context cache之后，原本的输入的费用就会被拆为三部分，包括未命中缓存的tokens，命中缓存的tokens以及cash的自身存储成本。对于命中缓存的部分，我们只收取原本约20%的价格，用户对话轮数越多，那么命中缓存的输入tokens的占比就会越大，成本节约的幅度也将越大。

我们希望以最大的诚意帮助我们的客户把更长的上文输入窗口真正用好，在更低的成本下做出更打动人心的个性化体验。

关于有选择的记忆，这里会涉及到记忆的加工以及记忆的加载。在离线记忆的加工环节，我们提供了一整套的参考方案，来帮助火山的客户对历史多轮对话进行深度的分析，去自动的寻找到关键事件和用户的兴趣画像，而且这个过程还可以小时级或者天级持续动态更新。在记忆加载的环节，我们需要确保大模型能够迅速调用这些经过加工的片段。我们支持10亿级别的记忆片段，高速检索，分钟级的新记忆片段插入，使用了抖音同款的向量检索底座，能够实现超高负载下的毫秒级延迟，细节成就品质，我们非常欢迎大家用最高的要求来使用火山引擎的上下文缓存和围绕记忆的向量检索能力，让大模型真正能成为更懂你的老朋友。

AI搜索和推荐。在今天AI大模型的主要价值之一依然是连接人和信息，生成式AI将把搜索引擎带到一个全新的高度，并且搜索和个性化推进的连接将更加的自然和紧密。大家设想一下，同样1个查询问题，同样检索出100个候选结果，任何2个人所关注的兴趣的重点，希望看到的大模型总结出来的文字风格，甚至希望看到的UI布局都很有可能是不一样的。在这里有两项重要技术将决定大家能否把产品做好。

第一是AI搜索，AI搜索是连接用户与知识，数据与洞察的重要桥梁，对企业来说，AI搜索不仅是一个工具，更是一种必备的战略能力，它能帮助企业快速的从海量数据中找到关键信息！赋能作为企业每一位的C端客户或者每一位的内部员工，让每个人都能专注于更有创造力的事情。

第二是AI推荐，推荐引擎是在动作行为的不断学习过程中，为每一个用户每一个员工提供他最感兴趣的内容，他可以将企业的资源、市场的信息以及用户的需求做精准实时的匹配，为决策者提供支持，为员工提供高效工具。只有搜索是不够的，只有推荐也是不够的，但这两项技术完美结合的时候，它将帮助企业将产品体验做到极致，真正实现从数据驱动到AI驱动的转型。

火山引擎的AI搜索推荐引擎有如下特点，首先它是由豆包模型家族驱动的，有着强大的模型基础能力支撑，根植于火山方舟的系统能力。其次用很好的搜索能力，结合出色的推进能力，我们从第一天开始就在强调搜索推荐一体化，来帮助客户实现更精准更深度的个性化体验。

第三，未来的搜索应该有更多的形式去问去答，所以我们的AI搜索引擎支持文本图像、视频、音频等多模态的对话式输入输出。此外我们还要保障更强的性能，百亿库容量超大规模吞吐，毫秒级检索延迟，以及实现更多的场景覆盖。

最后无论是大模型的能力，还是我们公司历经多年锤炼的推荐引擎，都具备大吞吐低延迟的性能优势。

完整的AI搜索和推荐能力将在未来几个月陆续在火山引擎上公开可用。

2、扣子

无论是专业的开发者，还是对AI充满热情的普通爱好者，都能够通过扣子搭建自己的智能体。扣子现在已经成为中国最具活力的智能体开发社区，目前扣子上有超过100万的活跃的开发者，创造出了超过200万多个各具特色的智能体应用。今天扣子1.5版本也正式的推出，他提供全新的应用的开发的环境，可以支持gui搭载界面能够一键去发布成小程序、H5、API等多种的应用形态。扣子1.5也增强了多模态的能力，在语音识别和合成方面进行了全面的升级，并且和火山引擎的视频云和RTC相集成，提供了高质量的实时的语音通讯能力，能够使智能体不仅能够说话，还能够交流，而且可以轻松的和各种的硬件来集成，增强智能体与物理世界的互动。同时扣子1.5还推出了模板的商店，提供了大量的可一键复制的精品的模板，进一步降低构建智能体，构建AI应用的难度。和府捞面产品经理通过扣子两个人完成了顾客点评的分析智能体，苏泊尔通过扣子将智能体引入到用户的食谱创作和居家的养生的过程中，天文学界的科研工作者们也在用扣子来搭建智能体，来辅助科研。

3、hiagent

通过扣子企业可以快速地开发自身的智能体应用，但最终对于企业来说要有能力去搭建好自己的AI中台，构建好自身的AI能力中心，而要做到这一点，还有很多复杂的问题要解决。比如说安全监管的问题，数据治理的问题，应用落地的问题，还有系统集成的问题。hiagent支持企业的私有部署和混合部署模式，所以它能够满足复杂的监管的合规的要求。也可以和企业的现有系统来打通，把企业内部和外部的系统的接口和工具封装成插件，在插件的中心的形式来提供调用，从而去实现智能体和企业现有业务业务系统的集成。

今天我们也正式的推出了hiagent1.5版本，新版本首先依据过往一年的实践，从企业级的真实的应用场景中沉淀出了超过100个行业的应用模板，能够供企业开箱即用，敏捷落地。同时hiagent1.5也提供了全新的国外flag能力，它能够提供更强的知识融合效果，帮助企业去打造AI知识助手，让知识的检索更加的准确。知识的回复更加丰富，可视化也更加的清晰。目前现在对已经服务了华泰证券、飞鹤、浙江大学、宁德时代、国家光网等众多的企业和高校。

4、行业案例

汽车是大模型应用一个非常自然也非常重要的场景。基于豆包大模型的强大能力，火山引擎也一直致力于聚焦汽车座舱场景和车企业务场景，与众多的合作伙伴来一同探索汽车智能化的可持续增长路径。过去7个月整个汽车行业的豆包日均token消耗量增长了超过50倍。截止目前，豆包大模型已经服务了国内超过8成的汽车品牌，我们看到越来越多搭载了豆包大模型的合作车型，也在陆续的上市过程中。

2024也是AI手机的元年，在智能终端领域，火山引擎也在持续的开拓新的场景，包括智能助手、系统控制、创作工具等等。目前已经携手众多的厂商开拓出超过50多个AI的应用场景，覆盖了超过3亿台的终端的设备，给消费者带来了更加智能的工作和生活体验，乃至智能终端行业的豆包大模型的调用量，日均tokens也在半年内增长了超过100倍。

玩酷网

火山引擎2024冬季原动力大会纪要

全产业