豆包发布视觉理解模型,价格仅为同行15%

AutoR智驾 2024-12-19 09:15:28

继大语言模型价格以厘计算之后,视觉理解模型也进入了“厘时代”。

文丨智驾网 王欣

人工智能技术的迅猛发展已经深刻改变了众多行业,特别是在内容创作和编辑领域。

一元钱就可处理284张720P的图片。

千tokens输入价格仅为3厘,相较于行业平均价格降低了足足85%。

今天,字节跳动在上海世博中心举办的火山引擎 Force 大会上,正式发布了豆包视觉理解模型,其千 tokens 输入价格仅为 3 厘!

这一价格优势极大地降低了应用多模态 AI 技术的成本门槛,使得更多的企业和开发者可以无负担地接入并享用这一技术,从而推动多模态应用的创新与落地。

这同时也向外界宣告,继大语言模型价格以厘计算之后,视觉理解模型也进入了“厘时代”。

从解锁的功能上来看,豆包视觉理解模型可堪称“全能选手”。

如火山引擎总裁谭待所介绍那样,豆包视觉理解模型不仅能精准识别视觉内容,还具备出色的理解和推理能力,可根据图像信息进行复杂的逻辑计算,完成分析图表、处理代码、解答学科问题等任务。此外,该模型有着细腻的视觉描述和创作能力。

它具备精准识别视觉内容的能力,不仅可以准确识别出图像中的物体类别、形状等基本要素,还能深入理解物体之间的关系、空间布局以及场景的整体含义。

像是识别小动物的影子并推断出其种类,或是分辨出照片中的自然现象并解释背后原理等都不在话下。

同时豆包的理解和推理能力也不逊色。

比如能够基于所识别的文字和图像信息进行复杂的逻辑计算,无论是分析图表、处理代码,还是解答学科问题等复杂任务,都能应对自如,为专业领域的应用提供了有力支撑。

像是在学术方面,无论是面对微积分这样的数学难题,还是像分析论文中的图表、处理代码逻辑以及解答高考物理题等任务,豆包视觉理解模型都能很好地理解图片所呈现的问题,依据提示词展开相应的推理计算,进而给出准确的答案以及清晰的解题思路。

包括对于企业内部复杂的业务流程代码,它可以协助分析代码逻辑,诊断流程中可能存在的问题,助力企业的技术人员更高效地完成工作,解决那些复杂且专业的问题。

当前的视觉理解模型市场中,不同的产品有着各自的定价方式和价格水平。通常,这些模型大多是基于 Tokens 来进行计费,会把图像编码转成 Tokens,然后和文本 Tokens 一同计算费用。

像 Claude 的价格是每千 Token 两分一里钱,gpt 4o 的价格为每千 Tokens 一分七厘,阿里的千问价格则是每千 Tokens 2 分钱。

而豆包视觉理解模型此次给出的其千 tokens 输入价格为3厘的价格,这是继今年5月火山引擎发布豆包模型家族后,再一次搅起视觉大模型领域的一场激战(《详见火山引擎引爆大模型市场首场价格战》)。

目前,豆包通用模型pro已全面对齐GPT-4o,使用价格仅为后者的1/8。

会上,豆包3D生成模型也首次亮相。该模型与火山引擎数字孪生平台veOmniverse结合使用,可以高效完成智能训练、数据合成和数字资产制作,成为一套支持 AIGC 创作的物理世界仿真模拟器。

到明年春天,字节还将推出具备更长视频生成能力的豆包视频生成模型1.5版,豆包端到端实时语音模型也将很快上线,解锁多角色演绎、方言转换等新能力。

谭待表示,豆包大模型虽然发布较晚,但一直在快速迭代进化,目前已成为国内最全面、技术最领先的大模型之一。

量子位数据显示,截止至11月底,豆包在2024年的累计用户规模已经超过1.6亿,每日平均新增用户下载量稳定维持在80万,成为全球排名第二,国内排名第一的AI APP。

AI产品榜全球总榜数据显示,11月份,ChatGP稳坐第一,拥有2.8亿活跃用户;豆包仅次第二,活跃用户近6000万。

截至12月中旬,豆包通用模型的日均tokens使用量已超过4万亿,较七个月前首次发布时增长了33倍。

现在看来,豆包大模型无疑有望成为继ChatGPT之后的又一重量级产品。

One more thing:豆包上奔驰,怎么样了?

随着大模型技术的深入应用,汽车行业可能会迎来一次质的飞跃,汽车成为一个新物种。

众多企业纷纷投身其中,造成了“百模大战”的现象,但不同公司的技术、算法水平参差不齐。大模型虽开启了汽车智能化的下半场,为那些在激烈竞争中寻求突破的车企提供了一把新钥匙,但大模型究竟是不是汽车智能化的终局,或许在实现真正的自动驾驶之前,这个问题都没有标准答案。

比如2024年6月份,辰韬资本关于大模型上车的行业报告显示,46%的人认为大模型是终局,50%的人认为大模型是未来的技术方向之一。

虽然在竞争中,只有那些技术更先进、更符合发展趋势的大模型会脱颖而出,但大模型上车后的智能座舱中,除了模型能力,生态能力也不可或缺。

而奔驰之所以与火山引擎合作,生态能力就是重要原因。

2024年8月13日,梅赛德斯-奔驰(中国)投资有限公司和字节跳动旗下的火山引擎科技有限公司签署战略合作备忘录,将在大模型、生成式人工智能和大数据等前沿技术领域开展合作和探索。奔驰未来的新车型将在智能座舱中接入字节跳动自研的豆包大模型。

目前,豆包大模型已经与八成主流汽车品牌合作,其中搭载豆包AI大模型的smart精灵#5已于10月28日上市,是搭载豆包AI大模型的首款车型。

而未来smart精灵#5在为用户提供更连贯的体验时,跨域的生态打通就成了影响产品体验的关键。

火山引擎作为字节跳动的云服务商,豆包大模型通过火山引擎向客户提供的服务正是基于这一生态能力,去助力大模型生态体系的搭建,这也会拓宽更大的成长空间。

0 阅读:3

AutoR智驾

简介:智驾网,有温度的汽车科技媒体