今天,我们很高兴宣布推出升级版的 Claude 3.5 Sonnet,以及一款全新的模型——Claude 3.5 Haiku。升级后的 Claude 3.5 Sonnet 在各方面都有显著提升,尤其在编程领域,表现尤为突出——这是它一直处于领先地位的领域。Claude 3.5 Haiku 在许多评估中表现与我们之前最大的模型 Claude 3 Opus 相当,但成本相同且速度与上一代 Haiku 类似。
与此同时,我们还推出了一项革命性的全新功能,现处于公开测试阶段:电脑使用。开发者可以通过API 从今天开始使用该功能,Claude 可以像人类一样操作电脑——查看屏幕、移动光标、点击按钮并输入文字。Claude 3.5 Sonnet 是首个在公开测试中提供此功能的前沿 AI 模型。虽然目前该功能仍然处于实验阶段,有时操作繁琐且容易出错,但我们希望通过开发者的反馈,快速提升这一能力。
Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 已经开始探索这一可能性,执行一些需要几十步甚至上百步才能完成的任务。例如,Replit 正使用 Claude 3.5 Sonnet 的电脑使用功能和 UI 导航,开发一个评估应用程序的关键功能,用于他们的 Replit Agent 产品。升级版的 Claude 3.5 Sonnet 现已向所有用户开放。从今天起,开发者可以通过 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI,使用电脑使用的测试版。全新的 Claude 3.5 Haiku 将在本月晚些时候发布。
Claude 3.5 Sonnet:领先行业的软件工程能力升级后的 Claude 3.5 Sonnet 在业界基准测试中表现显著提升,尤其是在自主编程和工具使用任务上表现尤为突出。在编程方面,它在 SWE-bench Verified 的表现从 33.4% 提升到了 49.0%,超越了所有公开可用的模型,包括像 OpenAI o1-preview 这样的推理模型以及为自主编程设计的专门系统。它还提升了在 TAU-bench 上的表现,在零售领域的自主工具使用任务从 62.6% 提升到 69.2%,在更具挑战的航空领域则从 36.0% 提升到 46.0%。新款 Claude 3.5 Sonnet 在保持与前代相同价格和速度的基础上,带来了这些进步。
早期客户反馈表明,升级后的 Claude 3.5 Sonnet 在 AI 驱动的编程方面实现了显著飞跃。GitLab 在 DevSecOps 任务中测试了该模型,发现其推理能力提高了 10%(覆盖多个使用场景),且没有增加延迟,使其成为多步骤软件开发流程的理想选择。Cognition 使用新版 Claude 3.5 Sonnet 进行自主 AI 评估,发现其在编程、规划和问题解决方面比上一版本有了显著提升。The Browser Company 在使用该模型自动化基于网页的工作流程时,指出 Claude 3.5 Sonnet 超越了他们之前测试过的所有模型。作为我们与外部专家继续合作的一部分,美国 AI 安全研究所(US AISI)和英国安全研究所(UK AISI)对新版 Claude 3.5 Sonnet 模型进行了联合部署前测试。我们还对升级版的 Claude 3.5 Sonnet 进行了灾难性风险评估,结果表明我们在责任扩展政策中概述的 ASL-2 标准仍然适用于该模型。
Claude 3.5 Haiku:性能与速度的完美结合Claude 3.5 Haiku 是我们最快模型的下一代产品。与 Claude 3 Haiku 在成本和速度相同的情况下,Claude 3.5 Haiku 在各项技能上都有提升,并在许多智能基准测试中超越了我们上一代的最大模型 Claude 3 Opus。Claude 3.5 Haiku 在编程任务上表现尤为出色。例如,它在 SWE-bench Verified 上得分为 40.6%,超过了许多使用公开最先进模型的代理,包括最初的 Claude 3.5 Sonnet 和 GPT-4o。凭借低延迟、改进的指令跟随能力和更精确的工具使用,Claude 3.5 Haiku 非常适合面向用户的产品、专门的子代理任务以及从大量数据(如购买历史、定价或库存记录)中生成个性化体验。Claude 3.5 Haiku 将于本月晚些时候通过我们的第一方 API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 发布——最初为仅文本模型,随后将支持图像输入。
教 Claude 如何负责任地操作电脑通过电脑使用功能,我们在尝试一些根本性的创新。我们并不是为 Claude 开发特定的工具来完成单个任务,而是教它通用的电脑技能——让它能够使用为人类设计的各种标准工具和软件程序。开发者可以利用这一新兴功能来自动化重复流程、构建和测试软件,以及进行开放式任务研究。
为了实现这些通用技能,我们构建了一个 API,使 Claude 能够感知并与计算机界面互动。开发者可以集成此 API,使 Claude 能够将指令(如“使用我电脑上的数据和在线信息填写此表格”)转化为计算机命令(如检查电子表格、移动光标打开浏览器、导航到相关网页、使用这些网页上的数据填写表格,等等)。在 OSWorld 上,该平台评估 AI 模型使用电脑的能力,Claude 3.5 Sonnet 在仅使用截图类别中的得分为 14.9%,显著优于下一个最佳 AI 系统的 7.8%。当允许更多步骤来完成任务时,Claude 的得分为 22.0%。
尽管我们预计这一功能将在未来几个月内快速改进,但目前 Claude 使用电脑的能力还不够完美。人类轻松完成的一些操作——如滚动、拖动、缩放——目前对 Claude 来说仍是挑战。我们建议开发者从低风险任务开始探索。由于电脑使用功能可能为垃圾信息、错误信息或欺诈等熟悉的威胁提供新的途径,我们采取了主动措施来促进其安全部署。我们开发了新的分类器,可以识别何时使用电脑使用功能以及是否发生了危害。您可以在我们的文章中了解更多有关这项新技能的研究过程,以及相关的安全措施讨论:开发电脑使用功能。
展望未来从这一技术的初步部署中汲取经验,将帮助我们更好地理解越来越强大的 AI 系统的潜力和影响。我们热切期待您探索我们的新模型和电脑使用功能的公开测试版,并欢迎您向我们反馈。我们相信这些进展将为您与 Claude 合作开辟新的可能性,期待看到您将创造出什么。