推出全新的电脑使用功能、Claude3.5Sonnet和Claude3.5Haiku

今天，我们很高兴宣布推出升级版的 Claude 3.5 Sonnet，以及一款全新的模型——Claude 3.5 Haiku。升级后的 Claude 3.5 Sonnet 在各方面都有显著提升，尤其在编程领域，表现尤为突出——这是它一直处于领先地位的领域。Claude 3.5 Haiku 在许多评估中表现与我们之前最大的模型 Claude 3 Opus 相当，但成本相同且速度与上一代 Haiku 类似。

与此同时，我们还推出了一项革命性的全新功能，现处于公开测试阶段：电脑使用。开发者可以通过API 从今天开始使用该功能，Claude 可以像人类一样操作电脑——查看屏幕、移动光标、点击按钮并输入文字。Claude 3.5 Sonnet 是首个在公开测试中提供此功能的前沿 AI 模型。虽然目前该功能仍然处于实验阶段，有时操作繁琐且容易出错，但我们希望通过开发者的反馈，快速提升这一能力。

Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 已经开始探索这一可能性，执行一些需要几十步甚至上百步才能完成的任务。例如，Replit 正使用 Claude 3.5 Sonnet 的电脑使用功能和 UI 导航，开发一个评估应用程序的关键功能，用于他们的 Replit Agent 产品。升级版的 Claude 3.5 Sonnet 现已向所有用户开放。从今天起，开发者可以通过 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI，使用电脑使用的测试版。全新的 Claude 3.5 Haiku 将在本月晚些时候发布。

Claude 3.5 Sonnet：领先行业的软件工程能力

升级后的 Claude 3.5 Sonnet 在业界基准测试中表现显著提升，尤其是在自主编程和工具使用任务上表现尤为突出。在编程方面，它在 SWE-bench Verified 的表现从 33.4% 提升到了 49.0%，超越了所有公开可用的模型，包括像 OpenAI o1-preview 这样的推理模型以及为自主编程设计的专门系统。它还提升了在 TAU-bench 上的表现，在零售领域的自主工具使用任务从 62.6% 提升到 69.2%，在更具挑战的航空领域则从 36.0% 提升到 46.0%。新款 Claude 3.5 Sonnet 在保持与前代相同价格和速度的基础上，带来了这些进步。

早期客户反馈表明，升级后的 Claude 3.5 Sonnet 在 AI 驱动的编程方面实现了显著飞跃。GitLab 在 DevSecOps 任务中测试了该模型，发现其推理能力提高了 10%（覆盖多个使用场景），且没有增加延迟，使其成为多步骤软件开发流程的理想选择。Cognition 使用新版 Claude 3.5 Sonnet 进行自主 AI 评估，发现其在编程、规划和问题解决方面比上一版本有了显著提升。The Browser Company 在使用该模型自动化基于网页的工作流程时，指出 Claude 3.5 Sonnet 超越了他们之前测试过的所有模型。作为我们与外部专家继续合作的一部分，美国 AI 安全研究所（US AISI）和英国安全研究所（UK AISI）对新版 Claude 3.5 Sonnet 模型进行了联合部署前测试。我们还对升级版的 Claude 3.5 Sonnet 进行了灾难性风险评估，结果表明我们在责任扩展政策中概述的 ASL-2 标准仍然适用于该模型。

Claude 3.5 Haiku：性能与速度的完美结合

Claude 3.5 Haiku 是我们最快模型的下一代产品。与 Claude 3 Haiku 在成本和速度相同的情况下，Claude 3.5 Haiku 在各项技能上都有提升，并在许多智能基准测试中超越了我们上一代的最大模型 Claude 3 Opus。Claude 3.5 Haiku 在编程任务上表现尤为出色。例如，它在 SWE-bench Verified 上得分为 40.6%，超过了许多使用公开最先进模型的代理，包括最初的 Claude 3.5 Sonnet 和 GPT-4o。凭借低延迟、改进的指令跟随能力和更精确的工具使用，Claude 3.5 Haiku 非常适合面向用户的产品、专门的子代理任务以及从大量数据（如购买历史、定价或库存记录）中生成个性化体验。Claude 3.5 Haiku 将于本月晚些时候通过我们的第一方 API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 发布——最初为仅文本模型，随后将支持图像输入。

教 Claude 如何负责任地操作电脑

通过电脑使用功能，我们在尝试一些根本性的创新。我们并不是为 Claude 开发特定的工具来完成单个任务，而是教它通用的电脑技能——让它能够使用为人类设计的各种标准工具和软件程序。开发者可以利用这一新兴功能来自动化重复流程、构建和测试软件，以及进行开放式任务研究。

为了实现这些通用技能，我们构建了一个 API，使 Claude 能够感知并与计算机界面互动。开发者可以集成此 API，使 Claude 能够将指令（如“使用我电脑上的数据和在线信息填写此表格”）转化为计算机命令（如检查电子表格、移动光标打开浏览器、导航到相关网页、使用这些网页上的数据填写表格，等等）。在 OSWorld 上，该平台评估 AI 模型使用电脑的能力，Claude 3.5 Sonnet 在仅使用截图类别中的得分为 14.9%，显著优于下一个最佳 AI 系统的 7.8%。当允许更多步骤来完成任务时，Claude 的得分为 22.0%。

尽管我们预计这一功能将在未来几个月内快速改进，但目前 Claude 使用电脑的能力还不够完美。人类轻松完成的一些操作——如滚动、拖动、缩放——目前对 Claude 来说仍是挑战。我们建议开发者从低风险任务开始探索。由于电脑使用功能可能为垃圾信息、错误信息或欺诈等熟悉的威胁提供新的途径，我们采取了主动措施来促进其安全部署。我们开发了新的分类器，可以识别何时使用电脑使用功能以及是否发生了危害。您可以在我们的文章中了解更多有关这项新技能的研究过程，以及相关的安全措施讨论：开发电脑使用功能。

展望未来

从这一技术的初步部署中汲取经验，将帮助我们更好地理解越来越强大的 AI 系统的潜力和影响。我们热切期待您探索我们的新模型和电脑使用功能的公开测试版，并欢迎您向我们反馈。我们相信这些进展将为您与 Claude 合作开辟新的可能性，期待看到您将创造出什么。

玩酷网

推出全新的电脑使用功能、Claude3.5Sonnet和Claude3.5Haiku

进击的代码